Licence d’informatique
2002-2003
Informatique et Science du Vivant
Cours 2
Classification des espèces et phylogénie
Régine Vignes Lebbe
Laboratoire Informatique et Systématique
Le terme classification
Structure
Mathématique : Classification = Structure classificatoire.
Processus, algorithme
Informatique : Classification = Algorithme ayant pour résultat une
structure classificatoire, ou utilisant une structure classificatoire.
Biologie
Classification est utilisée à la fois pour les méthodes
et le résultat de cet arrangement des taxons
Structure classificatoire
Définition
Ensemble recouvrant de sous-ensembles non vides, les classes.
Soit I, l'ensemble des individus à classifier.
Soit C = P(I), l'ensemble des classes de I.
Un ensemble s C est une structure classificatoire ssi :
{c s} = I et s.
Types de structure classificatoire
Recouvrement, Partition, Hiérarchie, Pyramide ...
Types de structure classificatoire
I = {a, b,c,d,e,f,g}
Partition
p
c, c' p, c c' = .
Hiérarchie
h
I
h
,
i
I
, {
i
}
s
,
c
,
c'
s
,
c
c'
{,
c
,
c'
}
Algorithme de classification
Principe
Soit I, l'ensemble des items à classifier.
Soit S, un type de structure classificatoire.
Soit q : S R, une mesure de qualité d’une structure classificatoire.
Problème de classification : Trouver s S qui maximise q(s).
Exemple
I = {1, 3, 4, 7, 9, 11}
S = P2, l’ensemble des partitions en deux, s = {c, c'}
q(s) = min(|i - i'|), i c, i' c'
Solution
s = {{1, 3, 4}, {7, 9, 11}}
q(s) = min(|4 - 7|) = 3
Sens de « algorithme de classification »
Algorithme de Classification (au sens strict)
« Algorithme de classification » de l’Analyse des Données
Construction d'une structure classificatoire d'un type donné :
<I, S> s S.
Algorithme de Discrimination
« Algorithme de classification » de l’Apprentissage Automatique
Construction d'une méthode associant une classe à un item :
<I, s S> (i I c s).
Algorithme d’Identification
« Algorithme de classification » de la Représentation des Connaissances à base
d’objets
Utilisation d'une méthode associant une classe à un item :
<i I, s S> c s.
Classification du vivant
« Délimitation, mise en ordre et coordination des taxons … »
Mayr, 1969
« Arrangements des êtres vivants en groupes selon des critères
variables : typologiques, phénétiques ou phylogénétiques »
Lecointre & Le Guyader, 2001
Quel type de structure classificatoire ?
Quels critères optimisés ?
Quelles méthodes ?
Structure classificatoire
• Hiérarchie • Arbre
Graphe
G = (S, A) un graphe est un couple
S = sommets
A = arêtes (A S2 )
E
G
B
A
C
F
D
G = ( {A,B,C,D,E,F,G}, {AB, BC, BD, CD, DE, EF, EG}
Arbre
Un arbre est un graphe
Connexe
Sans cycle
G
B
A
F
D
C
G
B
A
F
D
C
Évolution
Idées générales
Tous les êtres vivants descendent les uns des autres.
A un temps donné, la relation « être inter-fécond » forme une partition
dont les classes sont des espèces (Unité Évolutive)
A chaque espèce correspond un ensemble d’espèces qui en descendent :
un clade.
Pour qu’un ensemble d’espèces forme un clade il faut qu’il contienne
l’intégralité des descendants de la plus proche espèce ascendante
commune
L’ensemble des clades, les items, forme une hiérarchie sur les espèces
terminales.
Critères à optimiser
Dépend de ce que représente la classification et ce
concept à évoluer fortement :
Classification utilitaire (classement)
Classification divine (fixiste)
Histoire évolutive, exprime relations de parenté : Phylogénie
Classification pré évolutionniste – classification
évolutionniste
Darwin 1859 (Origine des espèces)
Arbre phylogénétique
clade
Temps
Types de groupes
Monophylétique
ou clade paraphylétique
polyphylétique
Méthodes de classification
Données :
Matrice taxons / caractères
Morphologiques, Moléculaires, Ethologiques etc.
Méthodes :
Phénétique (Distances de ressemblance globale)
Cladistique (Parcimonie)
Probabiliste (Maximum de vraisemblance)
Méthode phénétique
Matrice taxons / caractères
Matrice de distance
Nombreux indices de distance
Construction de l’arbre
agglomérative
UPGMA (distance ultramétrique)
NJ (distance arborée ou additive)
par ajustement
Méthode des moindres carrés
Phénétique : (1) matrice de distance
Quantifier la ressemblance globale entre organismes
Quel indice de distance ?
Séquences : distance d’alignement (nombre de nucléotides ou d’acides
aminés différents)
Morphologique qualitatif :
Indice de Jaccard, npp / K – naa
Indice de Sokal et Michener, (npp + naa) / K
Quantitatif (mesures, fréquences alléliques …) :
Distance euclidienne
Distance de Nei, distance de Czekanowski, etc.
Matrice résultante : matrice carrée, symétrique, de valeurs
diagonales nulles
Distance observée et distance évolutive
K (a)
i (b) j (a)
dij = 1
pij = 1
K (a)
i (a) j (b)
dij = 1
pij = 1
K (a)
i (b) j (b)
dij = 0
pij = 2
K (a)
i (b) j (c)
dij = 1
pij = 2
Ressemblance
Phénétique : (2) construction d’arbre
Méthodes agglomératives ou C. A. H.
UPGMA (unweighted pair-group method of arithmetic
averages)
Matrice de distance
Agrège les 2 taxons les plus proches
Nouvelle matrice de distance
contenant les taxons seuls et les groupes
(lien moyen)
Recommence jusqu’à
obtenir arbre complet
Exemple - UPGMA
07,237,107,416,94Mmu
11,73
Mmu
010,4510,2910,7010,12Age
03,323,372,96Ppy
01,821,45Ggo
01,46Ptr
0Hsa
AgePpyGgoPtrHsa
Hsa Ggo Ptr Ppy Mmu Age
Liens indice de distance - hiérarchie
Une dissimilarité est une fonction δ : I2 R, telle que :
i, i' I, δ(i, i’) 0 : positivité.
i, i' I, δ(i, i’) = δ(i’, i) : symétrie.
i, i' I, δ(i, i’) = 0 i = i’ : écart à l’identité
Une distance est une dissimilarité telle que :
i, i', i’’ I , δ(i, i’) δ(i, i’’) + δ(i’, i’’) : inégalité triangulaire
Une hiérarchie indicée définit une distance ultramétrique et
réciproquement
i, i’, i’’ I, δ(i, i’) max(δ(i, i’’), δ(i’, i’’))
Un arbre hiérarchique valué définit une distance arborée
i, i’, i’’, i’’’ I
δ(i, i’) + δ(i’’, i’’’) max(δ(i, i’’) + δ(i’, i’’’), δ(i, i’’’) + δ(i’, i’’))
Phénétique : (2) construction d’arbre
Méthodes d’ajustement
Recherche l’arbre non enraciné et à en estimer les longueurs des
branches qui donnent le meilleur ajustement à la matrice des distances
de départ (observée)
Exemple : méthode des moindres carrés (minimise la somme des
carrés des écarts entre matrice résultante et matrice initiale)
Méthode cladistique
Elaborée par l’entomologiste Willy Hennig en 1966.
Les parentés entre les taxons doivent être évaluées sur la base
des caractères apomorphes (dérivés) qu’ils partagent :
synapomorphies.
Méthode de parcimonie : recherche l’arbre le plus court (le
plus parcimonieux) en termes d’événements évolutifs et qui
maximisent les homologies (ce qui est hérité d’une ascendance
commune) et minimisent les homoplasies (convergence,
réversion).
Longueur d’un arbre
2 : a b
6 : a b
3 : a b
5: a b
4: a b
6: a b
aaaaaa
abbaab ababba aaaaaaababbb
Longueur = 6 pas
4 synapomorphies
Convergence
Nombre d’arbres
N = 3 B
A
C
BC A CA BBA C
1 arbre non enraciné
3 arbres enracinés
Nombre d’arbres enracinés
N=3 3 arbres
N=4 15 arbres
N=10 34 459 425 arbres
N=20 > 8 1021
Pour n taxons : (2n-3)!/(2n-2(n-2)!) arbres dichotomiques
Méthode cladistique
Recherche de l’arbre minimal NP-complet ( non
deterministic polynomial)
Algorithmes exacts
Recherche exhaustive (N < 10)
Technique du branch and bound (N < 30)
Algorithmes heuristiques
Addition pas à pas
Réarrangements de branches
Algorithme exact
B
A
C
B
A
C
B
A
C
B
A
C
D
D
D
Technique du branch and bound
Recherche exhaustive contrôlée en
référence à un arbre donné dont on connaît
le nombre de pas. On ne poursuit pas la
construction des arbres dans un chemin
ayant conduit à un nombre de pas supérieur
à l’arbre de référence.
1 / 6 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !