Informatique et Science du Vivant Cours 2 Classification des espèces et phylogénie Le terme classification Structure – Mathématique : Classification = Structure classificatoire. Processus, algorithme – Informatique : Classification = Algorithme ayant pour résultat une structure classificatoire, ou utilisant une structure classificatoire. Licence d’informatique 2002-2003 Régine Vignes Lebbe Laboratoire Informatique et Systématique Structure classificatoire Définition Ensemble recouvrant de sous-ensembles non vides, les classes. Soit I, l'ensemble des individus à classifier. Biologie Classification est utilisée à la fois pour les méthodes et le résultat de cet arrangement des taxons Types de structure classificatoire I = {a, b,c,d,e,f,g} Partition p ∀ c, c' ∈ p, c ∩ c' = ∅. Soit C = P(I), l'ensemble des classes de I. Un ensemble s ⊂ C est une structure classificatoire ssi : ∪ {c ∈ s} = I et ∅ ∉ s. Hiérarchie h I ∈ h, ∀ i ∈ I, {i} ∈ s, ∀ c, c' ∈ s, c ∩ c' ∈ {∅, c, c'} Types de structure classificatoire Recouvrement, Partition, Hiérarchie, Pyramide ... Algorithme de classification Principe – – – – Soit I, l'ensemble des items à classifier. Soit S, un type de structure classificatoire. Soit q : S → R, une mesure de qualité d’une structure classificatoire. Problème de classification : Trouver s ∈ S qui maximise q(s). Exemple – I = {1, 3, 4, 7, 9, 11} – S = P2, l’ensemble des partitions en deux, s = {c, c'} – q(s) = min(|i - i'|), ∀ i ∈ c, ∀ i' ∈ c' Solution – s = {{1, 3, 4}, {7, 9, 11}} – q(s) = min(|4 - 7|) = 3 Sens de « algorithme de classification » Algorithme de Classification (au sens strict) « Algorithme de classification » de l’Analyse des Données Construction d'une structure classificatoire d'un type donné : <I, S> → s ∈ S. Algorithme de Discrimination « Algorithme de classification » de l’Apprentissage Automatique Construction d'une méthode associant une classe à un item : <I, s ∈ S> → (i ∈ I → c ∈ s). Algorithme d’Identification « Algorithme de classification » de la Représentation des Connaissances à base d’objets Utilisation d'une méthode associant une classe à un item : <i ∈ I, s ∈ S> → c ∈ s. Classification du vivant « Délimitation, mise en ordre et coordination des taxons … » Mayr, 1969 Structure classificatoire • Arbre • Hiérarchie « Arrangements des êtres vivants en groupes selon des critères variables : typologiques, phénétiques ou phylogénétiques » Lecointre & Le Guyader, 2001 Quel type de structure classificatoire ? Quels critères optimisés ? Quelles méthodes ? Graphe • G = (S, A) S = sommets A = arêtes (A ⊆ S2 ) Arbre un graphe est un couple C A • Connexe • Sans cycle A A F B G E D G = ( {A,B,C,D,E,F,G}, {AB, BC, BD, CD, DE, EF, EG} Idées générales • Un arbre est un graphe Évolution Tous les êtres vivants descendent les uns des autres. A un temps donné, la relation « être inter-fécond » forme une partition dont les classes sont des espèces (Unité Évolutive) A chaque espèce correspond un ensemble d’espèces qui en descendent : un clade. Pour qu’un ensemble d’espèces forme un clade il faut qu’il contienne l’intégralité des descendants de la plus proche espèce ascendante commune L’ensemble des clades, les items, forme une hiérarchie sur les espèces terminales. B B C F D C D G F G Critères à optimiser • Dépend de ce que représente la classification et ce concept à évoluer fortement : – Classification utilitaire (classement) – Classification divine (fixiste) – Histoire évolutive, exprime relations de parenté : Phylogénie • Classification pré évolutionniste – classification évolutionniste – Darwin 1859 (Origine des espèces) Arbre phylogénétique Types de groupes clade Temps Monophylétique ou clade Méthodes de classification • Données : polyphylétique Méthode phénétique • Matrice taxons / caractères – Matrice taxons / caractères • Morphologiques, Moléculaires, Ethologiques etc. • Matrice de distance – Nombreux indices de distance • Construction de l’arbre • Méthodes : – agglomérative – Phénétique (Distances de ressemblance globale) • UPGMA (distance ultramétrique) • NJ (distance arborée ou additive) – Cladistique (Parcimonie) – par ajustement – Probabiliste (Maximum de vraisemblance) Phénétique : (1) matrice de distance • Méthode des moindres carrés Distance observée et distance évolutive • Quantifier la ressemblance globale entre organismes • Quel indice de distance ? K (a) – Séquences : distance d’alignement (nombre de nucléotides ou d’acides aminés différents) – Morphologique qualitatif : • Indice de Jaccard, • Indice de Sokal et Michener, • … paraphylétique npp / K – naa (npp + naa) / K – Quantitatif (mesures, fréquences alléliques …) : • Distance euclidienne • Distance de Nei, distance de Czekanowski, etc. • Matrice résultante : matrice carrée, symétrique, de valeurs diagonales nulles i (b) j (a) dij = 1 pij = 1 K (a) K (a) i (a) j (b) dij = 1 pij = 1 i (b) j (b) dij = 0 pij = 2 K (a) i (b) j (c) dij = 1 pij = 2 Phénétique : (2) construction d’arbre Ressemblance • Méthodes agglomératives ou C. A. H. – UPGMA (unweighted pair-group method of arithmetic averages) Matrice de distance Agrège les 2 taxons les plus proches Nouvelle matrice de distance contenant les taxons seuls et les groupes (lien moyen) Liens indice de distance - hiérarchie Exemple - UPGMA Hsa Hsa 0 Ggo 1,45 Ptr 1,46 Ptr 0 1,82 0 Age 10,12 10,70 10,29 10,45 11,73 0 7,10 0 Mmu Age 2,96 7,41 3,32 Ppy Ppy Mmu 6,94 3,37 Ggo 7,23 Recommence jusqu’à obtenir arbre complet 0 • Une dissimilarité est une fonction δ : I2 → R, telle que : ∀ i, i' ∈ I, δ(i, i’) ≥ 0 : positivité. ∀ i, i' ∈ I, δ(i, i’) = δ(i’, i) : symétrie. ∀ i, i' ∈ I, δ(i, i’) = 0 ⇔ i = i’ : écart à l’identité • Une distance est une dissimilarité telle que : ∀ i, i', i’’ ∈ I , δ(i, i’) ≤ δ(i, i’’) + δ(i’, i’’) : inégalité triangulaire • Une hiérarchie indicée définit une distance ultramétrique et réciproquement ∀ i, i’, i’’ ∈ I, δ(i, i’) ≤ max(δ(i, i’’), δ(i’, i’’)) • Hsa Ggo Ptr Ppy Mmu Age Phénétique : (2) construction d’arbre • Méthodes d’ajustement Recherche l’arbre non enraciné et à en estimer les longueurs des branches qui donnent le meilleur ajustement à la matrice des distances de départ (observée) Exemple : méthode des moindres carrés (minimise la somme des carrés des écarts entre matrice résultante et matrice initiale) Un arbre hiérarchique valué définit une distance arborée ∀ i, i’, i’’, i’’’ ∈ I δ(i, i’) + δ(i’’, i’’’) ≤ max(δ(i, i’’) + δ(i’, i’’’), δ(i, i’’’) + δ(i’, i’’)) Méthode cladistique • Elaborée par l’entomologiste Willy Hennig en 1966. • Les parentés entre les taxons doivent être évaluées sur la base des caractères apomorphes (dérivés) qu’ils partagent : synapomorphies. • Méthode de parcimonie : recherche l’arbre le plus court (le plus parcimonieux) en termes d’événements évolutifs et qui maximisent les homologies (ce qui est hérité d’une ascendance commune) et minimisent les homoplasies (convergence, réversion). Longueur d’un arbre abbaab ababba ababbb Nombre d’arbres aaaaaa 3:a◊b C 5: a ◊ b C 4: a ◊ b 2:a◊b 4 synapomorphies 15 arbres • N=10 34 459 425 arbres >8 • Algorithmes heuristiques Algorithme exact B A D B A D C A C B C (N < 30) – Addition pas à pas – Réarrangements de branches Technique du branch and bound B C C (N < 10) – Technique du branch and bound A C Méthode cladistique – Recherche exhaustive • Pour n taxons : (2n-3)!/(2n-2(n-2)!) arbres dichotomiques D B • Algorithmes exacts 1021 B A • Recherche de l’arbre minimal NP-complet ( non deterministic polynomial) 3 arbres • N=4 • N=20 A 3 arbres enracinés Nombre d’arbres enracinés • N=3 B aaaaaa Convergence A 1 arbre non enraciné 6: a ◊ b 6:a◊b Longueur = 6 pas B A • N=3 • Recherche exhaustive contrôlée en référence à un arbre donné dont on connaît le nombre de pas. On ne poursuit pas la construction des arbres dans un chemin ayant conduit à un nombre de pas supérieur à l’arbre de référence. Algorithme heuristique Addition pas à pas Puis amélioration de l’arbre par réarrangement de branches Arbre consensus A B B D C C D A B C A D A B B C C A D D Consensus majoritaire Recherche en classification Consensus strict Lectures proposées Barthélémy J-P & Guénoche, 1988. Les arbres et les représentations des proximités. Masson. • Algorithme • Codage de caractères • Représentation de connaissance • Reconstruction des ancêtres hypothétiques Lecointre G. & Le Guyader H., 2001. Classification phylogénétique du vivant. Belin. (partie méthodologique au début du livre) Darlu P. & Tassy P. 1993 . Reconstruction phylogénétique. Masson. Pankhurst R., 1998. A historical review of identification with computers. In Information Technology Plant Pathology and Biodiversity : 229-240. Lexique Classification: méthode permettant de regrouper les êtres vivants ou espèces en catégories de plus en plus larges: espèces, genres, familles, ordres, classes, phyla. Ces catégories sont aussi appelées taxons et le processus de définition de ces derniers, la taxonomie. Biodiversité: ensemble des espèces végétales et animales, de leur matériel génétique et des écosystèmes où elles vivent. La biodiversité ou diversité du vivant désigne les mille et une facettes de la vie sur terre. Systématique: science de la classification des êtres vivants. Phylogénie: Traduction sous la forme d'un arbre des relations entre les différentes espèces faisant apparaître leurs degrés de parenté, leurs ancêtres communs et retraçant ainsi l'histoire de la descendance des êtres vivants.