Ensimag 2ème année Rapport TER D'où vient la bactérie Helicobacter pylori? inférence en génétique des populations Gaëlle Letort 18 mai 2010 1 Table des matières 1 Quelques dénitions génétiques utiles 2 Présentation des données 2.1 La bactérie Helicobacter pylori 2.2 . . 2.1.1 présentation de la bactérie 2.1.2 Epidémiologie . . . . . . . 2.1.3 Choix de cette bactérie . . Les données . . . . . . . . . . . . . . . . . . . . . . 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 4 4 4 5 5 3 La migration humaine 6 4 Les méthodes et outils utilisés 4.1 Le logiciel Structure . . . . . . 7 4.2 4.3 4.4 4.5 . . . . . . . . . . . . Etude des populations ancestrales . . . . . . . . . . 4.2.1 Choix du nombre de populations ancestrales Classement des populations ancestrales . . . . . . . Répartition géographique . . . . . . . . . . . . . . . La diversité génétique . . . . . . . . . . . . . . . . . 4.5.1 Dénition et calcul de la diversité génétique 4.5.2 Décroissance de la diversité génétique . . . . 4.5.3 Distance géographique . . . . . . . . . . . . 4.5.4 Régression linéaire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7 . 8 . 8 . 9 . 9 . 9 . 9 . 9 . 12 . 13 Etude des populations ancestrales . . . . . . . . . . . . . . 5.1.1 Choix du nombre de populations ancestrales . . . . 5.1.2 Classement des populations ancestrales . . . . . . . Répartition géographique . . . . . . . . . . . . . . . . . . . Classement des échantillons en population . . . . . . . . . Diversité génétique et distance géographique . . . . . . . . 5.4.1 Résultats avec l'Afrique de l'Est en point de départ 5.4.2 Résultats en prenant un autre point de départ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Résultats : comparaison H. pylori-Humain 5.1 5.2 5.3 5.4 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 14 14 16 18 18 20 20 21 6 Interpretation 23 7 Conclusion 25 6.1 6.2 6.3 Repartition geographique . . . . . . . . . . . . . . . . . . . . . . . . . 23 Classement des échantillons en population . . . . . . . . . . . . . . . 24 Diversité génétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 2 Introduction Mon TER s'est déroulé dans l'équipe TIM-B du laboratoire TIMC, encadré par Mr. Olivier Francois. Ayant déjà eu une première expérience concernant le monde de la recherche avec mon stage de première année, ce TER a surtout été pour moi l'occasion de découvrir comment mener un travail de recherche. Le but de ce TER est de reproduire l'étude eectuée par Bodo Linz et al., et décrite dans l'article An african origin for the intimate association between humans and Helicobacter pylori publié dans la revue Nature en 2007 [3]. Dans cette étude, les auteurs montrent que la bactérie Helicobacter pylori semble s'être répandue à partir de l'Afrique de l'Est il y a 58000 ans, comme l'être humain qu'elle aecte. Ils utilisent pour cela des données à l'échelle mondiale de cette bactérie, et montrent la ressemblance de sa structure génétique avec celle des humains. Cela montrerait alors que les êtres humains étaient déjà infectés par la bactérie avant leur migration. Pour réproduire l'étude, je dispose du même jeu de données que les auteurs de cet article. Après avoir déni les termes importants et détaillé les méthodes importantes, nous observerons les résultats puis nous les interpréterons. 1 Quelques dénitions génétiques utiles Tout d'abord, nous allons dénir les principaux termes et concepts de génétique qui seront utilisés dans la suite. Toute cette étude repose sur l'étude de l'ADN de la bactérie. L'ADN est le support de l'information génétique. C'est une molécule qui est présente dans toutes les cellules vivantes, et qui contient l'ensemble des informations nécéssaires au développement et au fonctionnement de l'organisme. Il est formé d'une suite de nucléotides, qui sont les molécules de base de l'ADN. Il existe 4 nucléotides diérents : l'adénine A, la guanine G, la cytosine C et la thymine T. Un gène est un segment de l'ADN, situé à un endroit bien précis (locus) de celuici. Il est donc composé d'un enchainement de nucléotides. Un gène peut prendre diérentes formes : sa séquence nucléotidique peut varier. On appelle allèle une de ces diérentes formes. Par exemple, si on considère le gène déterminant le groupe sanguin, on a 3 allèles : l'allèle A (qui entraîne la présence de la substance A), l'allèle B et l'allèle O. L'ensemble des gènes d'un individu forme son génotype. On désigne par structure génétique la description des fréquences alléliques et des diérents génotypes à un locus considéré. On étudie ici la répartition ancestrale des individus : cela consiste à mesurer, pour un individu donné, la présence de chaque population ancestrale dans son génotype. Cela montre de quelles populations l'échantillon étudié descend. 3 2 Présentation des données Toute l'étude se basant sur la bactérie Helicobacter pylori, nous allons commencer par la présenter. 2.1 La bactérie Helicobacter pylori 2.1.1 présentation de la bactérie Helicobacter pylori, découverte en 1982 par John Robin Warren et Barry Marshall (prix nobel 2005 pour cette découverte), se loge exclusivement dans l'estomac humain. C'est une des rares bactéries à pouvoir survivre dans un environnement aussi acide (pour se protèger, elle secrète une ensyme : l'uréase). Elle se xe à la paroi de l'estomac où elle prolifère, et provoque une inammation (gastrique chronique) qui peut conduire à un ulcère de l'estomac ou à un cancer gastrique [1]. Figure 1 Helicobacter pylori On observe ici plusieurs bactéries Helicobacter pylori. Cette bactérie est spiralée et est mobile grâce à 2 à 6 agelles. Elle mesure 0.3µm sur 4µm. 2.1.2 Epidémiologie Environ 50% des êtres humains portent cette bactérie, mais seulement 20% environ des individus porteurs de la bactérie en subissent les symptômes. L'infection se fait presque toujours dès l'enfance (mais les symptômes éventuels ne se déclarent généralement pas avant 50 ans), et est transmise d'humain à humain par voie orale principalement. C'est l'infection bactérienne humaine la plus répandue après la carie dentaire. Elle est en particulier répandue dans le monde entier, bien que de manière 4 inégale : l'infection est plus fréquente dans les pays en voie de développement (environ 80%) que dans les pays industrialisés (environ 25%). Dans la suite, pour simplier on notera cette bactérie H. pylori. 2.1.3 Choix de cette bactérie L'interêt de travailler sur cette bactérie en particulier est que, comme nous venons de le voir, la bactérie est très présente, et ce dans le monde entier, ce qui permet d'avoir des échantillons de toutes origines géographiques. De plus, sa diversité dans la séquence génétique est supérieure à celle des autres bactéries en général (et environ 50 fois plus riche que celle des humains). Cela permet donc d'avoir des données plus diversiées, et donc de pouvoir distinguer des populations distinctes même après des siècles de coexistence entre ces populations [2]. En eet, la séquence génétique étant très riche, malgré le mixage des populations, une partie du patrimoine génétique de chaque population sera conservée. 2.2 Les données On dispose des données génétiques à des locus donnés sur 532 échantillons (bactérie H. pylori), provenant de 32 pays des diérents continents. Plus précisemment, on dispose des séquences des nucléotides présentes aux locus que l'on considère pour chaque individu, et des informations géographiques des provenances des échantillons. Ces données sont sous la forme d'un tableau, dont les lignes sont les diérents échantillons, et les colonnes sont respectivement : le nom de l'échantillon, un numéro correspondant au pays du prélèvement, les coordonnées géographiques de ce pays (latitude, longitude), puis les données brutes de la séquence de nucléotide : on aura un 1 pour le nucléotide A, 2 pour G, 3 pour C et 4 pour T. On peut notamment voir la répartition géographique des échantillons considérés sur la gure 6. 5 3 La migration humaine Si H. pylori a eectivement aecté l'être humain depuis le début de sa migration depuis l'Afrique de l'Est, sa structure génétique aura donc des traces de cette migration (cf section sur la diversité génétique). Le déroulement exact de la migration humaine n'est pas totalement déterminé de nos jours. L'apparition de l'espèce humaine se serait faite en Afrique de l'Est il y a de cela 150Ka à 200Ka (1Ka = 1000 ans). La migration humaine en Afrique aurait commencé il y a environ 150Ka. L'homme aurait atteint le Moyen Orient il y a environ 100Ka, et l'Inde il y a 70 Ka. L'Asie aurait été colonisée il y a 60Ka [6] et l'Europe il y a 45Ka (gure 2). L'homme aurait ensuite traversé le détroit de Béring et donc colonisé l'Amérique il y a environ 20Ka, puis s'est répandu dans tout le continent américain au fur et à mesure. Figure 2 Migration Humaine Etapes principales de la migration humaine d'après [6]. L'homme serait partit de l'Afrique de l'Est il y a 100 000 ans. L'Asie aurait été atteinte il y a 60000 ans et l'Europe il y a 45000 ans. Il y a plusieurs théories quant à la colonisation de l'Europe. Certains présentent cette migration comme sur la gure 2, c'est à dire que la population migrante du Moyen Orient se sépare en deux directions diérentes : une partie de la population migre vers l'Europe et une autre partie vers l'Asie. D'autres supposent que une partie de la population partie vers l'Asie s'est ensuite dirigée vers l'Europe aussi, et donc que la population européenne proviendrait du mélange entre les deux populations migrantes : celle venant directement de l'Afrique et celle qui est passée plus à l'Est vers l'Asie (gure 3). Une autre hypothèse s'oppose néanmoins à l'origine unique de l'espèce humaine depuis l'Afrique de l'Est, la théorie d'une origine multi-régionale de l'homme. 6 Figure 3 migration humaine supposée La population Européenne proviendrait du mélange de 2 populations migrantes : une qui viendrait directement de l'Afrique de l'Est, et une qui proviendrait de la population migrante de l'Asie. 4 Les méthodes et outils utilisés 4.1 Le logiciel Structure Ce logiciel permet d'obtenir à partir de la donnée des séquences des nucléotides de plusieurs échantillons leur répartition ancestrale. Le nombre de populations ancestrales est donné en paramètre, puis le logiciel calcule (grâce à une méthode de Monte-Carlo) le génotype de chacune de ces populations ancestrales, puis leur proportion dans les échantillons donnés. Le logiciel nous donne aussi la probabilité des données sous le modèle statistique considéré ln(P (X|K)), K étant le modèle statistique considéré, et X les données. Structure génère un graphique qui représente la répartition des populations ancestrales dans les échantillons considérés. Une population ancestrale est représentée d'une couleur unique. Un individu est représenté par un trait vertical. Ce trait sera d'une ou plusieurs couleurs, selon le nombre de populations ancestrales présentes. La longueur d'une couleur dans le trait représente la proportion d'allèles en provenance de la population ancestrale correspondante. Ainsi, un échantillon représenté par un trait vertical de couleur unie, a hérité d'une seule population ancestrale qui est celle correspondant à la couleur. Un échantillon représenté par un trait de 2 couleurs de même longueur, vient de 2 populations ancestrales, et a hérité également de ces 2 populations. Un exemple d'une sortie générée par Structure est donné et expliqué sur la gure 4. 7 Figure 4 Exemple : simulation pour 2 populations ancestrales Si on utilise Structure en supposant que les individus considérés ne descendent que de 2 populations diérentes, on obtient un graphique similaire à celui-ci. La couleur rouge représente une population ancestrale, et la verte la deuxième population. Si on observe un trait vertical, donc un individu, on peut mesurer quelles proportions d'allèles de chaque population il a hérité. Par exemple, l'individu 202 (le deuxième de la partie agrandie) provient entièrement de la population ancestrale rouge (le trait de cet individu est entièrement rouge). De même l'individu 250 (le dernier de la partie agrandie) provient d'un mélange des deux populations : environ 55% de ces allèles proviennent de la population ancestrale de couleur rouge, et 45% de la population ancestrale verte. 4.2 Etude des populations ancestrales 4.2.1 Choix du nombre de populations ancestrales Pour connaître la répartition ancestrale des échantillons, on utilise donc le logiciel Structure. Il faut alors décider du nombre de populations ancestrales le plus adéquat. Pour cela, on lance 20 simulations pour chaque valeur de k, le nombre de clusters (soit de populations ancestrales supposées) pour k allant de 2 à 9. On prend ensuite la moyenne des résultats obtenus pour chaque k. En comparant alors ces moyennes, on peut décider du nombre de populations ancestrales adéquats kopt . On fait alors 100 simulations avec ce nombre de populations ancestrales, puis on choisit celle de vraisemblance maximale pour la suite de l'étude. 8 4.3 Classement des populations ancestrales Pour une population ancestrale calculée par Structure, on calcule avec une méthode d'interpolation spatiale (le Krigeage) la répartition géographique de cette population ancestrale. On représente sur une carte mondiale la présence estimée de chaque population ancestrale. Cela nous permet de constater si une population ancestrale donnée est présente sur un endroit donné, ou si elle est également présente partout. 4.4 Répartition géographique On étudie la répartition des populations de H. pylori selon leur répartition géographique pour la comparer avec celle des humains. Pour ce faire, on regarde pour chaque échantillon quelle est sa population ancestrale dominante. Cette information est donnée dans les résultats de Structure qui donne pour chaque échantillon la proportion génétique de chaque population ancestrale. On répartit ainsi tous les échantillons en kopt clusters diérents auxquels on attribue des couleurs diérentes. On ache ensuite ce résultat sur une carte où chaque échantillon est placé à l'endroit où a été fait le prélèvement. 4.5 La diversité génétique 4.5.1 Dénition et calcul de la diversité génétique La diversité génétique correspond au nombre de caractéristiques génétiques différentes dans le génôme d'une espèce. Une espèce qui a une diversité génétique importante a donc plus d'allèles possibles à un locus donné. Pour la mesurer, on considère les fréquences alléliques à un locus considéré : si la diversité génétique est importante, il doit y avoir beaucoup d'hétérozygotes. Les chances d'avoir 2 allèles distincts à un locus donné sont fortes. On utilise donc la formule suivante pour calculer la diversité génétique : k X n ∗ (1 − p2i ) Hs = n−1 i=1 avec n le nombre d'H. pyloris dans l'échantillon géographique considéré, k le nombre d'allèles, et pi la fréquence du i-ème allèle. 4.5.2 Décroissance de la diversité génétique L'intéret d'étudier la diversité génétique est que si une espèce provient d'une source unique, sa diversité génétique doit décroître en fonction de l'éloignement à 9 cette origine. En eet, à chaque migration, seule une partie de la population initiale se déplace dans un nouvel endroit. Seuls les allèles de cette partie de la population seront donc transmis à la nouvelle population. Si un allèle de la population initiale n'est pas présent dans les allèles de la population migrante, cet allèle n'apparaîtra donc pas dans la nouvelle population. Ainsi au fur et à mesure, des allèles disparaissent, et donc la diversité génétique décroit (cf gure 5). La gure 5 illustrant ce concept est évidemment fort simpliée. En eet, les ux de migration ne sont pas vraiment fait dans une seule direction, et il peut y avoir des mutations et donc l'apparition de nouveaux allèles. Mais ces évenements ne modient que peu la diversité génétique totale. Les humains ayant migré depuis l'Afrique de l'Est, leur diversité génétique décroit donc plus on s'éloigne de ce point de départ. Si H. pylori a aecté l'être humain depuis le début de la migration, elle a donc du connaître la même atténuation de sa diversité génétique. Pour l'étude de la diversité génétique, on a donc aussi besoin de calculer la distance géographique des échantillons considérés à l'origine supposée. 10 Figure 5 Diminution de la diversité génétique Un rectangle représente une zone géographique donnée. On considère un gène précis sur 9 individus de la population présente. Ce gène peut avoir plusieurs formes, des allèles, qui sont représentées par des schémas diérents ici. Lorsqu'une partie de cette population émigre, seuls les allèles des individus émigrants seront transmis. Ainsi des allèles sont perdus au fur et à mesure des migrations. Par exemple, après la première migration, l'allèle représenté par un triangle violet a disparu car aucun individu porteur de cet allèle n'a émigré. Ceci illustre pourquoi la diversité génétique décroit lorsqu'on s'éloigne de l'origine de la migration. 11 4.5.3 Distance géographique La distance géographique que l'on calcule doit prendre en compte les principales routes de migration empruntées par les humains. Ce calcul est fait selon le principe donné dans l'article [4]. On considère 5 points de passage forcé : Anadyr, Russie (64N, 177E) : passage par le détroit de Béring pour le continent Américain. Le Caire, Egypte (30N, 31E) : passage entre le continent Eurasien et le continent Africain. Istanbul, Turquie (41N, 28E) : passage entre l'Europe et le Proche-Orient. Phnom Penh, Cambodge (11N, 104E) : passage entre l'Asie et l'Océanie. Prince Rupert, Canada (54N, 130W) : passage de l'Alaska vers l'Amérique du Sud. Ces points de passage sont indiqués sur la gure 6. Figure 6 Points de passage et échantillons On peut ici observer la répartition géographique des échantillons considérés dans cette étude (rond bleu). Les triangles rouges représentent les points de passage par lesquels les hommes ont dû passer lors de migrations. Ces points de passage sont pris en compte dans le calcul de la distance géographique entre les coordonnées d'un échantillon et un lieu donné. On calcule donc la distance géographique comme étant la distance entre le point de départ et un point de passage, plus celle entre le point de passage et le point d'arrivée lorsque cela est nécéssaire, plus parfois entre deux points de passage. Pour 12 calculer chaque distance on utilise la fonction geod.dist() de R, qui calcule la distance géodésique en tenant compte de la courbure de la Terre. 4.5.4 Régression linéaire Pour décider si la diversité génétique décroit eectivement ou non en fonction de la distance à un point donné, on utilise une régression linéaire, dont le principe est rappelé en annexe. Pour une régression linéaire, on obtient avec les résultats la p-valeur du test : c'est une indication sur la validité de nos résultats. Plus précisemment, en concluant qu'il y a bien une dépendance linéaire entre la diversité génétique et la distance géographique, on a une probabilité de p-valeur de se tromper. Donc plus la p-valeur est petite, plus la probabilité d'avoir une dépendance linéaire est forte. 13 5 Résultats : comparaison H. pylori-Humain On cherche à savoir si l'évolution génétique de la bactérie mime celle des humains. En eet, si la bactérie a aecté l'être humain depuis longtemps, ces propriétés génétiques doivent être semblables à celle des humains. On cherche à classer les échantillons en plusieurs populations diérentes an de pouvoir les comparer aux populations humaines. On étudie tout d'abord les populations ancestrales des échantillons. 5.1 Etude des populations ancestrales 5.1.1 Choix du nombre de populations ancestrales On cherche à dénir le nombre de populations ancestrales optimal kopt pour nos données. On procède comme dans la méthode décrite dans la section 4.2.1. On obtient des moyennes croissantes pour k croissant jusqu'à k = 5(gure 7). La moyenne maximale est donc atteinte pour k = 5. Figure 7 Probabilité des données selon le nombre de clusters Ce graphe représente la probabilité des données obtenue pour un nombre de populations ancestrales supposé K variant de 2 à 9. Cette probabilité est la moyenne des probabilités obtenues sur 20 simulations. On constate que la probabilité des données est maximale en k = 5. Mais si on observe plus attentivement les simulations, on remarque qu'il y a plusieurs simulations très peu vraisemblables pour k ≥ 6, qui contribuent à diminuer 14 la moyenne. La gure 8 montre ce que l'on obtient si on enlève les simulations trop mauvaises. Figure 8 Probabilité des données selon le nombre de clusters - en enlevant les simulations de probabilités trop faibles Ce graphe reprend le graphe précédent (gure 7), mais les résultats trop mauvais ont été supprimés. On note que dans ce cas les moyennes pour un nombre de cluster k ≥ 6 sont bien meilleures que précédemment. En particulier, la moyenne pour k = 5 n'est plus autant détachée des autres moyennes (ni même maximale). Néanmoins ces moyennes sont relativement proches entre elles à partir de k = 5. Les résultats sont alors un peu modiés : la moyenne de vraissemblance maximale n'est plus atteinte en k = 5, mais les moyennes sont proches les unes des autres pour k ≥ 5. Donc il ne semble pas être un mauvais choix de prendre quand même k = 5. Il est donc plus simple de ne considérer qu'un nombre réduit de populations, étant donné que les résultats moyens sont pratiquement équivalents. De plus, pour k ≥ 6 Structure renvoie en général des résultats où une ou plusieurs populations ancestrales sont très peu présentes dans les données, donc inutiles. Dans la suite, on prendra donc k = 5 (comme dans l'article) pour le nombre de populations ancestrales. 15 5.1.2 Classement des populations ancestrales La simulation de Structure de vraisemblance maximale parmi les 100 eectuées (cf. section 4.2.1) génère un graphique sur lequel 5 populations ancestrales sont eectivement présentes (gure 9). On remarque notamment qu'une population ancestrale (représentée en violet) est très peu présente dans les échantillons. Figure 9 Repartition des gènes ancestraux On voit ici la proportion des gènes ancestraux dans chacun des échantillons donnés : un trait vertical représente un échantillon, et une couleur représente une population ancestrale. Ainsi, la proportion d'une population ancestrale dans un échantillon est donnée par la longueur du segment coloré (de couleur correspondante à la population). On remarque qu'il y a plusieurs types de population : celles qui sont très proche de leur population ancestrale, celles qui ont une population ancestrale dominante à laquelle s'ajoute une autre population ancestrale et celles qui sont un mélange de deux populations ancestrales. On peut notamment noter qu'une population ancestrale(hpAfriqueSud) est présente dans très peu d'échantillons, et est la composante principale (voire la seule) de ces échantillons. On considèrera donc dans toute la suite 5 populations ancestrales, que l'on nommera : hpAsieEst : représentée en rouge. hpAsieOuest : représentée en vert. hpAfriqueEst : représentée en bleu. hpAfriqueOuest : représentée en jaune. hpAfriqueSud : représentée en violet. Pour chaque population ancestrale, on observe sa représentation à l'échelle mondiale (cf section 4.3). On remarque que chaque population ancestrale est présente à 16 un endroit donné, et que plus on s'éloigne de cette zone, moins cette population est représentée (gure 10). Figure 10 Présence géographique de chaque population ancestrale Chaque graphe représente la présence d'une population ancestrale calculée par Structure (chaque graphe est donc associé à une seule population ancestrale). Les zones de couleur rouge sont les zones où cette population ancestrale est fortement représentée, soit la zone d'où cette population doit provenir. A l'inverse, les zones bleues correspondent aux endroits où il est peu probable d'avoir des populations dérivant de la population ancestrale considérée. On constate qu'une population ancestrale donnée a une zone de prédilection, ce qui justie les noms choisis pour ces populations. Cette répartition géographique des populations ancestrales justie les noms choisis pour ces populations ancestrales : la population hpAfriqueOuest par exemple est majoritairement présente à l'Ouest de l'Afrique. Proximité des populations ancestrales Structure nous permet aussi d'avoir un arbre de distances génétiques entre les clusters : c'est une réprésentation de la proximité des populations ancestrales les unes par rapport aux autres. Sur notre 17 simulation, le résultat est donné sur la gure 11. Figure 11 Proximité entre les populations ancestrales Ce graphe montre comment les populations ancestrales se situent entre elles. Les populations ancestrales dont la structure génétique est proche sont représentées proches les une des autres. Par exemple, la population ancestrale 5 (hpAfriqueSud, violet) est très éloignée de toutes les autres populations, donc sa structure génétique est très diérentes de celles des autres populations. On remarque que la population ancestrale hpAfriqueSud (5, violet) a une structure génétique fortement diérente de celles des autres populations. De plus, les populations hpAsieOuest et hpAsieEst(3, bleu et 4, jaune) sont plus proches entre elles qu'avec les autres populations, et de même les populations hpAfriqueEurope et hpAfriqueOuest (1, rouge et 2, vert) sont proches. 5.2 Répartition géographique On cherche à observer la répartition géographique des populations ancestrales dans les échantillons. En procédant selon la méthode décrite précedemment (cf section 4.4), on obtient la carte de la gure 12. A un endroit donné, on observe en majorité des points de même couleur : les échantillons de H. pylori proches ont donc la même population ancestrale dominante. Les clusters correspondent donc généralement aux zones géographiques. Par exemple la population hpAsieEst est dominante dans la majorité des échantillons provenant d'Asie de l'Est (rouge). On remarque notamment que hpAfriqueSud est présent seulement en Afrique du Sud, et pour peu d'échantillons. 5.3 Classement des échantillons en population Pour ce classement, on cherche à regrouper les échantillons dont les séquences de nucléotides sont proches, et qui proviennnent donc des mêmes populations ancestrales d'H. pylori. 18 Figure 12 Répartition géographique des populations H. pylori Un rond représente un échantillon, et sa couleur indique quelle est sa population ancestrale dominante. Les couleurs correspondent aux couleurs du graphe donné par Structure de la gure 2. On voit ainsi que les échantillons proches ont en général la même population ancestrale dominante. On peut classer les échantillons selon leur population ancestrale dominante, ou distinguer des populations selon la répartition des populations ancestrales. On distingue 7 populations diérentes : HpAsieEst hpAsieEst est largement dominante. HpAsie hpAsieOuest est largement dominante. HpEuropeNord hpAfriqueEst et hpAsieOuest sont toutes les deux présentes, en proportions comparables. HpAfriqueEst HpEuropeSud hpAfriqueEst est largement dominante. hpAfriqueEst et hpAsieOuest sont présentes en proportions comparables, et hpAfriqueOuest est aussi présent, bien que moins fortement. HpAfrique hpAfriqueOuest est largement dominante. HpAfriqueSud hpAfriqueSud est largement dominante. En les regroupant selon leur type, on obtient la gure 13 sur laquelle on distingue mieux les diérentes populations. 19 Figure 13 Distinction des diérentes populations Ce graphe montre pour chaque échantillon la répartition des gènes ancestraux. On a 5 population ancestrales : hpAsieEst(rouge), hpAsieOuest(vert), hpAfriqueEst(bleu), hpAfriqueOuest(jaune), hpAfriqueSud(violet). Les échantillons sont triés de sorte que les échantillons dont la répartition ancestrale est proche soient voisins. On peut ainsi distinguer 7 diérentes populations, indiquées sur la gure. 5.4 Diversité génétique et distance géographique Un bon indicateur sur la structure génétique de H. pylori est la diversité génétique. Sa dénition et son calcul sont données dans la partie 4.5. On regarde donc à présent si la diversité génétique de H. pylori est semblable à celle des humains, soit décroit selon la distance géographique à l'Afrique de l'Est ([4]). 5.4.1 Résultats avec l'Afrique de l'Est en point de départ On prend comme point de départ le point en Afrique de l'Est de coordonnées : (10, 37) (latitude, longitude). La régression linéaire obtenue est représentée sur le gure 14. On remarque que la diversité génétique est eectivement décroissante lorsque la distance à l'Afrique de l'Est augmente, ce qui conrmerait l'hypothèse de la présence de la bactérie H. pylori sur l'être humain avant le début de la migration. Si on eectue une régression linéaire sur les données, on obtient une p-valeur de 2.83 ∗ 10−7 , ce qui est donc fortement signicatif. Mais on peut remarquer deux points : Il y a un point isolé dont la diversité génétique est très supérieure aux autres. Le point de départ n'est pas celui de diversité génétique la plus élevée, même en ne tenant pas compte du point particulier cité ci-dessus. Le point détonnant correspond à une population d'Afrique du Sud. On retrace alors le graphe précédent en enlevant les données des populations d'Afrique du Sud. On obtient le graphe de la gure 15. 20 Figure 14 Diversité génétique suivant la distance géographique- Afrique de l'Est Ce graphe montre la décroissance linéaire de la diversité génétique de H. pylori en fonction de l'éloignement à l'Afrique de l'Est. On observe que la décroissance linéaire est conservée, et que les données sont encore plus probables. Néanmoins, le point d'Afrique de l'Est n'étant pas le point de diversité maximale, on peut se demander s'il n'est pas plus pertinent de prendre un autre point d'origine. 5.4.2 Résultats en prenant un autre point de départ Comme il y a des points avec une diversité génétique supérieure à celle du point de départ supposée, on recommence l'étude précédente en changeant de point de référence. On prend à présent pour point de référence celui qui a la plus grande diversité génétique (mis à part l'Afrique du Sud), qui est en Europe, de coordonnées : (52.97, −1.17). On obtient alors la gure 16, en recommençant les calculs avec et sans les données de l'Afrique du Sud. On constate que malgré le changement d'origine, on a toujours une décroissance linéaire. Les données sans l'Afrique du Sud semblent encore mieux adhérer à l'hypothèse de décroissance linéaire que dans le cas d'une origine en Afrique de l'Est. On eectue une régression linéaire sur chaque cas cité ci-dessus pour vérier l'hypothèse de dépendance. Dans tous les cas, la p-valeur est très faible, donc les résultats sont signicatifs. Les p-valeurs obtenues nous permettent aussi de tester qu'elle est 21 Figure 15 Diversité génétique- Afrique de l'Est - en enlevant l'Afrique du Sud On a de nouveau la décroissance linéaire de la diversité génétique en fonction de l'éloignement de l'Afrique de l'Est, en ayant supprimé les données singulières. l'hypothèse la plus vraisemblable. Ces valeurs sont résumées dans le tableau de la gure 17. On obtient une p-valeur minimale dans le cas où le point d'origine est en Europe, et sans la population d'Afrique du Sud. Néanmoins, toutes les p-valeurs sont signicativement petites. 22 Avec les données d'Afrique du Sud Sans les données d'Afrique du Sud Figure 16 Diversité génétique suivant la distance géographique- Europe Le premier graphique montre la décroissance linéaire de la diversité génétique de H. pylori en fonction de l'éloignement par rapport à l'Europe. Le deuxième graphe montre la même chose en ayant enlevé les données singulières. Point de référence : p-valeur (Avec l'Afrique du Sud) p-valeur (Sans l'Afrique du Sud) Afrique de l'Est 2.83 ∗ 10−7 3.9 ∗ 10−8 Europe 3.98 ∗ 10−6 1.29 ∗ 10−10 Figure 17 p-valeur de la régression linéraire diversité génétique vs distance géographique 6 Interpretation 6.1 Repartition geographique Les résultats décrits dans la partie 5.2 montrent qu'une population ancestrale donnée est la population ancestrale dominante sur une zone géographique précise. Or la répartition des populations génétiques humaines correspond à leur répartition géographique (At K = 5, clusters corresponded largely to major geographic regions, [5]). Donc la structure génétique géographique de la bactérie H. pylori est eectivement semblable à celle des humains. 23 6.2 Classement des échantillons en population On a vu (section 5.3) que les populations nommées HpEuropeSud et HpEuropeNord sont consitutées du mélange des populations ancestrales hpAsieOuest et hpAfriqueEst. Ce résultat est cohérent avec l'hypothèse de l'arrivée de deux vagues de migration de provenances diérentes en Europe, énnoncée dans la partie 3. En eet, si la population Européenne humaine provient en fait du mélange de deux populations ancestrales, une venant de l'Asie Centrale, et l'autre de l'Afrique de l'Est [2], la population H. pylori doit donc avoir les mêmes caractéristiques. 6.3 Diversité génétique Le premier résultat obtenu sur la diversité génétique (partie 5.4.1) conrme l'hypothèse d'une migration depuis l'Afrique de l'Est. En eet, la régression linéaire donne une p-valeur de l'ordre de 10−7 . On peut donc en déduire (avec une probabilité de moins de 0.001% de se tromper) qu'il y a eectivement une décroissance de la diversité génétique en fonction de la distance à un point de référence qui peut être l'Afrique de l'Est ou l'Europe. On déduit des résultats des régressions (gure 17) que le meilleur modèle est celui où on prend l'Europe comme point de référence, et où on ne tient pas compte de la population particulière de l'Afrique du Sud. Cela est contradictoire avec l'hypothèse d'origine unique si on considère que H. pylori est liée à l'être humain depuis le début de sa migration. L'importance de la diversité génétique Européenne par rapport à celle de l'Afrique de l'Est peut être expliquée par l'hypothèse donnée sur le mélange de deux populations. Donc on peut toujours considérer que H. pylori était présente depuis le début de la migration humaine. Concernant le point isolé mentionné, ses coordonnées correspondent au cluster en Afrique du Sud. Or on a remarqué sur la gure 12 qu'il y a une population ancestrale présente seulement en Afrique du Sud (hpAfriqueSud, représentée en violet). Cette diérence remarquable de cette population s'explique par l'histoire des populations humaines Africaines : la population des Bantu aurait colonisé la population Khoisan de chasseurs-ceuilleurs présents depuis longtemps en Afrique du Sud [2]. Le mélange de ses deux populations explique la diérence importante de structure génétique, et l'importance de la valeur de sa diversité génétique. 24 7 Conclusion Au vu de ses ressemblances génétiques avec la structure génétique humaine, il semble acceptable de supposer que H. pylori a aecté l'homme depuis le début de sa migration. Néanmoins, cette étude ne sut pas pour décider entre les hypothèses sur la migration humaine, mais il semble que l'hypothèse émise dans l'article sur l'origine unique en Afrique de l'Est soit remise en question. L'analyse génétique de H. pylori peut donc nous permettre, avec des études plus approfondies, d'approfondir nos connaissances sur la migration humaine qui est encore sujet à débat. Mais ces études peuvent aussi se révélées très utiles dans le domaine médical. En eet, connaître la répartition ancestrale des populations de H. pylori peut permettre de créer les antibiotiques et vaccins adaptés à une population précise. Cette application médicale de la génétique n'est pas restreint au cas de H. pylori : actuellement, la génétique humaine est fortement développée pour permettre une médecine adaptée à chaque individu. Remerciements Merci à Mr. Olivier Francois d'avoir encadré ce TER, et au laboratoire TIMC de nous avoir acceuilli. Merci aussi à l'Ensimag de nous proposer cette oportunité de découvrir le monde de la recherche. Annexe : Régression linéaire Le principe de la régression linéaire est le suivant : on dispose d'un jeu de données (X1 ,Y1 )...(Xn ,Yn ) et l'on cherche à savoir s'il existe une fonction f de la forme f (x) = β1 x + β0 telle que ∀i = 1..n, Yi ≈ f (Xi ). On utilise pour cela la méthode des moindres carrés : on choisit pour f la droite pour laquelle la somme des carrés des distances verticales des points à la droite est minimale. On cherche donc à minimiser n δ2 = 1X (yi − β1 xi − β0 )2 n i=1 Pour cela, il sut d'annuler les deux équations suivantes : n n n ∂δ 2 1X 1X 2 1X = −2[ xi yi − β1 xi − β0 xi ] ∂β1 n i=1 n i=1 n i=1 n n ∂δ 2 1X 1X = −2[ y i − β1 xi − β 0 ] ∂β0 n i=1 n i=1 25 On note : n xn = 1X xi n i=1 n yn 1X yi = n i=1 s2x 1X 2 = x − x2n n i=1 i cxy 1X = xi y i xn y n n i=1 n n Après calcul, on obtient : y = f (x) = yn + cxy (x − xn ) s2x Références [1] Groupe d'etude francais des Helicobacter. http ://wwww.helicobacter.fr. [2] Daniel Falush, Thierry Wirth, Bodo Linz, Jonathan K. Pritchard, Matthew Stephens, Mark Kidd, Martin J. Blaser, David Y. Graham, Sylvie Vacher, Guillermo I. Perez-Perez, Yoshio Yamaoka, Francis Megraud, Kristina Otto, Ulrike Reichard, Elena Katzowitsch, Xiaoyan Wang, Mark Achtman, and Sebastian Suerbaum. Trace of human migrations in helicobacter pylori populations. Science, 299 :15821585, 2003. [3] Bodo Linz, Francois Balloux, Yoshan Moodley, Andrea Manica, Hua Liu, Philippe Roumagnac, Daniel Falush, Christiana Stamer, Franck Prugnolle, Schalk W. van der Merwe, Yoshio Yamaoka, David Y. Graham, Emilio PerezTrallero, Torkel Wadstrom, Sebastian Suerbaum, and Mark Achtman. An african origin for the intimate association between human and helicobacter pylori. Nature, 445 :915918, 2007. [4] Sohini Ramachandran, Omkar Deshpande, Charles C. Roseman, Noah A. Rosenberg, Marcus W. Feldman, and L. Luca Cavalli-Sforza. Support from the relationship of genetic and geographic distance in human populations for a serial founder eect originating in africa. PNAS, 102(44) :1594215947, 2005. [5] Noah A. Rosenberg, Jonathan K. Pritchard, James L. Weber, Howard M. Cann, Kenneth K. Kidd, Lev A. Zhivotovsky, and Marcus W. Feldman. Genetic structure of human populations. Science, 298(5602) :23812385, 2002. [6] Roscoe Stanyon, Marco Sazzini, and Donata Luiselli. Timing the rst human migration into eastern asia. Journal of Biology, 2009. 26