D`où vient la bactérie Helicobacter pylori? - Ensiwiki

publicité
Ensimag 2ème année
Rapport TER
D'où vient la bactérie
Helicobacter pylori?
inférence en génétique des populations
Gaëlle Letort
18 mai 2010
1
Table des matières
1 Quelques dénitions génétiques utiles
2 Présentation des données
2.1 La bactérie Helicobacter pylori
2.2
. .
2.1.1 présentation de la bactérie
2.1.2 Epidémiologie . . . . . . .
2.1.3 Choix de cette bactérie . .
Les données . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
3
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
4
4
4
5
5
3 La migration humaine
6
4 Les méthodes et outils utilisés
4.1 Le logiciel Structure . . . . . .
7
4.2
4.3
4.4
4.5
. . . . . . . . . . . .
Etude des populations ancestrales . . . . . . . . . .
4.2.1 Choix du nombre de populations ancestrales
Classement des populations ancestrales . . . . . . .
Répartition géographique . . . . . . . . . . . . . . .
La diversité génétique . . . . . . . . . . . . . . . . .
4.5.1 Dénition et calcul de la diversité génétique
4.5.2 Décroissance de la diversité génétique . . . .
4.5.3 Distance géographique . . . . . . . . . . . .
4.5.4 Régression linéaire . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
. 7
. 8
. 8
. 9
. 9
. 9
. 9
. 9
. 12
. 13
Etude des populations ancestrales . . . . . . . . . . . . . .
5.1.1 Choix du nombre de populations ancestrales . . . .
5.1.2 Classement des populations ancestrales . . . . . . .
Répartition géographique . . . . . . . . . . . . . . . . . . .
Classement des échantillons en population . . . . . . . . .
Diversité génétique et distance géographique . . . . . . . .
5.4.1 Résultats avec l'Afrique de l'Est en point de départ
5.4.2 Résultats en prenant un autre point de départ . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
5 Résultats : comparaison H. pylori-Humain
5.1
5.2
5.3
5.4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
14
14
14
16
18
18
20
20
21
6 Interpretation
23
7 Conclusion
25
6.1
6.2
6.3
Repartition geographique . . . . . . . . . . . . . . . . . . . . . . . . . 23
Classement des échantillons en population . . . . . . . . . . . . . . . 24
Diversité génétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2
Introduction
Mon TER s'est déroulé dans l'équipe TIM-B du laboratoire TIMC, encadré par
Mr. Olivier Francois. Ayant déjà eu une première expérience concernant le monde
de la recherche avec mon stage de première année, ce TER a surtout été pour moi
l'occasion de découvrir comment mener un travail de recherche.
Le but de ce TER est de reproduire l'étude eectuée par Bodo Linz et al., et décrite
dans l'article An african origin for the intimate association between humans and Helicobacter pylori publié dans la revue Nature en 2007 [3].
Dans cette étude, les auteurs montrent que la bactérie Helicobacter pylori semble
s'être répandue à partir de l'Afrique de l'Est il y a 58000 ans, comme l'être humain
qu'elle aecte. Ils utilisent pour cela des données à l'échelle mondiale de cette bactérie, et montrent la ressemblance de sa structure génétique avec celle des humains.
Cela montrerait alors que les êtres humains étaient déjà infectés par la bactérie avant
leur migration.
Pour réproduire l'étude, je dispose du même jeu de données que les auteurs de cet
article. Après avoir déni les termes importants et détaillé les méthodes importantes,
nous observerons les résultats puis nous les interpréterons.
1 Quelques dénitions génétiques utiles
Tout d'abord, nous allons dénir les principaux termes et concepts de génétique
qui seront utilisés dans la suite.
Toute cette étude repose sur l'étude de l'ADN de la bactérie. L'ADN est le support de
l'information génétique. C'est une molécule qui est présente dans toutes les cellules
vivantes, et qui contient l'ensemble des informations nécéssaires au développement
et au fonctionnement de l'organisme. Il est formé d'une suite de nucléotides, qui
sont les molécules de base de l'ADN. Il existe 4 nucléotides diérents : l'adénine A,
la guanine G, la cytosine C et la thymine T.
Un gène est un segment de l'ADN, situé à un endroit bien précis (locus) de celuici. Il est donc composé d'un enchainement de nucléotides. Un gène peut prendre
diérentes formes : sa séquence nucléotidique peut varier. On appelle allèle une de
ces diérentes formes. Par exemple, si on considère le gène déterminant le groupe
sanguin, on a 3 allèles : l'allèle A (qui entraîne la présence de la substance A),
l'allèle B et l'allèle O. L'ensemble des gènes d'un individu forme son génotype.
On désigne par structure génétique la description des fréquences alléliques et des
diérents génotypes à un locus considéré.
On étudie ici la répartition ancestrale des individus : cela consiste à mesurer, pour
un individu donné, la présence de chaque population ancestrale dans son génotype.
Cela montre de quelles populations l'échantillon étudié descend.
3
2 Présentation des données
Toute l'étude se basant sur la bactérie Helicobacter pylori, nous allons commencer
par la présenter.
2.1
La bactérie
Helicobacter pylori
2.1.1 présentation de la bactérie
Helicobacter pylori, découverte en 1982 par John Robin Warren et Barry Marshall
(prix nobel 2005 pour cette découverte), se loge exclusivement dans l'estomac humain. C'est une des rares bactéries à pouvoir survivre dans un environnement aussi
acide (pour se protèger, elle secrète une ensyme : l'uréase). Elle se xe à la paroi de
l'estomac où elle prolifère, et provoque une inammation (gastrique chronique) qui
peut conduire à un ulcère de l'estomac ou à un cancer gastrique [1].
Figure 1 Helicobacter pylori
On observe ici plusieurs bactéries Helicobacter pylori. Cette bactérie est spiralée et
est mobile grâce à 2 à 6 agelles. Elle mesure 0.3µm sur 4µm.
2.1.2 Epidémiologie
Environ 50% des êtres humains portent cette bactérie, mais seulement 20% environ des individus porteurs de la bactérie en subissent les symptômes. L'infection
se fait presque toujours dès l'enfance (mais les symptômes éventuels ne se déclarent
généralement pas avant 50 ans), et est transmise d'humain à humain par voie orale
principalement. C'est l'infection bactérienne humaine la plus répandue après la carie
dentaire. Elle est en particulier répandue dans le monde entier, bien que de manière
4
inégale : l'infection est plus fréquente dans les pays en voie de développement (environ 80%) que dans les pays industrialisés (environ 25%).
Dans la suite, pour simplier on notera cette bactérie H. pylori.
2.1.3 Choix de cette bactérie
L'interêt de travailler sur cette bactérie en particulier est que, comme nous venons
de le voir, la bactérie est très présente, et ce dans le monde entier, ce qui permet
d'avoir des échantillons de toutes origines géographiques. De plus, sa diversité dans
la séquence génétique est supérieure à celle des autres bactéries en général (et environ
50 fois plus riche que celle des humains). Cela permet donc d'avoir des données plus
diversiées, et donc de pouvoir distinguer des populations distinctes même après des
siècles de coexistence entre ces populations [2]. En eet, la séquence génétique étant
très riche, malgré le mixage des populations, une partie du patrimoine génétique de
chaque population sera conservée.
2.2
Les données
On dispose des données génétiques à des locus donnés sur 532 échantillons (bactérie H. pylori), provenant de 32 pays des diérents continents. Plus précisemment,
on dispose des séquences des nucléotides présentes aux locus que l'on considère pour
chaque individu, et des informations géographiques des provenances des échantillons. Ces données sont sous la forme d'un tableau, dont les lignes sont les diérents
échantillons, et les colonnes sont respectivement : le nom de l'échantillon, un numéro
correspondant au pays du prélèvement, les coordonnées géographiques de ce pays
(latitude, longitude), puis les données brutes de la séquence de nucléotide : on aura
un 1 pour le nucléotide A, 2 pour G, 3 pour C et 4 pour T. On peut notamment
voir la répartition géographique des échantillons considérés sur la gure 6.
5
3 La migration humaine
Si H. pylori a eectivement aecté l'être humain depuis le début de sa migration depuis l'Afrique de l'Est, sa structure génétique aura donc des traces de cette
migration (cf section sur la diversité génétique).
Le déroulement exact de la migration humaine n'est pas totalement déterminé de
nos jours. L'apparition de l'espèce humaine se serait faite en Afrique de l'Est il y a
de cela 150Ka à 200Ka (1Ka = 1000 ans). La migration humaine en Afrique aurait
commencé il y a environ 150Ka. L'homme aurait atteint le Moyen Orient il y a
environ 100Ka, et l'Inde il y a 70 Ka. L'Asie aurait été colonisée il y a 60Ka [6] et
l'Europe il y a 45Ka (gure 2). L'homme aurait ensuite traversé le détroit de Béring
et donc colonisé l'Amérique il y a environ 20Ka, puis s'est répandu dans tout le
continent américain au fur et à mesure.
Figure 2 Migration Humaine
Etapes principales de la migration humaine d'après [6].
L'homme serait partit de l'Afrique de l'Est il y a 100 000 ans. L'Asie aurait été
atteinte il y a 60000 ans et l'Europe il y a 45000 ans.
Il y a plusieurs théories quant à la colonisation de l'Europe. Certains présentent
cette migration comme sur la gure 2, c'est à dire que la population migrante du
Moyen Orient se sépare en deux directions diérentes : une partie de la population
migre vers l'Europe et une autre partie vers l'Asie. D'autres supposent que une partie
de la population partie vers l'Asie s'est ensuite dirigée vers l'Europe aussi, et donc
que la population européenne proviendrait du mélange entre les deux populations
migrantes : celle venant directement de l'Afrique et celle qui est passée plus à l'Est
vers l'Asie (gure 3).
Une autre hypothèse s'oppose néanmoins à l'origine unique de l'espèce humaine
depuis l'Afrique de l'Est, la théorie d'une origine multi-régionale de l'homme.
6
Figure 3 migration humaine supposée
La population Européenne proviendrait du mélange de 2 populations migrantes :
une qui viendrait directement de l'Afrique de l'Est, et une qui proviendrait de la
population migrante de l'Asie.
4 Les méthodes et outils utilisés
4.1
Le logiciel Structure
Ce logiciel permet d'obtenir à partir de la donnée des séquences des nucléotides
de plusieurs échantillons leur répartition ancestrale. Le nombre de populations ancestrales est donné en paramètre, puis le logiciel calcule (grâce à une méthode de
Monte-Carlo) le génotype de chacune de ces populations ancestrales, puis leur proportion dans les échantillons donnés. Le logiciel nous donne aussi la probabilité des
données sous le modèle statistique considéré ln(P (X|K)), K étant le modèle statistique considéré, et X les données.
Structure génère un graphique qui représente la répartition des populations ancestrales dans les échantillons considérés. Une population ancestrale est représentée
d'une couleur unique. Un individu est représenté par un trait vertical. Ce trait sera
d'une ou plusieurs couleurs, selon le nombre de populations ancestrales présentes. La
longueur d'une couleur dans le trait représente la proportion d'allèles en provenance
de la population ancestrale correspondante. Ainsi, un échantillon représenté par un
trait vertical de couleur unie, a hérité d'une seule population ancestrale qui est celle
correspondant à la couleur. Un échantillon représenté par un trait de 2 couleurs de
même longueur, vient de 2 populations ancestrales, et a hérité également de ces 2
populations.
Un exemple d'une sortie générée par Structure est donné et expliqué sur la gure 4.
7
Figure 4 Exemple : simulation pour 2 populations ancestrales
Si on utilise Structure en supposant que les individus considérés ne descendent que
de 2 populations diérentes, on obtient un graphique similaire à celui-ci. La couleur
rouge représente une population ancestrale, et la verte la deuxième population. Si
on observe un trait vertical, donc un individu, on peut mesurer quelles proportions
d'allèles de chaque population il a hérité.
Par exemple, l'individu 202 (le deuxième de la partie agrandie) provient entièrement
de la population ancestrale rouge (le trait de cet individu est entièrement rouge). De
même l'individu 250 (le dernier de la partie agrandie) provient d'un mélange des deux
populations : environ 55% de ces allèles proviennent de la population ancestrale de
couleur rouge, et 45% de la population ancestrale verte.
4.2
Etude des populations ancestrales
4.2.1 Choix du nombre de populations ancestrales
Pour connaître la répartition ancestrale des échantillons, on utilise donc le logiciel
Structure. Il faut alors décider du nombre de populations ancestrales le plus adéquat.
Pour cela, on lance 20 simulations pour chaque valeur de k, le nombre de clusters
(soit de populations ancestrales supposées) pour k allant de 2 à 9.
On prend ensuite la moyenne des résultats obtenus pour chaque k. En comparant
alors ces moyennes, on peut décider du nombre de populations ancestrales adéquats
kopt .
On fait alors 100 simulations avec ce nombre de populations ancestrales, puis on
choisit celle de vraisemblance maximale pour la suite de l'étude.
8
4.3
Classement des populations ancestrales
Pour une population ancestrale calculée par Structure, on calcule avec une méthode d'interpolation spatiale (le Krigeage) la répartition géographique de cette population ancestrale. On représente sur une carte mondiale la présence estimée de
chaque population ancestrale. Cela nous permet de constater si une population ancestrale donnée est présente sur un endroit donné, ou si elle est également présente
partout.
4.4
Répartition géographique
On étudie la répartition des populations de H. pylori selon leur répartition géographique pour la comparer avec celle des humains.
Pour ce faire, on regarde pour chaque échantillon quelle est sa population ancestrale
dominante. Cette information est donnée dans les résultats de Structure qui donne
pour chaque échantillon la proportion génétique de chaque population ancestrale.
On répartit ainsi tous les échantillons en kopt clusters diérents auxquels on attribue
des couleurs diérentes. On ache ensuite ce résultat sur une carte où chaque échantillon est placé à l'endroit où a été fait le prélèvement.
4.5
La diversité génétique
4.5.1 Dénition et calcul de la diversité génétique
La diversité génétique correspond au nombre de caractéristiques génétiques différentes dans le génôme d'une espèce. Une espèce qui a une diversité génétique
importante a donc plus d'allèles possibles à un locus donné. Pour la mesurer, on
considère les fréquences alléliques à un locus considéré : si la diversité génétique est
importante, il doit y avoir beaucoup d'hétérozygotes. Les chances d'avoir 2 allèles
distincts à un locus donné sont fortes. On utilise donc la formule suivante pour
calculer la diversité génétique :
k
X
n
∗ (1 −
p2i )
Hs =
n−1
i=1
avec n le nombre d'H. pyloris dans l'échantillon géographique considéré, k le nombre
d'allèles, et pi la fréquence du i-ème allèle.
4.5.2 Décroissance de la diversité génétique
L'intéret d'étudier la diversité génétique est que si une espèce provient d'une
source unique, sa diversité génétique doit décroître en fonction de l'éloignement à
9
cette origine.
En eet, à chaque migration, seule une partie de la population initiale se déplace
dans un nouvel endroit. Seuls les allèles de cette partie de la population seront donc
transmis à la nouvelle population. Si un allèle de la population initiale n'est pas
présent dans les allèles de la population migrante, cet allèle n'apparaîtra donc pas
dans la nouvelle population. Ainsi au fur et à mesure, des allèles disparaissent, et
donc la diversité génétique décroit (cf gure 5).
La gure 5 illustrant ce concept est évidemment fort simpliée. En eet, les ux
de migration ne sont pas vraiment fait dans une seule direction, et il peut y avoir des
mutations et donc l'apparition de nouveaux allèles. Mais ces évenements ne modient que peu la diversité génétique totale.
Les humains ayant migré depuis l'Afrique de l'Est, leur diversité génétique décroit
donc plus on s'éloigne de ce point de départ. Si H. pylori a aecté l'être humain
depuis le début de la migration, elle a donc du connaître la même atténuation de sa
diversité génétique.
Pour l'étude de la diversité génétique, on a donc aussi besoin de calculer la distance
géographique des échantillons considérés à l'origine supposée.
10
Figure 5 Diminution de la diversité génétique
Un rectangle représente une zone géographique donnée. On considère un gène précis
sur 9 individus de la population présente. Ce gène peut avoir plusieurs formes, des
allèles, qui sont représentées par des schémas diérents ici.
Lorsqu'une partie de cette population émigre, seuls les allèles des individus émigrants
seront transmis. Ainsi des allèles sont perdus au fur et à mesure des migrations.
Par exemple, après la première migration, l'allèle représenté par un triangle violet
a disparu car aucun individu porteur de cet allèle n'a émigré.
Ceci illustre pourquoi la diversité génétique décroit lorsqu'on s'éloigne de l'origine
de la migration.
11
4.5.3 Distance géographique
La distance géographique que l'on calcule doit prendre en compte les principales
routes de migration empruntées par les humains. Ce calcul est fait selon le principe
donné dans l'article [4]. On considère 5 points de passage forcé :
Anadyr, Russie (64N, 177E) : passage par le détroit de Béring pour le continent
Américain.
Le Caire, Egypte (30N, 31E) : passage entre le continent Eurasien et le continent Africain.
Istanbul, Turquie (41N, 28E) : passage entre l'Europe et le Proche-Orient.
Phnom Penh, Cambodge (11N, 104E) : passage entre l'Asie et l'Océanie.
Prince Rupert, Canada (54N, 130W) : passage de l'Alaska vers l'Amérique du
Sud.
Ces points de passage sont indiqués sur la gure 6.
Figure 6 Points de passage et échantillons
On peut ici observer la répartition géographique des échantillons considérés dans
cette étude (rond bleu). Les triangles rouges représentent les points de passage par
lesquels les hommes ont dû passer lors de migrations. Ces points de passage sont
pris en compte dans le calcul de la distance géographique entre les coordonnées d'un
échantillon et un lieu donné.
On calcule donc la distance géographique comme étant la distance entre le point
de départ et un point de passage, plus celle entre le point de passage et le point
d'arrivée lorsque cela est nécéssaire, plus parfois entre deux points de passage. Pour
12
calculer chaque distance on utilise la fonction geod.dist() de R, qui calcule la distance
géodésique en tenant compte de la courbure de la Terre.
4.5.4 Régression linéaire
Pour décider si la diversité génétique décroit eectivement ou non en fonction de
la distance à un point donné, on utilise une régression linéaire, dont le principe est
rappelé en annexe.
Pour une régression linéaire, on obtient avec les résultats la p-valeur du test : c'est
une indication sur la validité de nos résultats. Plus précisemment, en concluant qu'il
y a bien une dépendance linéaire entre la diversité génétique et la distance géographique, on a une probabilité de p-valeur de se tromper. Donc plus la p-valeur est
petite, plus la probabilité d'avoir une dépendance linéaire est forte.
13
5 Résultats : comparaison H. pylori-Humain
On cherche à savoir si l'évolution génétique de la bactérie mime celle des humains.
En eet, si la bactérie a aecté l'être humain depuis longtemps, ces propriétés génétiques doivent être semblables à celle des humains.
On cherche à classer les échantillons en plusieurs populations diérentes an de pouvoir les comparer aux populations humaines. On étudie tout d'abord les populations
ancestrales des échantillons.
5.1
Etude des populations ancestrales
5.1.1 Choix du nombre de populations ancestrales
On cherche à dénir le nombre de populations ancestrales optimal kopt pour nos
données. On procède comme dans la méthode décrite dans la section 4.2.1.
On obtient des moyennes croissantes pour k croissant jusqu'à k = 5(gure 7). La
moyenne maximale est donc atteinte pour k = 5.
Figure 7 Probabilité des données selon le nombre de clusters
Ce graphe représente la probabilité des données obtenue pour un nombre de populations ancestrales supposé K variant de 2 à 9. Cette probabilité est la moyenne des
probabilités obtenues sur 20 simulations. On constate que la probabilité des données
est maximale en k = 5.
Mais si on observe plus attentivement les simulations, on remarque qu'il y a
plusieurs simulations très peu vraisemblables pour k ≥ 6, qui contribuent à diminuer
14
la moyenne. La gure 8 montre ce que l'on obtient si on enlève les simulations trop
mauvaises.
Figure 8 Probabilité des données selon le nombre de clusters - en enlevant les
simulations de probabilités trop faibles
Ce graphe reprend le graphe précédent (gure 7), mais les résultats trop mauvais ont
été supprimés.
On note que dans ce cas les moyennes pour un nombre de cluster k ≥ 6 sont bien
meilleures que précédemment. En particulier, la moyenne pour k = 5 n'est plus
autant détachée des autres moyennes (ni même maximale). Néanmoins ces moyennes
sont relativement proches entre elles à partir de k = 5.
Les résultats sont alors un peu modiés : la moyenne de vraissemblance maximale n'est plus atteinte en k = 5, mais les moyennes sont proches les unes des autres
pour k ≥ 5. Donc il ne semble pas être un mauvais choix de prendre quand même
k = 5. Il est donc plus simple de ne considérer qu'un nombre réduit de populations,
étant donné que les résultats moyens sont pratiquement équivalents. De plus, pour
k ≥ 6 Structure renvoie en général des résultats où une ou plusieurs populations
ancestrales sont très peu présentes dans les données, donc inutiles. Dans la suite, on
prendra donc k = 5 (comme dans l'article) pour le nombre de populations ancestrales.
15
5.1.2 Classement des populations ancestrales
La simulation de Structure de vraisemblance maximale parmi les 100 eectuées
(cf. section 4.2.1) génère un graphique sur lequel 5 populations ancestrales sont
eectivement présentes (gure 9). On remarque notamment qu'une population ancestrale (représentée en violet) est très peu présente dans les échantillons.
Figure 9 Repartition des gènes ancestraux
On voit ici la proportion des gènes ancestraux dans chacun des échantillons donnés :
un trait vertical représente un échantillon, et une couleur représente une population
ancestrale. Ainsi, la proportion d'une population ancestrale dans un échantillon est
donnée par la longueur du segment coloré (de couleur correspondante à la population).
On remarque qu'il y a plusieurs types de population : celles qui sont très proche
de leur population ancestrale, celles qui ont une population ancestrale dominante à
laquelle s'ajoute une autre population ancestrale et celles qui sont un mélange de
deux populations ancestrales.
On peut notamment noter qu'une population ancestrale(hpAfriqueSud) est présente
dans très peu d'échantillons, et est la composante principale (voire la seule) de ces
échantillons.
On considèrera donc dans toute la suite 5 populations ancestrales, que l'on nommera :
hpAsieEst : représentée en rouge.
hpAsieOuest : représentée en vert.
hpAfriqueEst : représentée en bleu.
hpAfriqueOuest : représentée en jaune.
hpAfriqueSud : représentée en violet.
Pour chaque population ancestrale, on observe sa représentation à l'échelle mondiale (cf section 4.3). On remarque que chaque population ancestrale est présente à
16
un endroit donné, et que plus on s'éloigne de cette zone, moins cette population est
représentée (gure 10).
Figure 10 Présence géographique de chaque population ancestrale
Chaque graphe représente la présence d'une population ancestrale calculée par Structure (chaque graphe est donc associé à une seule population ancestrale). Les zones de
couleur rouge sont les zones où cette population ancestrale est fortement représentée,
soit la zone d'où cette population doit provenir. A l'inverse, les zones bleues correspondent aux endroits où il est peu probable d'avoir des populations dérivant de la
population ancestrale considérée.
On constate qu'une population ancestrale donnée a une zone de prédilection, ce qui
justie les noms choisis pour ces populations.
Cette répartition géographique des populations ancestrales justie les noms choisis pour ces populations ancestrales : la population hpAfriqueOuest par exemple est
majoritairement présente à l'Ouest de l'Afrique.
Proximité des populations ancestrales Structure
nous permet aussi d'avoir
un arbre de distances génétiques entre les clusters : c'est une réprésentation de la
proximité des populations ancestrales les unes par rapport aux autres. Sur notre
17
simulation, le résultat est donné sur la gure 11.
Figure 11 Proximité entre les populations ancestrales
Ce graphe montre comment les populations ancestrales se situent entre elles. Les populations ancestrales dont la structure génétique est proche sont représentées proches
les une des autres. Par exemple, la population ancestrale 5 (hpAfriqueSud, violet)
est très éloignée de toutes les autres populations, donc sa structure génétique est très
diérentes de celles des autres populations.
On remarque que la population ancestrale hpAfriqueSud (5, violet) a une structure génétique fortement diérente de celles des autres populations. De plus, les
populations hpAsieOuest et hpAsieEst(3, bleu et 4, jaune) sont plus proches entre
elles qu'avec les autres populations, et de même les populations hpAfriqueEurope et
hpAfriqueOuest (1, rouge et 2, vert) sont proches.
5.2
Répartition géographique
On cherche à observer la répartition géographique des populations ancestrales
dans les échantillons. En procédant selon la méthode décrite précedemment (cf section 4.4), on obtient la carte de la gure 12.
A un endroit donné, on observe en majorité des points de même couleur : les
échantillons de H. pylori proches ont donc la même population ancestrale dominante.
Les clusters correspondent donc généralement aux zones géographiques.
Par exemple la population hpAsieEst est dominante dans la majorité des échantillons
provenant d'Asie de l'Est (rouge). On remarque notamment que hpAfriqueSud est
présent seulement en Afrique du Sud, et pour peu d'échantillons.
5.3
Classement des échantillons en population
Pour ce classement, on cherche à regrouper les échantillons dont les séquences
de nucléotides sont proches, et qui proviennnent donc des mêmes populations ancestrales d'H. pylori.
18
Figure 12 Répartition géographique des populations H. pylori
Un rond représente un échantillon, et sa couleur indique quelle est sa population
ancestrale dominante. Les couleurs correspondent aux couleurs du graphe donné par
Structure de la gure 2. On voit ainsi que les échantillons proches ont en général la
même population ancestrale dominante.
On peut classer les échantillons selon leur population ancestrale dominante, ou distinguer des populations selon la répartition des populations ancestrales. On distingue
7 populations diérentes :
HpAsieEst hpAsieEst est largement dominante.
HpAsie hpAsieOuest est largement dominante.
HpEuropeNord hpAfriqueEst et hpAsieOuest sont toutes les deux présentes, en
proportions comparables.
HpAfriqueEst
HpEuropeSud
hpAfriqueEst est largement dominante.
hpAfriqueEst et hpAsieOuest sont présentes en proportions comparables, et hpAfriqueOuest est aussi présent, bien que moins fortement.
HpAfrique hpAfriqueOuest est largement dominante.
HpAfriqueSud hpAfriqueSud est largement dominante.
En les regroupant selon leur type, on obtient la gure 13 sur laquelle on distingue
mieux les diérentes populations.
19
Figure 13 Distinction des diérentes populations
Ce graphe montre pour chaque échantillon la répartition des gènes ancestraux. On a
5 population ancestrales : hpAsieEst(rouge), hpAsieOuest(vert), hpAfriqueEst(bleu),
hpAfriqueOuest(jaune), hpAfriqueSud(violet). Les échantillons sont triés de sorte
que les échantillons dont la répartition ancestrale est proche soient voisins. On peut
ainsi distinguer 7 diérentes populations, indiquées sur la gure.
5.4
Diversité génétique et distance géographique
Un bon indicateur sur la structure génétique de H. pylori est la diversité génétique. Sa dénition et son calcul sont données dans la partie 4.5. On regarde donc à
présent si la diversité génétique de H. pylori est semblable à celle des humains, soit
décroit selon la distance géographique à l'Afrique de l'Est ([4]).
5.4.1 Résultats avec l'Afrique de l'Est en point de départ
On prend comme point de départ le point en Afrique de l'Est de coordonnées :
(10, 37) (latitude, longitude). La régression linéaire obtenue est représentée sur le
gure 14.
On remarque que la diversité génétique est eectivement décroissante lorsque la
distance à l'Afrique de l'Est augmente, ce qui conrmerait l'hypothèse de la présence
de la bactérie H. pylori sur l'être humain avant le début de la migration. Si on eectue
une régression linéaire sur les données, on obtient une p-valeur de 2.83 ∗ 10−7 , ce qui
est donc fortement signicatif.
Mais on peut remarquer deux points :
Il y a un point isolé dont la diversité génétique est très supérieure aux autres.
Le point de départ n'est pas celui de diversité génétique la plus élevée, même
en ne tenant pas compte du point particulier cité ci-dessus.
Le point détonnant correspond à une population d'Afrique du Sud. On retrace alors
le graphe précédent en enlevant les données des populations d'Afrique du Sud. On
obtient le graphe de la gure 15.
20
Figure 14 Diversité génétique suivant la distance géographique- Afrique de l'Est
Ce graphe montre la décroissance linéaire de la diversité génétique de H. pylori en
fonction de l'éloignement à l'Afrique de l'Est.
On observe que la décroissance linéaire est conservée, et que les données sont encore plus probables. Néanmoins, le point d'Afrique de l'Est n'étant pas le point de
diversité maximale, on peut se demander s'il n'est pas plus pertinent de prendre un
autre point d'origine.
5.4.2 Résultats en prenant un autre point de départ
Comme il y a des points avec une diversité génétique supérieure à celle du point
de départ supposée, on recommence l'étude précédente en changeant de point de
référence. On prend à présent pour point de référence celui qui a la plus grande diversité génétique (mis à part l'Afrique du Sud), qui est en Europe, de coordonnées :
(52.97, −1.17). On obtient alors la gure 16, en recommençant les calculs avec et
sans les données de l'Afrique du Sud.
On constate que malgré le changement d'origine, on a toujours une décroissance
linéaire. Les données sans l'Afrique du Sud semblent encore mieux adhérer à l'hypothèse de décroissance linéaire que dans le cas d'une origine en Afrique de l'Est.
On eectue une régression linéaire sur chaque cas cité ci-dessus pour vérier l'hypothèse de dépendance. Dans tous les cas, la p-valeur est très faible, donc les résultats
sont signicatifs. Les p-valeurs obtenues nous permettent aussi de tester qu'elle est
21
Figure 15 Diversité génétique- Afrique de l'Est - en enlevant l'Afrique du Sud
On a de nouveau la décroissance linéaire de la diversité génétique en fonction de
l'éloignement de l'Afrique de l'Est, en ayant supprimé les données singulières.
l'hypothèse la plus vraisemblable. Ces valeurs sont résumées dans le tableau de la
gure 17. On obtient une p-valeur minimale dans le cas où le point d'origine est
en Europe, et sans la population d'Afrique du Sud. Néanmoins, toutes les p-valeurs
sont signicativement petites.
22
Avec les données d'Afrique du Sud
Sans les données d'Afrique du Sud
Figure 16 Diversité génétique suivant la distance géographique- Europe
Le premier graphique montre la décroissance linéaire de la diversité génétique de
H. pylori en fonction de l'éloignement par rapport à l'Europe. Le deuxième graphe
montre la même chose en ayant enlevé les données singulières.
Point de référence :
p-valeur (Avec l'Afrique du Sud)
p-valeur (Sans l'Afrique du Sud)
Afrique de l'Est
2.83 ∗ 10−7
3.9 ∗ 10−8
Europe
3.98 ∗ 10−6
1.29 ∗ 10−10
Figure 17 p-valeur de la régression linéraire diversité génétique vs distance géographique
6 Interpretation
6.1
Repartition geographique
Les résultats décrits dans la partie 5.2 montrent qu'une population ancestrale
donnée est la population ancestrale dominante sur une zone géographique précise.
Or la répartition des populations génétiques humaines correspond à leur répartition
géographique (At K = 5, clusters corresponded largely to major geographic regions,
[5]). Donc la structure génétique géographique de la bactérie H. pylori est eectivement semblable à celle des humains.
23
6.2
Classement des échantillons en population
On a vu (section 5.3) que les populations nommées HpEuropeSud et HpEuropeNord sont consitutées du mélange des populations ancestrales hpAsieOuest et
hpAfriqueEst. Ce résultat est cohérent avec l'hypothèse de l'arrivée de deux vagues
de migration de provenances diérentes en Europe, énnoncée dans la partie 3. En
eet, si la population Européenne humaine provient en fait du mélange de deux
populations ancestrales, une venant de l'Asie Centrale, et l'autre de l'Afrique de
l'Est [2], la population H. pylori doit donc avoir les mêmes caractéristiques.
6.3
Diversité génétique
Le premier résultat obtenu sur la diversité génétique (partie 5.4.1) conrme l'hypothèse d'une migration depuis l'Afrique de l'Est.
En eet, la régression linéaire donne une p-valeur de l'ordre de 10−7 . On peut donc
en déduire (avec une probabilité de moins de 0.001% de se tromper) qu'il y a eectivement une décroissance de la diversité génétique en fonction de la distance à un
point de référence qui peut être l'Afrique de l'Est ou l'Europe.
On déduit des résultats des régressions (gure 17) que le meilleur modèle est celui
où on prend l'Europe comme point de référence, et où on ne tient pas compte de la
population particulière de l'Afrique du Sud. Cela est contradictoire avec l'hypothèse
d'origine unique si on considère que H. pylori est liée à l'être humain depuis le début
de sa migration.
L'importance de la diversité génétique Européenne par rapport à celle de l'Afrique
de l'Est peut être expliquée par l'hypothèse donnée sur le mélange de deux populations. Donc on peut toujours considérer que H. pylori était présente depuis le début
de la migration humaine.
Concernant le point isolé mentionné, ses coordonnées correspondent au cluster en
Afrique du Sud. Or on a remarqué sur la gure 12 qu'il y a une population ancestrale
présente seulement en Afrique du Sud (hpAfriqueSud, représentée en violet). Cette
diérence remarquable de cette population s'explique par l'histoire des populations
humaines Africaines : la population des Bantu aurait colonisé la population Khoisan
de chasseurs-ceuilleurs présents depuis longtemps en Afrique du Sud [2]. Le mélange
de ses deux populations explique la diérence importante de structure génétique, et
l'importance de la valeur de sa diversité génétique.
24
7 Conclusion
Au vu de ses ressemblances génétiques avec la structure génétique humaine, il
semble acceptable de supposer que H. pylori a aecté l'homme depuis le début de
sa migration. Néanmoins, cette étude ne sut pas pour décider entre les hypothèses
sur la migration humaine, mais il semble que l'hypothèse émise dans l'article sur
l'origine unique en Afrique de l'Est soit remise en question.
L'analyse génétique de H. pylori peut donc nous permettre, avec des études plus approfondies, d'approfondir nos connaissances sur la migration humaine qui est encore
sujet à débat.
Mais ces études peuvent aussi se révélées très utiles dans le domaine médical. En
eet, connaître la répartition ancestrale des populations de H. pylori peut permettre
de créer les antibiotiques et vaccins adaptés à une population précise. Cette application médicale de la génétique n'est pas restreint au cas de H. pylori : actuellement, la
génétique humaine est fortement développée pour permettre une médecine adaptée
à chaque individu.
Remerciements
Merci à Mr. Olivier Francois d'avoir encadré ce TER, et au laboratoire TIMC
de nous avoir acceuilli.
Merci aussi à l'Ensimag de nous proposer cette oportunité de découvrir le monde de
la recherche.
Annexe : Régression linéaire
Le principe de la régression linéaire est le suivant : on dispose d'un jeu de données
(X1 ,Y1 )...(Xn ,Yn ) et l'on cherche à savoir s'il existe une fonction f de la forme f (x) =
β1 x + β0 telle que ∀i = 1..n, Yi ≈ f (Xi ).
On utilise pour cela la méthode des moindres carrés : on choisit pour f la droite
pour laquelle la somme des carrés des distances verticales des points à la droite est
minimale. On cherche donc à minimiser
n
δ2 =
1X
(yi − β1 xi − β0 )2
n i=1
Pour cela, il sut d'annuler les deux équations suivantes :
n
n
n
∂δ 2
1X
1X 2
1X
= −2[
xi yi − β1
xi − β0
xi ]
∂β1
n i=1
n i=1
n i=1
n
n
∂δ 2
1X
1X
= −2[
y i − β1
xi − β 0 ]
∂β0
n i=1
n i=1
25
On note :
n
xn =
1X
xi
n i=1
n
yn
1X
yi
=
n i=1
s2x
1X 2
=
x − x2n
n i=1 i
cxy
1X
=
xi y i xn y n
n i=1
n
n
Après calcul, on obtient :
y = f (x) = yn +
cxy
(x − xn )
s2x
Références
[1] Groupe d'etude francais des Helicobacter. http ://wwww.helicobacter.fr.
[2] Daniel Falush, Thierry Wirth, Bodo Linz, Jonathan K. Pritchard, Matthew
Stephens, Mark Kidd, Martin J. Blaser, David Y. Graham, Sylvie Vacher,
Guillermo I. Perez-Perez, Yoshio Yamaoka, Francis Megraud, Kristina Otto, Ulrike Reichard, Elena Katzowitsch, Xiaoyan Wang, Mark Achtman, and Sebastian
Suerbaum. Trace of human migrations in helicobacter pylori populations. Science, 299 :15821585, 2003.
[3] Bodo Linz, Francois Balloux, Yoshan Moodley, Andrea Manica, Hua Liu,
Philippe Roumagnac, Daniel Falush, Christiana Stamer, Franck Prugnolle,
Schalk W. van der Merwe, Yoshio Yamaoka, David Y. Graham, Emilio PerezTrallero, Torkel Wadstrom, Sebastian Suerbaum, and Mark Achtman. An african
origin for the intimate association between human and helicobacter pylori. Nature, 445 :915918, 2007.
[4] Sohini Ramachandran, Omkar Deshpande, Charles C. Roseman, Noah A. Rosenberg, Marcus W. Feldman, and L. Luca Cavalli-Sforza. Support from the relationship of genetic and geographic distance in human populations for a serial
founder eect originating in africa. PNAS, 102(44) :1594215947, 2005.
[5] Noah A. Rosenberg, Jonathan K. Pritchard, James L. Weber, Howard M. Cann,
Kenneth K. Kidd, Lev A. Zhivotovsky, and Marcus W. Feldman. Genetic structure of human populations. Science, 298(5602) :23812385, 2002.
[6] Roscoe Stanyon, Marco Sazzini, and Donata Luiselli. Timing the rst human
migration into eastern asia. Journal of Biology, 2009.
26
Téléchargement