INFERENCE DE LA STRUCTURE GENETIQUE D`UNE POPULATION

publicité
LAYLA EL ASRI
ENSIMAG
2EME ANNEE – MMIS BIOINFO
T R AVAU X D ’ E T U D E S E T D E R E C H E R C H E
TUTEURS : OLIVIER FRANÇOIS ET FLORENCE
MARANINCHI
I NFE RE NC E D E L A
ST RU CT U RE
G E NE T I QUE D ’ UNE
POPU L A T I ON
TEST DU LOGICIEL STRUCTURE (VERSION
2.3.3) ET APPROCHE DES MODELES MIS EN
ŒUVRE PAR LE LOGICIEL
SOMMAIRE
1. La génétique des populations
2. Etudes
théoriques
de
différents
modèles
3. Le logiciel MS
4. Le logiciel STRUCTURE
5. Expériences
6. Analyse des résultats et conclusion
7. Bibliographie
2
PREAMBULE
Population :
ensemble
d'individus d'une
même espèce
vivante se
perpétuant dans
un territoire donné
Notre travail a été effectué au laboratoire TIMC -Imag
sous la direction d ’Oliver François et a concerné l ’étude
d’une méthode de clustering implémentée par le logiciel
STRUCTURE.
Lorsque l’on s’intéresse à l’évolutio n du patrimoine
génétique d’une espèce, la population est souvent prise
comme unité de base et il est utile de pouvoir répar tir les
individus d’un échantillon au sein de populations.
Plusieurs approches sont alors envisag eables : on peut
chercher à g rouper les individus d’un échantillon en
différentes populations ou chercher, à par tir de la
connaissance d’un cer tain nombre de populations, la
provenance d’un individu d’origine inconnue.
Nous nous intéresserons ici à la pr emière approche et à
la méthode dite de « clustering » ayant pour but de g rouper
des individus en populations sur la base de leur génotype.
Un logiciel, larg ement utilisé en génétique des populations,
se propose d’implémenter cette méthode, le logiciel
STRUCTURE.
Notre travail consistera en l’étude de ce logiciel et des
alg orithmes utilisés par celui-ci afin de déter miner la
por tée et les limitations de ceux-ci. Pour cela, nous
procèderons de la sor te : nous utiliserons un logiciel
per mettant de générer des jeux de données génétiques à
par tir de modèles prédéfinis, le logiciel MS. Nous ferons
traiter les données générées par ce logiciel par
STRUCTURE puis nous comparerons le résultat obtenu
avec celui attendu.
Nous commencerons par présenter les différentes
notions de génétique des populations qui seront utilisées
au cours de nos travaux futurs avant de présenter les
expériences réalisées avec les logiciels MS et STRUCTURE
avant de conclure quant à l’efficacité de la méthode de
« clustering » implémentée par le logiciel STRUCTURE.
3
LA GENETIQUE DES
POPULATIONS
Cellule diploïde :
les chromosomes
qu’elle contient
sont présents par
paires.
Locus :
emplacement
physique précis et
invariable sur un
chromosome.
Génotype :
ensemble ou partie
donnée de la
composition
génétique d’un
individu.
Allèles d’un
gène :
OBJET DE LA GENETIQU E DES POPULATIONS
La génétique des populations traite de l’impact des différentes
forces évolutives (sélection, mutations, migration) sur la répartition de la
diversité génétique entre les populations et dans les populations.
La description de la composition génétique d’une population
diploïde se fait via différents indicateurs :
Les fréquences génotypiques : il s’agit des fréquences
des différents génotypes au locus considéré. L’ensemble
des fréquence génotypiques donne la structure
génotypique de la population pour ce locus.
Les fréquences alléliques (ou géniques) : il s’agit des
fréquences dans la population des différents allèles au
locus considéré. Leur connaissance donne la structure
allélique (génique) de la population.
L’ensemble formé par la structure génotypique et la structure
allélique d’une population constitue la structure génétique de la
population.
les allèles d’un
gène
correspondent aux
différentes
versions de ce
gène (leurs
séquences de
nucléotides
diffèrent).
4
DESCRIPTION FORMELLE DE LA STRUCTURE
GENOTYPIQUE ET DE LA STRUCTURE ALLELIQUE D’UNE
POPULATION DIPLOIDE
Considérons un gène A en un locus pour une population diploïde.

Structure génotypique en ce locus:
(
)
Où ( ) représente la fréquence des individus ayant le génotype AA,
est le nombre d’individus ayant ce génotype, et N le nombre total
d’individus.
Considérons désormais un gène A possédant de multiples allèles A1, …, An en un
locus pour une population diploïde.

Structure allélique en ce locus :
∑
Où
représente la fréquence de l’allèle Ai en le locus considéré.
5
ETUDES THEORIQUES DE
DIFFERENTS MODELES
LE PRINCIPE DE HARDY-WEINBERG
Il s’agit ici d’étudier la génétique d’une population dans un cas « idéal »,
c’est-à-dire, sous les hypothèses suivantes :
1) La panmixie : les gamètes s’associent au hasard par rapport aux gènes
considérés.
2) La population est considérée être de taille infinie, ainsi, la fréquence d’un
évènement est proche de la probabilité que cet évènement se produise.
3) On considère comme nul l’apport des pressions évolutives suivantes :
 Mutation
 Sélection
 Migration
Par ailleurs, la population étudiée est une population diploïde où coexistent
deux allèles en un locus : A et a en fréquences respectives p et q = 1 –p.
Sous les hypothèses 1), 2), et 3), nous pouvons alors déterminer exactement,
la structure génétique de la génération diploïde suivante :
(
(
)
)
(
)
(par l’hypothèse 2))
(
è
) ))
En effectuant des calculs similaires pour les autres génotypes, on obtient les
résultats suivants :
Gamète
Ga
Gamètes mâles
A
a
A
p2
pq
a
pq
q2
Gamètes femelles
Structure génotypique de la génération diploïde suivante
6
En appliquant l’hypothèse 3), on s’aperçoit que les fréquences alléliques
de la nouvelle génération seront respectivement p et q pour les allèles A
et a.
Ainsi, dans un cas idéal où il y a panmixie pour une population de taille
infinie et qui n’est soumise à aucune pression évolutive, les fréquences
des gènes et des génotypes ne varient pas d’une génération à l’autre, ce
qui constitue le principe de Hardy-Weinberg. Il s’agit d’un état
d’équilibre pour la population.
L’équilibre de Hardy-Weinberg est un des principes fondamentaux de la
génétique des populations en ce sens qu’il s’agit d’un bon descripteur de
la structure génétique des populations naturelles, l’hypothèse de
panmixie étant souvent respectée alors que les effets des mutations,
migrations et sélections ne sont pas suffisamment importants pour faire
diverger les fréquences génotypiques étudiées.
Nous verrons par la suite que les résultats produits par STRUCTURE
incluent dans leurs hypothèses le fait que les populations étudiées soient
à l’équilibre de Hardy-Weinberg.
Cellule haploïde :
Les chromosomes
qu’elle contient ne
sont présents
qu’en un seul
exemplaire.
LE MODELE DE WRIGHT-FISHER
Le modèle de Wright-Fisher permet de représenter l’évolution d’un
allèle à l’intérieur d’une population diploïde ou haploïde. Il sera
notamment utilisé par la suite dans le modèle du coalescent.
Nous considèrerons le modèle suivant :
 La population considérée est de taille constante. On supposera une
taille de N individus diploïdes soit 2N individus haploïdes.
 Les générations sont disjointes c’est-à-dire que tous les individus de
la génération précédente décèdent et donnent naissance à tous les
individus de la génération suivante.
 Il n’y a aucune sélection.
 Les accouplements se font de façon aléatoire (population
panmictique).
1. Principe
Sous le modèle de Wright-Fisher, l’algorithme permettant de retracer
l’évolution d’un allèle est le suivant :
 Au temps 0, la population est constituée de N individus possédant
chacun deux copies de l’allèle auquel on s’intéresse.
 Les N individus de la génération 1 sont générés indépendamment
les uns des autres de la façon suivante :
1) Un premier parent est choisi de manière équiprobable dans la
génération 0.
7
2) On choisit, de manière équiprobable, un allèle de ce premier parent et l’on
en place une copie comme premier allèle de l’individu de la génération 1.
3) De la même manière, on choisit le second parent de façon équiprobable
dans la génération 0.
4) Enfin, on choisit de manière équiprobable un allèle du second parent et l’on
en place une copie comme second allèle de l’individu de la génération 1.
Les générations suivantes sont alors générées de la même façon.
.
Figure 1 Modèle de Wright-Fisher pour une population diploïde
2. Etude probabiliste
Nous déduisons qu’à l’issue de cette simulation, le nombre de descendants dans la
génération t + 1 de l’allèle k de la génération t suit une loi binomiale de paramètres
( 2N, )
* 2
2 +. En effet, la probabilité qu’à la génération t + 1, il y
ait i représentants de l’allèle k de la génération t est égale au nombre de « succès » de
l’évènement : « 1 allèle de la génération t + 1 descend de l’allèle k de la génération t »
et la probabilité de cet évènement est égale à puisque les allèles sont tirés de
façon équiprobable.
Ce modèle ainsi défini va nous permettre désormais d’introduire la théorie du
coalescent.
8
Polymorphisme
génétique :
coexistence dans
une population de
plusieurs allèles
pour un gène ou
un locus donné
Recombinaison
génétique : le
phénomène
conduisant à
l’apparition, dans
une cellule ou dans
un individu, de
gènes ou de
caractères
héréditaires dans
une association
différente de celle
observée chez les
cellules ou
individus
parentaux.
LE MODELE DU COALESC ENT
Problématique :
Avant l’introduction de la théorie du n-coalescent, les modèles utilisés
en génétique des populations représentaient l’évolution d’une
population dans le sens naturel du temps : on déduisait, à partir d’une
population de départ, des résultats concernant les générations
subséquentes engendrées selon des règles bien précises. L’étude des
polymorphismes se faisait ainsi : une fois les données collectées, on
émettait un scénario possible de généalogie de l’échantillon en estimant
l’arbre généalogique sans prendre en compte les possibles
recombinaisons.
1. Principe
L’approche de la génétique des populations par le modèle du ncoalescent est différente, il s’agit d’une approche rétrospective. En
effet, on travaille dans ce cas en examinant l’histoire ancestrale d’un
échantillon de départ. L’étude des polymorphismes se fait alors ainsi :
une fois les données collectées et toutes les généalogies possibles prises
en compte, y compris celles incluant des recombinaisons génétiques, on
estime l’arbre généalogique de l’échantillon grâce à des méthodes
statistiques de maximisation de la vraisemblance des données. Les
avantages de cette méthode sont que celle-ci permet de choisir entre les
différents modèles possibles en utilisant des méthodes statistiques
standards et qu’elle permet de prendre en compte aisément différents
phénomènes géographiques tels que les migrations et les ad mixture.
2. Temps de coalescence
Pour nos travaux futurs, il nous sera utile de pouvoir estimer le temps
écoulé entre l’apparition d’une mutation et celle d’un allèle dans une
population. La probabilité que deux lignées coalescent directement à la
génération précédente correspond à la probabilité que ces deux lignées
possèdent un parent commun. Considérons une population diploïde de
taille N, pour chaque allèle, il y a 2N parents possibles donc la
probabilité que deux allèles possèdent un parent commun est égale à
et inversement, la probabilité que les deux lignées ne coalescent pas à la
génération précédente vaut
Ainsi, si l’on considère T la variable
aléatoire correspondant au temps de coalescence entre deux lignées, T
est une variable discrète suivant une loi géométrique de paramètre , la
probabilité que deux lignées coalescent au temps t correspond à la
probabilité qu’elles ne coalescent pas au t – 1 précédentes générations
pour coalescer à la t-ième génération, soit, en notant (
) cette
) (
probabilité, on a : (
)
. En outre, dans le
cas qui nous intéresse, nous étudions des populations de grandes tailles,
nous pouvons alors approcher cette distribution par une distribution
exponentielle, soit : (
)
( )
9
.
6
4
5
3
2
1
8
7
Figure 2 Exemple d'arbre de coalescence généré avec MS pour une population haploïde de 6
individus.
EFFECTIF EFFICACE D’ UNE POPULATION
Dérive
génétique :
modification de la
fréquence d'un
allèle, ou d'un
génotype, au sein
d'une population,
pour une raison
autre que les
mutations, la
sélection naturelle
ou les migrations.
1. Définition
Dans les populations naturelles, tous les individus ne participent pas au
processus reproductif ce qui permet de définir un effectif « efficace » de
la population comme étant l’effectif d’une population idéale (de type
Wright-Fisher) pour laquelle on aurait une fluctuation du
polymorphisme équivalente à celle de la population naturelle. Il s’agit
donc du nombre d'individus d'une population idéale pour lequel on
aurait un degré de dérive génétique équivalent à celui de la population
réelle.
Pour une population, l’effectif efficace est alors défini comme la
moyenne harmonique des effectifs précédents de la population :
∑
2. Cas de l’espèce humaine
Dans le cas de l’espèce humaine, l’hypothèse courante est que la
population était constante à 10 000 individus d’il y a 200 000 ans à il y a
100 000 ans puis, a connu une croissance exponentielle, passant de
10 000 à 10 milliards d’individus d’il y a 100 000 ans à aujourd’hui. En
comptant une génération tous les 20 ans, on arrive à une moyenne
harmonique de 18 648 individus pour les derniers 200 millénaires. Ainsi,
on s'attend à ce que la variabilité génétique et moléculaire de l'espèce
humaine soit comparable à celle d'une population idéale d'environ
20 000 individus.
10
LE LOGICIEL MS
Le logiciel MS permet de générer des échantillons de données génétiques sous des
hypothèses de migration, mutation, recombinaison…
L’algorithme de formation des échantillons est basée sur la théorie du coalescent
précédemment décrite.
OBJECTIFS
L’étude du polymorphisme génétique est une question centrale de la génétique des
populations : sa compréhension permet de retracer l’histoire d’une population et de
ses individus.
Le logiciel MS permet d’analyser les différents polymorphismes observés au sein de
populations. Pour ce faire, le logiciel propose différents types de simulations de jeux
de données en appliquant différentes hypothèses concernant la migration, la
recombinaison, etc.
PRINCIPE/LE COALESCE NT
Les échantillons sont générés en s’appuyant sur la théorie du coalescent où la
généalogie aléatoire de l’échantillon est générée en premier lieu puis les mutations y
sont placées de manière aléatoire.
LES PRINCIPAUX PARAM ETRES DES SIMULATIONS
Chaque simulation nécessite le réglage de deux paramètres obligatoires : le
nombre d’individus par échantillons nsam suivi du nombre d’échantillons nreps,
auxquels s’ajoute un troisième paramètre qui dans notre cas sera le paramètre de
mutation . Le paramètre de mutation est défini de la manière suivante : il est égal à
où
représente l’effectif efficace de la population diploïde dont les
individus sont issus et le taux de mutation pour le locus considéré.
Par exemple, dans le cas de l’étude d’une population humaine, en ce qui
concerne le taux de mutation, il est estimé qu’il se produit environ 2
mutations par base par génération. Ainsi, sur une génération, une base de
nucléotides subira 2
mutations. Ainsi, sera estimé comme étant égal à
2
,
étant le nombre de paires de
base pour le locus considéré.
11
MODELES
MS permet de simuler différents scénarii d’évolution d’une population. Nous allons
présenter ici ceux qui nous ont été utiles au cours de nos expériences.



L’ad mixture/Les modèles en île
On modélise ici le scénario suivant : des individus de plusieurs sous-populations
migrent de l’une à l’autre.
Les paramètres à régler sont :
Le nombre d’individus ainsi que leur répartition au sein des différentes souspopulations
Le taux de mutation
Le taux de migation pour chaque sous-population (c’est-à-dire, pour chaque souspopulation, le nombre de migrants par génération)
Les microsatellites
Chez les eucaryotes, les microsatellites sont généralement présents en grand
nombre dans le génome d’une espèce. Un microsatellite est une séquence d’ADN
constituée d’une répétition continue de motifs composés de 2 à 10 nucléotides. Les
motifs répétés sont souvent des motifs de 1, 2, 3, ou 4 paires de base. Par exemple,
le motif composé de deux nucléotides (CA) est présent dans l’ADN tous les 25 kilo
bases.
Le paquetage fournit par l’auteur de MS contient la fonction microsat.c qui
permet de transposer le format de sortie des données issues d’une simulation en
terme de variation du nombre de microsatellites pour chaque individu. L’algorithme
implémenté par MS est une marche aléatoire : la variable aléatoire correspondant au
nombre de microsatellites est incrémentée de 1 ou diminuée de 1 d’une génération à
l’autre de façon équiprobable. L’intérêt de l’utilisation de ce paquetage est qu’il
fournit des données qui nécessitent moins de manipulations avant d’être passées à
STRUCTURE.
12
LE LOGICIEL STRUCTURE
OBJECTIFS
Liaison
génétique : il
s’agit de la
tendance, pour des
allèles de différents
gènes, d’être
transmis ensemble
d’une génération à
l’autre.
Haplotype : un
haplotype désigne,
chez un individu,
l’ensemble des
différents gènes
présents et
génétiquement liés
sur un même
chromosome.
Le programme STRUCTURE implémente une méthode de
clustering pour l’inférence de la structure génétique de populations à
partir de données génétiques sous la forme de marqueurs indépendants.
L’objectif est de , sur la base de leur génotype, grouper les individus en
populations mais aussi estimer leur degré d’introgression/hybridation,
inférer l’origine d’un locus en particulier et estimer le nombre de
populations.
HYPOTHESES
Toutes les populations inférées sont considérées être à l’équilibre
de Hardy-Weinberg et on fait l’hypothèse d’équilibre de liaison
entre loci au sein des populations. La notion d’équilibre de liaison
génétique entre deux loci reflète le fait que les allèles présents à l’un des
locus s’associent au hasard aux allèles présents à l’autre locus. Ainsi, la
fréquence d’observation au sein d’une population d’une combinaison
d’allèles est égale au produit des fréquences d’observations individuelles
des allèles.
PRINCIPE/L’INFERENCE BAYESIE NNE
1) Inférence de la structure génétique
L’algorithme utilisé est une algorithme d’inférence reposant sur des
principes d’analyse statistique bayésienne.
Le principe est le suivant :
Soient X le vecteur aléatoire correspondant aux génotypes des
individus échantillonnés, Z correspondant aux populations d’origine des
individus, et P aux fréquences alléliques dans chacune des populations.
Sous les hypothèses précédemment citées, la loi de
est
complètement connue.
Alors, après avoir spécifié les priors Z et P, la règle de Bayes permet
de déduire la loi de
(en effet,
(
( ) ( ) (
)
)). Pour ce faire, un algorithme
basé sur la méthode de Monte Carlo permet d’obtenir des couples de
solutions approchées (Z1, P1), (Z2, P2)…
13
2) Inférence du nombre K de populations
Selon la règle de Bayes, la détermination du nombre K de populations se fait à
(
posteriori, en sachant : (
)
) ( ). Cependant, la distribution ainsi
définie à posteriori peut varier de manière notable en fonction des hypothèses de
modélisation et l’estimation de (
) est une tâche délicate. Ainsi, une méthode
d’estimation ad hoc a été préférée, supposant que
suit une loi exponentielle.
MODELES
Le logiciel STRUCTURE implémente quatre modèles de base pour
l’ascendance d’un individu : le modèle sans introgression (no ad mixture model), le
modèle avec introgression (ad mixture model), le modèle chromosomique avec
recombinaison (linkage model) et le modèle avec dérive (using prior population
information). Notons K le nombre de populations inférées.
Le modèle sans introgression :
On émet dans ce modèle l’hypothèse selon laquelle chaque individu provient
exclusivement d’une des K populations inférées c’est-à-dire que tous les gènes d’un
individu proviennent d’une unique population parmi les K possibles. Le résultat sera
alors la probabilité a posteriori que l’individu i appartienne à la population k. Le
prior, ici la probabilité qu’un individu i appartienne à la population k est égal à .
Le modèle avec introgression :
Dans ce modèle, les différents gènes d’un individu peuvent être hérités de
différentes populations. On s’intéresse alors à la proportion Q des gènes d’un
individu provenant de la population k. Le résultat délivré par STRUCTURE sera
alors l’estimation moyenne a posteriori de ces différentes proportions.
Le modèle chromosomique avec recombinaison :
Ce modèle permet de prendre en compte le déséquilibre de liaison lié à
l’introgression c’est-à-dire les corrélations entre loci génétiquement liés du fait d’un
évènement d’ad mixture récent entre les populations. Le modèle de base est le
suivant : si l’on remonte de t générations dans le passé, il y a eu un évènement d’ad
mixture qui a mélangé les K populations. Un chromosome d’un individu descendant
de ce mélange sera alors constitué de différentes « portions » héritées des différentes
populations. Le déséquilibre de liaison apparait alors parce que des allèles
génétiquement liés sont souvent sur la même « portion » de chromosome et
proviennent donc d’un même ancêtre.
Le modèle avec dérive :
Ce modèle prend en compte des informations autres que les données purement
génétiques telles que des caractéristiques physiques des individus échantillonnés ou
des répartitions géographiques.
14
EXPERIENCES
PROCEDE
Nous allons partir de modèles créés grâce au logiciel ms que nous allons
analyser avec le logiciel Structure afin de tester le bon fonctionnement de celui-ci et
de déterminer ses limitations.
Première expérience
« LE MODELE EN ILES »
Présentation du modèle :
Il s’agit ici d’étudier un modèle avec deux sous-populations qui reçoivent
chacune des migrants venant de l’autre sous-population.
Objectifs :
L’intérêt est de s’assurer que STRUCTURE détecte bien la présence des deux
sous-populations à partir du modèle généré par MS. Pour cela, nous allons faire
varier la composition des populations et les taux de migrations afin d’observer le
comportement de STRUCTURE face aux données reçues.
Création des données avec ms :
Nous allons considérer un locus humain de 1000 paires de bases. Nous avons
donc :
Nous nous intéresserons à 10 000 individus répartis en deux souspopulations. Nous allons commencer notre étude en faisant varier le taux de
migration que nous choisirons symétrique dans un premier temps.
15
Nous avons donc effectué un premier test en simulant un modèle en îles de la
manière suivante :
Chaque génération, 0.03 % de
la pop. 1 provient de la pop. 2
Sous-population 1
Sous-population 2
Chaque génération, 0.03 % de
la pop. 1 provient de la pop. 2
Au départ, 10 000 individus étaient répartis en deux sous-populations distinctes
(chacune comptant 5 000 individus).
Nous avons alors défini la matrice de migration M suivante :
(
)
Ainsi, à chaque génération et pour chacune des deux populations, 3 individus
sur 100 proviennent de l’autre sous-population. La taille des deux sous-populations
étant constante, à chaque génération 150 individus d’une des sous-populations
proviennent de l’autre sous-population.
Par ailleurs, nous avons choisi d’étudier ces populations à partir des données
concernant 50 loci, nombre qui au vu des manipulations préalables qui nous avait
permises de prendre en main STRUCTURE nous paraissait suffisant.
Nous avons donc simulé ces données via MS à l’aide de la commande suivante :
./ms 10000 50 -t 1 -I 2 5000 5000 -ma 0.0 0.03 0.03 0.0
Les données récoltées ont ensuite été manipulées à l’aide du logiciel R afin d’avoir
un jeu de données exploitables par STRUCTURE.
16
Nous avons alors demandé à STRUCTURE d’inférer la provenance de chaque
individu en faisant l’hypothèse qu’il y avait au départ deux populations. Parmi les
modèles d’inférence proposés par STRUCTURE, nous avons naturellement choisi
le modèle avec ad mixture correspondant à notre modélisation via MS.
Nous avons obtenu le résultat suivant :
Figure 3 Inférence de la structure génétique d'individus provenant de deux populations
Ainsi, dans ce cas, le logiciel a bel et bien détecté les deux sous-populations et a
correctement réparti les différents individus.
Le taux de migration étant assez faible, nous nous attendions à ce que
l’inférence soit correcte. Nous nous sommes alors intéressés à une autre option
proposée par le logiciel, celle qui permet d’inférer le nombre de sous-populations de
départ. Pour ce faire, il suffit de répéter la même inférence avec à chaque fois un
nombre de populations présumées différent. La probabilité a posteriori (
),
i.e. la probabilité des observations connaissant le nombre de sous-populations est
désigné dans les résultats par : « Estimated Ln Prob of Data ».
Nous obtenons les résultats suivants :
K
1
2
3
4
5
( )
l ( (
))
-829667.1
≈0
-511802.5
2.27e(-5)
-510750.2
0.50
-514656.6
5.77e(-18)
-510769.7
0.50
17
Associés aux répartitions suivantes :
Nombre de populations K = 2
K=3
K=4
K=5
Il est ainsi surprenant de constater que d’après l’inférence réalisée par
STRUCTURE, le nombre de sous populations le plus vraisemblable pour ce
génotype est de 3. Par ailleurs, pour ce nombre, STRUCTURE estime que 50 % des
individus proviennent de deux sous-populations et que les 50 % restants
proviennent d’une troisième sous-population. Ainsi, dans ce cas, le logiciel ne trouve
pas le bon résultat.
En revanche, lorsqu’on lui fournit le nombre correct de sous-populations de
départ, STRUCTURE donne la bonne inférence en répartissant les individus en
deux sous-populations distinctes et ce, même pour des taux de migration élevés.
18
Deuxième expérience
« LES MICROSATELLITES »
Après avoir testé le cas simple de deux populations qui échangent des migrants,
nous avons voulu testé STRUCTURE sur un cas plus compliqué : le cas où
différentes populations se mélangent à des temps donnés. STRUCTURE fournit
alors différentes inférences et indique la vraisemblance de chacune. Nous allons
donc lancer plusieurs inférences et analyser les résultats produits par STRUCTURE.
Nous avons pour cela utilisé la fonction microsat fournie par MS à l’aide de
laquelle nous avons simulé un jeu de données concernant 377 loci chez 98 individus
et après traitement des données via R, nous avons lancé l’analyse des données sous
STRUCTURE en faisant l’hypothèse qu’il y avait au départ 4 populations. Le
scénario est le suivant : au départ, il y avait 4 populations distinctes. Au bout d’un
certain temps t1, deux sous-populations se sont mélangées et au bout d’un certain
temps t2, une troisième s’est mélangé à la population résultante. Ensuite, au bout
d’un temps t3, la dernière sous-population s’est mélangée à la population formée des
trois autres sous-populations.
t
On a représenté ici le scénario
simulé sous MS où les 4
sous-populations se mélangent
progressivement
au cours du temps.
t3
t2
t=0
t1
1
2
3
4
Nous avons simulé les données à l’aide de la commande MS suivante :
./ms.exe 98 377 –t 7.1 -I 4 30 30 24 14 –ej 0.05 2 1 –ej .0.15 3
1 –ej 0.6 4 1 –n 1 6 –n 2 7 –n 3 700 –n 4 11 –g 1 10 –g 2 10 –g 3
18 –g 4 14 –em 0.12 1 3 200 | ./microsat
Les options utilisées ici précisent les temps t1, t2, et t3, ainsi que des hypothèses
sur les tailles des populations et leur croissance au cours du temps. Nous avons
ensuite demandé l’analyse des données via STRUCTURE cinq fois en gardant les
mêmes paramètres, nous avons obtenu les résultats suivants :
19
Simulation n°1
Simulation n°2
Simulation n°4
Simulation n°5
Simulation n°3
Les vraisemblances des différentes simulations sont les suivantes :
Numéro de la simulation
1
2
3
4
5
))
l ( (
-69731.1
-67103.7
-66912.5
-66141.8
-66170.4
Ainsi, au vu des données fournies à STRUCTURE, le modèle le plus
vraisemblable est celui de la simulation 4 alors que le modèle le plus proche du
scénario original est les modèle de la simulation n°5. Par ailleurs, on peut s’étonner
ici du fait d’obtenir avec les mêmes paramètres des résultats très différents.
20
ANALYSE DES RESULTATS ET
CONCLUSION
INFERENCE DU NOMBRE DE POPULATIONS DE DEPART
L’expérience ici décrite ainsi que celles que l’ont peut trouver dans la littérature
montrent que l’estimation a posteriori du nombre de populations est une tâche
délicate et imprécise et les auteurs du programme précisent bien dans la
documentation que cette estimation n’est qu’une approximation ad hoc du nombre
de populations.
Ainsi, il ne vaut mieux pas utiliser STRUCTURE pour inférer le nombre de
populations de départ d’un échantillon. En effet, en augmentant K, on augmente le
degré de liberté du modèle donc on s’attendrait théoriquement à une augmentation
de la vraisemblance des données or comme on a pu le constater, ce n’est pas le cas.
Ainsi, il y a un problème de convergence dans le modèle d’estimation a posteriori de
K comme étant celui qui maximise la vraisemblance des données.
ETUDE DE MODELES COMPLEXES AVEC DE MULTIPLES
EVENEMENTS DE COALESCENCES
Notre seconde expérience montre des comportements différents du logiciel
sans modification du jeu de données ni des paramètres de simulation. Sur cinq
simulation, une seule était correcte et ce n’était pas celle qui était jugée comme étant
la plus vraisemblable par STRUCTURE.
CONCLUSION
Pour rappel, l’algorithme de clustering utilisé par STRUCTURE est le suivant :
En notant X les génotypes des individus échantillonnés, Z les populations d'origine,
P les fréquences alléliques dans les populations et Q proportion des locus provenant
de la population K :
Initialisation :
1. Les valeurs de Z sont tirées dans le prior
Boucle :
2. Les fréquences P sont estimées à partir des individus assignés à
chaque population lors de l’étape précédente
3. Les individus sont assignés aux populations Z à partir des
fréquences alléliques P calculées précédemment
Des paramètres de simulation adaptés (i.e. un nombre élevé de tours de boucle)
devraient permettre à P et K de converger vers les bonnes distributions.
Cependant, nous avons vu à travers les deux cas précédents que ces deux variables
ne convergent pas toujours vers les bonnes distributions, et ce probablement à
cause des estimations approchées des couples (Z1, P1), (Z2, P2)…
Des améliorations futures pourraient donc être apportées en explorant d’autres
méthodes plus stables pour l’estimation de ces couples de valeurs.
21
BIBLIOGRAPHIE
Précis de génétique des populations, Jean-Pierre Henry, Pierre-Henri Gouyon, Masson,
Paris 1998
A primer of population genetics, Daniel L.Hartl, sinauer 3e éd., 2000. ISBN 087893-304-2.
Genealogical trees, coalescent theory and the analysis of genetic
polymorphisms, NA Rosenberg, M Nordborg - Nature reviews genetics, 2002
Hudson, R.R. (2002) Generating samples under a Wright-Fisher neutral model
of genetic variation. Bioinformatics 18: 337-338.
Inference of population structure using multilocus genotype data, Jonathan K.
Pritchard, Matthew Stephens, and Peter Donnelly, Department of statistics, University of Oxford
22
Téléchargement