Résumé - Prodinra

publicité
Résumé
Le Laboratoire de Génétique Cellulaire de l’INRA de Toulouse – Auzeville étudie
principalement le génome des espèces animales domestiques, dans ses aspects fonctionnels et
structuraux. L’activité de l’équipe de Biomathématiques de ce laboratoire s’intéresse en particulier à
l’étude de l’évolution du contenu et de la structure des génomes d’animaux de rente. Notamment, le
projet DéLiSus a pour vocation d’étudier toute l’information de la cascade biologique du gène au
phénotype, pour élucider à la fois les caractères complexes tels que la qualité des produits animaux et
l’histoire évolutive d’un ensemble de populations, mais aussi voir les effets de la sélection, repérer les
polymorphismes génétiques liés à des caractères de production, et tenter d’améliorer la génétique des
populations porcines, ...
Mon stage s’inscrit dans ce projet et a pour objectif d’inférer l’histoire évolutive des
populations porcines à partir de données de génotypage à haut débit (marqueurs génétiques de type
SNP pour Single Nucléotide Polymorphism).
Afin de répondre à cet objectif, des analyses statistiques ont été menées, visant à implémenter
la méthode ABC (Approximate Bayesian Computation), qui permet de s’affranchir de l’écriture de la
fonction de vraisemblance.
Les résultats de ce stage constituent un premier pas motivant pour continuer les recherches
visant à mieux comprendre l’inférence de l’histoire évolutive des races porcines à partir des données
de marqueurs génétiques SNP.
Table des matières
Table des illustrations
Introduction
La domestication par l’homme de certaines espèces animales est le résultat d’une histoire
ancienne complexe, de programmes de reproduction et de sélection intensifs modernes. Cependant
l’histoire évolutive de ces espèces est encore peu connue en détail, notamment, l’histoire évolutive de
la population porcine. En effet, la divergence historique des races de porcs actuelles de leur ancêtre
sauvage proche du sanglier et l’impact des programmes de sélection récents sur leurs tailles
démographiques sont des éléments encore peu approfondis. Toutefois, ces informations sur l’histoire
évolutive des races porcines jouent un rôle important dans la décision pour les programmes de
reproduction durables et l’amélioration génétique de ces populations.
Mon stage s’inscrit dans le projet DeLiSus, financé par l’ANR (Agence Nationale pour la
Recherche) et BIOPORC, un groupement d’Organisations de la Sélection Porcine. Ce projet a pour
objectif d’étudier toute l’information de la cascade biologique pour élucider les caractères complexes
de l’histoire évolutive d’un ensemble de populations, mais aussi voir les effets de la sélection, repérer
les polymorphismes génétiques liés à des caractères de production, et tenter d’améliorer la génétique
des populations porcines, ... La cascade biologique comprend le génome, le transcriptome, le
protéome, le métabolome et le phénome.
Dans cette étude, nous nous intéresserons au génome et essaierons de montrer comment il est
possible à partir de données de génotypes de haut débit d’inférer l’histoire évolutive des populations
porcines. Cette démarche se fera sur des données de type marqueurs génétiques, utilisées pour
caractériser la variabilité génétique des ces populations.
La première partie de ce rapport est consacrée à la présentation plus détaillée du contexte, des
objectifs et des méthodes d’études. Dans une deuxième partie, le déroulement du stage sera mis en
valeur, avec la présentation des démarches et résultats observés.
Présentation de l’entreprise
1. L’Institut National de la Recherche Agronomique
L’Institut National de la Recherche Agronomique (INRA), créé en 1946 dans le contexte de la
reconstitution nationale d’après-guerre et du projet de modernisation de l’agriculture française, est
aujourd’hui le premier institut de recherche agronomique en Europe et le deuxième dans le monde
pour ses publications en sciences agricoles et en sciences de la plante et de l'animal. Il est placé sous la
double tutelle du ministère de l’Enseignement supérieur et de la recherche et du ministère de
l’Alimentation, de l’Agriculture et de la Pêche.
Ses recherches sont principalement menées sur trois domaines qui : l’agriculture, l’alimentation et
l’environnement. Elles sont guidées par l’évolution des questions scientifiques, et orientées par les
défis planétaires dans la perspective de développement durable.
2. Ses missions
L’INRA combine excellence scientifique et finalité sociale de la recherche. Il a pour
principales missions de :
• produire et diffuser des connaissances scientifiques ;
• concevoir des innovations et des savoir-faire pour la société ;
• éclairer, par son expertise, les décisions des acteurs publics et privés ;
• développer la culture scientifique et technique et participer au débat science/société ;
• former à la recherche et par la recherche.
3. Organisation et partenariat
L’INRA possède un dispositif de recherche unique, décentralisé et mutualisé, avec 8 390
chercheurs, ingénieurs, techniciens et administratifs, 1 833 doctorants, 14 départements scientifiques,
19 centres régionaux, une importante implication dans la mutualisation du dispositif de recherche avec
les autres organismes de recherche et l’enseignement supérieur en France et à l’étranger, une ouverture
aux transferts vers le monde socio-économique, ainsi qu’un budget de plusieurs centaines de millions
d’euros. L’INRA entretient des partenariats scientifiques avec les grands instituts de recherche
scientifique dans le monde, les universités, l'enseignement agronomique et vétérinaire, et s'engage
dans la construction de l'espace européen de la recherche. Il développe également de multiples
collaborations et échanges avec la communauté scientifique internationale dans de nombreux pays en
Europe, Amérique, Asie et Afrique, dans lesquels il est implanté.
4. Ses priorités pour l’avenir
L’INRA s'engage vis-à-vis de la société au moyen de contrats d'objectifs à 4 ans avec l'État,
afin de répondre à ses objectifs qui sont de :
• contribuer au renforcement et à l'évolution du dispositif de recherche français ;
• être acteur dans la construction de l’Europe de la recherche ;
• identifier et explorer les nouvelles questions de recherche.
La complémentarité des thématiques étudiées, celle des approches utilisées, et la diversité de ses
partenariats donnent à l'INRA une grande capacité et pertinence d'action au service de la société.
5. L’INRA de Toulouse
Le centre INRA Toulouse Midi-Pyrénées est l’une des 19 implantations de l’INRA en France.
Il est impliqué dans un grand ensemble universitaire et scientifique. Trois types de partenariat sont
développés pour mener ces recherches : un partenariat scientifique, un partenariat institutionnel et un
partenariat économique et sociétal.
a. Ses domaines de recherches
L’activité du centre s’articule autour de cinq domaines de recherche, tous en partenariat étroit
avec d’autres établissements d’enseignements supérieur et de recherche :
• Génome et amélioration des productions
• Sécurité sanitaire des aliments
• Transformation des produits
• Environnement, territoire et société
• Économie de l'environnement et des Marchés
6. Son organisation et implantation
L’INRA est organisé en « unité ». Le centre de Toulouse Midi-Pyrénées comprend 20 unités
de recherche dont 14 unités mixtes, c’est-à-dire en cotutelle avec un autre établissement
d’enseignement supérieur ou de recherche, 5 unités expérimentales et 1 unité d’appui à la recherche.
Les unités du centre sont localisées sur 10 sites. L’unité au sein de laquelle j’ai fait mon stage est le
centre de Toulouse –Auzeville, dans le laboratoire de génétique cellulaire.
7. Le Laboratoire de Génétique Cellulaire (LGC)
Le LGC est une unité mixte du département de Génétique Animale. La vocation du laboratoire est
l'étude du génome des espèces animales domestiques, dans ses aspects fonctionnels et structuraux. Les
principaux thèmes de recherche sont :
• la cartographie génétique et cytogénétique systématique (porc, poulet, mouton) et la
cartographie comparative des génomes animaux ;
• la caractérisation de la diversité génétique des races animales européennes (porc, poulet,
mouton) ;
• la localisation de gènes à effets quantitatifs (typages systématiques et méthodes statistiques) ;
• le repérage génétique et la recherche de gènes à effet majeur (brebis, porc, poulet) ;
• l'analyse informatisée et la comparaison des séquences (ADN, ARN, protéines) ;
• le développement de modèles en génétique quantitative et des populations (analyse de la
biodiversité).
Le laboratoire est composé de plusieurs équipes de recherche, dont une est dédiée aux
« biomathématiques », dans un environnement de biologistes. Cette configuration facilite les échanges
inter-disciplinaires. Le projet de l’équipe de Biomathématiques se concrétise par l’étude de l’évolution
du contenu et de la structure des génomes d’animaux de rente.
Présentation du projet
1. Quelques notions de biologie
a. Rappels de génétique
Afin de mieux comprendre le travail réalisé, nous allons rappeler quelques notions de biologie et
de génétique.
Chacune des cellules d’un organisme comporte un noyau qui contient les chromosomes. Chez les
mammifères, les chromosomes sont appariés, c’est-à-dire qu’ils vont par paires. Les chromosomes
sont constitués de molécules d’acide désoxyribonucléique (ADN). L’ADN est constitué de deux brins
enroulés en double hélice. Chaque brin est composé d’une séquence de nucléotides, c’est-à-dire d’un
groupe phosphate lié à un sucre, le désoxyribose, lui-même lié à une base azotée. Quatre bases azotées
différentes assurent la variabilité de la molécule d’ADN, ainsi que la complémentarité entre les 2
brins : l’adénine (notée A), la thymine (notée T), la cytosine (notée C) et la guanine (notée G). Les
liaisons entre les deux brins ne sont possibles qu’entre les bases A et T d’une part et G et C d’autre
part.
L’agencement des quatre bases et leur ordre le long de la molécule d’ADN définit
l’information ou code génétique qui détermine le développement et le fonctionnement d’un organisme.
L’ADN, transmis de génération en génération au cours de la reproduction, constitue le support de
l’hérédité, le génome des être vivants.
Les gènes sont situés en des endroits particuliers de chaque chromosome, correspondant à des
sites bien déterminés de la molécule d’ADN appelés loci (pluriel de locus). Les gènes d’un locus
donné agissent sur un caractère précis. Les différentes versions d’un même gène au même locus sont
appelées allèles
Au sein d’un locus, la molécule d’ADN comprend différentes zones soit un marqueur, soit un
gène. La différence entre les deux est que le second type code pour la synthèse des protéines, tandis
que le premier n’a ce jour pas de fonction connue. Les marqueurs peuvent être de différents types.
Nous considérons ici les marqueurs appelés SNP, pour single-nucleotide polymorphism. Ce sont les
variations (polymorphismes) d’une seule paire de bases du génome, entre individus d’une même
espèce. C’est variations sont très fréquentes.
Ainsi, un gène ou un marqueur peuvent avoir plusieurs « versions » différentes, appelées
allèles. Dans ce cas on dit qu’il est polymorphe, sinon on parle de monomorphisme. Les deux
chromatides d’un chromosome portent le même allèle. Cependant, dans une cellule diploïde, c’est-àdire possédant des paires de chromosomes homologues, les deux chromosomes peuvent avoir une
version différentes du même gène, un transmis par chaque parent. Ainsi, les allèles transmis par les
parents peuvent être identiques. Si un individu a deux allèles identiques en un locus donné, alors on dit
qu’il est homozygote, sinon il est hétérozygote.
On appelle génotype, la composition allélique du ou des locus étudiés chez un individu. Cela
correspond donc à la paire de chromosomes contenant les locus étudiés. Et on désigne par haplotype,
un groupe d’allèles de différents gènes situés sur un même chromosome et habituellement transmis
ensemble lors de la reproduction. On peut donc en général associer un haplotype à un chromosome
d’une paire.
8. Notions de génétique des populations
La génétique des populations est l’étude de la distribution et des changements de la fréquence
des allèles dans les populations d’êtres vivants, sous l’influence des « pressions évolutives ». Ces
changements sont un aspect majeur de l’évolution. Les pressions évolutives sont :
La dérive génétique : c’est l’évolution aléatoire des fréquences alléliques au cours des
générations due à la taille finie de la population, dans le sens où le nombre de reproducteurs est limité.
Cela peut entrainer la disparition de certains allèles au profit d’autres qui seront prédominants dans la
population après un certain temps.
La mutation : c’est la transformation d’un allèle en un autre due à une erreur dans la
reproduction du message héréditaire. Elle va transformer un allèle en un autre, nouveau ou déjà
présent dans la population. C’est un événement rare qui par conséquent est négligeable pour des temps
courts de l’évolution. Cependant, il a un rôle important dans l’évolution car c’est la seule source de
gène nouveau.
La migration : c’est le passage de gènes d’une population à une autre (par des individus qui
passent d’une population à l’autre par exemple).
La sélection : on distingue deux sortes de sélections.
-
-
La sélection naturelle : c’est l’influence de gènes sur la viabilité ou la
reproduction, c’est-à-dire sur la probabilité pour un individu d’arriver à l’âge
reproducteur ou de laisser en espérance plus de descendants.
La sélection artificielle : c’est le choix volontaire de croiser certains
individus, suivant un caractère de qualité du produit par exemple. Ce sont
donc les allèles détenus par ces reproducteurs qu’on retrouvera le plus
souvent.
La sélection et la mutation sont des événements qui agissent localement sur le génome, alors que la
dérive génétique et la migration ont des effets globaux sur l’ensemble du génome.
9. Cadre du projet
Mon stage se place bien dans le cadre de la génétique des populations puisque qu’il s’agit de
faire l’inférence de l’histoire évolutive d’un ensemble de populations. La partie à laquelle je me suis
intéressée se place au premier niveau de la cascade biologique : le génome.
Grâce à l’évolution des biotechnologies, nous pouvons maintenant obtenir des données génomiques de
haut débit. Ces données permettent de répondre à des questions scientifiques en suspens depuis des
décennies. En effet, l’observation de génotypes denses le long d’un génome en entier sur un ensemble
d’individus structurés en populations donne accès à une vision claire de la diversité génétique au sein
de la métapopulation. Ce type d’analyse repose sur des approches classiques en statistique descriptive
(ACP, MDS, CAH, …), ou sur des modèles statistiques basés sur des modèles de génétique des
populations. Ces derniers sont compréhensibles avec des connaissances de base en calcul des
probabilités. Il est aussi possible d’inférer l’histoire évolutive passée des populations, avec plus ou
moins d’incertitude. Les approches proposées dans la littérature sont souvent bayésiennes, avec une
implémentation de type MCMC (Markov Chain Monte Carlo) ou ABC (Approximate Bayesian
Computation), basée sur une mesure de distance entre données observées et données simulées.
Mon stage s’inscrit dans un projet dont l’optique d’une partie est d’inférer l’histoire évolutive
des races porcines à partir de leur ancêtre commun, le sanglier ancestral. Il fait également suite à une
étude déjà faite sur l’histoire évolutive des races porcines à partir d’un autre type de marqueurs, les
microsatellites. Pour ma part, je m’intéresserai aux informations fournies par les SNP.
10.Les données
Nous disposons d’un jeu de données sur 1150 individus issus de 357 familles, provenant de 22
populations. Chaque individu a été génotypé sur 60 000 marqueurs génétiques bialléliques (les SNP).
Le génotype à un locus est donc de la forme AA, AB ou BB. Les données m’ont été transmises sous la
forme d’haplotypes.
La structure familiale de ces populations consiste en un père et de trois descendants issus de trois
mères différentes. Nous avons donc reconstitué les haplotypes des pères et des mères grâce à ceux des
enfants.
Les races principales sont les races occidentales : Piétrains, Large White, Landrace et Duroc et
une race asiatique : Meishan. Nous ne nous intéresserons pas dans ce stage aux lignées composites ou
synthétiques, issues de croisements entre ces principales races. Dans un but de simplicité, nous nous
limiterons en fait aux trois races suivantes : Piétrains, Large White et Landrace.
Large White
Landrace
Piétrain
Nous avons donc une histoire évolutive entre ces 3 races qui peut correspondre à plusieurs
scénarios possibles. Tout d’abord, nous avons trois modèles de divergence historique envisageables
pour ces trois populations. Puis nous pouvons nous interroger sur les différents temps de divergence,
mais également sur la présence de « bottlenecks » ou goulots d’étranglement, c’est-à-dire une
réduction de la taille de population, ou au contraire d’événements d’expansion, ou alors sur la présence
de migrations entre les populations.
Ainsi, nous avons plusieurs paramètres à estimer pour inférer l’histoire évolutive de ces
races (voir Figure 8):
• Taille initiale : N0
• Taille de chaque population N1, N2, N3
• Taux de migration entre population : m12, m13, m23
• Temps de divergence : t1, t2
11.Méthodes
a. Méthode ABC
On cherche à inférer l’histoire évolutive des races porcines donc estimer les paramètres θ (les
tailles, taux de migration et temps de divergence) de ces histoires sachant les données observées (les
haplotypes multi locus), notées D.
On pense tout d’abord à l’approche bayésienne, très populaire en génétique. Dans cette
approche, c’est l’espace des paramètres qui est probabilisé, les données étant fixées. L’inférence
bayésienne se base sur la distribution a posteriori des paramètres, notée p(θ|D), combinant
l’information apportée par les observations via la fonction de vraisemblance, notée p(D|θ), et
l’information a priori résumée par p(θ).
Ainsi, l'idée de base de cette approche réside dans le fait que l'on suppose connaître une
information a priori sur les paramètres θ et que l'on peut la traduire sous la forme d'une loi a priori
p(θ). L'objectif étant donc d'utiliser cette information. Sachant que l'information contenue dans les
observations D est contenue dans P(D|θ) et l'information a priori sur θ dans p(θ), on peut utiliser la
règle de Bayes pour combiner ces deux types d'informations et définir la loi a posteriori qui contiendra
donc toute information sur θ.
La caractéristique la plus évidente de cette méthode est qu'elle intègre les connaissances a
priori que l'on peut avoir sur les paramètres. C'est également ce qui en fait une méthode controversée,
puisque le choix de la probabilité a priori n'est pas anodin et nécessite donc une idée conçue avant
l'observation. On peut bien sûr définir une probabilité a priori uniforme pour θ, mais ce n'est pas
vraiment équivalent à dire que l'on ne connaît rien de θ.
Par conséquent, dans l’inférence bayésienne, pour nos données, la distribution a posteriori
P(θ/D) est donnée par P(D/ θ) * p(θ) où p(θ) est la loi a priori des paramètres θ et P(D/ θ) est la
vraisemblance de θ. Or, il est possible que la vraisemblance soit impossible à expliciter, notamment
quand le nombre de paramètres à estimer est élevé, même s’il est possible dans certains cas
d’envisager des approximations de cette vraisemblance. L’absence d’une forme explicite de la
vraisemblance rend donc impossible l’utilisation des méthodes bayésiennes explicites (ou classiques
d’ailleurs), des chaines de Markov de Monte Carlo, ou bien du maximum de vraisemblance. C’est
pourquoi, nous avons utilisé la méthode dite ABC pour Approximate Bayesian Computation.
En effet, l’idée de la méthode ABC est d’éviter ce calcul de la vraisemblance en utilisant des
simulations de données selon un modèle avec les paramètres θ.
Ainsi, l’objectif de la méthode ABC est de simuler des jeux de données en grand nombre, en
balayant tout l’espace des paramètres, et de garder les cas proches des données observées, afin de
pouvoir ensuite remonter à l’estimation des paramètres réels grâce à l’obtention d’un jeu de
paramètres donné sachant les observations, i.e. la distribution a posteriori des paramètres.
Pour pouvoir comparer les simulations avec les données observées, l’idéal serait d’utiliser des
statistiques exhaustives, qui résument donc toute l’information des données. Cependant, ces
statistiques sont inconnues et on utilise alors des statistiques dites résumantes.
Le principe de base de la méthode ABC est :
• Tirage aléatoire des paramètres selon leur loi a priori p(θ)
• Simulation à outrance de données avec les paramètres obtenus
• Réduction des données simulées en statistiques résumantes
• Calcul des statistiques résumantes sur les données observées
• Acceptation d’un échantillon de paramètres basée sur la distance entre les statistiques
simulées et les statistiques observées selon un seuil de tolérance choisi
Ensuite, il est possible de faire une régression linéaire locale au niveau des paramètres acceptés pour
les ajuster un peu. En effet, si on trace les différentes valeurs d’un paramètre en fonction d’une
statistique résumante, les valeurs acceptées du paramètre peuvent être ajustées grâce à une
transformation linéaire de la forme θ i* = θi – b (S(y) – S(y0)), où b est la pente de la régression linéaire
observée sur les données. Ainsi, on obtient un échantillon des paramètres distribué approximativement
selon la loi a posteriori
12. Logiciel ms
Pour obtenir les simulations utilisées dans la méthode ABC, nous utiliserons le programme
ms. Ce programme sert à générer des échantillons indépendants de différentes tailles selon des
modèles neutres. On peut rajouter de la migration, de la recombinaison, des tailles de population
différentes … Ainsi, ce programme aide pour l’étude des polymorphismes. Les échantillons sont
générés selon l’approche de coalescence standard. En génétique des populations, on fait référence à la
coalescence pour décrire la réunion des lignées généalogiques d’une même espèce pour deux copies
d’un même gène ou portion de génome dans deux individus d’une population. Comme une généalogie
de séquences est décrite par un arbre, les événements de coalescence font référence aux
nœuds des arbres. Ces événements de coalescence sont la représentation d'un ancêtre commun entre
deux séquences.
Pour notre étude, nos simulations comprendront un nombre de sites polymorphiques fixés à
10. Nous ne simulerons qu’un seul échantillon comprenant plusieurs populations, dont le nombre
d’individus est identique. Nous simulerons également un taux de recombinaison, un taux de migration,
ainsi qu’une divergence entre les populations.
Ainsi, on cherche à avoir un scénario de la forme :
Nous avons donc besoin des paramètres suivants :
• Θ le paramètre de mutation, égal à 4*N0*μ, où N0 est la taille de la population et μ est le taux
de mutation pour le locus entier
• ρ le paramètre de recombinaison égal à 4*N0*r avec r le taux de recombinaison par génération
sur tout le locus
• Mig le paramètre de migration égal à 4*N0*m, où m est le taux de migration.
• t1, t2 les temps de divergence entre respectivement les sous population 1 et 3 et 2 et 3
La sortie d’une commande ms est de la forme :
ms 4 2 -t 5.0
27473 36154 10290
//
segsites: 4
positions: 0.0110 0.0765 0.6557 0.7571
0010
0100
0000
1001
//
segsites: 5
positions: 0.0491 0.2443 0.2923 0.5984 0.8312
00001
00000
00010
11110
La première ligne est la ligne de commande. La seconde ligne montre les numéros aléatoires
du numéro de l’échantillon. La ligne commençant par « segsites : » contient le nombre de sites
polymorphiques simulés pour chaque haplotypes. Puis nous avons les positions de ces sites dans le
locus dans une échelle de 0 à 1. Ces positions sont aléatoires et indépendantes, tirées d’une distribution
uniforme. Ensuite, nous avons l’haplotype de chaque chromosome simulé, sous la forme d’une suite
de 0 ou de 1.
Au début de notre projet, nous avions dans l’idée de simuler des échantillons de 10
SNP sur un segment de 500 000 bases.
Ma contribution au projet
Dans la perspective d’utiliser la méthode ABC pour comparer les différents scénarios de
l’histoire évolutive des races porcines, plusieurs étapes ont été nécéssaires.
1. 1ère étape : validation des statistiques
La première étape consiste à choisir les statistiques qui vont servir à résumer les données. Dans
notre projet, les statistiques utilisées sont des statistiques basées sur les haplotypes et le déséquilibre de
liaison.
Le déséquilibre de liaison est l’association non aléatoire d’allèles appartenant à des locus
différents. Le déséquilibre de liaison dépend donc de la distance physique entre les locus et est
influencé par les « pressions » évolutives (voir rappel de génétique). Pour les statistiques basées sur le
déséquilibre de liaison, nous avons calculé des mesures dérivées : le coefficient de corrélation r et le
D’.
Le coefficient de corrélation se calcule pour 2 locus i et j sur un ensemble d’haplotypes de la
manière suivante. D’abord on calcule la valeur appelée déséquilibre de liaison, égale à d = f 11 –f1j * fi1
avec f11 la fréquence d’avoir l’allèle 1 aux deux locus et f 1j la fréquence d’avoir l’allèle 1 au locus i et
fi1 la fréquence d’avoir l’allèle 1 au locus j, ie , idem pour les autres.
Puis le coefficient de corrélation r vaut . Le coefficient de corrélation est mieux interprétable au carré
donc nous calculerons le r2.
De plus, nous utiliserons également une autre mesure du déséquilibre de liaison, le D’. Ce
dernier se calcule de la manière suivante :
Si d > 0, alors on calcule la valeur dmax = min ( ( f1j * ( 1-f1j ) , fi1 * ( 1-fi1) )
Si d < 0, alors on a dmax = min ( ( f1j * ( 1-fi1 ) , fi1 * ( 1-f1j) )
Et ainsi, . On utilisera la valeur absolue du D’.
Ensuite, nous avons créée des classes de distances intra-locus. C’est-à-dire que pour les 10
sites polymorphiques simulés, les statistiques sur le déséquilibre de liaison sont calculées sur toutes les
paires de sites. Toutes ces paires correspondent à des distances (distance entre les 2 locus) qui sont
ensuite classées dans des classes de distance.
Ainsi, pour nos statistiques qui contiennent l’information de l’histoire des populations, nous avons
songé, au départ, aux statistiques :
• Nombre total d’haplotypes
• Nombre d’haplotypes communs à toutes les populations
• Nombre d’haplotypes communs à 2 populations
• Nombre d’haplotypes pour chaque population
• Fréquence de l’haplotype le plus fréquent pour chaque population
• r2 moyen pour chaque population
•
•
•
•
D’ moyen pour chaque population
r2 moyen pour chaque classe de distance intra-locus et chaque population
D’ moyen pour chaque classe de distance intra-locus et chaque population
la corrélation entre le R2 entre 2 populations pour chaque classe de distance intra-locus
a. Etude de la densité des statistiques
Pour voir si ces statistiques sont pertinentes, nous avons, pour 2 populations de 50 haplotypes
chacune sur 10 SNP, comparé différents scénarios d’histoire évolutive en étudiant les densités des
différentes statistiques calculées. Nous avons ainsi calculé les statistiques pour des simulations pour
lesquelles seul un paramètre variait sur 5000 simulations.
13. Variation de la taille initiale de la population
Tout d’abord, nous faisons varier la taille initiale de la population entre 1000 et 500 individus (en
rouge sur le graphique). Ainsi, nous obtenons des graphiques représentant la densité de chaque
statistique calculée pour les deux scénarios différents, comme on peut le voir ci-dessous quelques
exemples sur certaines statistiques.
On peut donc remarquer que pour un scénario dont la taille de la population initiale est plus
petite, les statistiques sur les nombres d’haplotypes sont moins élevées en moyenne. En effet, le
nombre d’haplotype total, le nombre d’haplotype commun aux deux populations et le nombre
d’haplotype pour chaque population sont en moyenne plus petits.
On observe également un effet sur les statistiques basées sur le déséquilibre de liaison
puisqu’il y a plus de probabilité d’avoir des plus grandes valeurs du r2 et des valeurs extrêmes (0 et 1)
pour le D’ pour une taille de population plus petite.
14. Variation du taux de migration
Ensuite, nous faisons varier le taux de migration entre un scénario sans migration et un scénario
avec un taux de migration de 0.01 (en rouge).
Nous remarquons que pour un scénario avec de la migration, le nombre d’haplotypes communs et
celui par population est plus élevé. Les fréquences de l’haplotype le plus fréquent sont moins élevées
en moyenne.
De plus, nous observons que pour un scénario avec migration, il y a plus de probabilité d’avoir
des petites valeurs du r2 et du D’ alors que pour un scénario sans migration, la probabilité d’avoir des
grandes valeurs est plus forte.
15. Variation du temps de divergence entre les 2 populations
Enfin, nous opérons un changement sur le temps de divergence entre les deux populations : un à
0.1 et un à 0.3 (en rouge).
On observe que le nombre d’haplotype commun et par population sont plus petits pour un
temps de divergence plus ancien.
De plus, on peut noter qu’il y a un peu plus de probabilité d’avoir des r 2 plus élevés pour un
temps de divergence plus récent.
Grâce à ces études, on peut observer que les changements de scénarios ont un effet sur les
différentes statistiques calculées et sont donc pertinentes pour l’étude de l’histoire évolutive.
Cependant nous avons remarqué que pour le calcul de la corrélation du r 2 entre 2 populations,
le nombre d’observations utilisé est trop faible, donc la statistique n’est pas assez représentative des
données. Nous avons donc décidé de supprimer cette statistique.
Nous allons maintenant voir si toutes les statistiques sont importantes, c’est-à-dire s’il est
possible ou non de regrouper plusieurs statistiques dans une combinaison linéaire. Pour cela, nous
étudions l’analyse en composantes principales. Ces analyses sont calculées à partir des résultats
obtenus sur des simulations de deux populations avec 50 haplotypes chacune, une taille efficace de
1000, un taux de migration nul et un temps de divergence entre les deux populations de 0.1.
16. Analyse en Composantes Principales
Nous ne présenterons que les graphes associés aux trois premiers axes car ils contiennent le
plus d’information et expliquent environ 50% de la variance.
On trace tout d’abord le graphe correspondant aux axes 1 et 2.
Figure : Axe 1 et 2 de l'ACP
On peut voir que l’axe 1 est corrélé positivement avec le nombre total d’haplotypes, le
coefficient D’ pour les 2 populations et le D’ pour la population 2 et la classe 1. De plus, cet axe est
corrélé négativement avec les la fréquence de l’haplotype le plus fréquent pour les deux populations.
En ce qui concerne l’axe 2, on observe une corrélation positive avec les coefficients r 2 et D’ pour la
population 2 et principalement pour la classe 2. Ensuite, on remarque une corrélation négative avec les
coefficients r2 et D’ pour la population 1 et principalement pour la classe 1.
Ensuite, nous représentons les axes 1 et 3.
Figure : Axe 1 et 3 de l'ACP
On peut voir que l’axe 1 est bien sûr corrélé avec les mêmes variables que décrites ci-dessus (les
fréquences, le D’ et le nombre total d’haplotypes). Puis l’axe 3 est corrélé positivement avec les
variables sur le nombre d’haplotypes communs, et le nombre d’haplotypes de la population 2, aussi le
nombre total d’haplotypes. On observe également une corrélation négative avec les coefficients r 2 et
D’ pour la population 2.
Si on regarde maintenant la représentation des axes 2 et 3, on retrouve les mêmes corrélations.
Figure : Axe 2 et 3 de l'ACP
On peut noter qu’il existe bien des corrélations entre certaines variables. Cependant, ces
corrélations ne sont pas énormément marquées et ce sont des corrélations qui soit opposent les 2
populations sur un axe, soit qui regroupent des variables qu’on imaginait bien être assez semblables,
comme les r2 et D’ puisqu’elles sont basées toutes les deux sur le déséquilibre de liaison. Nous
décidons donc de garder toutes les statistiques.
Pour finir, pour la méthode ABC, nous ne pourrons pas baser notre inférence sur les
distributions des statistiques. Nous les résumerons plutôt par la moyenne et la variance de chacune des
statistiques, sur un nombre de simulations que nous avons fixé à 500. Au départ, nous comptions faire
la moyenne et la variance sur 5000 simulations. Mais pour avoir un gain de temps de calcul, et après
une comparaison entre les statistiques résumantes calculées sur 5000, 1000 ou 500 simulations, nous
avons remarqué que les différences ne sont pas énormes donc 500 simulations pouvaient suffire.
17.2ème étape : étude sur les vraies données
La deuxième partie de l’étude consiste à étudier les vraies données et à calculer les statistiques
sur ces données.
Ces données sont les haplotypes des pères et des mères reconstitués à partir de ceux des
enfants pour les différentes races de cochons pour les 18 chromosomes du génome porcin. Nous avons
donc deux haplotypes par individu. Ces haplotypes sont sous la forme d’une suite d’allèles notés A, C,
T, G ou h ou 0 qui correspondent aux nucléotides de l’ADN et un h ou 0 si indéterminé, c'est-à-dire
qu’avec l’haplotype de l’enfant et donc ses 2 allèles pour chaque locus, on ne sait pas lequel appartient
au père ou à la mère. De plus, nous avons également un fichier contenant les deux allèles normalement
possibles (c’est-à-dire s’il n’y a pas eu de mutations ou erreurs de typage) pour chaque locus ainsi que
la position du locus sur le chromosome. Chaque chromosome ne comporte pas le même nombre de
locus étudiés.
Tout d’abord, nous avons sélectionné les individus auxquels on voulait s’intéresser pour notre
première approche de l’histoire évolutive, c’est-à-dire les individus des trois races étudiées : Piétrains,
Large White et Landrace. Etant donné que le nombre d’individus par race est différent mais que nous
avons choisi de simuler des populations de même taille pour le début, nous avons décidé de garder
seulement 60 haplotypes par race, c’est-à-dire 30 individus, dans le but de garder un maximum
d’information tout en restant proche de la forme des simulations.
Pour chaque chromosome, nous avons découpé l’ensemble des locus étudiés en paquets de 10
SNP pour ensuite calculer toutes les longueurs de ces segments de 10 SNP. Nous avons ainsi regardé
la distribution des ces longueurs pour regarder si le fait de simuler des segments de 10 SNP sur 0.5
mégabases (longueur attendue pour un génome de mammifère) est pertinent ou pas.
Nous avons remarqué que pour chaque chromosome la distribution des longueurs est assez
similaire, mais qu’il y a quand même un nombre important de segments avec une longueur supérieur à
0.5 Mb. Nous avons donc décidé de supprimer les segments dont la longueur est supérieure à 1Mb. Et
pour essayer de faire des simulations proches de la réalité, les longueurs des segments simulés seront
tirées aléatoirement dans la liste de toutes ces longueurs observées. De plus,, nous définissons nos
classes de longueur comme suit : [0, 100 000 bases], [100 000, 250 000], [250 000, 500 000] et
[500 000 et 1 000 000] (en bases).
Ensuite, nous avons dû transformer le fichier des données pour les mettre sous la même forme
que les simulations obtenues avec le programme ms, c'est-à-dire en paquets de 10 SNP avec 2 allèles
possibles : 0 ou 1. Pour cela, nous avons transformé chaque SNP en 0 ou en 1 en les comparant avec
les 2 allèles possibles pour chaque SNP. Si le SNP correspond au premier allèle possible, il est
transformé en 1, s’il correspond au deuxième allèle possible, il est transformé en 0, sinon il devient
une valeur manquante, notée NA.
Enfin, nous avons découpé les haplotypes en segments de 10 SNP et ainsi pu calculer les
statistiques puis les statistiques résumantes pour chaque chromosome.
18.3ème étape : Simulations
Après avoir étudié les vraies données, nous devons maintenant faire des simulations pour pouvoir
ensuite appliquer la méthode ABC.
Nous avons vu qu’il y a plusieurs scénarios possibles de l’histoire évolutive impliquant des
migrations, des bottlenecks,… Cependant, pour simplifier ma première utilisation de la méthode, nous
avons décidé d’étudier les scénarios les plus simples, c’est-à-dire ceux dont les paramètres de taille de
population sont constants et égaux à N0 et dont le taux de migration est nul. Nous avons donc trois
paramètres à déterminer : la taille de la population initiale N0 et les deux temps de divergence t1 et t2.
Pour les simulations, nous avons codé les paramètres en logarithme base 10, car des
distributions a posteriori symétriques sont souvent observées dans la littérature sur les transformées en
log de ces paramètres. Les paramètres étudiés sont donc log 10(N0), log10(t2) et log10(différence) avec
différence qui correspond à la différence entre les deux temps de divergence. Ensuite, nous avons
choisi la loi a priori des paramètres suivant les quelques connaissances connues de l’histoire évolutive.
Nous avons donc les paramètres qui suivent une loi uniforme :
log10(N0) ~ U [1, 5], log10(t2) ~ U [1.5 , 4] et log10(différence) ~U[1.5 , 4]
Toutes ces données m’ont été données par mes tuteurs pour faciliter le travail, puisque suite à
des précédentes études, ils ont déjà une idée de l’histoire évolutive simple et donc d’un intervalle de
valeurs pour chaque paramètre.
Nous avons donc nos simulations codées avec les paramètres tirés dans des lois uniformes,
puis la longueur des segments simulés tirée aléatoirement dans la liste de toutes les longueurs des
segments sur les données réelles.
Ensuite, nous avons lancé quelques simulations pour pouvoir étudier les relations entre les
paramètres et les statistiques résumantes et voir si on obtient des résultats cohérents.
Pour le paramètre de la taille initiale, on observe par exemple les relations avec les statistiques
liées au nombre d’haplotypes, soit moyenne et variance du nombre d’haplotypes total et moyenne et
variance du nombre d’haplotypes communs.
On remarque bien que les nombres d’haplotype total et commun augmentent avec la taille
initiale de la population. De plus, on observe le même phénomène avec le nombre d’haplotype
commun entre deux populations et celui par population.
De la même façon, on peut étudier les relations pour les statistiques sur le déséquilibre de
liaison, sur par exemple la moyenne du r2 pour les différentes classes.
On voit bien que le r2 diminue lorsque la taille initiale augmente et le r 2 par classe de distance
intra-locus diminue lorsque la distance augmente. Ces relations sont également observées pour le D’.
Si maintenant on étudie le paramètre temps de divergence uniquement (les autres paramètres
étant fixés), observons que les moyennes et les variances du nombre total d’haplotypes, communs, et
par population, diminuent avec l’augmentation du temps de divergence.
Ensuite, nous remarquons que les moyennes du r 2 et du D’ sont assez stables alors que les
variances augmentent avec l’augmentation du temps de divergence.
Certaines de ces relations étaient déjà connues grâce à d’autres études antérieures, comme le
fait que le déséquilibre de liaison par classe de distance intra-locus diminue lorsque la distance
augmente. Nous pouvons donc dire que les simulations sont conformes avec la théorie.
Pour ensuite vérifier qu’une partie des paramètres simulés puisse correspondre aux vrais
paramètres, nous avons tracé sur un même graphique les résultats des statistiques résumantes calculées
sur les vraies données pour les 18 chromosomes (en rouge sur les graphiques) et les statistiques
résumantes calculées sur plusieurs simulations. Nous observons que pour certaines statistiques, les
simulations englobent parfaitement les vraies données, cependant pour d’autres ce n’est pas vraiment
encore le cas. Cela peut s’expliquer par le fait qu’il n’y ait pas encore assez de simulations, ou alors il
faut changer des paramètres de simulations, comme les lois a priori par exemple, pour s’approcher des
vraies lois.
En effet, nous pouvons observer que pour la statistique sur la moyenne du nombre total
d’haplotype, les simulations sont un peu plus faibles que les vraies valeurs, alors que pour la
statistique sur la moyenne du nombre d’haplotype commun, les simulations comprennent largement
les vraies valeurs sur les 18 chromosomes porcins.
Malheureusement, le temps a manqué pour pouvoir mener à bout l’analyse de ces résultats. En
effet, un grand nombre de simulations est nécessaire (plusieurs millions) pour utiliser la méthode
ABC, avec à chaque fois 500 simulations nécessaires pour avoir un jeu de statistiques résumantes,
écriture dans des fichiers etc… De plus, le temps d’exécutions est assez long. Je n’ai donc pas eu
l’occasion d’appliquer concrètement la méthode ABC sur mes données.
Conclusions
1. Conclusion du stage
Mon stage s’inscrit dans le domaine de la recherche. A ce titre, au début de mon stage, nous
n’avions pas l’assurance que l’analyse de l’histoire évolutive de populations porcines par une approche
centrée sur l’étude des marqueurs génétiques « SNP » soit pertinente.
De plus, la méthode ABC n’est pas encore une méthode d’analyse très répandue, ce qui a rendu
encore plus ouverte la démarche à suivre pour cette étude.
Je n’ai malheureusement pas pu obtenir de résultats tangibles sur l’histoire évolutive des races
porcines occidentales (Pietrains, Large White et Landrace), compte tenu de la durée de mon stage et de
la taille importante du fichier de données. Cependant, j’ai fait un premier pas vers l’inférence de
l’histoire évolutive neutre des principales races porcines à partir de données sous forme de marqueurs
SNP en ayant tout d’abord fait une analyse des données sous forme de statistiques, puis écrivant les
programmes nécessaires pour le dispositif utilisant la méthode ABC.
Malgré l’absence de résultats concrets, mon travail aura permis de se rendre compte que cette
approche est pertinente et ainsi d’envisager une suite à ce travail. En effet, il faut d’abord dans
l’optique d’utiliser la méthode ABC multiplier les simulations et ainsi valider un modèle neutre
d’évolution. Puis, il sera possible de tester des modèles plus complexes, avec des paramètres de
migrations, de changements de tailles …
19.Conclusion personnelle
Mon stage au sein du Laboratoire de Génétique Cellulaire de l’INRA de Toulouse m’a permis de
découvrir plus concrètement une application des mathématiques à la compréhension de phénomènes
de biologie, domaines qui m’ont toujours intéressée. Cependant, mes connaissances en matière de
génétique des populations étant très limitées, il m'a été, en début de stage, un peu difficile de me
repérer parmi de nombreuses notions nouvelles pour moi.
Tout au long de ce stage, j’ai pu mettre en œuvre des outils statistiques que j’avais appris à
manier dans mon parcours d'élève ingénieur, et approfondir ma pratique de la programmation avec le
logiciel R. J'ai également découvert une nouvelle méthode d’analyse statistique qui n'est pas encore
très répandue et qui utilise l’approche bayésienne : la méthode ABC. Tous ces éléments m’ont été très
bénéfiques, même s'il n'a pas toujours été évident pour moi de les mettre en place.
J’ai également beaucoup apprécié de travailler au sein d’une équipe. Bien que travaillant seule,
il y avait, chaque semaine environ, une réunion pour mesurer l’avancée de mon travail et discuter de la
pertinence des résultats et de l’approche. J'ai beaucoup appris dans ces réunions.
Cette expérience a été enrichissante par son apport de connaissances sur le monde du travail,
et plus particulièrement sur le monde de la recherche. J’ai ainsi pu m’en faire une idée plus précise,
qui m'aidera dans ma réflexion sur mon avenir professionnel. Je garderai un bon souvenir de ce stage,
qui m’a beaucoup apporté.
Bibliographie
1. Ouvrages et articles
[1] M. A. Beaumont and W. Zhang and D. J. Balding, Approximate Bayesian Computation in
Population Genetics, Genetics, 2002.
[2] Jean-Marie Cornuet et al. Inférence bayésienne dans des scénarios évolutifs complexes avec
populations mélangées : application à l'abeille domestique. Les Actes du BRG, 6 (2006) p163-180
[3] K. Csillery, M G.B Blum, O. E. Gaggiotti et O. François.
Approximate Bayesian Computation
(ABC) in practice, Trends in Ecology and Evolution Vol. 25 NO.7, 2010, p 410-418
[4] Jean-Pierre Henry et Pierre-Henry Gouyon. Précis de génétique des populations. Masson. 1998.
[5] M. J. Hickerson, E. Stahl et N. Takebayashi, msBayes : Pipeline for testing comparative
phylogeographic histories using hierarchical approximate Bayesian computation, BMC
Bioinformatics, 2007
[6] J. Lopes, D. Balding et M. A. Beaumont, PopABC : a program to infer historical demographic
parameter, Bioinformatics Advance Access, 2009
[7] V. Plagnol et S. Tavaré. (2004). "Approximate Bayesian computation and MCMC" (PDF), H.
Niederreiter. Springer Verlag, 2003. Proceedings of Monte Carlo and Quasi-Monte Carlo Methods
2002.
[8] Documentation sur le logiciel ms : Richard R. Hudson.
ms - a program for generating samples
under neutral models. 2009
[9] Documentation sur le package Rabc : Katalin Csillery, Michael Blum and Olivier Francois.Tools
for Approximate Bayesian Computation (ABC)
20.Sites web
•
Site de l’INRA : http://www.toulouse.inra.fr/ , copyright, 2005
•
Site du LGC : https://www-lgc.toulouse.inra.fr/internet/
•
Moteurs de recherche : http://fr.wikipedia.org
http://en.wikipedia.org
•
S. Tavaré. Approximate Bayesian Computation. 2003.
http://www.ima.umn.edu/talks/workshops/9-15-19.2003/tavare/ima5.pdf
Téléchargement