La sélection génomique dans les populations d`élevage

publicité
La sélection génomique dans les populations d’élevage
Quelques notions de génomique
Dans les généalogies des animaux d'élevage, les chromosomes (et l'ADN) sont transmis de génération
en génération. Chaque parent transmet la moitié de son patrimoine génétique à ses descendants via un
processus aléatoire, néanmoins l'information est transmise en blocs qui sont coupés au hasard (le
phénomène de recombinaison). Des animaux apparentés partagent donc une partie de leur patrimoine
génétique. Puisque les gènes influencent directement les caractères d'intérêts agronomiques, les
animaux apparentés auront des performances corrélées. Comme les informations sont transmises en
blocs (coupés par le processus de recombinaison), on peut utiliser des marqueurs génétiques présents
dans ces blocs pour déterminer quelles parties du génome sont transmises ou partagées (dans cette
modélisation, nous utilisons également la généalogie). Il est important de savoir que dans ces
populations animales, certains reproducteurs ont fortement disséminés leurs gènes et cela crée une
structure particulière. Par exemple, 10% du génome “moyen” de la population pourrait venir d'un seul
ancêtre. Dès lors, des copies de chromosomes se retrouvent disséminées dans toute la population et le
nombre de différentes copies est limité. C'est pourquoi, on peut utiliser des techniques de modélisation
basées sur les séquences alléliques et la généalogie pour déterminer les fragments de chromosomes
partagés entre individus. Ceci est essentiel car cela permet d'identifier les gènes qui influencent les
caractères d'intérêts et de faire de la prédiction génomique.
Ce processus peut être comparé à la copie d'un texte. Au départ, il y a un nombre limité de textes (les
fondateurs) et ces textes sont recopiés de générations en générations. Ils sont coupés et ré-assemblés,
recopiés parfois avec des erreurs et au final, un individu de la population actuelle est une succession de
petits fragments des textes originaux. Plus le processus est répété (nombre de générations), plus les
fragments de texte deviennent petits. Pour chaque individu, on n'observe pas l'ensemble du texte mais
quelques lettres (les marqueurs moléculaires). Néanmoins, grâce à ces lettres, il est possible de deviner
les mots et les fragments de texte. En utilisant la généalogie (d'où le texte provient – de quels parents, il
a été copié), cette prédiction est plus facile.
La sélection génomique en race Blanc-Bleu Belge
L'Association Wallonne de L'Elevage vient de commencer un projet pour faire entrer la génomique
dans les fermes de bovins Blanc-Bleu Belges. Pour ce faire, elle va génotyper une dizaine de milliers
d'animaux avec des puces de SNP (marqueurs moléculaires qui balisent le génome, représentées
comme des variables binaires). Ces animaux auront également des phénotypes, c'est-à-dire que leurs
performances pour les caractères d'intérêts agronomiques tels que la production laitière, la taille ou des
données de fertilité sont mesurées. Le but de la sélection génomique est de prédire les valeurs
génétiques (l'ensemble des variants génétiques qui influencent les caractères d'intérêts agronomiques)
de jeunes animaux à des fins de sélection. L'Unité de Génomique Animale de l'Université de Liège
située au GIGA-R assure le suivi scientifique de cette implémentation. Le projet comprend plusieurs
points:
Mise en place de la Sélection Génomique:
Modélisation des caractères étudiés: pour chacun des caractères, il s'agira d'identifier les variables
d'environnement qui influencent le caractère (l'exploitation, l'année, l'âge, le sexe), d'estimer la variance
liée aux gènes (l'héritabilité) et de proposer un modèle d'évaluation. En général, cette modélisation
repose sur des modèles mixtes. Le modèle d'évaluation officiel servira de base à cette modélisation.
Imputation des génotypes manquants: les animaux des fermes suivies seront génotypés pour une
dizaine de milliers de marqueurs. Néanmoins, nous disposons d'une population de référence de 600
taureaux qui sont chacun génotypés pour plus de 700,000 SNPs et une centaine de taureaux sera
séquencée, c'est-à-dire que l'on connaîtra tout leur génome (soit plus de 10,000,000 de variants !).
L'imputation consiste à prédire, à partir des 10,000 marqueurs et de la population de référence, tous les
génotypes manquants. Nous avons déjà développés des modèles de prédiction basée sur des chaînes de
Markov cachées et utilisant les informations généalogiques. D'autres modèles reposent sur des
“directed acyclic graphs”. Il sera important d'évaluer la précision de cette première étape pour les
animaux suivis en ferme.
Prédiction génomique: à partir des génotypes (imputés ou non), il est ensuite possible de faire des
prédictions. Le but est de pouvoir déterminer à des fins de sélection la valeur génétique d'un individu
qui n'a pas encore de performances. Pour ce faire, on dispose par exemple de quelques milliers
d'individus chacun génotypés pour 50,000 marqueurs et ayant chacun une performance. Il faut alors
proposer un modèle statistique qui modélise simultanément les 50000 variables binaires pour prédire le
phénotype. Des solutions ont déjà été proposées et reposent sur:
 des modèles mixtes ou la “Ridge Regression”,
 des modèles de mélange de plusieurs distributions (des distributions de student ou des
normales); ces modèles font souvent appel aux statistiques bayésiennes où une distribution a
priori des SNPs est proposée; la résolution des modèles reposent sur les techniques de MCMC.
Par exemple, la méthode BayesB modélise les SNPs comme un mélange d'une distribution
normale et d'une distribution nulle tandis que la méthode BayesR modélise un mélange de
quatre distributions normales,
 Des modèles de types Stochastic Search Variable Selection,
 Des nouvelles méthodes proposent des mélanges de deux modèles et estiment automatiquement
leur importance (Bayesian Sparse Linear Mixed Models).
Il est nécessaire d'évaluer l'efficacité de ces méthodes sur nos données. Certaines de méthodes sont plus
adaptées pour des caractères hautement polygéniques (beaucoup de gènes avec des petites effets) et
d'autres acceptent que certains gènes ont des gros effets.
Structure de la population:
Modélisation des lignées de taureaux: par ailleurs nous souhaitons modéliser la structure de la
population. Puisque quelques fondateurs ont fortement contribué à la population actuelle, chaque
individu peut être représenté comme un mélange avec des proportions variables de ces fondateurs. Des
méthodes permettent déjà de décrire les individus comme des mélanges de populations. Dans un
premier temps, nous allons appliquer ces méthodes. Néanmoins, celles-ci modélisent l'ensemble du
génome. Afin d'améliorer la modélisation, nous proposons ensuite d'utiliser des méthodes qui vont
identifier l'origine de chaque segment de chromosomes. Nous avons déjà développé des logiciels
adaptés qui reposent sur des chaînes de Markov cachées. Néanmoins, toutes ces méthodes ignorent la
généalogie connue. Nous souhaitons donc déterminer si les groupes identifiés correspondent bien à des
fondateurs. D'autre part, nous aimerions modéliser directement les individus comme des combinaisons
des fondateurs connus (que ce soit pour l'ensemble du génome ou pour des segments particuliers).
Nous aimerions également déterminer si l'utilisation de la généalogie permet d'améliorer nos méthodes
d'haplotypages. A terme ces modèles pourraient permettre de proposer un nouveau modèle de sélection
génomique basé sur les haplotypes et utilisant la notion de lignées.
Incorporation d'informations fonctionnelles pour améliorer la SG
L'un des défis de la Sélection Génomique résulte du fait que des millions de variants sont connus et
seule une proportion d'entre eux influence les caractères d'intérêts. Les techniques actuelles permettent
de récolter des informations supplémentaires pour prédire à priori quels variants auront un effet ou pas
(sur base de la conservation évolutive, les variants codants, les régulateurs d'expression, les
informations épi-génétiques, etc.). A partir d'atlas 'fonctionnels' générés par d'autres équipes de l'Unité
de Génomique Animale, nous allons génotyper la population de référence et des animaux des fermes
suivies en sélection génomique pour les variants les plus intéressants. Nous étudierons si cette
information permet d'améliorer la précision de la sélection génomique en 1) comparant la distribution
des effets estimés pour différentes classes de variants, 2) en comparant la précision de la sélection
génomique en utilisant des matrices de covariances génomiques obtenues à partir de différentes classes
de variants (individuellement ou simultanément) et 3) en étudiant un modèle de prédiction bayésien où
la distribution à priori de l'effet du SNP dépend de sa classe.
Téléchargement