La sélection génomique dans les populations d’élevage Quelques notions de génomique Dans les généalogies des animaux d'élevage, les chromosomes (et l'ADN) sont transmis de génération en génération. Chaque parent transmet la moitié de son patrimoine génétique à ses descendants via un processus aléatoire, néanmoins l'information est transmise en blocs qui sont coupés au hasard (le phénomène de recombinaison). Des animaux apparentés partagent donc une partie de leur patrimoine génétique. Puisque les gènes influencent directement les caractères d'intérêts agronomiques, les animaux apparentés auront des performances corrélées. Comme les informations sont transmises en blocs (coupés par le processus de recombinaison), on peut utiliser des marqueurs génétiques présents dans ces blocs pour déterminer quelles parties du génome sont transmises ou partagées (dans cette modélisation, nous utilisons également la généalogie). Il est important de savoir que dans ces populations animales, certains reproducteurs ont fortement disséminés leurs gènes et cela crée une structure particulière. Par exemple, 10% du génome “moyen” de la population pourrait venir d'un seul ancêtre. Dès lors, des copies de chromosomes se retrouvent disséminées dans toute la population et le nombre de différentes copies est limité. C'est pourquoi, on peut utiliser des techniques de modélisation basées sur les séquences alléliques et la généalogie pour déterminer les fragments de chromosomes partagés entre individus. Ceci est essentiel car cela permet d'identifier les gènes qui influencent les caractères d'intérêts et de faire de la prédiction génomique. Ce processus peut être comparé à la copie d'un texte. Au départ, il y a un nombre limité de textes (les fondateurs) et ces textes sont recopiés de générations en générations. Ils sont coupés et ré-assemblés, recopiés parfois avec des erreurs et au final, un individu de la population actuelle est une succession de petits fragments des textes originaux. Plus le processus est répété (nombre de générations), plus les fragments de texte deviennent petits. Pour chaque individu, on n'observe pas l'ensemble du texte mais quelques lettres (les marqueurs moléculaires). Néanmoins, grâce à ces lettres, il est possible de deviner les mots et les fragments de texte. En utilisant la généalogie (d'où le texte provient – de quels parents, il a été copié), cette prédiction est plus facile. La sélection génomique en race Blanc-Bleu Belge L'Association Wallonne de L'Elevage vient de commencer un projet pour faire entrer la génomique dans les fermes de bovins Blanc-Bleu Belges. Pour ce faire, elle va génotyper une dizaine de milliers d'animaux avec des puces de SNP (marqueurs moléculaires qui balisent le génome, représentées comme des variables binaires). Ces animaux auront également des phénotypes, c'est-à-dire que leurs performances pour les caractères d'intérêts agronomiques tels que la production laitière, la taille ou des données de fertilité sont mesurées. Le but de la sélection génomique est de prédire les valeurs génétiques (l'ensemble des variants génétiques qui influencent les caractères d'intérêts agronomiques) de jeunes animaux à des fins de sélection. L'Unité de Génomique Animale de l'Université de Liège située au GIGA-R assure le suivi scientifique de cette implémentation. Le projet comprend plusieurs points: Mise en place de la Sélection Génomique: Modélisation des caractères étudiés: pour chacun des caractères, il s'agira d'identifier les variables d'environnement qui influencent le caractère (l'exploitation, l'année, l'âge, le sexe), d'estimer la variance liée aux gènes (l'héritabilité) et de proposer un modèle d'évaluation. En général, cette modélisation repose sur des modèles mixtes. Le modèle d'évaluation officiel servira de base à cette modélisation. Imputation des génotypes manquants: les animaux des fermes suivies seront génotypés pour une dizaine de milliers de marqueurs. Néanmoins, nous disposons d'une population de référence de 600 taureaux qui sont chacun génotypés pour plus de 700,000 SNPs et une centaine de taureaux sera séquencée, c'est-à-dire que l'on connaîtra tout leur génome (soit plus de 10,000,000 de variants !). L'imputation consiste à prédire, à partir des 10,000 marqueurs et de la population de référence, tous les génotypes manquants. Nous avons déjà développés des modèles de prédiction basée sur des chaînes de Markov cachées et utilisant les informations généalogiques. D'autres modèles reposent sur des “directed acyclic graphs”. Il sera important d'évaluer la précision de cette première étape pour les animaux suivis en ferme. Prédiction génomique: à partir des génotypes (imputés ou non), il est ensuite possible de faire des prédictions. Le but est de pouvoir déterminer à des fins de sélection la valeur génétique d'un individu qui n'a pas encore de performances. Pour ce faire, on dispose par exemple de quelques milliers d'individus chacun génotypés pour 50,000 marqueurs et ayant chacun une performance. Il faut alors proposer un modèle statistique qui modélise simultanément les 50000 variables binaires pour prédire le phénotype. Des solutions ont déjà été proposées et reposent sur: des modèles mixtes ou la “Ridge Regression”, des modèles de mélange de plusieurs distributions (des distributions de student ou des normales); ces modèles font souvent appel aux statistiques bayésiennes où une distribution a priori des SNPs est proposée; la résolution des modèles reposent sur les techniques de MCMC. Par exemple, la méthode BayesB modélise les SNPs comme un mélange d'une distribution normale et d'une distribution nulle tandis que la méthode BayesR modélise un mélange de quatre distributions normales, Des modèles de types Stochastic Search Variable Selection, Des nouvelles méthodes proposent des mélanges de deux modèles et estiment automatiquement leur importance (Bayesian Sparse Linear Mixed Models). Il est nécessaire d'évaluer l'efficacité de ces méthodes sur nos données. Certaines de méthodes sont plus adaptées pour des caractères hautement polygéniques (beaucoup de gènes avec des petites effets) et d'autres acceptent que certains gènes ont des gros effets. Structure de la population: Modélisation des lignées de taureaux: par ailleurs nous souhaitons modéliser la structure de la population. Puisque quelques fondateurs ont fortement contribué à la population actuelle, chaque individu peut être représenté comme un mélange avec des proportions variables de ces fondateurs. Des méthodes permettent déjà de décrire les individus comme des mélanges de populations. Dans un premier temps, nous allons appliquer ces méthodes. Néanmoins, celles-ci modélisent l'ensemble du génome. Afin d'améliorer la modélisation, nous proposons ensuite d'utiliser des méthodes qui vont identifier l'origine de chaque segment de chromosomes. Nous avons déjà développé des logiciels adaptés qui reposent sur des chaînes de Markov cachées. Néanmoins, toutes ces méthodes ignorent la généalogie connue. Nous souhaitons donc déterminer si les groupes identifiés correspondent bien à des fondateurs. D'autre part, nous aimerions modéliser directement les individus comme des combinaisons des fondateurs connus (que ce soit pour l'ensemble du génome ou pour des segments particuliers). Nous aimerions également déterminer si l'utilisation de la généalogie permet d'améliorer nos méthodes d'haplotypages. A terme ces modèles pourraient permettre de proposer un nouveau modèle de sélection génomique basé sur les haplotypes et utilisant la notion de lignées. Incorporation d'informations fonctionnelles pour améliorer la SG L'un des défis de la Sélection Génomique résulte du fait que des millions de variants sont connus et seule une proportion d'entre eux influence les caractères d'intérêts. Les techniques actuelles permettent de récolter des informations supplémentaires pour prédire à priori quels variants auront un effet ou pas (sur base de la conservation évolutive, les variants codants, les régulateurs d'expression, les informations épi-génétiques, etc.). A partir d'atlas 'fonctionnels' générés par d'autres équipes de l'Unité de Génomique Animale, nous allons génotyper la population de référence et des animaux des fermes suivies en sélection génomique pour les variants les plus intéressants. Nous étudierons si cette information permet d'améliorer la précision de la sélection génomique en 1) comparant la distribution des effets estimés pour différentes classes de variants, 2) en comparant la précision de la sélection génomique en utilisant des matrices de covariances génomiques obtenues à partir de différentes classes de variants (individuellement ou simultanément) et 3) en étudiant un modèle de prédiction bayésien où la distribution à priori de l'effet du SNP dépend de sa classe.