Passé, présent et avenir (?) Une brève histoire des marqueurs moléculaires utilisés en génétique des populations Jean-François Arnaud UMR CNRS 8198 Laboratoire de Génétique et Évolution des Populations Végétales Bât. SN2, Université de Lille 1, 59655 Villeneuve d’Ascq cedex L’histoire de l’écologie moléculaire vue par John C. Avise (2006) Dans les années 60: Quelques biologistes moléculaires de laboratoire et quelques naturalistes de terrain se courtisent. Leur progéniture montre une belle vigueur hybride: les populations naturelles sont pleines de diversité ! Dans les années 70: Ce nouveau-né chimérique se développe, avec parfois une belle dose de naïveté: des conclusions issues d’une poignée de marqueurs allozymiques peuvent-elles se généraliser à l’ensemble du génome ? Les années 80 Cet adolescent turbulent vit des idylles avec des partenaires différents: RFLP, fingerprinting, RAPD, PCR, séquence mitochondriales puis nucléaires, microsatellites, SNP, expression de gènes…: chaque développement technique est l’occasion d’un flirt parfois durable. Les méthodes d’analyse se raffinent. L’histoire de l’écologie moléculaire vue par John C. Avise (2006) Sortie de l’adolescence: 1992: naisance du journal Molecular Ecology, et publication de plusieurs ouvrages dédiés à la discipline. Le 21ème siècle: La pleine maturité ? Ere génomique •Investigation judiciaire •Analyse de parenté •Ecologie comportementale •Structure génétique des populations •Phylogéographie •Spéciation-hybridation •Génétique de la conservation •Ecologie microbienne •Suivi des OGM •Bases écologiques des modulations de l’expression •Le code-barre du vivant •Bases génétiques de l’adaptation 1992 2001 + quelques ouvrages de références Les marqueurs moléculaires utilisés en Génétique des Populations : définition et quelques exemples Définition : Marqueur moléculaire = fragment d'ADN (information génétique) ou sa représentation moléculaire (ARN, protéines) Définition extrêmement large qui retient l'ensemble de l'information génétique Exclusion de l'ensemble des marqueurs phénotypiques (couleur de la coquille chez les escargots, marqueurs pigmentaires comme l'albinisme) Universalité des marqueurs moléculaires : le marqueur est partagé par tous les individus d'une même espèce, ou par toutes les espèces Transmissibilité : les marqueurs moléculaires sont transmis de génération en génération, il est préférable que cette transmission des allèles soit mendélienne (transmission des allèles en proportion équiprobable) = avantage sur marqueurs phénotypiques L'échantillon dans lequel on peut choisir des marqueurs est de taille considérable : ex. le génome humain = 3 milliards de paires de base, si 1000 sites informatifs présentant chacun 2 allèles on a 31000 génotypes possibles… Contraste avec le nombre généralement faible de traits phénotypiques utilisables en temps que marqueurs (en particulier chez des espèces que l'on ne peut manipuler en laboratoire) Variabilité des marqueurs moléculaires : généralement élevée, mais dépend de l'échelle de temps considérée (temps de divergence) Une autre qualité de cette diversité est son caractère discret : les formes alléliques d'un marqueurs moléculaires ont une distribution discrète et finie par opposition aux traits phénotypiques Cette variabilité est par conséquent quantifiable et peut être analysée à l'aide de méthodes statistiques utilisant dans certains cas des hypothèse nulles (ex. loi de HW) Processus évolutifs sous-jacents à cette variabilité : - les mutations (créatrices de diversité génétique) ; - les flux géniques (effet généralement homogénéisateur) ; - la dérive génétique (action généralement érosive) - la sélection naturelle (effet dépend de la forme de la sélection) L'hypothèse de neutralité est généralement vérifiée pour les marqueurs moléculaires au contraire des marqueurs phénotypiques qui sont rarement neutres (pigmentation des pétales de fleurs, polychromatisme de la coquille chez Cepaea nemoralis) POURQUOI S’INTERESSER AUX VARIATIONS GENETIQUES ? En Biologie Évolutive et Génétique des Populations, on en distingue généralement 5 domaines d’applications: (1) Structure génétique des populations : distribution de la variabilité génétique aux niveaux intra- et inter-populationnel (dérive, flux de gènes, modèles spatiaux de structure) (2) Étude de l'apparentement entre individus : analyse de paternité, recherche de l'origine la plus probable d'individus (tests d'assignation). Applications diverse (sélection sexuelle, médecine légale et judiciaire, protection des stocks, sélection de parentèle...) (3) Cartographie génétique, recherche de marqueurs liés à des QTL : utilisation dans les programmes de sélection et amélioration (4) Autour de l'espèce : systématique fine entre espèce proches (quelquefois indifférenciées morphologiquement), dynamique des zones hybrides (cas des hybrizymes), phylogéographie (5) La phylogénie moléculaire : il s'agit ici du niveau temporel et spatial le plus élevé d'intervention des marqueurs moléculaires : relations et histoires évolutives entre espèces parfois séparées par des centaines de millions d'années (+) Etudes d’association en biologie médicale Les marqueurs allozymiques ("marqueurs du pauvre") Polymorphisme allozymique: les années 70, théorie neutraliste de l’évolution (Motoo Kimura) Il s'agit du seul marqueur d'utilisation courante analysant le polymorphisme protéique : Séparation de forme alléliques d'un même gène par électrophorèse dans un support de type gel (gels d'amidon ou polyacrylamide), suivi d'une coloration spécifique. Enzymes de type monomérique AA Aa aa Enzymes de type dimérique AA Types de résultats : bandes colorées distinguant (i) des allèles de mobilité différentes, et (ii) les formes hétérozygotes des formes homozygotes (espèces diploïdes) Aa aa Modèle d'évolution : par mutation ponctuelle modifiant la charge nette de la protéine Modèle de mutation IAM plutôt que SMM (voir marqueurs microsatellites) (Génération d'homoplasie) SMM i-1 i-1 i-1 i-1 i+1 i+1 i+1 i+1 i IAM i+n i i+n Avantages : marqueurs codominants, relativement fiables, faible coût, utilisation courante Inconvénients : - extraction enzymatique souvent fastidieuse et nécessitant quelque fois la destruction totale de l'individu (lorsque petits organismes); - patrons de bandes parfois complexes (estérases par ex.) ; - existence d'allèles nuls (voir aussi les microsatellites); - neutralité non assurée ; - et surtout un polymorphisme quelquefois très très faible (ex. : espèces autofécondantes) cf distribution à l’équilibre des fréquences alléliques (S. Wright) lorsque faible taux de mutation - IAM : ne peut pas simplement accéder à l’info phylogénétique; - pas d'ordonnancement possible des allèles (au contraire des microsatellites Un exemple frappant de déviation de la neutralité pour un marqueur enzymatique classiquement utilisé en génétique des populations… Exemple de pressions sélectives agissant sur l’expression enzymatique : l’adaptation thermale chez Alvinella pompejana Alvinella : 1er colonisateur des diffuseurs + rencontré sur tous les types de fumeurs (noirs + blancs) Piccino, P., Viard, F., Sarradin, P.-M., Le Bris, N., Le Guen, D. & Jollivet, D. 2004 Thermal selection of PGM allozymes in newly founded populations of the thermotolerant vent polychaete Alvinella pompejana. Proceedings of the Royal Society of London B 271, 2351-2359. La phosphoglucomutase PGM-1 : enzyme clé dans le métabolisme énergétique - 2 allèles équifréquent Pgm-1 (100) et Pgm-1 (90) - 2 allèles rares (78) et (112) 18 populations furent échantillonnées : toutes sont à l’équilibre de HW, pas d’excès ou de déficit en hétérozygotes (pas de sélection par « overdominance »), FST moyen faible mais significatif (P = 0.031), pas d’isolement par la distance… Analyse hiérarchique fondée sur le type d’habitat : différenciation significative Sélection diversifiante au locus Pgm-1 ? L’allele Pgm-1 (90) semblerait plus thermostable Piccino, P., Viard, F., Sarradin, P.-M., Le Bris, N., Le Guen, D. & Jollivet, D. 2004 Thermal selection of PGM allozymes in newly founded populations of the thermotolerant vent polychaete Alvinella pompejana. Proceedings of the Royal Society of London B 271, 2351-2359. 90 100 0 mn 60 mn 90 mn 0 mn 100 µg 60 mn 90 mn 200 µg Initial velocity (mol/L/s/ug of proteins) 4,00E-09 90/90 3,50E-09 100/100 3,00E-09 2,50E-09 2,00E-09 1,50E-09 1,00E-09 5,00E-10 0,00E+00 0 20 40 60 Temperature (°C) 80 Allele Pgm-1 (90) : mieux adapté aux fortes températures, i.e. dans les diffuseurs Allele Pgm-1 (100) plus fréquent dans les fumeurs noirs et blancs Piccino, P., Viard, F., Sarradin, P.-M., Le Bris, N., Le Guen, D. & Jollivet, D. 2004 Thermal selection of PGM allozymes in newly founded populations of the thermotolerant vent polychaete Alvinella pompejana. Proceedings of the Royal Society of London B 271, 2351-2359. Piccino, P., Viard, F., Sarradin, P.-M., Le Bris, N., Le Guen, D. & Jollivet, D. 2004 Thermal selection of PGM allozymes in newly founded populations of the thermotolerant vent polychaete Alvinella pompejana. Proceedings of the Royal Society of London B 271, 2351-2359. Piccino, P., Viard, F., Sarradin, P.-M., Le Bris, N., Le Guen, D. & Jollivet, D. 2004 Thermal selection of PGM allozymes in newly founded populations of the thermotolerant vent polychaete Alvinella pompejana. Proceedings of the Royal Society of London B 271, 2351-2359. Accès direct à l’information du génome Allozymes = protéines exprimées = phénotype D’autres marqueurs donnent directement accès à l’information génétique : c’est plus proche de ce qu’on souhaite… Le « roi » des marqueurs : la séquence d’ADN. Contient toute l’information. Mais coûteux, fastidieux et pas toujours nécessaire Le développement des marqueurs moléculaires est une longue histoire d’inventivité pour obtenir le maximum d’information avec le minimum d’effort. Microsatellites RAPD Randomly Amplified Polymorphic DNAs ADN polymorphes amplifiés aléatoirement RFLP Restriction Fragment Length Polymorphism Polymorphisme de longueur d’un fragment de restriction AFLP Amplified Fragment Lenght Polymorphism Polymorphisme de longueur de fragments amplifiés Mais d’abord… pour accéder à l’information génétique, il faut une méthode d’amplification du signal : la Réaction en Chaine de la Polymérase (RCP, PCR) La "Polymerase Chain Reaction" (PCR) Description d'un cycle : 1. Denaturation (T=95°C) 2. Fixation des amorces (40 < T < 60°C) 3. Elongation grâce à la Taq polymérase (T=72°C) Conditions techniques de la PCR : ♦Deux éléments fondamentaux : spécificité des amorces (taille, composition en G, A, T, C…) et nature de la polymérase. Plus… ♦Température d'annealing amorce/matrice (dépend de la température de fusion ou Tm = T°C à laquelle 50% de l'ADN est double brin). ♦Temps d'extension (dépend de la longueur de la séquence à amplifier). ♦Concentration en MgCl2 (Mg++ est indispensable à l'activité de laTaq polymérase) ; concentration habituelle de 1,5mM. Applications directes de la PCR : Le produit d'amplification peut être directement utilisé pour : - mettre en évidence la présence ou l'absence d'un site de restriction (analyse du polymorphisme de restriction ou RFLP) ; - caractériser des mutations connues (méthodes utilisant des sondes spécifiques…) ; - caractériser des mutations inconnues (RAPD : amplification de séquences au hasard à partir d'amorces synthétiques ; AFLP : amplification de fragments de restriction au hasard à partir d'amorces synthétiques). Applications indirectes de la PCR : Le produit d'amplification peut également servir de base à l'application d'une seconde technique : - le séquençage, méthode qui permet de connaître la séquence complète du produit amplifié donc de déceler toutes les variations nucléotidiques ; - la mise en évidence de mutations sans les identifier par (i) électrophorèse sur gel en gradient dénaturant (DGGE : Denaturing Gradient Gel Electrophoresis), (ii) analyse du polymorphisme de conformation des simples brins (SSCP : Single Strand Conformation Polymorphism). Domaines d'application Tests de diagnostic en génétique médicale, criminologie, contrôle de filiation, élaboration de cartes génétiques, contrôle sanitaire, industrie agro-alimentaire…et biologie évolutive (génétique des populations, phylogénie, analyse de parternité…) Limites Le coût élevé de la Taq polymérase, les inévitables contaminations… !!! Les marqueurs microsatellites Les microsatellites sont de courts segments d'ADN composés de séquences répétées en tandem d'un motif de 2 à 6 paires de bases (suivant les définitions) que l'on peut amplifier par PCR AGTGTCAGTAGCTAG…….CACACACACACACACA……...CGTGATACATGCA Séquence flanquante 8 répétitions Séquence flanquante Les amorces de PCR (régions soulignées) sont choisies dans les séquences (uniques) flanquant la zone répétée. Les séquences répétées présentes des structures variées : - Parfaites (pures) CAGCAGCAGCAG - Imparfaites (impures) CAGCAGTCAGCAGGGCAG - Juxtaposées CAGCAGCAGTCTCTCTCTC Importance de ces structures dans le taux de mutation et le mode d'évolution de ces séquences répétées Problème de l'homoplasie de taille : peut être détectée en utilisant des structures imparfaites (voir Estoup et al. 1995, Viard et al. 1998) Le polymorphisme détecté est un polymorphisme de longueur : Un allèle donné correspondra le plus souvent à un nombre de répétition (en théorie) déduit de la taille d'amplification (en pratique) Nombre de répétitions Longueur du fragment 14 112 12 106 11 103 9 97 6 88 3 pb Sur l'exemple théorique ci-dessus, les séquences flanquantes (comprenant l'amorce de PCR) font 70 pb Il s'agit donc d'un polymorphisme aisément identifiable, une fois que les locus microsatellites ont été identifiés et les amorces définies… (acquisition d'une banque de données microsat., GenBank ou clonage) Exemple d'un locus microsatellite révélé sur gel de polyacrylamide Exemple de 3 locus microsatellites amplifiés en multiplex et visualisé par électrophorèse capillaire Marquage d'une des deux amorces au moyen de fluorochromes (nucléotides marqués à la dioxygénine) En s'arrangeant pour combiner différentes couleurs de fluorochromes et en jouant sur la taille des allèles, plusieurs locus peuvent être révélés simultanément en une seule migration Mécanismes moléculaires de mutation : 2 hypothèses (1) Glissement de la polymérase (slippage) 1 2 3 4 1 2 3 4 1 2 3 1 2 3 1 2 3 4 1 2 3 4 5 6 7 8 9 10 1 2 3 1 2 3 4 5 6 7 8 9 10 1 2 3 4 1 2 4 5 6 7 8 9 10 Initiation 5 6 7 8 9 10 4 4 Dissociation 4 5 6 7 8 9 10 3 1 2 1 2 4 3 4 5 6 7 8 9 10 Re-hybridation : Mauvais appariement 3 3 1 2 1 2 4 3 5 4 6 5 7 6 8 7 9 8 10 9 11 10 Le nouveau brin possède une longueur différente du brin initial 1 2 3 4 5 6 7 8 9 1 2 4 5 6 7 8 9 10 3 Accroissement en longueur Diminution du nombre de motifs répétés Il s'agit du modèle de mutation le plus couramment admis (2) Crossing-over inégaux (plutôt pour les minisatellites) Mutations impliquant des changements de plus grande amplitude dans le nombre de motifs répétés Avantages : Taux de mutation très élevé (de l'ordre de 10-2 à 10-5), il n'est pas rare qu'un locus possède plus de 20 allèles (71 chez l’omble de fontaine !) 0.2 0.18 0.16 Fréquence 0.14 0.12 0.1 0.08 0.06 0.04 0.02 Distribution des tailles alléliques pour le locus Ha11 chez l'escargot des jardins 0 207 209 211 213 221 223 225 227 229 231 233 235 237 239 241 243 245 247 249 305 307 309 Allèle (pb) Relative abondance dans la plupart des génomes (de l'ordre de 100000 locus de motif (CA)n dans le génome humain par ex.), Quelques exceptions, ex. : les papillons Marqueurs neutres dans la plupart des cas (localisation dans des régions non codantes) Exceptions : (1) maladies héréditaires liées à l'expansion anarchique de motifs trinucléotidiques de type CAGn (2) Quelques rares études (Li et al. 2000) montrant certaines corrélations entre variabilité des microsatellites et facteurs écologiques (édaphiques) Conservation de locus microsatellites d'une espèce à l'autre : Utilisation possible en phylogénie (sous certaines réserves), notion d'"ascertainment bias" (Ellegren et al. 1995) et d'évolution directionnelle (mutations biaisées, Rubinstztein et al. 1995) INCONVENIENTS : Certains génomes sont pauvres en certains motifs microsatellites, ce qui remet en cause leur universalité (cf. papillons, éléphants) Études inter-spécifiques : phylogénies douteuses car mode d'évolution trop rapide : homoplasie brouille l’information phylogénétique, et contraintes évolutives dans la taille allélique des locus microsatellites (les mutations joueraient ici un rôle homogénéisateur, cf. Nauta & Weissing 1996) Présence d'allèles nuls (cf. aussi enzymes) : Un allèle nul ne peut être visualisé sur un gel d'électrophorèse en raison d'une insuffisance ou d'une absence totale d'amplification par PCR : ceci résulte d'une mutation ponctuelle ou/et d'une insertion/délétion dans les régions flanquantes complémentaires de l'une des amorces nucléotidiques. Ceci pose des problèmes quant à l'estimation des fréquences alléliques, les homozygotes seuls étant visibles... Réduction drastique du niveau d'hétérozygotie, apparente incompatibilité des génotypes au sein d'une famille (hérédité non mendélienne) du simple fait d'un mauvais appariement des amorces de PCR Exemple: structure de la diversité génétique Région 2 Temps de divergence Barrière à la dispersion Région 1 Géographie Dérive indépendante de populations isolées : divergence des fréquences alléliques (et son cas extrême = fixation d’allèles différents) HS FST = 1 − HT Fondé sur l’identité des allèles Analyse de données microsatellites : Modèles de mutation de type SMM versus IAM SMM : "Stepwise mutation model", suppose qu'a chaque mutation est associée une diminution ou une augmentation de charge nette d'une unité (cf. allozymes), ceci déplaçant les allèles d'une classe de mobilité à une autre (Kimura & Ohta, 1975). Ce modèle de mutation perdit néanmoins de l'intérêt car des électromorphes adjacent ne diffèrent pas toujours d'une seule charge nette. i-1 i-1 i-1 i-1 SMM i+1 i+1 i+1 i+1 i IAM i+n i+n i 0.30 0.25 Découverte des microsatellites : regain d'intérêt pour ce modèle, le SMM suppose ainsi qu'un allèle muterait à travers le gain ou la perte d'un motif de base 0.20 0.15 0.10 0.05 0.00 Intérêt : un état allélique conserve la « mémoire » de son état antérieur 100 102 104 106 108 110 112 114 116 118 120 Allèles (pb) Milieu des années 90 : développement foudroyant de tous un panel de nouvelles statistiques incorporant l'information contenue dans les différences de tailles alléliques, statistiques fondées sur un SMM strict (Slatkin 1995, Goldstein et al. 1995) ou des modèles dérivés acceptant de rares mutations de plus grandes amplitudes (ex. TPM, Di Rienzo et al. 1994) Indices de différentiation dérivés des F-Statistiques RST S − Sw = S RST = fraction de la variance totale des tailles alléliques entre populations SW et S barre étant proportionnels à la variance intrapopulationnelle et à la variance totale La distance Δμ2 (Goldstein et al. 1995), se définissant en terme de carré de la moyenne des différences dans les tailles alléliques entre deux populations Δμ 2 = (μ a − μ B ) 2 μA et μB sont les moyennes des tailles alléliques observées dans les populations A et B Idée sous-jacente : les différences dans le nombre de répétition donnent des informations sur le temps écoulé depuis un hypothétique allèle ancestral commun. Les différences de longueurs en allèles contiennent des informations phylogénétiques qui ne sont pas pris en compte par les méthodes fondées sur les identités alléliques (fréquences) et fondés sur le IAM. On ne raisonnera ici non plus en terme d'identité allélique (caractère qualitatif), mais en terme de taille allélique (caractère quantitatif) Région 2 Temps de divergence Barrière à la dispersion Région 1 Géographie 27 10 1 25 9 6 8 3 12 18 28 26 16 17 11 7 4 14 5 13 19 22 30 Arbre de populations fondés, non plus sur les fréquences alléliques, mais sur les différences dans les longueurs de tailles alléliques entre populations 2 20 21 24 32 23 0.1 29 15 31 MAIS La dynamique d'évolution des microsatellites apparaît maintenant beaucoup plus complexe qu'un simple SMM : - Mutations de plus grandes amplitude impliquant de larges insertions/délétions entraînant une très forte variance des distances fondées sur le SMM ; - Différences de mutabilité des allèles créant des lignées alléliques divergeant indépendamment les unes des autres ; - Les mutations ponctuelles au sein de la séquence répétée stabiliseraient celle-ci (interruption des répétitions) ; - Différences de mutabilité selon le motif répété, sa composition en base ainsi que la longueur de la séquence (les allèles les plus grands auraient un degré de mutabilité + élevé) ; - Microsatellites juxtaposés ou impurs : déviations nettes envers un IAM ; - Contraintes de tailles : plafonnement des distances génétiques au cours du temps (non-linéarité de ces distances) et pb d'homoplasie. Cycle de vie d'un microsatellite : (1) La naissance d’un microsatellite dans une région où des variants de séquences répétitives simples d’ADN sont présents en nombre important (régions de "cryptic simplicity"). (2) L’augmentation progressive d’un même type de motif qui, au-delà d’un certain nombre de répétitions, verra son taux de mutation augmenter et s’accroîtra en longueur, le taux d’erreur de la polymérase étant alors accru. (3) L’importance des pressions évolutives que sont la mutation, la dérive génétique, la sélection ou la migration peut alors être estimée par le nombre d’allèles, le spectre des fréquences alléliques illustrant alors le portrait d’un locus microsatellite "mature". (4) Cet accroissement en longueur du microsatellite diminuera à partir d’une valeur maximale de répétitions, des processus de sélection encore mal définis étant, semble-til, impliqués dans cette contrainte de taille. Taux de mutation (5) Des délétions et des mutations ponctuelles interrompant les répétitions entraîneront finalement la dégénérescence du microsatellite qui reviendra à son stade initial où différents motifs seront mélangés, interrompus et présents en surnombre. La croissance d’un nouveau microsatellite dérivé interviendra à la suite de mutations favorables ayant supprimé ces interruptions. Mutations "contractives" D'après Xu et al. (2000) Distribution d'équilibre résultant d'une balance entre mutations ponctuelles et évènements de slippage Mutations "expansives" Longueur Critique Longueur du microsatellite Polymorphisme de longueur de fragment de restriction (RFLP) "Restriction fragments length polymorphism" Principales modifications d'une séquence nucléotidique à l'origne d'un polymorphisme de restriction. (A) fragments d'ADN (a-h) produits par digestion enzymatique* (B) et séparés selon leur taille sur gel d'électrophorèse. * Les enzymes utilisées sont produites par des bactéries, et chacune d'elle est capable de reconnaître et de couper une séquence spécifique de 4 à 6 nucléotides. Principe : Le principe de base de cette méthode consiste : (1) extraction de l'ADN; (2) digestion de l'ADN au moyen d'enzymes de restriction (endonucléases); (3) séparation (selon la taille) et visualisation des fragments ainsi obtenus par électrophorèse; (4) transfert et hybridation des fragments séparés avec des sondes marquées (southern blot). On aboutit ainsi à des profils de restriction caractéristiques, variant selon la position et/ou le nombre des bandes marquées. Cette technique permet de dresser la carte des sites de restriction et de localiser les mutations (cf figure) à l'origine du polymorphisme de restriction. Individu 2 Individu 1 Fragment inséré Site perdu Région reconnue par la sonde Site de coupure d’enzyme de restriction Pas de polymorphisme 1 - + 2 Polymorphisme de site de restriction 2 1 Polymorphisme d’insertiondélétion 2 1 Individu 2 Individu 1 1 Enzyme avec un site interne polymorphe et des sites externes polymorphes 2 - Région reconnue par la sonde Site de coupure d’enzyme de restriction + Individu 2 Individu 1 1 Enzyme avec un site interne monomorphe et un site externe polymorphe + 2 Le polymorphisme RFLP est donc lu comme un polymorphisme de longueur de fragments d'ADN ou de présence de sites. La technique de PCR-RFLP présentent des avantages par rapport à la technique de RFLP simple : possibilité de détecter hétérozygotes et homozygotes (codominance) et d'étudier des organisme pour lesquels la quantité de matériel biologique est faible, + manips moins contraignantes. Limites Des fragments de tailles identiques peuvent être générés par des sites de restriction différents. Patrons de bandes parfois très complexes à analyser. La variation de ces fragments de restriction est souvent insuffisante au niveau populationnel (deux états uniquement par site de restriction). La grande quantité d'ADN requise, le coût et la difficulté d'emploi de sondes marquées, limitent l'utilisation de cette technique en biologie des populations. L'amplification (PCR) préalable du fragment à analyser permet toutefois de s'affranchir de l'étape d'hybridation. PRINCIPE La PCR-RFLP M + Taille des fragments _ Appliquée avec huit couples (région ; enzyme) : site de restriction : enzyme : indel APPLICATIONS Exemple de tableau des haplotypes Polymorphisme chloroplastique et structure de la diversité génétique chez une espèce tolérante au zinc: Arabidopsis halleri (Brassicaceae) Le réseau des haplotypes Distribution spatiale des haplotypes Les RAPDs ("Randomly Amplified Polymorphic DNAs) Principe : réaction PCR en utilisant une amorce de séquence arbitraire. Si l'amorce n'est pas trop longue (9-10 pb), et/ou si l'hybridation se fait en conditions peu stringeantes, l'amorce va s'hybrider chaque fois que se trouvera dans l'ADN une séquence qui lui est complémentaire. Si 2 sites d'hybridation sont proches l'un de l'autre et en opposition (i.e. configuration permettant la PCR), l'amplification aura lieu. Si un de ces 2 sites est absent dans un autre individus, il n'y aura pas d'amplification et un polymorphisme de présence/absence de bandes sera observé. Amplifié (1) (2) Non amplifié (1) (2) = amorce nucléotidique arbitraire Les bandes obtenues sont couramment séparées en gel d'agarose puis visualisées au BET Révélation de plusieurs locus à la fois + marqueur dominant = sérieuses limites Mais…technique rapide, simple et relativement peu onéreuse Après un engouement net successif à leur découverte (début années 90), ces marqueurs sont actuellement en perte de vitesse - + AFLP Avantages : nombre élevé de bande Stabilité des profils qualité des profils Inconvénients : Gourmant en ADN Relative difficulté technique année Utilisations : études de génétique des pop cartographie diversité génétique (clone ou pas, mode de reproduction plutôt clonale…) recherche de marqueurs liés à un gène (résistance à un herbicide…) Table 1 Usefulness of AFLP for some typical research questions in molecular ecology compared with some common alternative methods (5 excellent, 1 poor). The scoring is an attempt to judge both the quality and quantity of data that can be generated within a standard research program on a wild nonmodel organism for which no genetic markers are yet available Research question AFLP Allozymes Microsatellites Multigene sequencing SNPs Parentage analyses 3 2 5 1 3 Genome-wide genetic diversity 4 2 4 3 3 Population genetic structure 5 3 4 3 3 Identification of hybrids and backcrosses 5 1 4 3 3 QTLs Phylogenetic reconstructions (shallow) 4 4 1 1 4 3 2 3 3 3 Phylogenetic reconstructions (deep) 1 1 1 5 1 LES SEQUENCES D'ADN : Détermination de la séquence nucléotidique d'un fragment d'ADN dont la taille ne dépasse généralement pas quelques kilobases. Séquençage après amplification par PCR ou clonage, les séquences sont ensuite comparées par alignement : calcul de divergence nucléotidique et reconstruction de phylogénie au niveau supraspécifique, mais aussi pour retracer des relations généalogiques en génétique des populations (surtout avec l'ADNmt dans le dernier cas). Avantages : - Accès direct à la totalité de l'information génétique, ce qui en fait le marqueur actuel le plus précis quant à la reconnaissance de l'identité par descendance d'allèles (même allèle ancêtre) - Accès à un grand nombre de sites informatifs Adéquation entre niveau de variabilité désiré et temps évolutif séparant les taxons à comparer : pour des espèces séparées par des centaines de millions d'années, on choisira plutôt des séquences à évolution lente (séquences conservées) Variante : la technique SSCP (Single Strand Conformation Polymorphism) Différentiation d'allèles ne différant que par une seule paire de bases : les formes simples brin de l'ADN prennent des conformations secondaires dépendant de la composition en bases de la séquence, et migreront donc de manière différentielle sur un support approprié Avantage : pallie la lourdeur d'un séquençage systématique de tous les individus dans une étude de structure de population. Cependant : dépendance forte des conditions d'expérimentations, chaque migration nécessitant la présence d'un témoin connu. Séquençage traditionnel : Méthode classique = séquençage ‘SANGER’ • Développé dans les années 1970 par Walter Gilbert, aux États-Unis, par Frederick Sanger, en Grande-Bretagne (prix Nobel en 1980) • Fondée sur l’utilisation de didésoxyribonucléotide (ddNTP) lors d’une réaction de séquence • Du fait de la méthode utilisée, la longueur de séquence maximale est de l’ordre de 1000 nucléotides Migration verticale sur gel : séquenceur de type LICOR tail amorce FM13 Fragment à séquencer - Sens de lecture Sens de migration + amorce RM13 La réaction va se dérouler de façon cyclique et va comporter les mêmes phases que la PCR. A la différence près que les désoxynucléotides sont remplacés, en partie, par des didésoxynucléotides (ddNTP ou "nucléotides stops"). L'incorporation, au hasard, de ces ddNTP va provoquer l'arrêt de l'élongation du brin néoformé. D'un point de vue technique, il s'agit de réaliser 4 mélanges réactionnels, chacun avec l'un de ces 4 ddNTP. Ainsi, par exemple, en présence du ddATP, on va obtenir des fragments de différentes tailles correspondants au différentes positions des "A" dans la séquence. 1er fragment : 2ème 3ème 4ème etc… C CA CAT CATT Migration à l’intérieur de capillaires : séquenceur de type ABI Lecture des électrophénogrammes… ANALYSE DE FRAGMENTS Détection de mutation : SNaPshot™ Le screening de SNP peut être réalisé en utilisant la technique « single nucleotide extension » ou miniséquençage. X25 Cycles La couleur du pic indique la base au point de polymorphisme Séquençage de nouvelle génération : NGS • Séquençage haut-débit = toute technologie capable de générer un ‘grand nombre’ de séquence en un temps réduit. Cela englobe aussi bien les plateformes de séquençage (Sanger) à capillaires les plus performantes que les nouvelles technologies de séquençage • Nouvelles technologies de séquençage = Next Generation Sequencing (NGS) • Ces nouvelles plateformes de séquençage utilisent des techniques différentes du séquençage traditionnel (Sanger) et permettent de générer des quantités de donnés impossibles à égaler au moyen des techniques traditionnelles. Hudson M.E. (2008) Sequencing breakthroughs for genomic ecology and evolutionary biology. Molecular Ecology Resources 8, 3–17. Principe général du pyroséquençage : • Fondé sur un principe de séquençage par synthèse, par opposition au séquençage par ‘termination’ (méthode Sanger) • Cette méthode consiste a séquencer un ADN monobrin par synthèse du brin complémentaire, base par base, en détectant à chaque étape le nucléotide qui a été ajouté Les nucléotides ne sont pas ajoutés tous ensembles comme dans une réaction de séquençage normale mais l’un après l’autre ; Si le nucléotide ajouté dans le milieu réactionnel correspond à celui attendu par la polymérase, il est incorporé dans le brin en cours de synthèse (d’élongation) et libère un Pyrophosphate ; Une ATPsulfurylase vient alors transformer ce Pyrophosphate (PPi) en ATP qui est alors utilisé, couplé à une Luciférine, par une Luciférase. On a alors production d’Oxyluciférine et d’un signal lumineux Une Apyrase dégrade les nucléotides en surplus. Principe général du pyroséquençage : Principe général du pyroséquençage : • Préparation de la librairie = collection de fragments d’ADN à séquencer ; • Amplification de l’ADN à séquencer: PCR en émulsion ; • Un brin d’ADN par bille ; • Une bille par goutte d’émulsion ; • Séquençage dans une plaque à micropuits (400 000 par plaque) ; • Une bille par puit Le TILLING en écologie moléculaire (Targeting Induced Local Lesions in Genomes) Criblage du polymorphisme Le TILLING en écologie moléculaire Targeting Induced Local Lesions in Genomes), 1. PCR sur locus d’intérêt. (amorces marquées) 2. Mélange produit PCR testé avec allèle de référence connu 3. Dénaturation-renaturation par chauffage Æ formation d’hétéroduplex 4. Digestion avec enzyme spécifique de l’ADN simple-brin (Cel.1) 5. Dénaturation et migration sur gel dénaturant 6. Visualisation et estimation de la taille de la bande Æ position des « mismatchs » Analyse de l’expression des gènes Puce à ADN = DNA chip = DNA microarray Quels gènes sont différentiellement exprimés chez des individus vivant dans des environnements différents ? Ayant des traits d’histoire de vie différents ? La séquence d’un gène, d’une portion d’un gène, d’un ADNc… Un grand nombre de gènes d’une espèce (parfois, tous). Connus ou anonymes. Deux utilisations: 1. Hybridation peu stringente avec ADNc marqué à la fluorescence --> intensité fluorescente = quantité ADNc = quantité ARNm 2. Hybridation très stringente avec ADNg marqué à la fluorescence --> intensité fluorescente = affinité homologues = similarité de séquence : repérage SNP