Deuxième partie de la première journée 1. Comparaison de deux populations 2. Fréquences alléliques et fréquences génotypiques 3. Equilibre de Hardy-Weinberg L’histoire de l’évolution est aussi une histoire des mathématiques appliquées 3 étapes de la génétique des populations, qui sont aussi trois étapes de la réflxion 1. - Histoire des statistiques: Galton invente le coefficient de corrélation et la droite de régression. Pearson invente le Khi-deux (χ2) Fisher invente l’analyse de variance et la vraisemblance 2. Histoire des mathématiques - Fisher, Wright et Haldane, inventent le modèle de la sélection - Malécot, Kimura et Kingman inventent le modèle neutre 3. Depuis les années 1990, la génomique des populations est l’un des domaines préférés des applications numériques, qui font beaucoup appel à la théorie des probabilités, mais heureusement, les logiciels disponibles épargnent leurs utilisateurs de trop entrer dans la théorie. Néanmoins, il faut en savoir les principes pour interpréter des résultats. L’histoire de l’évolution est aussi une histoire des mathématiques appliquées 3 étapes de la génétique des populations, qui sont aussi trois étapes de la réflxion Histoire des statistiques: Galton invente le coefficient de corrélation et la droite de régression. Pearson invente le Khi-deux (χ2) Fisher invente l’analyse de variance et la vraisemblance offspring 1. - Mid-parent L’histoire de l’évolution est aussi une histoire des mathématiques appliquées 3 étapes de la génétique des populations, qui sont aussi trois étapes de la réflxion 1. - Histoire des statistiques: Galton invente le coefficient de corrélation et la droite de régression. Pearson invente le Khi-deux (χ2) Fisher invente l’analyse de variance et la vraisemblance 2. Histoire des mathématiques - Fisher, Wright et Haldane, inventent le modèle de la sélection - Malécot, Kimura et Kingman inventent le modèle neutre 3. Depuis les années 1990, la génomique des populations est l’un des domaines préférés des applications numériques, qui font beaucoup appel à la théorie des probabilités, mais heureusement, les logiciels disponibles épargnent leurs utilisateurs de trop entrer dans la théorie. Néanmoins, il faut en savoir les principes pour interpréter des résultats. L’histoire de l’évolution est aussi une histoire des mathématiques appliquées 3 étapes de la génétique des populations, qui sont aussi trois étapes de la réflxion 1. - Histoire des statistiques: Galton invente le coefficient de corrélation et la droite de régression. Pearson invente le Khi-deux (χ2) Fisher invente l’analyse de variance et la vraisemblance 2. Histoire des mathématiques - Fisher, Wright et Haldane, inventent le modèle de la sélection - Malécot, Kimura et Kingman inventent le modèle neutre Malécot et Wright L’histoire de l’évolution est aussi une histoire des mathématiques appliquées 3 étapes de la génétique des populations, qui sont aussi trois étapes de la réflxion 1. - Histoire des statistiques: Galton invente le coefficient de corrélation et la droite de régression. Pearson invente le Khi-deux (χ2) Fisher invente l’analyse de variance et la vraisemblance 2. Histoire des mathématiques - Fisher, Wright et Haldane, inventent le modèle de la sélection - Malécot, Kimura et Kingman inventent le modèle neutre 3. Depuis les années 1990, la génomique des populations est l’un des domaines préférés des applications numériques, qui font beaucoup appel à la théorie des probabilités, mais heureusement, les logiciels disponibles épargnent leurs utilisateurs de trop entrer dans la théorie. Néanmoins, il faut en savoir les principes pour interpréter des résultats. 3. Depuis les années 1990, la génomique des populations … Structure de population de 1048 humains à partir de 993 marqueurs génétique. Chaque individu est représenté par une ligne verticale, partitionnée en K segments colorés. Les traits noirs séparent les populations. La valeur de K indique combien de groupes (clusters) le logiciel STRUCTURE a estimé. Avant d’écrire un modèle, il faut montrer que deux populations sont devenues différentes. Tout travail commence donc par l’application de raisonnements statistiques Résultats tirés de la thèse de Maxime Lamotte 1951 Comparons les populations deux à deux par un test d’homogénéité. 2 χ =∑ 2 (O − T ) T L’hypothèse à réfuter est que les deux échantillons sont des tirages aléatoires d’une même population. Localité Dilbeek, Belgique Stockholm, Suède Total Jaune 22 23 45 Rose 24 33 57 Total 46 56 102 En notant : a = 22, b = 24, c = 23, d = 33, N = 102, le χ2 peut aussi s’écrire : N (ad − bc) 2 102 × (726 − 552) 2 2 χ = = = 0,467 (a + b)(c + d )(a + c)(b + d ) (45)(57)(56)(46) Localité Dilbeek, Belgique Niederbronn, France Total Jaune 22 50 72 Rose 24 15 39 Total 46 65 111 En notant : a = 22, b = 24, c = 50, d = 15, N = 111 , on calcule : 2 2 N ad bc ( − ) 111 ( 330 1200 ) − χ2 = = = 10,00 (a + b)(c + d )(a + c)(b + d ) (72)(39)(65)(46) χ2 = 10,00, ν = 1, p < 0.005 Quel raisonnement fait-on quand on fait un χ2 - On suppose que l’effectif de chaque population est vrai. - On fait l’hypothèse que les deux échantillons résultent pour le premier de p tirages indépendants, pour l’autre, de q tirages indépendants, dans une même population de taille infinie (ou, en langage statistique, "avec remise" ), ce qui signifie que le tirage d’un élément n’a aucun effet sur le tirage d’un autre. - On considère donc que les proportions r/n et s/n sont vraies. - Le test consiste à réfuter cette hypothèse. - Pour cela, on appelle ce type de χ2 un test d’homogénéité. attendu Tableau à 4 cases : un seul degré de liberté: une seule case définit toutes les autres, car l’hypothèse entraîne que les valeurs marginales sont fixes. moins bon pire Différence : D= ( AD ) − ( BC ) N extrême Theor Pop1 Pop2 Somme Char1 2 8 10 Char2 6 14 20 somme 9 21 30 Tableau à 4 cases. Supposons que j’aie obtenu la configuration suivante des données : 1,8,9,12 La théorie des probabilités me dit que chaque configuration est de probabilité : p! q! r! s! probabilté = a! b! c! d ! n! Réaliser un test de Fisher revient à calculer la probabilité de chacune des configurations pires ou égales à la configuration trouvée, et à additionner ces probabilités. Si la probabilité cumulée est inférieure au seuil que je me donne (par ex. p = 0.05), on dit que le test est significatif. Mon résultat et tous les résultats pires. Dans cet exemple : deux configurations. Chi-2 avec ou sans correction de Yates Sous R, entrer : cepaea <-(matrix(c(22,24,50,15),nrow=2)) rownames(cepaea)<-c("roses","jaunes") colnames(cepaea)<-c("Dilbeek","Nederbronn") cepaea print(chisq.test(cepaea)) print(chisq.test(cepaea,correct=F)) print(fisher.test(cepaea)) (conseil: écrire les lignes dans Word, et faire un coupé-collé, afin de garder une trace). On voit que le χ2 est trop fort, et que la corrrction de Yates est trop conservative Chi-2 : rôle de l’effectif Sous R, entrer : cepaea <-(matrix(c(44,48,100,30),nrow=2)) NB. Les effectifs ont été multipliés par 2, donc l’écart reste le même en valeur relative. Sous R entrer : cepaea <-(matrix(c(49,43,95,35),nrow=2)) NB. Cette fois, les effectifs ont été multipliés par 2, mais l’écart relatif est deux fois moindre. Exercice: Benassi,Veuille et al. (1993) examinent la liaison entre le locus ADH (alcohol dehydrogenase) et deux inversions chromosomiques du chromosome 2 de Drosophila melanogaster en Côte d’Ivoire. In(2L)t Les In(2R)NS Adh allèles ADHS et ADHF sont-ils ADHF ADHS Standard 15 19 In(2L)t 0 51 distribués au hasard ADHF ADHS Standard 12 59 In(2R)NS 3 11 Exercice. La coccinelle à deux points Adalia bipunctata, existe sous trois formes déterminées par un polymorphisme génétique : une forme rouge (à points noirs) et deux formes noires (à points rouges). En 1966, E. R. Creed collecte un grand nombre d’échantillons dans la campagne britannique en séparant les coccinelles en deux lots : les « rouges » et les « noires ». Voici un extrait de ses résultats dans deux régions : Birmingham et Cambridge Rouges Noires Total Birmingham Cambridge 354 121 475 131 6 137 * Calculer la fréquence des 485 « rouges » dans127 les deux populations. 612 * Les deux échantillons sont-ils significativement différents fréquence des rouges Exercice: Expériences de lachers et recaptures de Kettlewell Noirs Clairs Total Lachés 624 155 779 Recapturés 131 18 149 Expériences de lâchers et recaptures de Kettlewell On réécrit le tableau pour faire apparaître les résultats alternatifs Noirs Clairs Total Non recapturés 493 137 630 Recapturés 131 18 149 Total 624 155 779 Expériences de lâchers et recaptures de Kettlewell L’exercice porte en fait sur les effectifs suivants, avec les valeurs marginales pour hypothèses : Noirs Clairs Total Non recapturés 493 137 630 Recapturés 131 18 149 P = 4.12 10-3 significatif Total 62 155 779 Exercice. Dans un groupe de 83 Kazakhs, Heyer, Veuille et col. (2011) examinent l’hypothèse selon laquelle un remplacement du nucléotide C par un nucléotide T en position -13.900 du gène de la lactase, permet la « persistance » de la dégradation du lactose chez les adultes (chez les mammifères, cet enzyme qui intervient dans la digestion du lait n’est normalement actif que chez le nourrisson ; dans les populations humaines pastorales, son activité persiste). Ils trouvent les association suivantes. Y a-t-il une différence de phénotype entre les « porteurs » et les « non-porteurs » de l’allèle T Phenotype \ Génotype persistance Non-persistance Total CC 4 54 58 CT 21 3 24 TT 1 1 Total 26 57 83 1-12. Anxolabéhere, Girard, Palabost et Périquet déterminent les fréquences alléliques à 5 locus allozymiques dans une population de Drosophila melanogaster originaire de Sète. Sur deux campagnes d’échantillonnage séparées par une année d’intervalle, ils trouvent les proportions suivantes : Les fréquences alléliques ont-elles changé en un an 1973 1974 Locus \ génotypes FF FS SS FF FS SS Adh 113 7 0 116 4 0 Est-6 7 56 55 11 59 50 Est-C 109 10 1 104 14 2 α-Gpdh-1 34 46 27 33 55 32 To 168 51 5 190 46 2 NB. Ici, on appelle LOCUS un emplacement dans le génome, GENE l’élément qui occupe ce locus sur un chromosome donné, et ALLELE différents types de gènes à un même locus L’exercice porte en fait sur les effectifs alléliques suivants : A1 a1 A2 a2 233 7 236 4 70 166 80 159 228 12 222 18 114 100 121 119 387 61 426 50 p Problème: quel niveau de signification choisir quand on fait plusieurs tests L’exercice porte en fait sur les effectifs suivants : A1 a1 A2 a2 p 233 7 236 4 0,5441 70 166 80 159 0,3764 228 12 222 18 0,364 114 100 121 119 0,573 387 61 426 50 0,157 Problème: quel niveau de signification choisir quand on fait plusieurs tests Le seuil de 5% utilisé pour la signification statistique est une convention instaurée au début du XXème siècle et qui aurait pu être remise en cause à tout moment dans l’histoire des statistiques. Nul ne l’a fait parce qu’aucune valeur ne s’impose. Toute valeur choisie sera un compromis entre le risque de rejeter une hypothèse vraie (ce qui arrive dans 5% des cas, soit une fois sur 20), et le risque d’accepter une hypothèse fausse . Il faut donc se rappeler qu’un résultat validé par les statistiques doit être recoupé par d’autres informations. p 3,84 95% 5% χ2 Risque d’accepter une hypothèse fausse Risque de rejeter une hypothèse vraie Le risque de rejeter une hypothèse vraie est accru lorsqu’on fait plusieurs tests pour vérifier la même hypothèse. Par exemple, si l’on fait trois tests et qu’un seul résultat suffit pour rejeter l’hypothèse, on augmente la probabilité de rejeter l’hypothèse. Ainsi, trois essais utilisant un seuil de 5% reviennent à utiliser un seuil de 14% . Si l’on fait 10 trsts, cela revient à utiliser un seuil de 40%. Pour rester dans le domaine classique d’un seuil de 5% , on utilise un seuil de probabilité plus petit. Par exemple, pour 10 tests, on fixe le seuil à 0,5%. C’est la correction dite de Bonferroni. 14% 95% Equilibre HW dans le cas d'un gène autosomal Prenons l'exemple d'un organisme asexué avec fécondation externe : par exemple certains coraux rejetant leurs gamètes dans la mer. Soient deux allèles à un locus, A et a, de fréquences respectives p et q. Les croisements entre gamètes se font au hasard. On peut prédire les fréquences génotypiques à partir des fréquences alléliques. Elles seront respectivement de : [A,A] p2 probabilité de rencontre de deux gamètes A, [A,a] 2pq probabilité de rencontre d'un gamète A par un gamète a, [a,a] q2 probabilité de rencontre de deux gamètes a. Ce résultat de dépend que des fréquences alléliques. Il reste donc le même à toute génération. Démontrons ce même résultat quand les gamètes sont transmis par accouplement des parents. Appelons les fréquences génotypiques: D [AA], H [Aa], R [aa], avec par définition : D + H + R = 1 Supposons qu'à la génération de départ, les fréquences génotypiques ne respectent pas des proportions particulières. Les fréquences alléliques à la première génération peuvent se déduire des fréquences génotypiques : 1 p = D+ H 2 1 q=R+ H 2 A la génération suivante, en supposant qu'il y a panmixie (croisements au hasard), les croisements entre génotypes respectent les proportions suivantes : Génotype Fréquence génotypique D H R AA D D2 DH RD Aa H DH H2 RH aa R DR HR R2 Quelle est la valeur de D', fréquence de [A,A] à la seconde génération 100% [A,A] × D2 50% [A,A] × HD x 2 25% [A,A] × H2 {D2 + ½ (2.HD) + ¼ H2} [A,A] A la génération suivante, en supposant qu'il y a panmixie (croisements au hasard), les croisements entre génotypes respectent les proportions suivantes : Génotype Fréquence génotypique D H R 1 D' = ( D + H ) 2 = p 2 2 AA D D2 DH RD Aa H DH H2 RH 1 R' = ( R + H ) 2 = q 2 2 aa R DR HR R2 Soient deux allèles, a et A dans une population * Le triangle délimite toutes les valeurs que peut prendre la fréquence du génotype hétérozygote (H) en fonction de la fréquence de l’allèle a (p). * La courbe passant par un maximum H = 0,5 correspond aux valeurs que prend si les croisements se font au hasard (H = 2pq). Conclusion : les fréquences génotypiques se déduisent des fréquences alléliques selon le développement du carré du binôme (p+q)2 = p2+2pq+q2 (ou d'un polynôme quand il y a plus de deux allèles). Cela suppose que: 1) les fluctuations de fréquence d'une génération à l'autre sont négligeables (donc que la population soit assez grande), 2) il n'y a pas de sélection, 3) les croisements sont panmictiques (appariements effectués au hasard) Reproduction Phase diploïde Phase haploïde Maturité sexuelle Développement Départ et arrivée Equilibre HW dans le cas d'un gène lié au sexe ♀ ♂ A pm a qm AA Df AA A Aa A Aa Hf AA,Aa A,a Aa,aa A,a aa Rf Aa a Aa a D’une génération à l’autre : p'm= pf p'f =( pm+ pf)/2 Donc, à chaque génération, la fréquence chez les mâles est égale à la fréquence chez les femelles de la génération antérieure. La fréquence chez les femelles est la moyenne de celle des mâles et des femelles de la génération antérieure. Si l'on part de fréquences alléliques différentes entre mâles et femelles, on tend vers un équilibre p=( pm+2 pf)/3 Conditions d’application de la loi de Hardy-Weinberg - pas de sélection - loi des grands nombres : les moyennes tendent vers l'espérance. - croisements au hasard (pas de choix des partenaires, pas de structuration dans l'espace) - individus hermaphrodites (sinon, HW s'applique à partir de la deuxième génération seulement : penser à la F2 de la première loi de Mendel) Conséquences de la loi de Hardy-Weinberg 1. La "population mendélienne" comme unité de l'évolution. D'une génération à l'autre, ce ne sont pas les individus qui se reproduisent semblables à eux-mêmes, mais les populations, parce qu'elles reproduisent la même diversité de génotypes. Le Mendélisme contrarie les conceptions évolutives qui prenaient l'individu comme unité de l'évolution. Il inspire au contraire une conception populationnelle des unités évolutives. Pour des fréquences alléliques données, les lois des probabilités engendrent, génération après génération, les mêmes combinaisons génotypiques, en dépit du fait qu'aucun descendant n'est identique à ses parents. Ernst Mayr parlera de la population (et par voie de conséquence, de l'espèce) comme un pool génique, c'est-à-dire comme un ensemble évolutif caractérisé par sa diversité génétique à un moment donné, recombinant des allèles entre individus, génération après génération, au hasard de la reproduction sexuée. L'expression de génétique des populations ne signifie pas simplement que l'on fait de la génétique au niveau de la population comme on en ferait à n'importe quel autre niveau. Elle identifie que c'est à ce niveau, précisément, que se détermine l'évolution des espèces. 2. difficultés de la sélection eugéniste. Pour ceux qui défendaient, au début, une conception primitive du darwinisme, la loi de Hardy-Weinberg sera également une difficulté. Les eugénistes étaient, à la fin du 19ème et au début du 20ème siècle, un puissant mouvement réformateur voulant éradiquer les "tares héréditaires" en appliquant une sélection artificielle à l'espèce humaine. Leur idée était que le monde moderne était trop protecteur, qu'il contrecarrait le libre cours de la sélection naturelle et favorisait le maintien de mutations délétères. Ils proposaient d'empêcher la reproduction des gens montrant de telles tares. Le problème qu'il découvrirent est que beaucoup de ces "tares" correspondaient à des allèles récessifs. Or, dans un tel système, si q est la fréquence de l'allèle à éliminer, q2 individus expriment la tare (les homozygotes), alors que 2pq individus portent le gène (les hétérozygotes, alors qualifiés de "porteurs"), mais sans l'exprimer. Par exemple, si q = 0.01 (un chiffre réaliste, et même un peu élevé, s'agissant dun gène délétère), on peut écrire p ≈ 1, ce qui fait que le rapport entre les gènes présents chez les porteurs silencieux et ceux présents chez les individus présentant la tare est de pq/q2 ≈ p/q = 100. En d'autres termes, en éliminant sélectivement les individus présentant la tare, on n'élimine pas du tout l'allèle visé puisqu'on ne parvient à le repérer qu'une fois sur cent! L'eugénisme, basé sur un tri sélectif des reproducteurs dans la population humaine, devenait (heureusement) une utopie impossible à réaliser… 1-1. Dans une population donnée, 0,42 des individus naissent MN. Quelle est la fréquence de M, sachant que c’est l’allèle le plus fréquent Sous quelle hypothèse 1-2. Dans une population donnée, les génotypes MN sont 10 fois plus nombreux que les génotypes NN. Quel est q, fréquence de l’allèle N Sous quelle hypothèse 1-3. Sur 3100 polonais, une étude en trouve 1101 MM, 1496 MN, et 503 NN. Quelles sont les fréquences alléliques, et quelles sont les fréquences attendues des génotypes. Effectuer un test de χ2. 1-4. Sur 1000 britanniques examinés pour le polymorphisme du groupe sanguin S-s, on a trouvé 99 SS, 418 Ss, et 483 ss. Estimer les fréquences p et q, et dire si les proportions de Hardy Weinberg sont respectées. Une manière de faire les calculs "à la main", pour voir ce qu’il se passe (sous R, en imprimant les résultats pas-à-pas pour vérifier) D=99 H=418 R=483 N=H+D+R p<-(D+H/2)/N p q=(R+H/2)/N q OBS <-c(D,H,R) OBS THE <-c(p*p,2*p*q,q*q) THE THEO<-THE*N THEO CHI2<-(OBS-THEO)^2 CHI2 CHI2<-CHI2/THEO CHI2 KHIDEUX <-sum(CHI2) KHIDEUX qchisq(KHIDEUX,1) # 1 signifie 1 ddl Résultat : D=99 H=418 R=483 N=H+D+R p<-(D+H/2)/N p [1] 0.308 q=(R+H/2)/N q [1] 0.692 OBS <-c(D,H,R) OBS [1] 99 418 483 THE <-c(p*p,2*p*q,q*q) THE [1] 0.094864 0.426272 0.478864 THEO<-THE*N THEO [1] 94.864 426.272 478.864 CHI2<-(OBS-THEO)^2 CHI2 [1] 17.10650 68.42598 17.10650 CHI2<-CHI2/THEO CHI2 [1] 0.18032653 0.16052188 0.03572308 KHIDEUX <-sum(CHI2) KHIDEUX [1] 0.3765715 qchisq(KHIDEUX,1) # 1 signifie 1 ddl [1] 0.2410781 1-5. La fibrose cystique est une maladie génétique autosomale récessive due à un locus, qui affecte 40 individus sur 100.000 dans la population européenne. * quelle est la fréquence de l’allèle causant la maladie * quelle est la fréquence des hétérozygotes * quelle est la fréquence des porteurs dans une population de 60 millions d’individus 1-6. Pour un locus unique et deux allèles, montrer que le nombre de descendants hétérozygotes d'un parent héterozygote est de ½. 1-8 Pour un gène récessif rare lié à l'X, montrer que la proportion des femmes porteuses est environ de 2 fois le nombre d'hommes affectés. 1-10. En 1959, Searle trouve les proportions suivantes pour les couleurs de pelage des chats de Singapour. Les fréquences alléliques sont-elles différentes dans les deux sexes Justifiez votre conclusion. Sexe Femelles mâles Phenotype Noir Ecaille de tortue Jaune Noir jaune Genotype +/+ +/y y/y + y Effectif 63 55 12 74 38 cats<-matrix(c(181,79,74,38),nrow=2) cats [,1] [,2] [1,] 181 74 [2,] 79 38 fisher.test(cats) Fisher's Exact Test for Count Data data: cats p-value = 0.5432 alternative hypothesis: true odds ratio is not equal to 1 95 percent confidence interval: 0.710427 1.931489 sample estimates: odds ratio 1.175999 En génotypant deux populations de drosophiles, on a trouvé les effectifs alléliques suivants : Malawi Côte d’Ivoire Adh Slow 63 69 Adh Fasr 2 15 Les deux populations sont-elles différentes Pas d’ordinateur Calculette autorisée Chez la drosophile, le déterminisme chromosomique du sexe est semblable à celui de l’homme : les femelles sont XX et les mâles XY. Le locus B (bar) est porté la le chromosome X. On dit que le locus est "lié au sexe". On examine le génotype de 1000 drosophiles et on obtient les résultats suivants : •Les fréquences alléliques sont-elles différentes entre les deux sexes Femelles BB 242 Bb 220 bb 30 Mâles B 345 b 153