+ p

publicité
Deuxième partie de la première journée
1.
Comparaison de deux populations
2.
Fréquences alléliques et fréquences génotypiques
3.
Equilibre de Hardy-Weinberg
L’histoire de l’évolution est aussi une histoire des mathématiques appliquées
3 étapes de la génétique des populations, qui sont aussi trois étapes de la réflxion
1.
-
Histoire des statistiques:
Galton invente le coefficient de corrélation et la droite de régression.
Pearson invente le Khi-deux (χ2)
Fisher invente l’analyse de variance et la vraisemblance
2. Histoire des mathématiques
- Fisher, Wright et Haldane, inventent le modèle de la sélection
- Malécot, Kimura et Kingman inventent le modèle neutre
3. Depuis les années 1990, la génomique des populations est l’un des domaines
préférés des applications numériques, qui font beaucoup appel à la théorie des
probabilités, mais heureusement, les logiciels disponibles épargnent leurs
utilisateurs de trop entrer dans la théorie. Néanmoins, il faut en savoir les principes
pour interpréter des résultats.
L’histoire de l’évolution est aussi une histoire des mathématiques appliquées
3 étapes de la génétique des populations, qui sont aussi trois étapes de la réflxion
Histoire des statistiques:
Galton invente le coefficient de corrélation et la droite de régression.
Pearson invente le Khi-deux (χ2)
Fisher invente l’analyse de variance et la vraisemblance
offspring
1.
-
Mid-parent
L’histoire de l’évolution est aussi une histoire des mathématiques appliquées
3 étapes de la génétique des populations, qui sont aussi trois étapes de la réflxion
1.
-
Histoire des statistiques:
Galton invente le coefficient de corrélation et la droite de régression.
Pearson invente le Khi-deux (χ2)
Fisher invente l’analyse de variance et la vraisemblance
2. Histoire des mathématiques
- Fisher, Wright et Haldane, inventent le modèle de la sélection
- Malécot, Kimura et Kingman inventent le modèle neutre
3. Depuis les années 1990, la génomique des populations est l’un des domaines
préférés des applications numériques, qui font beaucoup appel à la théorie des
probabilités, mais heureusement, les logiciels disponibles épargnent leurs
utilisateurs de trop entrer dans la théorie. Néanmoins, il faut en savoir les principes
pour interpréter des résultats.
L’histoire de l’évolution est aussi une histoire des mathématiques appliquées
3 étapes de la génétique des populations, qui sont aussi trois étapes de la réflxion
1.
-
Histoire des statistiques:
Galton invente le coefficient de corrélation et la droite de régression.
Pearson invente le Khi-deux (χ2)
Fisher invente l’analyse de variance et la vraisemblance
2. Histoire des mathématiques
- Fisher, Wright et Haldane, inventent le modèle de la sélection
- Malécot, Kimura et Kingman inventent le modèle neutre
Malécot et Wright
L’histoire de l’évolution est aussi une histoire des mathématiques appliquées
3 étapes de la génétique des populations, qui sont aussi trois étapes de la réflxion
1.
-
Histoire des statistiques:
Galton invente le coefficient de corrélation et la droite de régression.
Pearson invente le Khi-deux (χ2)
Fisher invente l’analyse de variance et la vraisemblance
2. Histoire des mathématiques
- Fisher, Wright et Haldane, inventent le modèle de la sélection
- Malécot, Kimura et Kingman inventent le modèle neutre
3. Depuis les années 1990, la génomique des populations est l’un des domaines
préférés des applications numériques, qui font beaucoup appel à la théorie des
probabilités, mais heureusement, les logiciels disponibles épargnent leurs
utilisateurs de trop entrer dans la théorie. Néanmoins, il faut en savoir les principes
pour interpréter des résultats.
3. Depuis les années 1990, la génomique des populations …
Structure de population de 1048 humains à partir de 993 marqueurs génétique.
Chaque individu est représenté par une ligne verticale, partitionnée en K segments
colorés. Les traits noirs séparent les populations. La valeur de K indique combien de
groupes (clusters) le logiciel STRUCTURE a estimé.
Avant d’écrire un modèle, il faut montrer que
deux populations sont devenues différentes.
Tout travail commence donc par l’application
de raisonnements statistiques
Résultats tirés de la thèse de Maxime Lamotte 1951
Comparons les populations deux à deux par un test
d’homogénéité.
2
χ =∑
2
(O − T )
T
L’hypothèse à réfuter est que les deux échantillons sont des
tirages aléatoires d’une même population.
Localité
Dilbeek, Belgique
Stockholm, Suède
Total
Jaune
22
23
45
Rose
24
33
57
Total
46
56
102
En notant : a = 22, b = 24, c = 23, d = 33, N = 102, le χ2 peut
aussi s’écrire :
N (ad − bc) 2
102 × (726 − 552) 2
2
χ =
=
= 0,467
(a + b)(c + d )(a + c)(b + d )
(45)(57)(56)(46)
Localité
Dilbeek, Belgique
Niederbronn, France
Total
Jaune
22
50
72
Rose
24
15
39
Total
46
65
111
En notant : a = 22, b = 24, c = 50, d = 15, N = 111 , on calcule :
2
2
N
ad
bc
(
−
)
111
(
330
1200
)
−
χ2 =
=
= 10,00
(a + b)(c + d )(a + c)(b + d ) (72)(39)(65)(46)
χ2 = 10,00, ν = 1, p < 0.005
Quel raisonnement fait-on quand on fait un χ2
- On suppose que l’effectif de chaque population est vrai.
- On fait l’hypothèse que les deux échantillons résultent pour le premier de p tirages
indépendants, pour l’autre, de q tirages indépendants, dans une même population de taille infinie
(ou, en langage statistique, "avec remise" ), ce qui signifie que le tirage d’un élément n’a aucun
effet sur le tirage d’un autre.
- On considère donc que les proportions r/n et s/n sont vraies.
- Le test consiste à réfuter cette hypothèse.
- Pour cela, on appelle ce type de χ2 un test d’homogénéité.
attendu
Tableau à 4 cases : un seul
degré de liberté: une seule
case définit toutes les autres,
car l’hypothèse entraîne que
les valeurs marginales sont
fixes.
moins
bon
pire
Différence :
D=
( AD ) − ( BC )
N
extrême
Theor
Pop1
Pop2
Somme
Char1
2
8
10
Char2
6
14
20
somme
9
21
30
Tableau à 4 cases.
Supposons que j’aie obtenu la configuration
suivante des données :
1,8,9,12
La théorie des probabilités me dit que chaque
configuration est de probabilité :
p! q! r! s!
probabilté =
a! b! c! d ! n!
Réaliser un test de Fisher revient à calculer la
probabilité de chacune des configurations pires
ou égales à la configuration trouvée, et à
additionner ces probabilités.
Si la probabilité cumulée est inférieure au seuil
que je me donne (par ex. p = 0.05), on dit que le
test est significatif.
Mon résultat et tous les résultats
pires. Dans cet exemple : deux
configurations.
Chi-2 avec ou sans correction de Yates
Sous R, entrer :
cepaea <-(matrix(c(22,24,50,15),nrow=2))
rownames(cepaea)<-c("roses","jaunes")
colnames(cepaea)<-c("Dilbeek","Nederbronn")
cepaea
print(chisq.test(cepaea))
print(chisq.test(cepaea,correct=F))
print(fisher.test(cepaea))
(conseil: écrire les lignes dans Word, et faire un coupé-collé, afin de garder une
trace).
On voit que le χ2 est trop fort, et que la corrrction de Yates est trop conservative
Chi-2 : rôle de l’effectif
Sous R, entrer :
cepaea <-(matrix(c(44,48,100,30),nrow=2))
NB. Les effectifs ont été multipliés par 2, donc l’écart reste le même en valeur relative.
Sous R entrer :
cepaea <-(matrix(c(49,43,95,35),nrow=2))
NB. Cette fois, les effectifs ont été multipliés par 2, mais l’écart relatif est deux fois moindre.
Exercice: Benassi,Veuille et al. (1993) examinent la liaison entre le locus ADH (alcohol
dehydrogenase) et deux inversions chromosomiques du chromosome 2 de Drosophila
melanogaster en Côte d’Ivoire.
In(2L)t
Les
In(2R)NS
Adh
allèles ADHS et ADHF sont-ils
ADHF
ADHS
Standard
15
19
In(2L)t
0
51
distribués au hasard
ADHF
ADHS
Standard
12
59
In(2R)NS
3
11
Exercice. La coccinelle à deux points Adalia bipunctata, existe sous trois formes déterminées
par un polymorphisme génétique : une forme rouge (à points noirs) et deux formes noires (à
points rouges).
En 1966, E. R. Creed collecte un grand nombre d’échantillons dans la campagne britannique en
séparant les coccinelles en deux lots : les « rouges » et les « noires ».
Voici un extrait de ses résultats dans deux régions : Birmingham et Cambridge
Rouges
Noires
Total
Birmingham
Cambridge
354
121
475
131
6
137
* Calculer la fréquence des 485
« rouges » dans127
les deux populations.
612
* Les deux échantillons sont-ils significativement différents
fréquence des rouges
Exercice:
Expériences de lachers et recaptures de Kettlewell
Noirs
Clairs
Total
Lachés
624
155
779
Recapturés
131
18
149
Expériences de lâchers et recaptures de Kettlewell
On réécrit le tableau pour faire apparaître les résultats alternatifs
Noirs
Clairs
Total
Non recapturés
493
137
630
Recapturés
131
18
149
Total
624
155
779
Expériences de lâchers et recaptures de Kettlewell
L’exercice porte en fait sur les effectifs suivants, avec les valeurs marginales pour
hypothèses :
Noirs
Clairs
Total
Non recapturés
493
137
630
Recapturés
131
18
149
P = 4.12 10-3 significatif
Total
62
155
779
Exercice.
Dans un groupe de 83 Kazakhs, Heyer, Veuille et col. (2011) examinent l’hypothèse selon laquelle
un remplacement du nucléotide C par un nucléotide T en position -13.900 du gène de la lactase,
permet la « persistance » de la dégradation du lactose chez les adultes (chez les mammifères, cet
enzyme qui intervient dans la digestion du lait n’est normalement actif que chez le nourrisson ;
dans les populations humaines pastorales, son activité persiste).
Ils trouvent les association suivantes.
Y a-t-il une différence de phénotype entre les « porteurs » et les « non-porteurs » de l’allèle T
Phenotype \ Génotype
persistance
Non-persistance
Total
CC
4
54
58
CT
21
3
24
TT
1
1
Total
26
57
83
1-12. Anxolabéhere, Girard, Palabost et Périquet déterminent les fréquences alléliques à 5 locus
allozymiques dans une population de Drosophila melanogaster originaire de Sète. Sur deux
campagnes d’échantillonnage séparées par une année d’intervalle, ils trouvent les proportions
suivantes :
Les fréquences alléliques ont-elles changé en un an
1973
1974
Locus \ génotypes
FF
FS
SS
FF
FS
SS
Adh
113
7
0
116
4
0
Est-6
7
56
55
11
59
50
Est-C
109
10
1
104
14
2
α-Gpdh-1
34
46
27
33
55
32
To
168
51
5
190
46
2
NB. Ici, on appelle LOCUS un emplacement dans le génome, GENE l’élément qui occupe ce
locus sur un chromosome donné, et ALLELE différents types de gènes à un même locus
L’exercice porte en fait sur les effectifs alléliques suivants :
A1
a1
A2
a2
233
7
236
4
70
166
80
159
228
12
222
18
114
100
121
119
387
61
426
50
p
Problème: quel niveau de signification choisir quand on fait plusieurs tests
L’exercice porte en fait sur les effectifs suivants :
A1
a1
A2
a2
p
233
7
236
4
0,5441
70
166
80
159 0,3764
228
12
222
18
0,364
114
100
121
119
0,573
387
61
426
50
0,157
Problème: quel niveau de signification choisir quand on fait plusieurs tests
Le seuil de 5% utilisé pour la signification statistique est une convention instaurée au début
du XXème siècle et qui aurait pu être remise en cause à tout moment dans l’histoire des
statistiques.
Nul ne l’a fait parce qu’aucune valeur ne s’impose.
Toute valeur choisie sera un compromis entre le risque de rejeter une hypothèse vraie (ce
qui arrive dans 5% des cas, soit une fois sur 20), et le risque d’accepter une hypothèse
fausse .
Il faut donc se rappeler qu’un résultat validé par les statistiques doit être recoupé par
d’autres informations.
p
3,84
95%
5%
χ2
Risque d’accepter une hypothèse fausse Risque de rejeter une hypothèse vraie
Le risque de rejeter une hypothèse vraie est accru lorsqu’on fait plusieurs tests pour
vérifier la même hypothèse. Par exemple, si l’on fait trois tests et qu’un seul résultat suffit
pour rejeter l’hypothèse, on augmente la probabilité de rejeter l’hypothèse.
Ainsi, trois essais utilisant un seuil de 5% reviennent à utiliser un seuil de 14% .
Si l’on fait 10 trsts, cela revient à utiliser un seuil de 40%.
Pour rester dans le domaine classique d’un seuil de 5% , on utilise un seuil de probabilité
plus petit. Par exemple, pour 10 tests, on fixe le seuil à 0,5%.
C’est la correction dite de Bonferroni.
14%
95%
Equilibre HW dans le cas d'un gène autosomal
Prenons l'exemple d'un organisme asexué avec fécondation externe : par exemple certains coraux
rejetant leurs gamètes dans la mer. Soient deux allèles à un locus, A et a, de fréquences respectives
p et q. Les croisements entre gamètes se font au hasard. On peut prédire les fréquences
génotypiques à partir des fréquences alléliques. Elles seront respectivement de :
[A,A]
p2
probabilité de rencontre de deux gamètes A,
[A,a]
2pq
probabilité de rencontre d'un gamète A par un gamète a,
[a,a]
q2
probabilité de rencontre de deux gamètes a.
Ce résultat de dépend que des fréquences alléliques. Il reste donc le même à toute génération.
Démontrons ce même résultat quand les gamètes sont transmis par
accouplement des parents.
Appelons les fréquences génotypiques:
D [AA],
H [Aa],
R [aa],
avec par définition : D + H + R = 1
Supposons qu'à la génération de départ, les fréquences génotypiques
ne respectent pas des proportions particulières. Les fréquences
alléliques à la première génération peuvent se déduire des fréquences
génotypiques :
1
p = D+ H
2
1
q=R+ H
2
A la génération suivante, en supposant qu'il y a panmixie
(croisements au hasard), les croisements entre génotypes
respectent les proportions suivantes :
Génotype
Fréquence génotypique
D
H
R
AA
D
D2
DH
RD
Aa
H
DH
H2
RH
aa
R
DR
HR
R2
Quelle est la valeur de D', fréquence de [A,A] à la seconde
génération
100% [A,A] × D2
50% [A,A] × HD x 2
25% [A,A] × H2
{D2 + ½ (2.HD) + ¼ H2}
[A,A]
A la génération suivante, en supposant qu'il y a panmixie
(croisements au hasard), les croisements entre génotypes
respectent les proportions suivantes :
Génotype
Fréquence génotypique
D
H
R
1
D' = ( D + H ) 2 = p 2
2
AA
D
D2
DH
RD
Aa
H
DH
H2
RH
1
R' = ( R + H ) 2 = q 2
2
aa
R
DR
HR
R2
Soient deux allèles, a et A dans une population
* Le triangle délimite toutes les valeurs que peut prendre la fréquence
du génotype hétérozygote (H) en fonction de la fréquence de l’allèle a
(p).
* La courbe passant par un maximum H = 0,5 correspond aux valeurs
que prend si les croisements se font au hasard (H = 2pq).
Conclusion :
les fréquences génotypiques se déduisent des fréquences
alléliques selon le développement du carré du binôme
(p+q)2 = p2+2pq+q2
(ou d'un polynôme quand il y a plus de deux allèles).
Cela suppose que:
1) les fluctuations de fréquence d'une génération à l'autre sont
négligeables (donc que la population soit assez grande),
2) il n'y a pas de sélection,
3) les croisements sont panmictiques (appariements effectués
au hasard)
Reproduction
Phase
diploïde
Phase
haploïde
Maturité
sexuelle
Développement
Départ et
arrivée
Equilibre HW dans le cas d'un gène lié au sexe
♀
♂
A
pm
a
qm
AA
Df
AA
A
Aa
A
Aa
Hf
AA,Aa
A,a
Aa,aa
A,a
aa
Rf
Aa
a
Aa
a
D’une génération à l’autre :
p'm= pf
p'f =( pm+ pf)/2
Donc, à chaque génération, la fréquence chez les mâles est égale à la fréquence
chez les femelles de la génération antérieure. La fréquence chez les femelles est
la moyenne de celle des mâles et des femelles de la génération antérieure. Si l'on
part de fréquences alléliques différentes entre mâles et femelles, on tend vers un
équilibre p=( pm+2 pf)/3
Conditions d’application de la loi de Hardy-Weinberg
- pas de sélection
- loi des grands nombres : les moyennes tendent vers l'espérance.
- croisements au hasard (pas de choix des partenaires, pas de structuration dans
l'espace)
- individus hermaphrodites (sinon, HW s'applique à partir de la deuxième
génération seulement : penser à la F2 de la première loi de Mendel)
Conséquences de la loi de Hardy-Weinberg
1. La "population mendélienne" comme unité de l'évolution. D'une
génération à l'autre, ce ne sont pas les individus qui se reproduisent semblables à
eux-mêmes, mais les populations, parce qu'elles reproduisent la même diversité de
génotypes. Le Mendélisme contrarie les conceptions évolutives qui prenaient
l'individu comme unité de l'évolution. Il inspire au contraire une conception
populationnelle des unités évolutives. Pour des fréquences alléliques données, les
lois des probabilités engendrent, génération après génération, les mêmes
combinaisons génotypiques, en dépit du fait qu'aucun descendant n'est identique à
ses parents. Ernst Mayr parlera de la population (et par voie de conséquence, de
l'espèce) comme un pool génique, c'est-à-dire comme un ensemble évolutif
caractérisé par sa diversité génétique à un moment donné, recombinant des allèles
entre individus, génération après génération, au hasard de la reproduction sexuée.
L'expression de génétique des populations ne signifie pas simplement que l'on fait
de la génétique au niveau de la population comme on en ferait à n'importe quel autre
niveau. Elle identifie que c'est à ce niveau, précisément, que se détermine l'évolution
des espèces.
2. difficultés de la sélection eugéniste. Pour ceux qui défendaient, au début, une
conception primitive du darwinisme, la loi de Hardy-Weinberg sera également une
difficulté. Les eugénistes étaient, à la fin du 19ème et au début du 20ème siècle, un
puissant mouvement réformateur voulant éradiquer les "tares héréditaires" en
appliquant une sélection artificielle à l'espèce humaine. Leur idée était que le monde
moderne était trop protecteur, qu'il contrecarrait le libre cours de la sélection
naturelle et favorisait le maintien de mutations délétères. Ils proposaient d'empêcher
la reproduction des gens montrant de telles tares. Le problème qu'il découvrirent est
que beaucoup de ces "tares" correspondaient à des allèles récessifs. Or, dans un tel
système, si q est la fréquence de l'allèle à éliminer, q2 individus expriment la tare (les
homozygotes), alors que 2pq individus portent le gène (les hétérozygotes, alors
qualifiés de "porteurs"), mais sans l'exprimer. Par exemple, si q = 0.01 (un chiffre
réaliste, et même un peu élevé, s'agissant dun gène délétère), on peut écrire p ≈ 1, ce
qui fait que le rapport entre les gènes présents chez les porteurs silencieux et ceux
présents chez les individus présentant la tare est de pq/q2 ≈ p/q = 100. En d'autres
termes, en éliminant sélectivement les individus présentant la tare, on n'élimine pas
du tout l'allèle visé puisqu'on ne parvient à le repérer qu'une fois sur cent!
L'eugénisme, basé sur un tri sélectif des reproducteurs dans la population humaine,
devenait (heureusement) une utopie impossible à réaliser…
1-1. Dans une population donnée, 0,42 des individus naissent
MN.
Quelle est la fréquence de M, sachant que c’est l’allèle le plus
fréquent
Sous quelle hypothèse
1-2. Dans une population donnée, les génotypes MN sont 10 fois
plus nombreux que les génotypes NN.
Quel est q, fréquence de l’allèle N
Sous quelle hypothèse
1-3. Sur 3100 polonais, une étude en trouve 1101 MM, 1496 MN, et 503 NN.
Quelles sont les fréquences alléliques, et quelles sont les fréquences attendues des
génotypes. Effectuer un test de χ2.
1-4. Sur 1000 britanniques examinés pour le polymorphisme du
groupe sanguin S-s, on a trouvé 99 SS, 418 Ss, et 483 ss.
Estimer les fréquences p et q, et dire si les proportions de Hardy
Weinberg sont respectées.
Une manière de faire les calculs "à la main",
pour voir ce qu’il se passe (sous R, en
imprimant les résultats pas-à-pas pour vérifier)
D=99
H=418
R=483
N=H+D+R
p<-(D+H/2)/N
p
q=(R+H/2)/N
q
OBS <-c(D,H,R)
OBS
THE <-c(p*p,2*p*q,q*q)
THE
THEO<-THE*N
THEO
CHI2<-(OBS-THEO)^2
CHI2
CHI2<-CHI2/THEO
CHI2
KHIDEUX <-sum(CHI2)
KHIDEUX
qchisq(KHIDEUX,1) # 1 signifie 1 ddl
Résultat :
D=99
H=418
R=483
N=H+D+R
p<-(D+H/2)/N
p
[1] 0.308
q=(R+H/2)/N
q
[1] 0.692
OBS <-c(D,H,R)
OBS
[1] 99 418 483
THE <-c(p*p,2*p*q,q*q)
THE
[1] 0.094864 0.426272 0.478864
THEO<-THE*N
THEO
[1] 94.864 426.272 478.864
CHI2<-(OBS-THEO)^2
CHI2
[1] 17.10650 68.42598 17.10650
CHI2<-CHI2/THEO
CHI2
[1] 0.18032653 0.16052188 0.03572308
KHIDEUX <-sum(CHI2)
KHIDEUX
[1] 0.3765715
qchisq(KHIDEUX,1) # 1 signifie 1 ddl
[1] 0.2410781
1-5. La fibrose cystique est une maladie génétique autosomale
récessive due à un locus, qui affecte 40 individus sur 100.000 dans
la population européenne.
* quelle est la fréquence de l’allèle causant la maladie
* quelle est la fréquence des hétérozygotes
* quelle est la fréquence des porteurs dans une population de 60
millions d’individus
1-6. Pour un locus unique et deux allèles, montrer que le
nombre de descendants hétérozygotes d'un parent héterozygote
est de ½.
1-8 Pour un gène récessif rare lié à l'X, montrer que la proportion
des femmes porteuses est environ de 2 fois le nombre d'hommes
affectés.
1-10. En 1959, Searle trouve les proportions suivantes pour
les couleurs de pelage des chats de Singapour. Les
fréquences alléliques sont-elles différentes dans les deux
sexes Justifiez votre conclusion.
Sexe
Femelles
mâles
Phenotype
Noir
Ecaille de tortue
Jaune
Noir
jaune
Genotype
+/+
+/y
y/y
+
y
Effectif
63
55
12
74
38
cats<-matrix(c(181,79,74,38),nrow=2)
cats
[,1] [,2]
[1,] 181 74
[2,] 79 38
fisher.test(cats)
Fisher's Exact Test for Count Data
data: cats
p-value = 0.5432
alternative hypothesis: true odds ratio is
not equal to 1
95 percent confidence interval:
0.710427 1.931489
sample estimates:
odds ratio
1.175999
En génotypant deux populations de drosophiles, on a trouvé
les effectifs alléliques suivants :
Malawi
Côte d’Ivoire
Adh Slow
63
69
Adh Fasr
2
15
Les deux populations sont-elles différentes
Pas d’ordinateur
Calculette autorisée
Chez la drosophile, le déterminisme chromosomique du sexe est
semblable à celui de l’homme : les femelles sont XX et les mâles XY. Le
locus B (bar) est porté la le chromosome X. On dit que le locus est "lié
au sexe".
On examine le génotype de 1000 drosophiles et on obtient les
résultats suivants :
•Les fréquences alléliques sont-elles différentes entre les deux sexes
Femelles
BB
242
Bb
220
bb
30
Mâles
B
345
b
153
Téléchargement