Travaux dirigés de statistiques S4

publicité
1. STATISTIQUE DESCRIPTIVE
A.Mizrahi
Travaux dirigés de statistiques S4-SV SVN
1
Statistique descriptive
Exercice 1 : On considère la série suivante (1, 0, 2, 1, 1, 0, 1, 0, 0) .
1. Calculer sa moyenne et sa variance empiriques.
2. Représenter la courbe des fréquences cumulées.
3. Déterminer médiane, premier et troisième quartile, ainsi que le mode.
4. Représenter la boite à moustache de la série.
5. Calculer le coefficient de Fischer.
6. Même question avec la série :(1, 2, 3, 4, 5, 5, 5, 5, 10 ).
Exercice 2 :
1. Déterminer une série de cinq entiers dont la moyenne vaut 10 et la médiane 12.
2. Déterminer une série de cinq entiers dont la moyenne vaut 10 et la médiane 8.
3. Déterminer une série de cinq entiers dont la moyenne vaut 10 et l’écart type vaut 2.
Exercice 3 :
Lors d’une étude sur le grand corègone on a mesuré la longueur
totale du corps en mm de 756 poissons.
1. Représenter la courbe des fréquences cumulées.
2. Représenter les données sous forme d’un histogramme.
3. Proposer deux histogrammes dont les classes ont au moins 50
membres.
taille
effectif
taille
effectif
[270;290[
2
[410;430[
242
[290;310[
6
[430;450[
184
[310;330[
7
[450;470[
86
[330;350[
13
[470;490[
25
[350;370[
28
[490;510[
10
[370;390[
38
[510;530[
2
[390;410[
110
[530;600[
3
Exercice 4 : Montrer que si une série de réels est symétrique par rapport à un réel s, alors sa moyenne est égale à
s, de plus c’est une médiane de la série.
Exercice 5 :
Les mesures journalières de la température à Rennes du premier juin 2001 au 30 septembre 2001, relevée à
midi donne la boite à moustache suivante, la moyenne de ces températures est égale à 21,5 degré. :
Université de Cergy Pontoise
1
2009-2010
1. STATISTIQUE DESCRIPTIVE
A.Mizrahi
1. La médiane et la moyenne sont-elles différentes?
2. La distribution est-elle symétrique?
3. Quelle a été la valeur la plus basse observée? et la plus haute?
Exercice 6 : En utilisant le diagramme en bâtons ci dessous représentant le nombre d’enfants de 400 familles de
Susurre, répondre aux questions :
1. Calculer le nombre moyen d’enfants par famille.
2. Calculer la nombre médian d’enfants par famille.
3. Calculer la variance du nombre d’enfants par famille.
Exercice 7 : En utilisant le diagramme en bâtons ci dessus représentant la Cholestérolémie en g/l dans un échantillon de 113 patients:
1. Calculer le taux moyen de cholestérol dans l’échantillon.
2. Représenter la courbe cumulative des fréquence.
3. Déterminer médiane, quartile, écart inter-quartile.
4. Représenter la boite à moustache correspondante.
Exercice 8 : La Fréquence Cardiaque Maximum , notée FCM, est un paramètre essentiel pour permettre au coureur
de fond d’élaborer des plans d’entraînement efficaces. Cette fréquence peut se mesurer, soit en laboratoire sur tapis
roulant, soit sur le terrain à l’aide d’un cardio-fréquencemètre.
Une étude a été faite auprès de 13 hommes s’entraînant régulièrement (2 à 4 fois par semaine), et participant à de
petites compétitions. On a mesuré leur fréquence cardiaque maximum. On souhaite étudier une relation éventuelle
entre l’âge d’un individu et sa fréquence cardiaque maximum. Voici pour chaque individu son âge et sa fréquence
cardiaque maximum.
Age
40
36
51
49
47
51
32
55
55
23
49
52
35
FCM 187 195 180 190 185 183 195 185 189 201 189 185 195
1. Tracer le nuage de points, avec l’âge en abscisse et la FCM en ordonnée.
2. Calculer le coefficient de corrélation linéaire entre la variable âge et la variable FCM. Que constatez-vous ?
Peut-on dire que la fréquence cardiaque est fortement corrélée à l’âge des sportifs?
3. Calculer l’équation de la droite de régression linéaire. Tracer cette droite sur le même graphe que le nuage
de points.
4. Utiliser cette relation pour donner une estimation de votre FCM.
5. Peter Snell (Nouvelle-Zelande) a été 6 fois recordman du monde en demi- fond, du 800m au mile (1609m),
à l’âge de 26 ans. A l’époque, sa FCM était de 192. Placer ce point sur le graphique. D’après la droite de
régression, quelle FCM "devrait-il" avoir à son âge? Commenter.
Université de Cergy Pontoise
2
2009-2010
2. CONVERGENCE DES SUITES DE VARIABLES ALÉATOIRES
A.Mizrahi
Exercice 9 : On a relevé la production de bière alsacienne et le nombre de licences sportives des fédérations
françaises entre 1960 et 1995.
Années Nombre de licences Production de bière en Belgique
(en milliers)
(en millions d’hectolitres)
1960
1640
3,3
1960
1640
3,3
1965
2220
4
1970
3240
5,6
1975
4620
8
1980
6300
9,6
1985
8340
10,2
1990
8980
11,3
1995
9210
11,2
Calculer la corrélation entre les variables Licences et Bières.
Peut-on en déduire que la pratique du sport conduit à boire de la bière?
2
Convergence des suites de variables aléatoires
Exercice 10 : Soit X une V.A. Gaussienne de paramètres (3; 4)
1. Calculer P (X < 4); P (X < 2,5); P (X > 2); P (|X| < 4).
2. Déterminer α le plus grand possible tel que P (X − 2 > α) > 10−2 .
Exercice 11 : Soit X1 ,X2 ,X3 ,X4 des variables aléatoires normales centrées indépendantes de loi N (0; 9). Calculer
en fonction de la fonction de répartition F4 d’une loi de χ2 à 4 degrés de liberté, la probabilité
p = P (X12 + X22 + X32 + X42 > 2)
Exercice 12 :
Soit T une variable aléatoire qui suit une loi de
Student à 7 degrés de liberté : En utilisant le graphe
de la fonction de répartition d’une loi de Student à 7
degrés de liberté, ci contre à droite.
1. Déterminer des valeurs approchées de P (X <
1); P (X > 12 ); P (|X| < 1,5).
2. Déterminer α tel que P (X < α) = 14 . Déterminer β tel que P (X > β) = 41 .
Exercice 13 : On modélise
pins d’une plantation par des variables aléatoires iid (Xi )i normales
P10 la taille des
2 ≥ 144 . On mesure 10 arbres et l’on obtient les longueurs suivantes :
N (30; 4), calculer P
(X
−
30)
i
i=1
31,39,27,28,29,24,29,29,31,33
P
P10
2
qui donne 10
i=1 xi = 300 et
i=1 (xi − 30) = 144. Que peut-on dire de la modélisation ? Même question pour
la loi N (30; 9).
Exercice 14 : Soit (Xn ) une suite de variables aléatoires exponentielles de paramètre n, montrer que cette suite
converge en probabilité vers la variable aléatoire nulle.
Exercice 15 : On modélise la taille des hommes de 18 ans en France par une variable aléatoire normale N (175,36),
et la taille des femmes de 18 ans par une loi normale N (162,30).
1. Selon ce modèle quelle est la proportion d’homme de plus de 180 cm.
Université de Cergy Pontoise
3
2009-2010
2. CONVERGENCE DES SUITES DE VARIABLES ALÉATOIRES
A.Mizrahi
2. Selon ce modèle dans l’ensemble des couples hétérosexuels de jeunes de 18 ans possible, quelle est la proportion de couples ou l’homme est plus petit que la femme?
Exercice 16 : On note p la probabilité qu’une personne en âge d’être vaccinée contre la grippe demande effectivement à l’être. Sur une population de 10 000 personnes en âge d’être vaccinées, on modélise par une variable
aléatoire N le nombre de personnes demandant à se faire vacciner.
1. Quelle loi proposez-vous de prendre pour N ?
2. On suppose que p = 0,1, si l’on achète 1100 vaccins, quelle est la probabilité qu’il n’y en ait pas suffisamment? La difficulté semble d’évaluer p
3. Toujours dans le cas où p = 0,1, déterminer le nombre m de vaccins qu’il faudrait prévoir pour que la
probabilité d’en manquer soit égale à 1%.
Exercice 17 :
On sait par expérience qu’une certaine opération chirurgicale réussi dans 90% des cas. Cette opération est
réalisée dans une clinique 400 fois chaque année. On modélise par une variable aléatoire N le nombre de réussites
dans une année.
1. Quelle loi proposez vous de prendre pour N , on précisera bien les hypothèses faites? Calculer l’espérance et
la variance de N .
2. Calculer la probabilité que la clinique réussisse 350 ou plus opérations dans l’année.
3. Calculer la probabilité que la clinique rate 28 opérations ou plus dans l’année.
4. La clinique prend une assurance, le prix de l’assurance est fixé par le nombre maximum d’opérations indemnisée sur une année, le directeur veut fixer ce nombre de tel sorte que la probabilité de ne pas être indemnisé
soit inférieure à 1%, quel nombre maximum d’opérations ratées doit-il déclarer.
Exercice 18 : Soient B et N deux variables aléatoires, B de loi B(n; p) et N de loi N (0,1).
e = aN + b ait même espérance et
1. Rappeler l’espérance et la variance de B. Déterminer a et b pour que N
même variance que B.
e = αB + β soit centrée, réduite.
2. Déterminer α et β pour que B
e.
3. Trouver un lien entre les fonctions de répartition de N et de N
e pour n = 30 et p = 0,5. Les
Voici 3 graphiques, le premier représente les fonctions de répartition de N et de B
e pour p = 0,5 et
2 suivants représentent l’écart maximum qu’il y a entre la fonction de répartition de N et de B,
p = 0,1, n variant.
(c) N=30
(d) p = 0,5
(e) p = 0,1
4. Pour p = 0,5 et n = 50 quelle est l’erreur maximale que l’on fait lorsqu’on approche une loi B(50, 12 ) par
une loi normale.
5. Quelle valeur de n faut-il prendre pour être sur que l’on peut approcher une variable aléatoire binomiale
B(n, 12 ) par une loi normale avec une erreur inférieur à 5%?
1
6. Même question avec B(n, 10
)
Université de Cergy Pontoise
4
2009-2010
2. CONVERGENCE DES SUITES DE VARIABLES ALÉATOIRES
A.Mizrahi
On représente maintenant sur le premier graphique, pour n = 50 et p = 21 , la différence entre les fonctions de
e . Sur le second un zoom du premier graphique, enfin sur le troisième on représente le
répartition de B et de N
logarithme de l’erreur maximale commise en fonction du logarithme de n.
(f) N=50
(g) N=50, Zoom
(h) Des logarithmes
7. A l’aide de la figure (g). Déterminer l’erreur commise maximale que l’on peut commettre si l’on calcule
e < D) pour approcher P (c < B < d).
P (c < N
8. En utilisant la graphique (h), qui représente le logarithme néperien de l’erreur maximale en fonction de ln(n),
comment décroît cette erreur en fonction de n.
Jusqu’à présent ce que l’on cherche c’est la différence maximum qui existe entre la fonction de répartition de la loi
normale et celle de la loi binômiale centrée réduite, mais dans la pratique ce que l’on cherche c’est à approcher les
quantités
m), où m est un entier, par une
loi normale, dans le premier graphique on a représenté la suite de
P (B ≤
f
points n, max P (Bn ≤ m) − P (Nn ≤ m) .
m
n
Dans les deux derniers on a représenté
fn ≤ m + 0,5)
n, max P (Bn ≤ m) − P (N
m
n
pour p = 0,5 et pour p = 0,1, ceci est guidé par le fait que P (B ≤ m) = P (B < m + 1).
(i) Aux points entiers
(j) Correction de Yates, p = 0,5
(k) Correction de Yates, p = 0,1
9. Pour p = 0,5 et n = 50 quelle est l’erreur maximale que l’on fait lorsqu’on approche P (N ≤ m) à l’aide
d’une loi normale, sans utiliser la correction de yates, puis en utilisant la correction de Yates.
10. Quelle valeur de n faut-il prendre pour être sur que l’on peut approcher P (N ≤ m) par une loi normale en
utilisant la correction de Yates, avec une erreur inférieur à 1%?
11. On trouve parfois dans les livres que l’on peut approcher une loi binomiale B(N,p) par une loi normale
lorsque N p > 5 et N (1 − p) > 5. A quelle erreur cela correspond pour p = 0,5 et pour p = 0,1.
Université de Cergy Pontoise
5
2009-2010
3. ESTIMATION
3
A.Mizrahi
Estimation
Exercice 19 : On considère la série suivante (1, 0, 2, 1, 1, 0, 1, 0, 0) .
1. Calculer sa moyenne et sa variance empiriques.
2. En supposant que les données de cet échantillon sont des réalisations d’une variable de loi inconnue, donner
une estimation non biaisée de l’espérance et de la variance de cette loi.
3. On choisit de modéliser les valeurs de cet échantillon par une loi binomiale B(2,p). Utiliser la moyenne
empirique pour proposer une estimation ponctuelle pour p.
4. Avec le même modèle, utiliser la variance empirique pour proposer une autre estimation de p.
5. Déterminer l’estimateur du maximum de vraisemblance.
Exercice 20 : On ensemence 100 boites de Petri avec un cm3 d’une solution comprenant 4 bactéries par cm3 , on
modélise le nombre de bactéries se trouvant dans la ième boite de Petri par une variable aléatoire de Poisson Ni .
1. Quel paramètre peut-on prendre pour le paramètre de la variable aléatoire?
2. Donner un intervalle de confiance au seuil 95% pour le nombre moyen de bactéries par boite de Petri.
Exercice 21 : Comparaison de deux estimateurs.
On suppose que les V.A. Xi sont indépendantes et suivent toutes une loi uniforme sur [0; 2A] on note :
n
X=
1X
Xk
n
et M = max(X1 ; X2 ...; Xn )
k=1
1. Rappeler les valeurs de E(X); E(X) et var(X).
2. Déterminer la fonction de répartition de M , définie par FM (t) = P (M ≤ t). On pourra se demander à quelle
condition le maximum de n nombres est inférieur à t.
0 (t).
3. Déterminer la densité de M , en utilisant le fait que fM (t) = FM
4. Déterminer E(M ) puis un α tel que la nouvelle variable M̂ définie par M̂ = αM soit un estimateur sans
biais de A.
5. En calculant les variances des variables aléatoires X et M̂ , comparer l’efficacité de ces deux estimateurs sans
biais de A.
Exercice 22 : Déterminer l’estimateur du maximum de vraisemblance pour le paramètre d’une loi de Poisson.
Exercice 23 : On ensemence 100 boites de Petri avec 1 cm3 d’une solution comprenant α bactéries par cm3 , on
modélise le nombre de bactéries se trouvant dans la ième boite de Petri par une variable aléatoire de Poisson Ni ,
après 9 jours de culture, chaque bactérie a donné naissance à une colonie visible à l’oeil nu on obtient le résultat
suivant. Le nombre moyen de colonies est 4,83 et la variance de l’échantillon est 4,48. On cherche à estimer α,
Nombre de colonies
effectif
0
2
1
1
2
8
3
17
4
20
5
18
6
12
7
11
8
7
9
2
10
1
12
1
pour cela essayons deux méthodes différentes.
1. Si X suit une loi de Poisson de paramètre λ alors P (X = 0) = e−λ , en déduire une estimation de α.
2. Si X suit une loi de Poisson de paramètre λ alors E(X) = λ, en déduire une estimation de α.
3. Déterminer pour la deuxième méthode un intervalle de confiance au seuil de 95%.
Exercice 24 : Un biologiste étudie un type d’algue "agressive", elle possède une toxine dont on mesure la quantité
par dosage d’une solution organique. Il obtient les résultats suivants en milligrammes de toxine par gramme de
solution : Pour chaque question on précisera les hypothèses faites.
1,2
0,8
0,6
1,1
1,2
0,9
1,5
0,9
1,0
1. Donner une estimation ponctuelle de l’espérance et de la variance de la quantité de toxine.
2. Donner une estimation par intervalle de confiance à 95% de la quantité moyenne de toxine.
Université de Cergy Pontoise
6
2009-2010
4. TESTS STATISTIQUES
A.Mizrahi
3. Combien faudrait-il doser d’algues pour avoir un un intervalle de confiance de longueur inférieur à 2 mg/g.
Exercice 25 Une maladie touche environ 20% de la population, combien faut-il étudier d’individus pour évaluer à
1% près , la proportion de sujets malades.
Exercice 26 (Théorique) On a deux populations dont un caractère quantitatif suit une même loi normale de
moyenne µ et de même écart type σ. Pour la première population on a un échantillon de n1 individus de moyenne
m1 pour la seconde population on a un échantillon de n2 individus de moyenne m2 . On modélise ceci par n1
variables aléatoires Xi ∼ N (µ,σ 2 ) et n2 variables aléatoires Yj ∼ N (µ,σ 2 ), toutes les variables Xi ,Yj étant
indépendantes.
1
1. Quelle est la loi de X =
(X1 + X2 . . . + Xn1 )?
n1
1
2. Quelle est la loi de Y =
(Y1 + Y2 . . . + Yn2 )?
n2
3. Quelle est la loi de D = X − Y ?
e la variable aléatoire centrée réduite associée à D.
4. Déterminer D
1X
5. Quelle est la loi de
(Xi − X)2 ?
σ
1X
(Yj − Y )2 ?
6. Quelle est la loi de
σ
X
1 X
7. Quelle est la loi de Z =
(Yj − Y )2 ?
(Xi − X)2 +
σ
e
e et Z sont indépendantes, déterminer la loi de T = q D
8. En admettant que D
.
Z
n1 +n2 −2
4
Tests statistiques
Exercice 27 (À traiter en cours) D’après Brinkhaus B et al. 2006.
Évaluation de l’acupuncture dans le traitement de la lombalgie : les auteurs cherchent à comparer les effets d’une
acupuncture classique, d’une acupuncture minimale (aiguilles en dehors des points d’acupuncture), et pas d’acupuncture du tout. Pour cela ils utilisent comme critère de jugement : l’intensité de la douleur (VAS échelle d’autoévaluation de la douleur). Ils obtiennent ainsi trois échantillons : 140 acupunctures, 70 minimaux et 74 témoins. On
étudie la diminution de la douleur entre le début de l’expérience et 8 semaines de traitement on obtient les résultats
suivants :
Témoins : m0 = 6,9; sb0 = 22,0; n0 = 74
Minimalistes : m1 = 23,6; sb1 = 31,0; n1 = 70,
Acupuncture : m2 = 28,7; sb2 = 30,3; n2 = 140.
Pour chacune des questions on précisera bien les hypothèses faites
1. Peut-on conclure que l’acupuncture est plus efficace pour combattre la lombalgie que l’absence de traitement?
2. Peut-on conclure que l’acupuncture est plus efficace pour combattre la lombalgie que l’acupuncture minimaliste?
3. Calculer la p-valeur (p-value) pour m2 − m1 .
4. Calculer la p-valeur critique (p-value) pour m2 − m0 .
5. Les professionnels estiment qu’une différence de la VAS de 10 unités correspond à une douleur “scientifiquement” différente. On estime que l’écart type de la population est égale à 30,5, quelle est la taille d’effet
correspondante?
6. Quelle est la puissance de notre test comparant l’acupuncture à l’acupuncture minimaliste, pour la taille
d’effet de la question précédente?
Exercice 28 On cherche à comparer le poids moyen des épis de deux variétés de blé : on a procédé à 10 pesées
pour le blé A et 12 pour le blé B, avec un poids moyen pour A égale à xA = 1,707g et une variance estimée
2
2
sc
c
A = 432,9 et un poids moyen pour B égale à xB = 1,685g et une variance estimée s
B = 182,7. Les deux
moyennes sont-elles significativement différentes?
Université de Cergy Pontoise
7
2009-2010
4. TESTS STATISTIQUES
A.Mizrahi
Exercice 29 Les études statistiques portant sur la latéralisation permettent d’estimer a environ 10% de la population la proportion d’individus qui, dans nos sociétés, utilisent préférentiellement leur main gauche dans les tâches
motrices et dans l’écriture en particulier. Parmi les meilleurs tennismen et escrimeurs mondiaux, on a dénombré 18
gauchers sur 64. Peut-on admettre que les gauchers sont plus nombreux dans ces sports d’opposition que dans la
population totale?
Exercice 30 On a mesuré l’indice de Quételet (poids (en kg) / taille2 (en m)) chez 13 jeunes filles âgées de 14 ans,
atteintes du syndrome de Turner (maladie chromosomique caractérisée par une monosomie au niveau de la paire
de chromosomes sexuels). On a obtenu : 16,67 - 18,32 - 18,15 - 18,65 - 19,1 - 18,38 - 20,21 - 17,72 - 16,31 - 19,05
- 16,57 - 15,33 - 18,47.
1. Calculer la moyenne, la variance et l’écart-type.
2. Sachant que l’indice moyen de référence pour des jeunes filles du même âge est de 19,39, peut-on conclure
que l’indice de Quételet moyen de l’échantillon est identique à l’indice moyen de référence ? Précisez bien
les hypothèses faites.
3. Quelle conclusion en tirez-vous?
Exercice 31 On a suivi, sur une période de 20 ans, deux cohortes : 200 sujets fumeurs et 200 sujets non fumeurs.
On a noté le nombre d’apparition de cancer dans chacune des cohortes : 40 chez les fumeurs ; 20 chez les non
fumeurs. La différence d’apparition de cancer dans les deux cohortes est-elle significative?
Exercice 32 On veut tester la première loi de Mendel pour deux allèles A et a d’un même gène. Pour cela on part
d’un échantillon de n croisements d’individus de génotype (Aa) deux hypothèses sont possibles. Soit la proportion
π de phénotype [A] est 3/4 (cas Mendel) soit 2/3 (cas du génotype (AA) létal)
(a) N ( 34 ;
3
)
16
et N ( 23 ; 29 )
(b) N ( 34 ;
3
)
16×400
et N ( 23 ;
2
)
9×400
1. Construire un premier test H0 π = 3/4 contre H1 : π = 2/3.
2. Construire un deuxième test H0 π = 2/3 contre H1 : π = 3/4. Calculer le risque d’erreur de seconde espèce.
3. Interpréter le problème à l’aide des deux graphes ci-dessus, le premier représente les densités de deux lois
3
3
normales N ( 34 ; 16
) et N ( 23 ; 29 ), puis le second représente les densités de deux lois normales N ( 43 ; 16×400
) et
2
2
N ( 3 ; 9×400 )
4. Déterminer un n assez grand pour que dans tous les cas la probabilité d’avoir une erreur soit inférieure à 5%.
Exercice 33 On ajoute au régime d’un groupe de souris un produit P. dont on soupçonne qu’il peut être toxique
et raccourcir la survie moyenne. Pour étudier si il est toxique, on décide de constituer deux groupes de 100 souris
dont l’un sera exposé au produit P et l’autre non. On suppose la variance de la survie égale à 18 semaines (bien sur
cette . On décide d’analyser l’expérience grâce à un test unilatéral. Dire pour quelles valeurs de d = mA − mB
Université de Cergy Pontoise
8
2009-2010
4. TESTS STATISTIQUES
A.Mizrahi
on conclura à la toxicité de P . Quelle est la puissance du test si le produit P raccourcit la survie moyenne de 2
semaines. Le résultat serait-il différent si l’on avait prit une variance égale à 20.
Exercice 34 Lors d’une étude granulométrique de sédiments, on a relevé, pour deux échantillons C et D, les caractéristiques suivantes de la distribution des diamètres des grains. On fait l’hypothèse que les diamètres des grains
suivent une loi normale.
Échantillon C : 12 grains, moyenne 63 microns, écart type 9,2 microns.
Échantillon D : 18 grains, moyenne 51 microns, écart type 8,5 microns.
Les deux échantillons sont-ils significativement différents, en ce qui concerne le diamètre des grains?
Exercice 35 On mesure la taille de pères né en 1942 et celle de leur fils adultes, on obtient les résultats suivants :
Taille de l’échantillon Taille moyenne écart type de l’échantillon
Père
241
169,7
8,21
Fils
215
174,3
9,41
En admettant que les tailles des hommes d’une même génération suivent une loi de Gauss, peut-on conclure qu’entre
ces deux générations la taille des hommes a significativement augmentée?
Exercice 36 On teste deux hypnotiques A et B sur 10 volontaires à 10 jours d’intervalle, pour chacun des volontaires on note alors dans le tableau les durées d’endormissement en minutes :
Volontaire
i1 i2 i3 i4 i5 i6 i7 i8 i9 i10
Hypnotique A 12 18 25 28 29 33 35 37 39 43
Hypnotique B 22 11 16 17 20 32 37 39 42 47
Y a-t-il une variation significative du temps d’endormissement entre les deux hypnotiques ? On précisera bien les
hypothèses que l’on fait.
Exercice 37 On pèse de jeunes hommes lors d’une compétition sportive :
Poids mesuré en kg <60 60-64 64-67 67-69 69-72 72-76 76-95
Nombres de jeunes
15
65
63
70
58
45
15
L’hypothèse que le poids de ces jeunes hommes suit une loi normale est elle raisonnable?
>95
4
Exercice 38 Dans un article paru en 1999, M. H. Kohn à l’aide du séquençage de l’adn fécal, a attribué 111 fèces
de coyotes Canis latrans à 30 individus, 8 individus sont représentés par 1 déjection, 6 par deux etc..., la distribution
complète est donnée par :
Crottes 1 2 3 4 5 6 7 8 9 10 11
Coyotes 8 6 5 0 4 2 1 1 2 0
1
1. Expliquer pourquoi l’hypothèse d’une loi de Poisson peut être envisagée.
2. Tester cette hypothèse à l’aide d’un test du chi deux, au risque de 5%.
3. Conclusion et interprétation.
Exercice 39 Question préparatoire : On suppose que le phénotype d’une première génération d’un croisement doit
suivre une loi de Mendel 3/4 de [A] et 1/4 de [a], quelle est la probabilité que sur 1000 individus il y ait exactement
750 [A] et [250] a?
En 1866 Mendel publie un article volumineux ou sont décrit entre autre des résultats d’expérience sur la reproduction du pois, des croisements de souches pures sont réalisés par une fécondation croisée de façon contrôlée. Par
exemple il regarde la couleur de l’albumen (tissu de réserves nutritives de la graine), en croisant des pois à albumen
jaune avec des pois a albumen vert, la première génération donne 258 plants ayant un albumen jaune, on croise
cette première génération entre elle et Mendel trouve 6022 plants ayant l’albumen jaune et 2001 ayant l’albumen
vert. Certains auteurs ont accusés Mendel d’avoir arrangé ces chiffres. Les valeurs trouvées sont-elles trop proche
du modèle (3/4;1/4) pour être vrai?
Exercice 40 On cherche à comparer deux traitements A,B à un groupe témoin sans traitement pour un certaine
maladie, la question est de savoir si il y a une différence significative entre les trois traitements.
Université de Cergy Pontoise
9
2009-2010
4. TESTS STATISTIQUES
Traitement A
Traitement B
Sans traitement
A.Mizrahi
Guérison très rapide
30
27
19
Guérison rapide
58
68
70
Guérison lente
10
4
11
Complication
2
1
0
Exercice 41 Une enquête auprès de 6672 personnes donne les résultats suivants :
Hommes Femmes Total
Droitiers
2780
3281
6061
gauchers
311
300
611
Total
3091
3581
6672
Peut-on en conclure un lien entre les variable sexe et droitier/gaucher?
Exercice 42 Le rétrécissement des artères et des veines sous claviaires au niveau de l’articulation du bras engendre
chez des patients des démangeaisons pouvant nécessiter des interruptions de travail. Le diagnostic du syndrome peut
être posé grâce à l’angiographie (c’est-à-dire la radiographie des vaisseaux après injection d’un liquide opaque aux
rayons X) effectuée sur des patients en position assise ou couchée. Pour tester la position la plus efficace, on a
relevé la présence (positif) ou l’absence (négatif) de détection de la maladie chez 112 patients.
Assise
positif
positif
négatif
négatif
Couchée
positif
négatif
positif
négatif
Effectif
59
8
20
25
La position couchée améliore-t-elle la détection de rétrécissement des artères ? Les positif-positif et les négatifnégatif n’apportent aucune information. Si les deux positions sont équivalentes, un résultat contradictoire est une
fois sur deux positif-négatif et une fois sur deux négatif-positif.
Exercice 43 Sur un échantillon de 57324 individus exposés à un virus, une étude statistique sur l’éfficacité d’un
vaccin donne les résultats suivants : 1110 vaccinés dont 10 malades et 1222 malades non vaccinés. Le vaccin a-t-il
un effet sur cette maladie?
Exercice 44 Pour comparer différents tests, on simule 10000 échantillons de taille n qui suivent une loi L et on
compte le nombre de fois ou l’on choisit H1 au seuil de confiance 95%, c’est à dire ou l’on rejette H0 . Pour
différents tests
T1 est un test de χ2 ou l’on ajuste à une loi N (0,1) avec 5 classes contenant chacune 20% de l’effectif espéré.
T2 est un test de χ2 ou l’on ajuste à une loi N (0,1) avec 10 classes contenant chacune 10% de l’effectif espéré.
T3 est un test de χ2 ou l’on ajuste à une loi N (m,σ 2 ) où l’on estime m et σ 2 à l’aide de l’échantillon, avec 5 classes
contenant chacune 20% de l’effectif espéré.
T4 est un test de χ2 ou l’on ajuste à une loi N (m,σ 2 ) où l’on estime m et σ 2 à l’aide de l’échantillon, avec 10
classes contenant chacune 10% de l’effectif espéré.
T5 est un test de Shapiro-Wilk qui permet de tester la normalité.
T6 est un test de Kolmogorov-Smirnov qui permet de tester la normalité.
Loi L simulée
n
T1
T2
T3
T4
T5
T6
N (0; 1)
100
495
479
751
537
498
493
N (0,5; 1)
100
9808
9525
790
599
511
528
N (0; 1)
25
428
508
786
494
502
494
N (0; 1)
10
387
358
712
287
522
504
√ √
U(− 3; 3)
25
1233
1012
1492
1546
2846
1185
√ √
U(− 3; 3)
100
4584
3007
6598
3378
9967
5893
E(1)
25
10000
10000
5227
6095
9209
6902
E(1)
100
10000
10000
9417
9998
10000
9999
P(1)
10
10000
10000
8025
9800
7612
5976
1. Pour chacun des tests du χ2 , dire combien on a pris de degrés de liberté.
2. Expliquer les résultats égaux à 10000 pour les tests T1 et T2 .
Université de Cergy Pontoise
10
2009-2010
4. TESTS STATISTIQUES
A.Mizrahi
3. Comparer les deux tests T5 et T6 , lequel semble le meilleur?
4. Comparer les tests du χ2 aux deux autres tests pour n = 10. La valeur 287 est-elle une preuve que le test
fonctionne bien?
5. Pour différencier la loi normale de la loi uniforme quel test semble plus performant?
Université de Cergy Pontoise
11
2009-2010
Téléchargement