Exercices et problèmes

publicité
Université René Descartes
UFR Biomédicale,
45 rue des Saints-Père, 75 006 Paris
LMD Sciences de la Vie et de la Santé
M1 de Santé Publique
Spécialité Biostatistique
M1
BIOSTATISTIQUE I
Bases : Probabilités, Estimation et Tests.
Exercices et problèmes
C. Huber
1
Semaines 1 et 2
Probabilités, probabilités conditionnelles,
indépendance, formule de Bayes.
Fonction de répartition, espérance et variance d'une variable aléatoire réelle.
Rappels de cours :
Définition d'une probabilité conditionnelle
La probabilité de B étant supposée différente de 0, on appelle probabilité de A conditionné par B, que l'on
note P(A/B), le rapport :
P(A∩B)
_________
P(A/B) =
.
P(B)
On peut donc écrire :
P(A↔B) = P(A/B) P(B) = P(B/A) P(A) .
Formule de Bayes
Cette formule, aussi appelée "théorème de la probabilité des causes",
conditionnement.
P(B/A)
___________________________
P(A/B) = P(A)
.
P(B/A) P(A) + P(B/Ac) P(Ac)
permet de renverser un
Elle est valable dès que P(B) est différent de 0.
Définition de l'Indépendance
On dit que A et B sont indépendants si
(1)
P(A∩B) = P(A) P(B)
C'est équivalent à (2) et à (3) :
(2)
(3)
P(A/B) = P(A)
P(B/A) = P(B)
Définition de la Fonction de répartition F d'une variable aléatoire réelle X en un point x
C'est la probabilité pour qu'e cette variable aléatoire X soit inférieure ou égale à x :
F(x) = P(X ≤ x)
On la note souvent f.r. .
Définition de l'Espérance
L'espérance, ou moyenne, d'une variable aléatoire réelle X est notée E(X) ou EX . Si X est discrète et vaut
xj avec la probabilité pj, pour j variant de 1 à k, alors
k
E(X ) = ∑ pj xj
j =1
M1_TD_sem_1_2.doc
1/4
C. Huber
2
Si X est continue et admet f comme densité de probabilité
+∞
x f(x) dx
-∞
EX =
Changement d'origine et d'unité
E (aX + b) = a E(X ) + b .
Variance
Var (X ) = E [ (X-EX)2] = E(X2) - (EX)2
Ecart-type
σ (X)
=
Var(X)
Changement d'origine et d'unité
Var (aX + b) = a2 Var X
Variable centrée réduite associée à X : X* :
X* =
X - EX
_______
σ (X)
Alors : E(X* ) = 0 et Var (X* ) = 1.
Définition d'un échantillon :
Soit X1, X2, ..., Xn des variables indépendantes et de même loi . On dit
que (X1,..., Xn ) est un échantillon de taille n ou un n - échantillon de la variable X1 .
X + ... + X n
Xn = 1
n
est appelée moyenne de l'échantillon. ou moyenne empirique. Si E(X1) = µ et var(X1) = σ2 , alors
n
E(Xn) = 1 ∑ E (Xi) = µ
n i=1
n
2
Var (Xn) = 12 ∑ Var (Xi) = σ
n
n i=1
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
@@@
Exercices
1. Chasse au canard
Trois chasseurs tirent sur un canard. Chacun a la probabilité 1/3 de l'atteindre et ils sont indépendants. Quelle
est la probabilité que le canard soit atteint ?
2. Pari
M1_TD_sem_1_2.doc
2/4
C. Huber
3
Une urne est pleine de billes de bois (B) ou de verre (V) de couleur rouge (R) ou noire (N). Les 2/3 des billes
sont rouges, le reste noir. La moitié des billes rouges sont en bois, ainsi que le quart des noires. Vous devez
plonger la main dans l'urne et parier sur la couleur. Que faites vous?
3 Américanisme
Les Anglais et les Américains orthographient le mot rigueur , respectivement rigour et rigor. Un homme
ayant pris une chambre dans un hôtel parisien a écrit ce mot sur un bout de papier. Une lettre est prise au hasard
dans ce mot, c''est une voyelle. Or 40% des anglophones de l'hôtel sont des Anglais et 60% des Américains.
Quelle est la probabilité que l'auteur du mot soit anglais ?
4. Alcootest :
Un laboratoire a mis au point un alcootest et décide d'en vérifier la crédibilité . Les résultats obtenus sont les
suivants :
2% des personnes contrôlées par la police sont effectivement en état d'ébriété.
95 fois sur 100 l'alcootest s'est révélé positif alors que la personne était réellement en état d'ébriété.
5 fois sur 100, l'alcootest s'est révélé positif, alors que la personne n'était pas en état d'ébriété.
a) Quelle est la probabilité que l'alcootest donne une indication correcte ?
b) Quelle est la probabilité qu'une personne soit réellement en état d'ébriété lorsque l'alcootest est positif ?
5. Au café
Cinq filles et cinq garçons s'assoient le long du comptoir d'un café sur les dix tabourets situés côte à côte. On
suppose qu'ils se placent au hasard. Quelle est la probabilité qu'ils se trouvent ainsi placés :
a) toutes les filles côte à côte ?
b)parfaitement alternés ?
On distinguera deux cas :
1) Un comptoir en long (ou formant éventuellement un coin).
2) Un comptoir circulaire.
6. Espérance et espérance conditionnelle
On lance deux dés équilibrés. Quelle est l'espérance (autrement dit la moyenne) de la somme des deux
nombres montrés par les deux dés ? Quelle est la fonction de répartition correspondante ? Mêmes questions
sachant que l'un au moins des deux dés montre un 6. Cette deuxième espérance est appelée une espérance
conditionnelle; de même, cette deuxième f.r. est appelée fonction de répartition conditionnelle.
Facultatifs :
7. Enquête
On a utilisé la méthode suivante pour estimer le nombre des personnes de plus de 50 ans dans une ville
dont la population s'élève à 100 000 âmes. Elle consiste, pour l'expérimentateur, à enregistrer le pourcentage des
gens de plus de 50 ans, lors de ses déplacements dans la rue. L'expérience s'étend sur quelques jours. Discuter
cette méthode. Vous paraît elle convenable ?
A titre d'indication, on notera p la vraie proportion des gens de plus de 50 ans dans cette ville, q1 la
proportion du temps qu'une personne de 50 ans ou plus passe dans la rue et q2 le même paramètre pour les
moins de 50 ans. Quelle est la grandeur que la méthode employée estime en réalité ? Cette estimation convient
elle pour p ? D'autres éléments pourraient ils entrer en jeu ?
8. Particules (BOLTZMAN , BOSE-EINSTEIN et FERMI-DIRAC )
I
On considère n particules identiques supposés discernables en physique classique. C'est à dire qu'on peut les
numéroter, puis, au moins en principe, suivre la trajectoire de chacune d'elles. Supposons que les particules
puissent être réparties entre k états physiques distincts, le nombre de particules dans chacun des états
pouvant être
quelconque. C'est l'hypothèse de la statistique de Boltzman.
a) Combien y a-til de répartitions possibles ?
b) Combien y a-t-il de répartitions possibles telles qu'il yait n1 particules dans l'état 1, n2 particules dans
l'état 2, .., nk particules dans l'état k ?
II
En mécanique quantique, les particules sont indiscernables. C'est la statistique de Bose-Einstein.
Reprendre alors les questions précédentes.
M1_TD_sem_1_2.doc
3/4
C. Huber
4
III On suppose maintenant que k ≥ n et qu'il ne peut pas y avoir plus d'une particule dans chacun des états.
C'est la statistique de Fermi-Dirac. Reprendre les questions dans ces conditions.
(On commencera par supposer les particules distinguables, puis indistinguables).
c)
En supposant les particules réparties 'au hasard 'dans les k états, dire, dans chacune des conditions
précédentes si les différentes répartitions possibles sont équiprobables.
M1_TD_sem_1_2.doc
4/4
C. Huber
1
Semaines 3 et 4
Lois de probabilité usuelles pour une variable
aléatoire réelle.
Rappels de cours :
1 - Lois normales N (µ, σ2):
Définition : loi normale réduite N(0,1)
Z suit la loi normale N(0,1), ou loi normale réduite, si elle a pour densité
-
z
2
2
1
e
,
2π
La fonction de répartition correspondante sera notée Φ :
z
Φ (z) = P(Z Š z) =
ϕ(t) dt
ϕ(z) =
z ∈ IR .
−∞
Loi normale quelconque N (µ, σ2) :
Si X suit la loi normale N(µ,σ2) , ce qu'on note X ~ N(µ,σ2), X se comporte comme µ + σ Z :
P(X ≤ x) = P(µ + σZ ≤ x) = P(Z ≤(x-µ)/σ ) = Φ [(x−µ) / σ]
Propriété :
X et Y indépendantes
X ~ N(µ, σ2)
Y ~ N(µ', σ'2)
X + Y ~ N (µ+µ', σ2 + σ'2)
2 - Lois de Poisson π (λ)
Définition
X suit la loi de Poisson de paramètre λ > 0, notée π (λ), si
λk
P (X = k) = e - λ __
k!
k = 0, 1, 2,...
λ
paramètre > 0
( 0! = 1 par définition).
Moyenne et variance
E (X) = Var (X) = λ .
propriété
X et Y indépendantes
X ~ π (λ)
⇒
X+Y ~ π (λ+µ)
Y ~ π (µ)
3 - Lois binomiales B (n,p)
On a un n échantillon X1,X2,..,Xn dont chaque élément suit la loi de Bernoulli de paramètre p (0≤p≤1) ,
notée b(p) :
M1_TD_sem_3_4.doc
1/4
C. Huber
2
1 avec la probabilité p ,
Xi =
0 avec la probabilité q = 1 - p .
Sn est la statistique qui représente la somme des "succès" :
Sn
= X1 + X2 + .. + Xn
n!
_______
P (Sn = j ) =
j! (n- j) !
pj qn-j
,
j = 0,1,2,....n .
Espérance et variance :
ESn
= np ,
Var (Sn) = npq .
Approximation normale des lois binomiales
Lorsque n tend vers l'infini , Sn se comporte comme une variable normale de moyenne sa moyenne
np et de variance sa variance npq :
P(Sn ≤ k) ≅ P(np + npq Z ≤ k)
où Z ~ N(0,1).
En pratique, on admet l'approximation dès que np et nq sont ≥ 5.
Approximation normale d'une somme
Plus généralement, si Sn est la somme de n v.a. indépendantes Xi de même loi , de moyenne µ et d'écarttype σ , lorsque n tend vers l'infini , Sn se comporte comme une variable normale de moyenne sa moyenne
nµ et de variance sa variance nσ2
P(Sn ≤ k) ≅ P( nµ + σ n Z ≤ k)
En pratique, si Xi a une loi continue, on admet que l'approximation est valable dès que n ≥ 30.
Approximation de Poisson des lois binomiales
Si Sn est une variable binomiale B(n,p) telle que p soit petit et n grand, la loi de Sn ne dépend (presque
plus) que du produit np, ce qui fait que la loi de Sn est pratiquement la même que l'on ait fait 10 observations
d'un phénomène de probabilité 1/10 (np = 1) ou 100 observations d'un phénomène de probabilité 1/100 (np =
1 aussi)
Plus précisément, si n tend vers l'infini et np reste constant, ce qui revient à ce que p tende vers 0 quand n
croît, on a l'approximation de Poisson suivante pour la loi binomiale :
P(Sn = k) ≅
(np)k
--------k!
e-np
En pratique on utilisera la règle suivante :
Pourvu que
p ≤ 0,1
et
1 ≤ np < 10
on remplacera la loi binomiale B(n,p) par la loi ci-dessus qu'on appelle la loi de Poisson de paramètre np.
Quelle approximation choisir ?
Lorsque np est compris entre 5 et 10, on a droit aux deux approximations, normale et de Poisson, mais bien
sûr, celle de Poisson est d'autant meilleure, et donc préférable, que p est plus proche de 0.
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
M1_TD_sem_3_4.doc
2/4
C. Huber
3
Exercices
1. Capacité respiratoire
La quantité d'air (en litres) rejetée par un sujet sain lors d'une expiration forcée, est une variable aléatoire
X qui est supposée normale N( µ= 1,65, σ2 = 0,5). La capacité respiratoire d'un sujet est mesurée par la
quantité d'air Y rejetée lors de deux expirations forcées successives espacées de 2 minutes. On suppose que les
deux résultats sont indépendants. Quelle est la loi de Y? Quelle est la probabilité que la capacité respiratoire
d'un sujet sain dépasse 4 litres?
2. Accidents
Le nombre d'accidents touchant un individu lors d'une année donnée est une variable aléatoire de Poisson
d'espérance l . On suppose que cette espérance varie en fonction des personnes et qu'elle vaut 2 pour 60% de la
population et 3 pour les 40% restants. On choisit une personne au hasard. Quelle est la probabilité qu'au cours
d'une année elle n'ait aucun accident ? qu'elle en ait 3 ?
Quelle est la probabilité conditionnelle qu'elle ait trois accidents une année, sachant qu'elle n'en a pas eu
l'année précédente ?
3. Footballeurs
La capacité respiratoire de sujets normaux, de sexe masculin, âgés de 20 à 30 ans est supposée obéir à une
loi normale de moyenne 3,5 litres et de variance 1.
On tire au hasard dans la population des joueurs de football âgés de 20 à 30 ans, 100 sujets dont on
mesure la capacité respiratoire. Onze d'entre eux ont une capacité respiratoire qui dépasse 4,64 l.
Si on considère que la capacité respiratoire de ces joueurs obéit à la loi précédente, quelle était la
probabilité que 11 de ces joueurs ou davantage aient une capacité respiratoire supérieure à 4,64 litres ?
4. Tolérance à l'aspirine
Des études ont été faites sur des médicaments contenant de l'aspirine pour essayer de réduire l'intolérance
observée chez certaines personnes. Le but de l'expérimentation décrite est de décider s'il faut ou non remplacer
le médicament habituel A par un nouveau B.
Le médicament A a une probabilité connue πο d'intolérance, égale à 0,20. On administre B à un
échantillon de 64 sujets et on observe une proportion po d'incidents.
Quelle est la loi de nPo si B provoque le même taux d'incidents que A ? Pouvez vous en donner une
approximation ? En déduire la loi de Po, sa moyenne et sa variance.
Exercices facultatifs :
5. Loi de Pascal (ou binomiale négative) B-(k,p)
On suppose que X est une variable de Bernoulli b(p), de probabilité de succès p et que l'on fait N
observations indépendantes X1, ..., XN jusqu'à ce que l'on ait obtenu exactement k succès. Le nombre
d'observations nécessaires N est aléatoire et a pour loi de probabilité la loi de Pascal (ou binomiale négative)
de paramètres p ∈ [0 ; 1] et k entier, notée B-(k,p). Ce type de modèle est celui que l'on emploie par exemple
en expérimentation biologique lorsqu'on étudie l'apparition ou non de certains troubles sur des cobayes soumis
à des conditions particulières : on fait des observations jusqu'à ce que l'on observe un certain nombre, fixé à
l'avance d'animaux présentant ces troubles.
1) Quelles sont les valeurs possibles de N ? Calculer P(N = n), pour n entier positif.
2) Calculer l'espérance de N. On rappelle que
1+
∞
∑t
i =1
j
⎛k +
⎜⎜
⎝ j
j⎞
1
⎟⎟ =
(1 − t) k +1
⎠
3) Lorsque p est très petit, et pour éviter que la valeur de N ne soit trop grande et donc l'expérience trop longue
et trop coûteuse, on se limite en général à l'observation du premier succès, c'est à dire à k = 1. Que vaut dans
ce cas la loi de N ? son espérance ? sa variance ?
6. Loi hypergéométrique H (N,M,n)
M1_TD_sem_3_4.doc
3/4
C. Huber
4
Le personnel d'une entreprise soumis à un risque professionnel comprend N personnes parmi lesquelles M
sont atteintes d'une certaine maladie. On a décidé d'observer n personnes prises au hasard parmi les N. Parmi
elles, m sont atteintes. On dit que m est la réalisation d'une v.a.r. X dont la loi est appelée la loi
hypergéométrique H(N,M,n). Calculer la probabilité p(m∧Ν,Μ,n) = P(X = m). (On pourra montrer que
M N-M
N
n-m
si max (0,M+n - N) Š m Š min ( M , n )
p ( m ⎮ Ν,Μ ,n ) =
N
n
et 0 sinon).
M1_TD_sem_3_4.doc
4/4
C. Huber
1
Semaine 5
Couple de variables aléatoires.
Régression.
Rappels de cours :
Espérance d'une somme
E(aX+bY) = a EX + b EY .
En particulier, E (X+Y)
= EX + EY et
E(aX) = a EX .
Définition de la covariance de X et Y :
cov (X,Y) = E [(X - EX) (Y - EY)] = E(XY) - EX . EY .
Définition du coefficient de corrélation ρ (X,Y)
ρ(X,Y) = cov(X,Y)
σ(X) σ(Y)
Variance d'une somme
Var (X + Y) = VarX + VarY + 2 E [ (X - EX) (Y - EY)]
= VarX + VarY + 2 cov(X,Y)
Var(aX)
Si X et Y sont indépendantes :
=
a2 VarX
cov (X,Y) = 0
et donc
Var(X+Y) = VarX + VarY .
Mais si Cov (X, Y) = 0, X et Y ne sont pas forcément indépendantes.
Par contre, pour des variables normales, indépendance et covariance nulle sont équivalents.
Droite de régression
On cherche la droite y = ax + b la "plus proche" de Y au sens des moindres carrés :
E [(Y - (aX + b))2] minimum
On trouve
cov (X,Y)
y - EY = __________ (x - EX)
σ2 (X)
qui peut aussi s'écrire :
M1_TD_sem_5.doc
y − E(Y )
x − E( X)
= ρ (X,Y )
σ ( X)
σ (Y )
1/3
C. Huber
2
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
Exercices
1. Datation par le carbone 14
Le carbone radioactif 14C est produit dans l'atmosphère par l'effet des rayons cosmiques sur l'azote atmosphérique.
Il est oxydé en 14C02 et absorbé sous cette forme par les organismes vivants qui, par suite, contiennent un certain
pourcentage de carbone radioactif par rapport aux carbone 12C et 13C qui sont stables.
On suppose que, lorqu'un organisme meurt, ses échanges avec l'atmosphère cessent et que la radioactivité due au
carbone 14C décroît suivant une loi exponentielle :
(*)
A = Ao e- λ t
λ étant une constante positive, t étant le temps exprimé en années et A étant la radioactivité exprimée en nombre de
désintégrations par minute et par gramme de carbone.
Un étalonnage de la méthode a été réalisé par l'analyse de troncs de très vieux arbres, des Séquoias géants et des
pins aristaca. Par un prélèvement effectué sur le tronc, on peut obtenir son âge t, en années en comptant le nombre des
anneaux de croissance et sa radioactivité A en mesurant le nombre de désintégrations. On a ainsi obtenu :
t
A
500
14.5
1000
13.5
2000
12.0
3000
10.8
4000
9.9
5000
8.9
6300
8.0
La relation (*) entre t et A ne peut pas être vérifiée exactement par toue les couples de valeurs ainsi mesurées, mais elle
l'est en principe aux erreurs de mesure aléatoires près.
Comment proposez vous d'évaluer les constantes Ao et λ ?
(On pourra penser à faire une régression de ln(A) sur t).
2. Taux d'alcool
Une étude du taux d'alcool dans le sang, exprimé en milligrammes par litre, au cours de l'autopsie de victimes
d'accidents de la circulation a consisté à faire un prélèvement dans la jambe (x) et dans le coeur (y). Les résultats ont
été les suivants :
Cas 1
2
3
4
5
6
7
8
9
10
x
27
28
35
39
44
54
65
68
72
75
y
39
31
36
50
44
49
70
84
80
82
Cas 11
x
y
12
84
78
13
84
91
14
83
83
15
96
98
16
138
139
17
149
155
18
150
143
19
153
154
20
176
182
180
185
Cas 21 22
23
24
25
26
27
28
29
30
x
180
187 205 230 249 250 265 265 272 286
y
187
195 208 228 249 256 269 277 290 502
Quelle est la droite de régression de y par rapport à x ? et celle de x par rapport à y ? Laquelle de ces deux droites
vous paraît présenter le plus d'intérêt ? Analyser les résidus correspondants. On pourra calculer la droite de régression
de y par rapport à x en ôtant tour à tour chacun des trente sujets et prévoir, pour celui-ci y connaissant x. Les prévisions
ainsi obtenues sont elles bonnes ? Cette méthode, appelée le jacknife, permet de se rendre compte de la qualité de la
régression.
3. Affections respiratoires
L'une des mesures qui sont faites lors de l'investigation des affections respiratoires est celle du volume expiratoire
moyen par seconde, appelé Vems. Sur 8 sujets tirés au sort parmi la population saine d'âge compris entre 30 et 35 ans,
on a mesuré la taille, T,. en mètres et le Vems, V, en litres par seconde, et obtenu les résultats suivants :
Sujet
1
2
3
4
5
6
7
8
T
1,85
1,72 1,51 1,62 1,60 1,80 1,75 1,68
M1_TD_sem_5.doc
2/3
C. Huber
3
V 4,5 3,6
2,7
3,1
3,6
4,4
4,3
3,8
Tracer la fonction de répartition empirique du Vems, et tracer la droite de régression observée de V par rapport à T.
Un neuvième sujet survient qui mesure 1,70 m. Quel Vems peut on prévoir pour lui ? En fait son Vems est de 4 litres.
Quelle erreur a-t-on commise ?
M1_TD_sem_5.doc
3/3
C. Huber
1
Semaine 6
Estimation.
Estimation ponctuelle et par intervalle de confiance.
Rappels de cours :
1 Estimation ponctuelle :
Estimateur d'un paramètre t : c'est une fonction des observations (aléatoire par conséquent)
qui est une évaluation de t. Il est sans biais si sa moyenne est égale à t quel que soit t, et
convergent (ou consistant) s'il tend vers t quand le nombre des observations tend vers l'infini.
Si le paramètre t est la moyenne ou la variance d'une variable X, on a des estimateurs très
simples : la moyenne empirique (observée) et la variance (presque) empirique :
Estimateur sans biais de µ :
n
X =
∑X
i =1
i
n
En particulier l'estimateur d'une proportion p, qui est la moyenne d'une variable de Bernoulli
b(p), est la proportion observée notée po.
Estimateur sans biais de σ2 :
n
S2 =
∑ (X
i =1
i
− X) 2
n-1
Dans les autres cas, on utilise une méthode très générale appelée le "maximum de
vraisemblance":
On écrit la probabilité des observations comme fonction du (ou des) paramètre(s) t et on
estime t par la (ou les) valeur (s) qui rend(ent) maximum cette probabilité.
2 Estimation par intervalle de confiance :
La confiance est la probabilité avec laquelle l'intervalle couvre la vraie valeur du paramètre.
On veut que cette probabilité soit proche de 1.
On la note 1 - α, avec α petit. En général α est de l'ordre de 0,05 ou moindre.
Pour une proportion p : proportion observée po plus ou moins un terme qui dépend de la
confiance 1 - α que l'on veut pouvoir accorder à l'intervalle
p1 ; p2 = p0
M1_TD_sem 6.doc
-
p 0 q0
n
z 1-α/ 2
1/3
;
p0
+
p 0 q0
n
z 1-α/ 2
C. Huber
2
Dans cette expression, z1 - α est le 1 - α quantile de la loi N(0,1) : P(Z ≤ z1 - α) = 1 - α
La confiance est la probabilité avec laquelle l'intervalle couvre la vraie valeur de p.
De même pour une moyenne :
s
s
µ1 ; µ2 =
;
xn z 1− α/2
xn +
z 1− α/2
n
n
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
Exercices
1.Gaz nocif
Dans l'atmosphère, le taux d'un gaz nocif, pour un volume donné, suit une loi normale d'espérance µ et de
variance σ2 . On effectue n prélèvements conduisant aux valeurs x1, x2, ..., xn.
a) On sait que σ2 = 100, mais on ne connaît pas µ. Sur n = 10 prélèvements, on a trouvé une valeur moyenne de
48. Donner un intervalle de confiance pour µ ◊ à 95 %. Même question avec un coefficient de confiance de
99% .
b) On ne connaît pas σ2 en fait mais on a fait cette fois 50 prélèvements et observé une moyenne égale à 51 et
une variance empirique S2 égale à 100. Répondre aux mêmes questions.
c) Sous les mêmes conditions qu'en b), répondre aux mêmes questions lorsqu'on a observé 200 prélèvements au
lieu de 50, sans faire de calcul.
2. Fonction de répartition empirique
Si Fn est la fonction de répartition empirique associée à un n-échantillon d'une v.a.r. X de f.r. F, montrer que
Fn(x) est, pour tout x, un estimateur sans biais de F(x). Quelle est la variance de cet estimateur ? Est il
consistant?
3. Fabricant de tissu
Un fabricant de tissu essaye une nouvelle machine. Il fabrique des échantillons de 10 mètres et compte le
nombre de défauts par échantillon. Ayant examiné n = 126 échantillons, il a trouvé les résultats suivants :
Nombre de défauts :
j
0
1
2
3
4
Nombre d'échantillons :
nj
44
49
24
7
2
a) Quel modèle suggérez vous pour représenter ce phénomène ? (On pourra calculer la moyenne et la variance
empiriques).
b) Donner l'estimateur du maximum de vraisemblance de la moyenne.
c) Donner un intervalle à 99% de confiance pour cette moyenne.
4. Rhumatismes inflammatoires
On distingue deux grandes classes de rhumatismes selon qu'ils sont inflammatoires (RI) ou non. Sur un
groupe de 220 malades atteints de rhumatismes, on en a observé 167 RI . A quelles conditions la proportion po
de RI observée peut elle être considérée comme un bon estimateur de la proportion p de RI dans la population
générale ?. On supposera que ces conditions ont été effectivement remplies. Donner alors un intervalle de
confiance au risque 1% pour p.
A partir d'une réaction sérodiagnostique, on effectue un dosage du facteur immunoconglutinine. C'est une
variable aléatoire notée X chez les RI et X' chez les autres (car X' peut avoir une loi de probabilité différente de
celle de X). On résume les résultats obtenus ainsi :
Σ x = 420 ; Σ x2 = 1 400 ; Σ x' = 104 ; Σ x'2 = 292 .
Donner un intervalle de confiance de coefficient de confiance 0,03 pour µ = EX et pour µ' = EX'. A votre
M1_TD_sem 6.doc
2/3
C. Huber
3
avis, est il probable que le facteur dosé ait la même loi chez les patients atteints de RI et chez les autres?
M1_TD_sem 6.doc
3/3
C. Huber
1
Semaines 7 et 8
Tests d'ajustement.
Rappel de cours :
F0 étant une loi complètement spécifiée, et (X1,..Xn) un n-échantillon, de loi F, on se demande si
H0 : F + F0
H1 : F ≠ F0
Si X est une variable discrète (ou discrétisée), on peut employer un test du chi deux, et si la
variable est continue, un test de Kolmogorov-Smirnov
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
Exercices
1.Gaz nocif
Dans l'atmosphère, le taux d'un gaz nocif, pour un volume donné, suit une loi normale d'espérance µ et de
variance σ2 . On effectue n prélèvements conduisant aux valeurs x1, x2, ..., xn.
a) On sait que σ2 = 100, mais on ne connaît pas µ. Sur n = 10 prélèvements, on a trouvé une valeur moyenne de 48.
Peut on admettre que la loi de ce taux est normale N(50,100) au risque 5% ?
Peut on conclure, avec un risque de 5% que µ est inférieure à 50 , qui est le seuil tolérable admis ?
Peut on donner cette conclusion au risque 1% ? et au risque 10% ?
b) On ne connaît pas σ2 en fait mais on a fait cette fois 50 prélèvements et observé une moyenne égale à 48 et une
variance empirique S2 égale à 100. Répondre aux mêmes questions.
c) Sous les mêmes conditions qu'en b), répondre aux mêmes questions lorsqu'on a observé 200 prélèvements au lieu
de 50. Peut on obtenir ce résultat sans faire de nouveaux calculs ?
2. Fonction de répartition empirique
Si Fn est la fonction de répartition empirique associée à un n-échantillon d'une v.a.r. X de f.r. F, montrer que
Fn(x) est, pour tout x, un estimateur sans biais de F(x). Quelle est la variance de cet estimateur ? Est il consistant ?
3. Fabricant de tissu
Un fabricant de tissu essaye une nouvelle machine. Il fabrique des échantillons de 10 mètres et compte le nombre
de défauts par échantillon. Ayant examiné n = 126 échantillons, il a trouvé les résultats suivants :
Nombre de défauts :
M1_TD_sem 7.doc
j
0
1
2
Nombre d'échantillons :
1/2
nj
44
49
24
C. Huber
2
3
7
4
2
Peut on considérer que la loi du nombre de défauts pour 10 mètres de tissu est une loi de Poisson de paramètre égal à
1 ? Effectuer un test et conclure.
4. Rhumatismes inflammatoires
On distingue deux grandes classes de rhumatismes selon qu'ils sont inflammatoires (RI) ou non. Sur un groupe de
220 malades atteints de rhumatismes, on en a observé 167 RI .
On sait que, dans la population générale, les trois quarts des rhumatismes sont de type RI. Peut on considérer qu'il en
est de même dans la population d'où a été tiré cet échantillon ? Avec quel risque ?
A partir d'une réaction sérodiagnostique, on effectue un dosage du facteur immunoconglutinine. C'est une
variable aléatoire notée X chez les RI et X' chez les autres (car X' peut avoir une loi de probabilité différente de celle
de X). On résume les résultats obtenus ainsi :
Σ x = 420 ; Σ x2 = 1 400 ; Σ x' = 104 ; Σ x'2 = 292 .
Sachant que XC et X' suivent une loi normale, pPeut on considérer que X et X' suivent la même loi ?
M1_TD_sem 7.doc
2/2
C. Huber
Semaine 8
Tests d'ajustement.
Rappels de cours
On fait un test d'ajustement lorsqu'on se demande si la loi d'une variable X est une loi donnée
par avance. Ce sont donc des tests de comparaison à une loi théorique.
Test de Kolmogorov-Smirnov pour un échantillon:
Il est valable pour n'importe quelle variable réelle X. La loi théorique est donnée par sa
fonction de répartition Fo :
Ho : P(X ≤ x ) = Fo(x)
Statistique du test
D = sup | Fn- Fo |
D est le maximum de la valeur absolue de la différence entre la fonction de répartition Fo
théorique, sur laquelle on veut faire l'ajustement, et la fonction de répartition observée Fn .
Test du chi2 d'ajustement:
Il est valable pour une variable X ayant un nombre fini r de modalités, notées 1, 2, .... r:
Ho : P(X = 1) = pl , P(X = 2) = p2 , .... P(X = r) = pr valeurs théoriques données
E2= ∑
(Ni - n pi) 2
npi
E2 est l'écart relatif entre les effectifs observés Ni et les effectifs moyens npi attendus sous
Ho. E2 suit (approximativement) une loi du chi 2 à (r - 1) degrés de liberté (ddl) pourvu que
les effectifs attendus soient supérieurs ou égaux à 5.
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
@
Exercices
1. souriceaux
On dispose d'un lot de 500 souriceaux, et on se demande si ce lot est bien standard au
point de vue de la taille. En effet, la loi de la taille adulte de ce type de souris, élevées dans
des conditions normales est connue. C'est en principe une loi normale de moyenne 10 et de
variance 0,09 si la taille est mesurée en centimètres.
a) Pouvez vous donner un intervalle qui contienne la taille adulte d'une souris standard avec
une probabilité de 95% ?
b) Un échantillon de 6 sujets, tirés au hasard dans ce lot, atteint la taille suivante à l'âge
adulte
12,4
13,0
9,8
10,5
14,2
11,9
Peut on considérer que ce lot est bien standard ?
2. Calories et mortalité infantile
Le tableau suivant donne, pour plusieurs pays, le nombre moyen de calories absorbées
par personne et par jour ainsi que le taux de mortalité infantile :
Pour chaque pays, x désigne le nombre de calories par personne et par jour, pour mille, et y le
taux de mortalité, pour 1000.
Pays
par jour
x
Argentina
2,730
Australia
3,300
Austria
2,990
Belgium
3,000
Burma
2,080
Canada
3,070
Ceylon
1,920
Chile
2,240
Columbia
1,860
Cuba
2,610
Deninark
3,420
Egypt
2,450
France
2,880
Germany
2,960
Greece
2,600
y
98.8
39.1
87.4
83,1
202.1
67.4
182.8
240.8
155.6
116.8
64.2
162.9
66.1
63.3
113.4
pourl,000 Pays
x
Iceland
3,160
India
1,970
Ireland
3,390
Italy
2,510
Japan
2,180
New Zealand
Norway 3,160
Netheriands
Poland
2,710
Sweden
3,210
Switzerland 3,110
U.K.
3,100
U.S.A.
3,150
Uruguay 2,380
par jourpour 1000
y
42.4
161.6
69.6
102,7
60.6
3,260 32.2
40.5
3,010 37.4
139.4
43.3
45.3
55.3
53.2
94.1
Peut-on considérer que chacune des deux variables X et Y, a une distribution normale ? (On
identifiera, pour tester ces hypothèses, l'espérance et la variance de X et de Y à leurs
estimateurs usuels respectifs).
1
Semaines 9 et 10
Mise en évidence de liaisons.
Tests d'homogénéité ou d'indépendance.
Rappels de cours :
A Tests d'homogénéité pour deux échantillons d'une variable continue :
Etant donnés deux échantillons, on fait un test d'homogénéité lorsqu'on veut savoir si on peut considérer
les deux échantillons comme provenant d'une même population : c'est l'hypothèse Ho .
Test de Wilcoxon :
C'est un test d'homogénéité très puissant pour comparer deux échantillons d'une variable continue. On
ordonne les deux échantillons dans leur ensemble, on remplace chaque observation par son rang et on
note W la somme des rangs de l'un des deux échantillons. C'est une valeur numérique wo .Sous
l'hypothèse Ho , W a une loi qu'on peut calculer. Si P(W≤ wo) (ou P(W ≥ wo suivant l'alternative à
laquelle on s'intéresse) est très petit (< 0,05 en général) on rejette Ho. On peut soit calculer directement la
loi de W, soit la lire dans une table.
Test de la médiane :
Si les deux échantillons proviennent de la même population, ils ont en particulier, la même médiane : On
les ordonne dans leur ensemble, on calcule la médiane globale et on regarde comment ils se situent par
rapport à elle, ce qui donne un tableau de 4 nombres. Ce test n'est pas très puissant et n'est utilisé que lors
d'une flagrante différence entre les deux échantillons.
Test de comparaison de moyennes :
En particulier, si les deux échantillons proviennent de la même population, ils ont aussi la même
moyenne. En général, on ne connaît pas la loi de la moyenne, mais si n est assez grand, cette loi est
presque normale et on peut donc utiliser cette approximation :
B Tests d'indépendance pour un couple de variables :
Etant donné un échantillon d'un couple de variables, (X,Y), on fait un test d'indépendance lorsqu'on veut
savoir si on peut considérer les deux variables comme indépendantes : c'est l'hypothèse Ho .
Test du chi deux : valable pour un tableau de contingence croisant deux variables ayant toutes les deux
un nombre fini de modalités :
Sous l'hypothèse Ho d'indépendance de X et Y :
P (X = i, Y = j)
=
P (X = i) . P (Y = j)
soit
pij
=
pi . p.j
On fonde le test sur la statistique
2
(N − N N / N)
∑ ij N Ni. /. j N
i. . j
qui suit une loi proche de celle du χ2 à (r - 1) (k -1) degrés de liberté, pourvu que les dénominateurs
ni. p.j soient tous supérieurs à 5 (si ce n'est pas le cas, on regroupe plusieurs classes).
M1_TD_sem_9_10.doc
1/2
C. Huber
2
Test de Spearman : valable pour un couple de variables continues dont on veut savoir si elles sont liées.
On ordonne séparément les X entre eux et les Y entre eux et chaque sujet i a un rang Ri en X et un rang
Si en Y. Dans le cas où X et Y sont indépendantes, le coefficient de corrélation de (R,S), appelé
coefficient de corrélation de Spearman , est proche de 0 et a une loi de probabilité qui ne dépend que du
nombre n des observations. Cette loi est tabulée pour les petites valeurs de n, et on utilise une
approximation normale pour les grandes.
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
Exercices
1. Fumée de papier à cigarette et cancer du poumon
Une expérience a été menée dans le but de mettre en évidence un éventuel effet de la fumée de
papier à cigarette sur la génèse du cancer du poumon. Au cours de cette expérience, 74 souris ont été
utilisées, dont 36 ont servi de contrôle. Les 38 souris expérimentales ont été placées dans la cage
expérimentale et les 36 souris de contrôle dans la cage de contrôle de la machine à fumer. La machine
produisait la fumée de 108 papiers à cigarette par jour, six jours par semaine et cela pendant un an.
A la fin de l'expérience, les animaux furent sacrifiés. Il y avait 13 tumeurs parmi les souris
expérimentales et 11 parmi les témoins. L'auteur conclut : "Il existe une très légère prépondérance du
nombre des tumeurs chez les souris expérimentales par rapport aux souris témoins, et cette
prépondérancen'est pas significative si l'on en fait une analyse statistique ...Les résultats de cette
expérience indiquent que le papier à cigarette a peu ou pas d'effet sur la génération de cancer du
poumon chez les souris albinos".
a) Faire l'analyse statistique appropriée pour vérifier la première de ces deux conclusions.
b) Etes-vous d'accord avec la deuxième conclusion de l'auteur ?
2. Calories et mortalité infantile (suite)
On reprend les données sur la mortalité infantile et les calories.
a) Tracer dans un plan x0y le diagramme représentatif de ces pays. Le résultat obtenu suggère-t-il
l'existence d'une liaison entre les deux variables considérées ?
Effectuer un test et conclure.
b) pouvez-vous, des résultats précédents, déduire qu'un apport important de calories peut réduire la
mortalité infantile ?
3. Souris infectées par des larves
On s'intéresse à l'effet d'une dose faible de cambendazole sur les infections des souris par la
Trichinella Spiralis. 16 souris ont été infectées par un même nombre de larves de Trichinella et ensuite
réparties au hasard entre deux groupes. Le premier groupe de 8 souris a reçu du cambendazole, à
raison de 10 mg par kilo, 60 heures après l'infection. Les 8 autres souris n'ont pas reçu de traitement.
Au bout d'une semaine, toutes les souris ont été sacrifiées et le nombre suivant de vers adultes ont été
retrouvés dans les intestins :
Souris non traitées 514
Souris traitées
441
556
472
629,5
493
6311
535
6813
577
7114
608
7515
7916
629,5 6712
Que peut-on conclure au sujet d'une éventuelle efficacité du cambendazole, dosé à10 mg / kg, pour le
traitement des infections des souris par la Trichinella Spiralis ? (en indice : les rangs).
4. Souriceaux (suite)
On se demande s'il existe une relation entre la longueur de la queue et celle du corps d'un souriceau
élevé dans des conditions normales d'éclairement. On tire au sort huit souris adultes élevées dans des
conditions d'éclairement normal, et on mesure pour chacune d'elles, le corps et la queue, obtenant ainsi
les résultats suivants :
Longueur du corps
11,6
12,4
10,9
11,2
12,1
11,8
13,1
12,5
Longueur de la queue
10,4
10,1
9,7
9,9
10,8
11,0
12,1
11,7
Peut on considérer, au vu de ces données, que la queue est d'autant plus longue que la souris est plus
grande ? On proposera un test et on justifiera la conclusion obtenue.
M1_TD_sem_9_10.doc
2/2
C. Huber
1
Semaines 11 et 12
Tests de comparaison de k échantillons.
Rappels de cours :
Deux cas peuvent se produire selon que les échantillons sont liés ou non.
A Echantillons indépendants.
Test de la médiane généralisée : Valable pour k échantillons indépendants d'une
variable continue, pas nécessairement de la même taille. Chacun des k échantillons est
partagé en deux effectifs par cette médiane commune : ceux qui sont au-dessus et ceux
qui sont au-dessous. Ces deux effectifs devraient être du même ordre. On est donc
amené à faire un test du chi 2 avec probabilité théorique 1/2.
Test de Kruskal-Wallis : Valable pour k échantillons indépendants d'une variable continue, pas
nécessairement de la même taille. On ordonne toutes les valeurs dans leur ensemble ( n en tout) et on
remplace chaque observation par son rang : 1 pour la plus petite, 2 pour la suivante, etc.., n pour la plus
grande. A chacun des k échantillons, on fait ensuite correspondre son score obtenu comme la somme des
rangs des observations qui le composent : soit Rj ce score. La statistique de Kruskal-Wallis est ainsi
définie :
2
k
Rj
12
K−W = j
− 3(n + 1)
∑
n(n + 1) j =1 n
Cette statistique suit à peu près une loi du chi 2 à k-1 ddl.
B Echantillons liés.
Test de Cochran: Valable pour k échantillons binaires liés. Contrairement à ce qui se
passe pour Kruskal-Wallis ou la médiane généralisée, les k échantillons ont cette fois
tous la même taille, la liaison entre eux étant par exemple due à ce que les observations
sont faites sur un même sujet et on a n sujets. Les données étant rangées dans n lignes et
k colonnes, la statistique de Cochran est
k
Q=
k(k - 1) ∑ (G j − G) 2
j =1
n
k ∑ Li −
i =1
n
∑L
i=1
2
i
où les Li sont les totaux de lignes, Gj. les totaux de colonnes et G la moyenne des Gj.
:Q ~ chi2(k-1)ddl .
M1_TD_sem_11_12.doc
1/4
C. Huber
2
Test de Friedman : Valable pour k échantillons liés d'une variable ordinale. Comme
pour Cochran, on a un tableau rectangulaire à n lignes et k colonnes. En supposant que
les k modalités à comparer apparaissent en colonne, à l'intérieur de chaque ligne du
tableau, on ordonne les valeurs par ordre croissant et on remplace chacune d'elles par
son rang. On compte ensuite les scores de chaque colonne : Ri est la somme des
éléments de la colonne i. La statistique de Friedman vaut alors :
k
12
Ri2 − 3n(k + 1)
Fr 2 =
∑
nk(k + 1) i =1
Cette statistique a une loi approximativement chi 2 à k-1 degrés de liberté.
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
Exercices
1.Vote
Lors de sondages préélectoraux, on a demandé à 15 personnes quel serait leur vote au
deuxième tour au cas où l'actuel favori F serait opposé à l'un ou l'autre des autres
candidats possibles : A, B ou C. Leur réponse est ainsi codée : 1 s'ils votent pour F, 0
dans le cas contraire. Les résultats sont les suivants.
Candidat opposé au favori
A
B
C
1
3
4
5
7
8
9
10
11
12
13
14
15
0
0
0
1
1
0
1
0
1
0
1
1
1
0
1
1
0
1
1
1
0
1
1
1
1
1
0
0
0
0
1
0
0
0
1
1
0
0
1
Peut on dire que le vote pour ou contre F dépend du candidat auquel F est opposé?
2.Bureaux paysagers
Dans des bureaux paysagers d'une grande tour de la Défense, on se demande si la
couleur des parois, murs et petites cloisons de séparation, joue un rôle sur le niveau
sonore. Dans ce but, on fait l'expérience suivante : 7 couleurs différentes sont choisies
pour les murs et cloisons, bleu pâle, céladon, rouge vif, bleu foncé, vert foncé, jaune vif
et finalemeet elles nt fond blanc à pois rouges (à faible densité de pois) .
Les bureaux sont organisés et occupés de la même façon sur tous les points excepté la
tonalité générale du décor.
Les niveaux sonores mesurés dans chacun des bureaux (10 bleu clair, 8 céladon, etc..)
sont les suivants :
M1_TD_sem_11_12.doc
2/4
C. Huber
3
1
2
3
4
5
6
7
8
9
10
11
bleu cl. vert cl.
rouge v.
bleu f.
vert f.
jaune v.
38.5
40.5
42.5
42.8
38.7
38.8
43.6
35.5
42.2
38.5
54.2
49.8
64.8
57.2
57.9
59.4
60.3
60.9
59.9
61.1
56.9
48.9
47.7
51.2
52.7
56.3
50.3
51.1
49.3
45.8
50.2
50.3
49.1
51.4
57.4
46.5
47.3
50.7
60.3
59.2
62.7
66.2
57.0
59.8
57.7
63.5
58.7
40.2
39.0
44.0
37.6
38.1
45.6
41.2
36.9
à pois
43.0
39.6
41.6
38.6
46.1
Tester l'hypothèse qu'il n'y a aucune influence de la couleur des cloisons sur le niveau
sonore des bureaux.
Ces données suggèrent elles une interprétation conduisant à une conclusion pratique ?
3.Publicité
Dans le but de mieux vendre un magazine, quatre différents types de publicité sont
testés sur des kioques de différents quartiers. Le premier type consiste à placer devant le
kioque une affiche publicitaire contenant une illustration provocante, les trois autres
consistent à offrir un cadeau d'accompagnement : un poster, une disquette, ou un CD
rom. On a cinq quartiers différents, notés Qi , pour i = 1 à 5. L'augmentation des ventes
est la suivante :
Quartiers
Affiche
poster 18
disquette
CD
I
II
III
IV
V
27
38
21
23
59
31
50
48
44
8
40
42
13
80
12
14
103
95
98
4.Acuité auditive
Pour tester une éventuelle dépendance de l'acuité auditive par rapport au degré
d'éclairement, on mesure cette acuité par un score de 0 à 100 sur 10 sujets soumis à des
éclairements décroissants. On obtient les résultats suivants :
Niveau d'Eclairement
1
2
3
4
5
6
M1_TD_sem_11_12.doc
1
0.5
0.25
0
75
42
78
55
56
53
69
63
57
79
60
75
70
73
73
64
81
84
98
99
70
74
66
91
3/4
C. Huber
4
7
8
9
10
40
73
51
55
50
79
85
55
94
85
72
79
66
76
73
90
Y a-t-il ou non une influence du niveau d'éclairement sur l'acuité auditive ?
M1_TD_sem_11_12.doc
4/4
C. Huber
1
Semaines 13 et 14
Problèmes de révision
1. Dénombrement de globules rouges
Le résultat d'un dénombrement de globules rouges sur les 500 cases d'un
hématimètre est donné ci-dessous :
X = i le nombre de
globules d'une case
0
1
2
3
4
5
ni = nombre de cases 13 41 90 112 100 66
ayant i globules
6
7
8
9
10
N
45
22
9
1
1
500
On donne Σ x2 = Σ ni i2 = 8 114 .
I1) Calculer la moyenne observée m du nombre X de globules par case et
la variance observée s2 de X.
2) Construire l'intervalle de confiance à 5 % de µ, la moyenne théorique.
3) Si l'on suppose que X suit une loi de Poisson de paramètre µ, calculer µ0
l'estimation de µ par le maximum de vraisemblance. Comparer avec le
résultat du 1).
4) (ne nécessite pas d'avoir résolu le 3)). Quel estimateur peut-on donner de µ ?
Quelles sont les propriétés de cet estimateur ?
II -
1) Si l'on admet que pour un sujet sain µ = 4. Formuler complètement le test
permettant de savoir, au risque α, si les résultats obtenus peuvent provenir
d'un sujet sain.
2) On décide de rejeter l'hypothèse µ = 4 si la moyenne observée m ∈ [m1, m2]
où m1 et m2 sont définies par
Prob [m ∈ (m1, m2) | µ = 4] = 5 %
Quelles sont vos conclusions ?
3) Si le nombre X de globules par case suit une loi de Poisson et si on admet que
µ = 4, la répartition théorique moyenne du nombre de globules est donnée
par
M1_TD_sem_13_14.doc
1/10
C. Huber
2
X=i
0
ri
9,1
1
2
3
36,6 73,3
97,7
4
5
6
7
97,7 78,1 52,1 29,8
8
9
10
11
14,9
6,6
2,7
1,4
où ri est le nombre (moyen) de cases ayant i globules.
Peut-on admettre au risque de 5 % que les résultats observés initialement sont
ceux d'un sujet sain ?
4) Comparez aux résultats du II - 2) et commentez.
III - Pour confirmer les résultats de la numération globulaire obtenue pour ce sujet on
recommence l'expérience une semaine après. Pour ce deuxième prélèvement on
ne compte que le nombre de cases sans globules. On obtient alors les résultats
suivants :
X
0
21
Nbre total de cases
1er prélèvement
13
487
500
2ème prélèvement
19
481
500
La proportion de cases vides est-elle la même pour ces deux prélèvements ?
2. Délai d'apparition d'une maladie
On suppose que le délai X d'apparition d'une maladie après la mise en contact
avec un milieu polluant est une variable aléatoire dont la loi admet la densité
f (x) = a.exp (-ax) si x ≥ 0
=0
si x < 0
1) Quelle est la fonction de répartition F (x) de cette variable au point x ?
2) Calculer EX et Var (X).
3) Sur n sujets indépendants, on a mesuré le délai d'apparition de la maladie, obtenant
un délai moyen d'apparition M = (X1 + ... +Xn) / n. Que valent l'espérance EM et la
variance V(M) de M ?
4) Sur n = 100 sujets, on a observé un délai moyen d'apparition de 21 jours avec un
écart type empirique de 5 jours. peut on en déduire un intervalle de confiance au
risque 3 % pour le paramètre inconnu a ?
5) Reprendre le problème en supposant cette fois que la loi de X est la loi uniforme
sur le segment [0 a]
M1_TD_sem_13_14.doc
2/10
C. Huber
3
3. Diabète infantile
Une revue médicale a récemment publié le tableau ci-dessous à la suite d'une enquête
sur le diabète infantile. Les 269 patients examinés ont été tirés au hasard de la population Pde
diabétiques ainsi définie : d'une part il fallait que le diabète se soit déclaré chez le sujet avant
qu'il n'ait atteint l'âge de 15 ans, d'autre part que la durée d'évolution de la maladie, c'est à dire
le temps écoulé entre la date d'apparition du diabète et la date de l'enquête, soit supérieure à
15 ans. Sur les 269 sujets observés, 115 sont des hommes et 154 des femmes.
Durée
Nombre de
d'évolution
cas
Rétinopathies
R1
R2
R3
15 < t ≤ 20
173
67
45
15
7
20 < t ≤ 25
58
32
17
12
3
t > 25
38
22
12
7
3
TOTAL
269
121
34
13
74
Les patients, comme on le voit sur le tableau, ont été répartis en 3 classessuivant que la
durée t d'évolution de la maladie se situe entre 15 et 20 ans, 20 et 25, ou dépasse 25 ans.
Certains sujets sont atteints de rétinopathie (maladie de la rétine), d'autres pas. Ceux qui en
sont atteints ont été répartis en trois catégories : R1, R2 et R3 d'après la gravité de la
rétinopathie : R1 si l'atteinte est légère, R2 si elle est moyenne et R3 si elle est forte.
a) - Tester, au seuil de signification de 2 %, l'hypothèse selon laquelle la population P
étudiée est composée d'autant d'hommes que de femmes. Pour quelles valeurs du seuil de
signification accepterait on cette hypothèse ?
b) - Donner une estimation par un intervalle de confiance à 5 % de la proportion des
malades atteints de rétinopathie dans chacune des classes de durée
d'évolution. Peut-on considérer que ce pourcentage croit significativement en même
temps que la durée d'évolution, au seuil de 5 % ?
c) - Parmi les sujets atteints de rétinopathie, la gravité de la rétinopathie dépend elle de
la durée d'évolution du diabète ?
d) - 18 des patients figurant dans l'enquête présentent de l'hypertension artérielle (notée
H.T.A.). On a testé sur eux un nouveau médicament destiné à faire baisser la tension, et
obtenu au bout de 40 jours de traitement les résultats suivants :
Numéro du
patient
Différence
de tension
1
2
3
4
5
6
7
8
9
10
11
12
13
14
+1 +4 +5 -5 -1 +2 +8 -25 -12 -16 -9
-8
-18 -5
15
16
17
18
-22 -21 -15 -11
Peut-on considérer que ce traitement est efficace ? (On pourra pour cela tester au seuil
de 5% l'hypothèse H0 selon laquelle le traitement n'a aucun effet).
4. Capacité respiratoire et pollution atmosphérique
Lors d'une étude destinée à mettre en évidence d'éventuelles relations entre les
affections respiratoires et la pollution atmosphérique, on a obtenu les résultats suivants dans
M1_TD_sem_13_14.doc
3/10
C. Huber
4
des quartiers bien définis de quatre grandes villes françaises (*) :
Concentration
en SO2 (UG / M3)
Bordeaux B1
B2
B3
B4
Lyon
L1
L2
L3
L4
Marseille M1
M2
M3
M4
Toulouse T1
T2
T3
42
37
69
47
88
Prévalence
des symptomes
respiratoires
26, 2
27, 3
29, 3
26, 8
31, 5
100
56
94
60
105
120
31, 2
29, 2
28, 4
28, 2
30, 2
48
27, 7
26, 6
34
13
25, 9
28, 7
26, 1
32
1) Peut on considérer que les deux villes de Bordeaux et de Lyon sont comparables en ce qui
concerne la pollution par le dioxyde de soufre ?
2) Ce tableau de données permet-il de conclure à l'existenced'une liaison entre la prévalence
des symptomes respiratoires et la concentration en dioxyde de soufre ?
(Comme il serait trop long de décrire le protocole de l'enquête qui a permis de recueillir ces
données, on pourra supposer vérifiées les hypothèses qui permettent d'effectuer un test)
3) Le volume expiratoire moyen en une seconde, appelé Vems, est une quantité qui dépend de
la taille et de l âge.Les mesures faites sur 8 individusadultes ont donné les résultats suivants
Individu Age (an) Taille (m) Vems (1 / s)
1
2
3
4
30
32
35
36
1. 85
1. 72
1. 51
1. 62
4. 5
3. 6
2. 7
3. 1
5
6
7
8
37
31
36
33
1. 6
1. 80
1. 75
1. 68
3. 6
4. 4
4. 3
3. 8
Un modèle de régression linéaire a été proposé pour la liaison entre le Vems et la taille,
illustré par la figure suivante :
M1_TD_sem_13_14.doc
4/10
C. Huber
5
V.e.m.s. en litres/seconde
30-39 ans
40-49 ans
50-59 ans
3.0
2.5
2.0
1.5
1.7
1.8
1.9
Taille en mètres
4) L'échantillon des 8 personnes interrogées parait-il être conforme à ce modèle, c'est à dire
Vi = a . Ti + b + Zi
où V est la variable qui désigne le Vems, T la taille, et Z une variable Normale N (0; 0, 06) et
i est l'indice désignant l'individu.
5) En fait, les 4 premières personnes ont été tirées au hasard d'une population soumise à une
pollution atmosphérique significativement plus importante que les 4 autres. Ces données vous
permettent-elles de conclure à l'existence d'une liaison entre la pollution atmosphérique et le
Vems ?
6)Trois régions sont classées suivant la teneur de l'air en poussières, par ordre croissant (I, II,
III), et on extrait dans chacune de ces régions un échantillon d'individus dont on mesure le
Vems; les valeurs du Vems sont subdivisées en quatre classes notées 1, 2, 3, 4 (1 correspond
à un Vems très bas, 2 à un Vems bas, 3 à un normal,4 à un supérieur à la normale) :
Région
Vems
1
2
3
4
I
II
III
12
54
124
10
23
73
102
7
42
67
85
8
Peut-on considérer qu'il existe une liaison significative entre la teneur de l'air en poussières et
le V.e.m.s. ?
(*) D'après :
Enquête du groupe coopératif PAARC, Bull. europ. Physiopath.respiratoire, 1980, 16,745 767;1982,18, 87-99; 101 -116
5. Papillons
M1_TD_sem_13_14.doc
5/10
C. Huber
6
On étudie une variété de papillons qui se présentent sous l'une des trois couleurs
suivantes : jaune, orange ou noir (1).
I.
On a remarqué que dans les régions au climat rigoureux les papillons noirs semblaient
être, en proportion, plus nombreux que dans les régions dont le climat est doux. On a donc
observé deux échantillons de ces papillons, l'un de 360 et l'autre de 180 papillons sous l'un et
l'autre climats, et obtenu les résultats suivants :
papillons
région
noirs
oranges
jaunes
Total
climat doux
climat rude
42
39
164
73
154
68
360
180
a) Tester, au niveau d = 2 %, l'hypothèse H0 selon laquelle la répartition des papillons entre
les trois couleurs est indépendante de la rigueur du climat.
b) Quelle autre hypothèse H'0 auriez-vous pu choisir de tester dans le but de vérifier si
effectivement les papillons noirs étaient proportionnellement plus nombreux dans les régions
froides ? Indiquez les grandes lignes de la résoluton de ce nouveau problème de test de votre
choix.
II. Les trois couleurs possibles jaune, orange et noir, correspondent respectivement aux
trois génotypes aa Aa AA. Or les deux variétés allèles A et a du gène de coloration sont
réparties, dans la population des papillons, dans les proportions respectives θ et 1 - θ, où θ est
un paramètre inconnu, strictement compris entre 0 et 1. De plus les croisements sont supposés
avoir lieu au hasard. (Autrement dit pour former un papillon de génotype donné, tout se passe
comme si l'on effectuait deux tirages avec remise dans une urne contenant une proportion θ
de A et 1 - θ de a).
a) Quelles sont, en fonction de θ, les probabilités p1, p2 et p3, pour qu'un papillon soit
respectivement noir, orange ou jaune ?
b) On tire au hasard n papillons et on désigne respectivement par X1, X2 et X3 le nombre de
ceux qui sont de génotype AA Aa et aa.
On considère les évènements suivants :
E1 = {X1 = n1} ; E2 = {X2 = n2} ; E3 = {X3 = n3}
E12 = {X1 = n1, X2 = n2} = E1 E2
E123 = {X1 = n1, X2 = n2, X3 = n3} = E12 E3 = E1
E2
E3
Calculer, en fonction de p1, p2 et p3, les probabilités suivantes :
P(E1) , P(E2 / E1) , P(E12) , P(E3 / E12).
En déduire P(E123).
Voyez-vous une autre façon, plus directe, de calculer P(E123) ?
Exprimer P(E123) en fonction de θ.(2)
c) Sur un échantillon de n papillons dont n1 sont noirs, n2 oranges et n3 jaunes, on cherche à
estimer la valeur de θ. Donner, en fonction de n1, n2 et n3, l'estimateur du maximum de
vraisemblance de θ.
Application numérique :
On se limite aux régions dont le climat est doux, et on utilise les données figurant dans
M1_TD_sem_13_14.doc
6/10
C. Huber
7
la première ligne du tableau de la question I.
III Une théorie conduit à donner à θ la valeur 1 / 3.
a) Tester l'hypothèse H0 : (θ = 1 / 3) au seuil de 10 %, en ce qui concerne les papillons qui
vivent dans les régions dont le climat est doux. A partir de quel seuil aurait-on rejeté H0 ?
(Utiliser les données de la 1ère ligne du tableau I).
b) On s'est aperçu que l'excédent de papillons noirs dans les régions au climat rude, est dû au
fait que les papillons jaunes et oranges semblent y survivre moins bien. Pour vérifier
l'exactitude de cette remarque, on compare, dans ces régions, les durées de vie des papillons
noirs et des autres.
On fait 100 observations indépendantes sur la différence D entre la durée de vie d'un papillon
noir et d'un papillon d'une autre couleur, comparables en tous points (autre que la couleur) et
situés dans les mêmes conditions de vie. Ces 100observations (di) i = 1, ..., 100, mesurées en
jours, ont pour moyenne empirique m = Σ di / 100 = 10 jours , et s2 = Σ (di - m ) 2 / 100 =
16 pour variance empirique.
Tester au seuil de 5 % l'hypothèse H0 : la durée de vie de cette espèce de papillons est
indépendante de leur couleur, noir ou non, dans les régions au climat rigoureux.
c) On s'aperçoit, après coup, que les mesures de la différence D entre les durées de vie ont été
faussées par l'appariement de telle sorte que l'échantillon de taille 100 (en fait
200observations) n'est pas représentatif. Comme on n'a plus ni le temps, ni les moyens de
recommencer l'expérience sous une forme comparable, on mesure les durées de vie de 10
papillons noirs et de 10 papillons d'une autre couleur, tirés au hasard et on obtient :
Papillons noirs
Autres
14
8
10
17
11
9
12
10
13
12
12
11
9 16
14 7
18
8
17
13
Peut on conclure ?
(1) Les parties I, II et III sont indépendantes
(sauf en ce qui concerne la question III a) qui nécessite le résultat de la question II a)).
M1_TD_sem_13_14.doc
7/10
C. Huber
8
@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@@
@@@@@@@
PROBLEMES.
I. Marqueurs de la mucoviscidose
Il s'agit de savoir si une protéine qui fixe le calcium est perturbée lorsque le sujet est atteint de
mucoviscidose. Pour mettre en évidence une éventuelle différence, on utilise un complexe radioactif qui
provoque sur la protéine l'apparition de taches noires qu'on mesure au densitomètre après dépôt sur une
plaque de plastique. Sur chacune de ces plaques, on a trois protéines : une normale T , une appartenant à un
sujet faiblement atteint de mucoviscidose L et une appartenant à un sujet gravement atteint de mucoviscidose
G. Chaque plaque a ses caractéristiques et il est impossible de régler le temps de pause pour qu'il soit
toujours le même, aussi y a-t-il une influence de la plaque sur le résultat des mesures par le densitomètre. Les
résultats obtenus sont les suivants :
Protéines
Plaque 1
Plaque 2
Plaque 3
Plaque 4
Plaque 5
Plaque 6
N
32
41
23
18
56
43
L
38
43
28
24
60
45
G
46
42
31
27
64
49
Peut on considérer que cette protéine est un marqueur de la mucoviscidose ? (Autrement dit, les trois
échantillons liés correspondant à N, L et G peuvent ils être considérés comme provenant d'une même
population ?).
II Longévité des nématodes
Dans le cadre de l'étude du vieillissement, le professeur Thomas Johnson a étudié, à l'université du Colorado,
la durée de vie des nématodes. La durée de vie de ces petits vers, qui deviennent adultes en trois jours, est
d'une vingtaine de jours en l'absence de toute intervention. Or un gène G1 a été identifié comme étant
potentiellement un "gène du vieillissement". Deux échantillons de nématodes ont été constitués : l'un n'a
subi aucune intervention, et sur l'autre, on a désactivé le gène G1. On a ainsi obtenu les résultats suivants, où
les mesures Xi concernent le premier échantillon et les mesures Yi le second :
Sujet
12
3
4
5
6
X
23
19
21
20
18
22
Y
25
24
30
35
40
39
Ces mesures permettent elles de confirmer l'hypothèse que G1 pourrait être effectivement
un gène du
vieillissement ?
M1_TD_sem_13_14.doc
8/10
C. Huber
9
III Régime basses calories
Toujours dans le cadre de l'étude du vieillissement, une expérience a été menée avec des
souris de laboratoire à qui l'on impose un régime plus ou moins riche en calories. A chaque
souris traitée correspond une dose D de calories ingérée chaque jour et une durée de vie X.
Comme un régime pauvre en calories, avec cependant une dose normale de protéines et de
vitamines, est supposé augmenter la durée de vie, la dose est mesurée en multiples d'une
dose standard et la durée de vie en mois. Les observations ont été les suivantes :
Sujet
1
2
3
4
5
6
7
D
1,4
1,2
1
0,8
0,6
0,4
0,2
X
26
30
28
35
38
41
39
Peut on considérer qu'il y a une liaison entre la longévité et la dose de calories absorbée ?
Justifier le test employé, donner son degré de signification, et commenter le résultat.
IV. Stage
A l'issue d'un stage dans une entreprise, pour sélectionner les candidats qui auront un
emploi définitif, on leur fait passer un test qui comporte dix questions. Ces dix questions sont
supposées présenter la même difficulté, c'est à dire que, pour chaque candidat, la probabilité de
réussite est en principe la même pour chacune des questions. Pour chaque candidat, 1 désigne la
réussite et 0 l'échec.
L'épreuve a donné les résultats suivants :
n° du candidat
1
2
3
4
5
6
7
8
Réponses aux questions
1
1
1
1
0
1
0
1
0
1
1
0
1
1
0
1
1
0
1
0
1
1
0
1
0
0
1
1
1
1
0
0
1
0
1
1
0
1
0
1
0
0
1
1
0
1
0
1
1
0
0
0
1
0
0
0
0
0
0
1
0
0
0
1
0
0
1
0
0
1
0
0
0
0
0
0
0
0
0
0
1) Peut on considérer que les dix questions sont de même difficulté ?
2)En fait, les cinq premières questions ont été posées par une même personne et les cinq
dernières par une autre. Pourriez vous interpréter le résultat obtenu en 1) à l'aide d'un autre
test ?
V Autoritarisme et conformisme
Dans le cadre d'une étude sociologique, on essaye d'établir, grâce à une enquête auprès
d'étudiants dans une université, s'il existe un lien entre le conformisme et l'autoritarisme.
Pour cela on pose un certain nombre de questions sur les comportements considérés
comme préférables dans telle ou telle situation, et on obtient, pour chaque tudiant un score
de 'conformisme', selon l'échelle de Smith et un score d'autoritarisme, selon l'échelle de
Durand.
Les résultats obtenus sur 1es 12 étudiants de l'enquête ont été les suivants :
M1_TD_sem_13_14.doc
9/10
C. Huber
10
Etudiant
1
2
3
4
5
6
7
8
9
10
11
12
Score de conformisme
42
46
39
37
65
88
86
56
62
92
54
81
Score d'autoritarisme
82
98
87
40
116
113
111
83
85
126
106
117
Quelle conclusion pouvez vous en tirer ?
VI Durée de survie
Trois nouveaux traitements, notés A, B et C sont mis en compétition pour rallonger la
durée de survie de patients atteints de sida avéré. L'essai thérapeutique a lieu dans six
centres hospitaliers de la communauté européenne.
Un protocole a été établi pour harmoniser les conditions de l'hospitalisation entre les trois
centres mais il reste cependant des caractéristiques de chacun des centres, telles que par
exemple le recrutement des patients, qui ne peuvent pas être rendues identiques pour
l'ensemble des six.
Les observations concernent la durée de survie cumulée de 10 patients dans chaque
centre. Exprimées en nombre de mois, ces observations ont été les suivantes :
Traitements
A
B
C
Centre 1
302
310
402
Centre 2
401
413
420
Centre 3
231
283
317
Centre 4
182
241
280
Centre 5
553
610
645
Centre 6
403
451
497
Pouvez vous faire un test de comparaison de ces trois traitements, en tenant compte de
l'influence possible de chacun des centres hospitaliers ?
M1_TD_sem_13_14.doc
10/10
C. Huber
Téléchargement