cision et Prévision Statistiques. Travail personnel de synthèse.
Durée : 2 heures et 30 min. Thierry Verdel, Ecole des Mines de Nancy, 5 novembre 2013
Problème n°1
Une maladie, qui touche 1 personne sur 1000, peut être détectée par un test. Mais celui-ci a un taux
d’erreurs positives de 5%, c’est-à-dire que 5% des personnes saines (not sick persons) sont diagnostiquées
malades (sick). Un individu est soumis au test et le résultat est positif (maladie détectée - sickness detected). Quelle
est la probabilité pour qu’il soit effectivement malade (really sick) ?
Problème sur 2 pts
Il s’agit d’un exercice de probabilité plutôt que de statistique. La difficulté est de comprendre
l’énoncé. Sur une population de 100 000 personnes par exemple, il y a 99 900 non-malades (1 sur
1000) et
5% ¥ 99 900 =4995
faux positifs, tandis qu’il y a seulement 100 vrais malades. On a donc
4995 +100
personnes positives au test 1pt pour seulement 100 personnes malades, soit une
probabilité d’être malade de
100 êH100 +4995L>2%.
1pt
Je proposerai à nouveau cet exercice au prochain test mais dans une formulation différente qui rend l’exercice plus facile à
résoudre. C’est un classique pour montrer l’importance de la manière de présenter les choses.
100 êH100 +4995LêêN
0.0196271
Problème n°2
Les pertes (losses) de chacun des 25 assurés (insured people) d’une petite compagnie d’assurance (insurance
compagny) suivent une loi normale de moyenne 19 000 et d’écart-type 5 000. Quelle est la probabilité que la
perte moyenne des 25 assurés dépasse 20 000 ?
Problème sur 2 pts
C’est facile, on travaille avec la loi de la moyenne, de moyenne 19000 et d’écart-type
s
n=5000
25 =1000
. 1
On calcule alors :
1
Probability@m20 000, m ÈNormalDistribution@19 000,1000DDêêN
0.158655
Problème n°3
On estime que 50% des gens répondent à un questionnaire immédiatement et que 60% de ceux qui ne
répondent pas immédiatement répondent après un rappel (reminder). Un questionnaire est envoyé à 40
personnes et une lettre de rappel (reminder letter) à ceux qui ne répondent par immédiatement. Quelle est la
probabilité d’avoir finalement au moins (at least) 30 réponses au questionnaire après rappel ?
Problème sur 3 pts
Le plus simple est de calculer la probabilité de ne pas répondre :
0.5 ¥0.4 =0.2 =20 %
. 1
On se trouve alors dans le cadre d’une loi binomiale avec
N=40
et
v = 20 %
. 1
Avoir au moins 30 réponses est équivalent à avoir 10 ou moins non-réponses.
Il s’agit alors de calculer
PHk£10L=84 %
d’après la table. 1
Avec l’approximation de Poisson, tout juste valable,
Hl=nv = 40 ¥0.2 =8L
, on trouve
81.6 %
(on
acceptera le choix de l’approximation de Poisson même si elle est un peu limite).
Si on fait le calcul « à l’endroit », la probabilité de répondre est égale à
0.5 +0.6 ¥0.5 =80 %
. Mais
comme cette valeur ne figure pas dans les tables de la loi binomiale, il faut alors revenir au calcul
prédent (on inverse les boules rouges et les boules blanches dans le modèle de l’urne). Avoir au
moins 30 réponses revient donc à déterminer la probabilité d’avoir 10 ou moins de 10 non-réponses
dans une loi binomiale avec
v = 20 %
.
Si l’étudiant arrive à la bonne réponse par une autre méthode, plus compliquée, on pourra lui attribuer tous les points
pourvu que le raisonnement reste correct.
Problème sur 3 pts
Le plus simple est de calculer la probabilité de ne pas répondre :
0.5 ¥0.4 =0.2 =20 %
. 1
On se trouve alors dans le cadre d’une loi binomiale avec
N=40
et
v = 20 %
. 1
Avoir au moins 30 réponses est équivalent à avoir 10 ou moins non-réponses.
Il s’agit alors de calculer
PHk£10L=84 %
d’après la table. 1
Avec l’approximation de Poisson, tout juste valable,
Hl=nv = 40 ¥0.2 =8L
, on trouve
81.6 %
(on
acceptera le choix de l’approximation de Poisson même si elle est un peu limite).
Si on fait le calcul « à l’endroit », la probabilité de répondre est égale à
0.5 +0.6 ¥0.5 =80 %
. Mais
comme cette valeur ne figure pas dans les tables de la loi binomiale, il faut alors revenir au calcul
prédent (on inverse les boules rouges et les boules blanches dans le modèle de l’urne). Avoir au
moins 30 réponses revient donc à déterminer la probabilité d’avoir 10 ou moins de 10 non-réponses
dans une loi binomiale avec
v = 20 %
.
Si l’étudiant arrive à la bonne réponse par une autre méthode, plus compliquée, on pourra lui attribuer tous les points
pourvu que le raisonnement reste correct.
Probability@k£10, k ÈBinomialDistribution@40,0.2DDêêN
0.839231
Probability@k£10, k ÈPoissonDistribution@8DDêêN
0.815886
Probability@k30, k ÈBinomialDistribution@40,0.8DDêêN
0.839231
Problème n°4
Un laboratoire de contrôle de qualité (quality control laboratory) désire examiner et comparer les propriétés
caniques (mechanical properties) de deux types de pansements (2 types of wound dressings) en utilisant un essai de
traction (tensile strength test). Pour le premier type qui est un pansement breveté (proprietary), le test a porté sur un
échantillon de
n1=26
produits qui a donné une résistance moyenne (sample mean)
m1=10.05
et un écart-type
(sample standard deviation)
s1=0.72
. Pour le 2e type qui estrique (generic), nous avons
n2=26
,
m2=9.52
et
s2=0.91
. On fera l’hypothèse de normalité pour les populations desquelles sont issues ces échantillons
(hypothesis of normal distribution for the populations, these samples are coming from).
a) Calculez l'intervalle de confiance à 95% de la résistance moyenne (population mean) de chaque type de
pansements. Peut-on conclure à une différence entre les résistances moyennes des deux types de pansement ?
Question sur 2 pts
On a
M1ÈNIm1,s1
2ën1M
d’où
M1-m1
s1ën1ÈNH0, 1L
donc
M1-m1
s1
*ën1ÈTHn1-1L
. 0.5
On en déduit, pour un risque a choisi que
-taê2£m1-m1
s1
*ën1
£taê2
Au risque 5% on a
taê2=2.060
. 0.5
Donc que :
m1-taê2
s1
*
n1
£ m1£m1+taê2
s1
*
n1
.
Avec
s*
n=s
n-1
, on a donc :
10.05 -2.060 ¥0.72
5£ m1£10.05 +2.060 ¥0.72
5
Soit l’intervalle
@9.75, 10.35D
. 0.5
Deme pour
m2
:
9.52 -2.060 ¥0.91
5£ m2£9.52 +2.060 ¥0.91
5
soit
@9.14, 9.90D
. 0.5
A ce stade on ne peut pas conclure à une différence entre les deux moyennes du fait du recouvrement
des deux intervalles de confiance.
Needs@"HypothesisTesting`"D
StudentTCI@10.05,0.72 ê5, 25D
89.75343,10.3466<
2
StudentTCI@9.52,0.91 ê5, 25D
89.14516,9.89484<
b) Calculez l'intervalle de confiance à 95% de la variance (population variance) de chaque type de pansements.
En déduire celui de l’écart-type.
Question sur 2 pts
On a
n S2
s2Èc2Hn-1L
0.5 d’où, au risque 5% :
c1
2£n s2
s2£ c2
2
d’où :
n s2
c2
2£ s2£n s2
c1
2
.
Avec
c1
2=13.12
et
c2
2=40.65
0.5 pour les deux types de pansement
Hn1=n2L
, on obtient alors :
26¥0.722
40.65 £ s1
2£26¥0.722
13.12
soit
0.3316 £ s1
2£1.0274
0.5
et
26¥0.912
40.65 £ s2
2£26¥0.912
13.12
soit
0.5296 £ s2
2£1.6411
0.5
Desquels on déduit :
0.5758 £ s1£1.0136
et
0.7278 £ s2£1.2811
(-0.5 en cas d’erreur lors du
passage à l’écart-type)
Needs@"HypothesisTesting`"D
ChiSquareCI@H26 ê25L*0.72^2, 25D
80.331601,1.02734<
Sqrt@%D
80.575848,1.01358<
ChiSquareCI@H26 ê25L*0.91^2, 25D
80.529704,1.64109<
Sqrt@%D
80.727808,1.28105<
c) Faisant maintenant l’hypothèse que la variance des deux types de pansements est connue (known), égale
à 0.7, calculez l’intervalle de confiance de la différence des résistances moyennes des deux types de
pansements.
Question sur 3 pts
On construit
M1-M2ÈNJm1- m2,s2
n1+s2
n2N=NIm1- m2,2s2
26 M
1
On a donc
HM1-M2L-Hm1-m2L
2s2ê26 ÈNH0, 1L
d’où, au risque 5% :
-1.96 £Hm1-m2L-Hm1-m2L
2s2ê26
£1.96
. 1
Soit :
Hm1-m2L-1.96 2 s2ê26 £ m1- m2£Hm1-m2L+1.96 2 s2ê26
Soit :
H10.05 -9.52L-1.96 ¥2¥0.7 ê26 £ m1- m2£H10.05 -9.52L+1.96 ¥2¥0.7 ê26
Soit :
0.075 £ m1- m2£0.985
1
Certains étudiants auront peut-être recalculé les intervalles de confiance de chaque moyenne sous
l’hypothèse que la variance est connue et obtenu, respectivement pour
m1
et
m2
: au risque 5%,
[9.72, 10.38] et [9.19, 9.85] ou au risque 2.5%, [9.68, 10.42] et [9.15, 9.89]. On pourrait alors
calculer la différence des intervalles de confiance et obtenir : avec un risque de 5% (en réalité 10%
après différence) : [-0.13, 1.19] ou avec un risque de 2.5% (5% après différence) : [-0.21, 1.27]. Dans
les deux cas, on ne pourrait donc pas conclure à une différence. On mettra 2 pts pour l’ensemble de la
question, si les étudiants ont fait ce raisonnement mais avec des intervalles calculés avec un risque de 2.5% (sous réserve
que les calculs soient justes). On mettra 1 pt si ce même calcul a été fait avec des intervalles à 95% (risque de 5%).
3
Needs@"HypothesisTesting`"D
NormalCIB10.05 -9.52, 2 *0.7 ê26 F
80.0751948,0.984805<
NormalCIB10.05,0.7 ê26 ,ConfidenceLevel Æ0.95F
89.7284,10.3716<
NormalCIB9.52,0.7 ê26 ,ConfidenceLevel Æ0.95F
89.1984,9.8416<
NormalCIB10.05,0.7 ê26 ,ConfidenceLevel Æ0.975F
89.68222,10.4178<
NormalCIB9.52,0.7 ê26 ,ConfidenceLevel Æ0.975F
89.15222,9.88778<
Interval@89.72,10.38<D-Interval@89.19,9.85<D
Interval@8-0.13,1.19<D
Interval@89.68,10.42<D-Interval@89.15,9.89<D
Interval@8-0.21,1.27<D
d) Peut-on maintenant conclure à une différence de résistance moyenne entre les deux types de
pansements ? Rapprochez votre réponse de celle donnée à la question a).
Question sur 1 pt
Avec moins de 5 chances sur 100 de nous tromper, on peut conclure en effet à une différence
0.5 entre les moyennes des deux populations, donc des deux types de pansement. Et cela se justifie
par le fait que calculer l’intervalle de confiance d’une différence, ne revient pas aume que faire la
différence des intervalles de confiance 0.5,me d’ailleurs, si on adapte les risques en conséquence.
On dira que le test sur la différence est plus efficace, mais les étudiants ne verront la technique du test
qu’à partir de la prochaine séance.
Problème n°5
Une machine à emballer (packing machine) est censée (supposed to) produire des paquets de 1 kg. Le poids réel
(true weight) des paquets est modélisé par une variable aléatoire suivant une loi normale dont l’écart-type vaut
20 g. Par contre, il est possible de régler (set up) le poids moyen (population weight mean) des paquets. Le
responsable de la production décide de ne pas mettre à la vente les lots de paquets (packets batchs) dont le poids
moyen s’écarte de la valeur nominale (nominal value) de plus de 20 g, en plus ou en moins (less or more), et il veut
pouvoir détecter cette situation avec moins de 10 chances sur 100 de se tromper. Par ailleurs, lorsque le poids
moyen est bien réglé, il veut limiter la probabilité de rejeter les lots à 5%. Déterminer la règle de contrôle à
adopter pour respecter ces spécifications. Vous ferez un schéma explicatif montrant les lois en présence, les
seuils (thresholds) et les risques.
Problème sur 5 pts
Les données du problème correspondent au schéma suivant avec
a = 5%
et
b=10 %
. 1
980
a
1000
b
1020
Mn
sên
sên
sên
aê2
aê2
b
b
Comme le problème est symétrique. Il suffit de calculer l’une des bornes de l’intervalle de tolérance
pour déterminer le deuxième. En rappelant que la probabilité de dépasser
b
quand la loi est centrée
sur 980 est bien négligeable (de même, symétriquement, pour la loi centrée sur 1020 et
a
) 1, on peut
écrire directement :
a-980
20ën=u10 %=1.28
0.5 et
a-1000
20ën= -u2.5 %= -1.96
. 0.5
La résolution de ce système de 2 équations à 2 inconnues donne
a=987.901
et
n=10.49
. 1
Par symétrie on trouve aussi
b=1012.1
. 0.5
La règle de contrôle à adopter consiste donc à prélever un échantillon aléatoire de 11 paquets, à
calculer sa moyenne
m
et, si
mŒ@987.901, 1012.1D
on laisse la fabrication se poursuivre, sinon, on
rejette le lot. 0.5
4
Problème sur 5 pts
Les données du problème correspondent au schéma suivant avec
a = 5%
et
b=10 %
. 1
980
a
1000
b
1020
Mn
sên
sên
sên
aê2
aê2
b
b
Comme le problème est symétrique. Il suffit de calculer l’une des bornes de l’intervalle de tolérance
pour déterminer le deuxième. En rappelant que la probabilité de dépasser
b
quand la loi est centrée
sur 980 est bien négligeable (de même, symétriquement, pour la loi centrée sur 1020 et
a
) 1, on peut
écrire directement :
a-980
20ën=u10 %=1.28
0.5 et
a-1000
20ën= -u2.5 %= -1.96
. 0.5
La résolution de ce système de 2 équations à 2 inconnues donne
a=987.901
et
n=10.49
. 1
Par symétrie on trouve aussi
b=1012.1
. 0.5
La règle de contrôle à adopter consiste donc à prélever un échantillon aléatoire de 11 paquets, à
calculer sa moyenne
m
et, si
mŒ@987.901, 1012.1D
on laisse la fabrication se poursuivre, sinon, on
rejette le lot. 0.5
Map@Quantile@NormalDistribution@0, 1D,D&, 80.90,0.975<D
81.28155,1.95996<
SolveB:a-980
20 ín
== 1.28,a-1000
20 ín
ä -1.96>,8a, n<F
88aÆ987.901, n Æ10.4976<<
1000 +H1000 -987.901L
1012.1
Soyez clair et concis tout en rédigeant vos réponses et soignez la présentation. Notation globale sur 20 points.
5
1 / 5 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !