Décision et Prévision Statistiques. Travail personnel de synthèse.

publicité
Décision et Prévision Statistiques. Travail personnel de synthèse.
Durée : 2 heures et 30 min. Thierry Verdel, Ecole des Mines de Nancy, 5 novembre 2013
Problème n°1
Une maladie, qui touche 1 personne sur 1000, peut être détectée par un test. Mais celui-ci a un taux
d’erreurs positives de 5%, c’est-à-dire que 5% des personnes saines (not sick persons) sont diagnostiquées
malades (sick). Un individu est soumis au test et le résultat est positif (maladie détectée - sickness detected). Quelle
est la probabilité pour qu’il soit effectivement malade (really sick) ?
Problème sur 2 pts
Il s’agit d’un exercice de probabilité plutôt que de statistique. La difficulté est de comprendre
l’énoncé. Sur une population de 100 000 personnes par exemple, il y a 99 900 non-malades (1 sur
1000) et 5 % ¥ 99 900 = 4995 faux positifs, tandis qu’il y a seulement 100 vrais malades. On a donc
4995 + 100 personnes positives au test 1pt pour seulement 100 personnes malades, soit une
probabilité d’être malade de 100 ê H100 + 4995L > 2 %. 1pt
Je proposerai à nouveau cet exercice au prochain test mais dans une formulation différente qui rend l’exercice plus facile à
résoudre. C’est un classique pour montrer l’importance de la manière de présenter les choses.
100 ê H100 + 4995L êê N
0.0196271
Problème n°2
Les pertes (losses) de chacun des 25 assurés (insured people) d’une petite compagnie d’assurance (insurance
compagny) suivent une loi normale de moyenne 19 000 et d’écart-type 5 000. Quelle est la probabilité que la
perte moyenne des 25 assurés dépasse 20 000 ?
Problème sur 2 pts
C’est facile, on travaille avec la loi de la moyenne, de moyenne 19000 et d’écart-type
s
5000
=
= 1000. 1
n
25
On calcule alors : PHM > 20 000L = PIU >
20 000-19 000
1000
= 1M = 1 - 0.8413 = 15.87 % 1
Probability@m ≥ 20 000, m È NormalDistribution@19 000, 1000DD êê N
0.158655
Problème n°3
On estime que 50% des gens répondent à un questionnaire immédiatement et que 60% de ceux qui ne
répondent pas immédiatement répondent après un rappel (reminder). Un questionnaire est envoyé à 40
personnes et une lettre de rappel (reminder letter) à ceux qui ne répondent par immédiatement. Quelle est la
probabilité d’avoir finalement au moins (at least) 30 réponses au questionnaire après rappel ?
Problème sur 3 pts
Le plus simple est de calculer la probabilité de ne pas répondre : 0.5 ¥ 0.4 = 0.2 = 20 %. 1
On se trouve alors dans le cadre d’une loi binomiale avec N = 40 et v = 20 %. 1
Avoir au moins 30 réponses est équivalent à avoir 10 ou moins non-réponses.
Il s’agit alors de calculer PHk £ 10L = 84 % d’après la table. 1
Avec l’approximation de Poisson, tout juste valable, Hl = n v = 40 ¥ 0.2 = 8L, on trouve 81.6 % (on
acceptera le choix de l’approximation de Poisson même si elle est un peu limite).
Si on fait le calcul « à l’endroit », la probabilité de répondre est égale à 0.5 + 0.6 ¥ 0.5 = 80 %. Mais
Il s’agit alors de calculer PHk £ 10L = 84 % d’après la table. 1
Avec l’approximation de Poisson, tout juste valable, Hl = n v = 40 ¥ 0.2 = 8L, on trouve 81.6 % (on 2
acceptera le choix de l’approximation de Poisson même si elle est un peu limite).
Si on fait le calcul « à l’endroit », la probabilité de répondre est égale à 0.5 + 0.6 ¥ 0.5 = 80 %. Mais
comme cette valeur ne figure pas dans les tables de la loi binomiale, il faut alors revenir au calcul
précédent (on inverse les boules rouges et les boules blanches dans le modèle de l’urne). Avoir au
moins 30 réponses revient donc à déterminer la probabilité d’avoir 10 ou moins de 10 non-réponses
dans une loi binomiale avec v = 20 %.
Si l’étudiant arrive à la bonne réponse par une autre méthode, plus compliquée, on pourra lui attribuer tous les points
pourvu que le raisonnement reste correct.
Probability@k £ 10, k È BinomialDistribution@40, 0.2DD êê N
0.839231
Probability@k £ 10, k È PoissonDistribution@8DD êê N
0.815886
Probability@k ≥ 30, k È BinomialDistribution@40, 0.8DD êê N
0.839231
Problème n°4
Un laboratoire de contrôle de qualité (quality control laboratory) désire examiner et comparer les propriétés
mécaniques (mechanical properties) de deux types de pansements (2 types of wound dressings) en utilisant un essai de
traction (tensile strength test). Pour le premier type qui est un pansement breveté (proprietary), le test a porté sur un
échantillon de n1 = 26 produits qui a donné une résistance moyenne (sample mean) m1 = 10.05 et un écart-type
(sample standard deviation) s1 = 0.72. Pour le 2e type qui est générique (generic), nous avons n2 = 26, m2 = 9.52 et
s2 = 0.91. On fera l’hypothèse de normalité pour les populations desquelles sont issues ces échantillons
(hypothesis of normal distribution for the populations, these samples are coming from).
a) Calculez l'intervalle de confiance à 95% de la résistance moyenne (population mean) de chaque type de
pansements. Peut-on conclure à une différence entre les résistances moyennes des deux types de pansement ?
Question sur 2 pts
On a M1 È NIm1 , s21 ë n1 M d’où
M1 -m1
s1 ë n 1
M1 -m1
È NH0, 1L donc
s*1 ë n1
m1 -m1
£ taê2
On en déduit, pour un risque a choisi que -taê2 £
s*1 ë n1
È T Hn1 - 1L. 0.5
Au risque 5% on a taê2 = 2.060. 0.5
Donc que : m1 - taê2
Avec
s*
n
=
s
n-1
s*1
n1
£ m1 £ m1 + taê2
s*1
n1
.
, on a donc : 10.05 - 2.060 ¥
Soit l’intervalle @9.75, 10.35D. 0.5
De même pour m2 : 9.52 - 2.060 ¥
0.91
5
0.72
5
£ m1 £ 10.05 + 2.060 ¥
£ m2 £ 9.52 + 2.060 ¥
0.91
5
0.72
5
soit @9.14, 9.90D. 0.5
A ce stade on ne peut pas conclure à une différence entre les deux moyennes du fait du recouvrement
des deux intervalles de confiance.
Needs@"HypothesisTesting`"D
[email protected], 0.72 ê 5, 25D
89.75343, 10.3466<
3
[email protected], 0.91 ê 5, 25D
89.14516, 9.89484<
b) Calculez l'intervalle de confiance à 95% de la variance (population variance) de chaque type de pansements.
En déduire celui de l’écart-type.
Question sur 2 pts
On a
n S2
s2
È c2 Hn - 1L 0.5 d’où, au risque 5% : c21 £
n s2
s2
£ c22 d’où :
n s2
c22
£ s2 £
n s2
.
c21
Avec c21 = 13.12 et c22 = 40.65 0.5 pour les deux types de pansement Hn1 = n2 L, on obtient alors :
et
26¥ 0.722
40.65
£ s21 £
26¥ 0.722
13.12
soit 0.3316 £ s21 £ 1.0274 0.5
26¥ 0.912
40.65
£ s22 £
26¥ 0.912
13.12
soit 0.5296 £ s22 £ 1.6411 0.5
Desquels on déduit : 0.5758 £ s1 £ 1.0136 et 0.7278 £ s2 £ 1.2811 (-0.5 en cas d’erreur lors du
passage à l’écart-type)
Needs@"HypothesisTesting`"D
ChiSquareCI@H26 ê 25L * 0.72^ 2, 25D
80.331601, 1.02734<
80.575848, 1.01358<
Sqrt@%D
ChiSquareCI@H26 ê 25L * 0.91^ 2, 25D
80.529704, 1.64109<
80.727808, 1.28105<
Sqrt@%D
c) Faisant maintenant l’hypothèse que la variance des deux types de pansements est connue (known), égale
à 0.7, calculez l’intervalle de confiance de la différence des résistances moyennes des deux types de
pansements.
Question sur 3 pts
On construit M1 - M2 È NJm1 - m2 ,
On a donc
HM1 -M2 L-Hm1 -m2 L
2 s2 ê26
Soit : Hm1 - m2 L - 1.96
s2
n1
+
s2
N
n2
= NIm1 - m2 ,
2 s2
M
26
1
È NH0, 1L d’où, au risque 5% : -1.96 £
2 s2 ê26
£ 1.96. 1
2 ¥ 0.7 ê 26 £ m1 - m2 £ H10.05 - 9.52L + 1.96 ¥
2 ¥ 0.7 ê 26
2 s2 ê 26 £ m1 - m2 £ Hm1 - m2 L + 1.96
Soit : H10.05 - 9.52L - 1.96 ¥
Hm1 -m2 L-Hm1 -m2 L
2 s2 ê 26
Soit : 0.075 £ m1 - m2 £ 0.985 1
Certains étudiants auront peut-être recalculé les intervalles de confiance de chaque moyenne sous
l’hypothèse que la variance est connue et obtenu, respectivement pour m1 et m2 : au risque 5%,
[9.72, 10.38] et [9.19, 9.85] ou au risque 2.5%, [9.68, 10.42] et [9.15, 9.89]. On pourrait alors
calculer la différence des intervalles de confiance et obtenir : avec un risque de 5% (en réalité 10%
après différence) : [-0.13, 1.19] ou avec un risque de 2.5% (5% après différence) : [-0.21, 1.27]. Dans
les deux cas, on ne pourrait donc pas conclure à une différence. On mettra 2 pts pour l’ensemble de la
question, si les étudiants ont fait ce raisonnement mais avec des intervalles calculés avec un risque de 2.5% (sous réserve
que les calculs soient justes). On mettra 1 pt si ce même calcul a été fait avec des intervalles à 95% (risque de 5%).
4
Needs@"HypothesisTesting`"D
2 * 0.7 ê 26 F
NormalCIB10.05 - 9.52,
80.0751948, 0.984805<
NormalCIB10.05,
89.7284, 10.3716<
NormalCIB9.52,
89.1984, 9.8416<
NormalCIB10.05,
0.7 ê 26 , ConfidenceLevel Æ 0.95F
0.7 ê 26 , ConfidenceLevel Æ 0.95F
0.7 ê 26 , ConfidenceLevel Æ 0.975F
89.68222, 10.4178<
NormalCIB9.52,
0.7 ê 26 , ConfidenceLevel Æ 0.975F
89.15222, 9.88778<
[email protected], 10.38<D - [email protected], 9.85<D
Interval@8- 0.13, 1.19<D
[email protected], 10.42<D - [email protected], 9.89<D
Interval@8- 0.21, 1.27<D
d) Peut-on maintenant conclure à une différence de résistance moyenne entre les deux types de
pansements ? Rapprochez votre réponse de celle donnée à la question a).
Question sur 1 pt
Avec moins de 5 chances sur 100 de nous tromper, on peut conclure en effet à une différence
0.5 entre les moyennes des deux populations, donc des deux types de pansement. Et cela se justifie
par le fait que calculer l’intervalle de confiance d’une différence, ne revient pas au même que faire la
différence des intervalles de confiance 0.5, même d’ailleurs, si on adapte les risques en conséquence.
On dira que le test sur la différence est plus efficace, mais les étudiants ne verront la technique du test
qu’à partir de la prochaine séance.
Problème n°5
Une machine à emballer (packing machine) est censée (supposed to) produire des paquets de 1 kg. Le poids réel
(true weight) des paquets est modélisé par une variable aléatoire suivant une loi normale dont l’écart-type vaut
20 g. Par contre, il est possible de régler (set up) le poids moyen (population weight mean) des paquets. Le
responsable de la production décide de ne pas mettre à la vente les lots de paquets (packets batchs) dont le poids
moyen s’écarte de la valeur nominale (nominal value) de plus de 20 g, en plus ou en moins (less or more), et il veut
pouvoir détecter cette situation avec moins de 10 chances sur 100 de se tromper. Par ailleurs, lorsque le poids
moyen est bien réglé, il veut limiter la probabilité de rejeter les lots à 5%. Déterminer la règle de contrôle à
adopter pour respecter ces spécifications. Vous ferez un schéma explicatif montrant les lois en présence, les
seuils (thresholds) et les risques.
Problème sur 5 pts
Les données du problème correspondent au schéma suivant avec a = 5 % et b = 10 %. 1
sê n
sê n
sê n
Problème sur 5 pts
Les données du problème correspondent au schéma suivant avec a = 5 % et b = 10 %. 1
sê n
sê n
b
aê2
980
sê n
a
b
1000
aê2
b
1020
Mn
Comme le problème est symétrique. Il suffit de calculer l’une des bornes de l’intervalle de tolérance
pour déterminer le deuxième. En rappelant que la probabilité de dépasser b quand la loi est centrée
sur 980 est bien négligeable (de même, symétriquement, pour la loi centrée sur 1020 et a) 1, on peut
écrire directement :
a-980
20ë n
= u10 % = 1.28 0.5 et
a-1000
20ë n
= -u2.5 % = -1.96. 0.5
La résolution de ce système de 2 équations à 2 inconnues donne a = 987.901 et n = 10.49. 1
Par symétrie on trouve aussi b = 1012.1. 0.5
La règle de contrôle à adopter consiste donc à prélever un échantillon aléatoire de 11 paquets, à
calculer sa moyenne m et, si m Π@987.901, 1012.1D on laisse la fabrication se poursuivre, sinon, on
rejette le lot. 0.5
Map@Quantile@NormalDistribution@0, 1D, D &, 80.90, 0.975<D
81.28155, 1.95996<
SolveB:
a - 980
20 í
== 1.28,
n
a - 1000
20 í
88a Æ 987.901, n Æ 10.4976<<
ä - 1.96>, 8a, n<F
n
1000 + H1000 - 987.901L
1012.1
Soyez clair et concis tout en rédigeant vos réponses et soignez la présentation. Notation globale sur 20 points.
5
Téléchargement