Décision et Prévision Statistiques. Travail personnel de synthèse.

Durée : 2 heures et 30 min. Thierry Verdel, Ecole des Mines de Nancy, 5 novembre 2013

Problème n°1

Une maladie, qui touche 1 personne sur 1000, peut être détectée par un test. Mais celui-ci a un taux

d’erreurs positives de 5%, c’est-à-dire que 5% des personnes saines (not sick persons) sont diagnostiquées

malades (sick). Un individu est soumis au test et le résultat est positif (maladie détectée - sickness detected). Quelle

est la probabilité pour qu’il soit effectivement malade (really sick) ?

Problème sur 2 pts

Il s’agit d’un exercice de probabilité plutôt que de statistique. La difficulté est de comprendre

l’énoncé. Sur une population de 100 000 personnes par exemple, il y a 99 900 non-malades (1 sur

1000) et

5% ¥ 99 900 =4995

faux positifs, tandis qu’il y a seulement 100 vrais malades. On a donc

4995 +100

personnes positives au test 1pt pour seulement 100 personnes malades, soit une

probabilité d’être malade de

100 êH100 +4995L>2%.

1pt

Je proposerai à nouveau cet exercice au prochain test mais dans une formulation différente qui rend l’exercice plus facile à

résoudre. C’est un classique pour montrer l’importance de la manière de présenter les choses.

100 êH100 +4995LêêN

0.0196271

Problème n°2

Les pertes (losses) de chacun des 25 assurés (insured people) d’une petite compagnie d’assurance (insurance

compagny) suivent une loi normale de moyenne 19 000 et d’écart-type 5 000. Quelle est la probabilité que la

perte moyenne des 25 assurés dépasse 20 000 ?

Problème sur 2 pts

C’est facile, on travaille avec la loi de la moyenne, de moyenne 19000 et d’écart-type

n=5000

25 =1000

. 1

On calcule alors :

PHM>20 000L=PIU>20 000-19 000

1000 =1M=1-0.8413 =15.87 %

Probability@m≥20 000, m ÈNormalDistribution@19 000,1000DDêêN

0.158655

Problème n°3

On estime que 50% des gens répondent à un questionnaire immédiatement et que 60% de ceux qui ne

répondent pas immédiatement répondent après un rappel (reminder). Un questionnaire est envoyé à 40

personnes et une lettre de rappel (reminder letter) à ceux qui ne répondent par immédiatement. Quelle est la

probabilité d’avoir finalement au moins (at least) 30 réponses au questionnaire après rappel ?

Problème sur 3 pts

Le plus simple est de calculer la probabilité de ne pas répondre :

0.5 ¥0.4 =0.2 =20 %

. 1

On se trouve alors dans le cadre d’une loi binomiale avec

N=40

v = 20 %

. 1

Avoir au moins 30 réponses est équivalent à avoir 10 ou moins non-réponses.

Il s’agit alors de calculer

PHk£10L=84 %

d’après la table. 1

Avec l’approximation de Poisson, tout juste valable,

Hl=nv = 40 ¥0.2 =8L

, on trouve

81.6 %

(on

acceptera le choix de l’approximation de Poisson même si elle est un peu limite).

Si on fait le calcul « à l’endroit », la probabilité de répondre est égale à

0.5 +0.6 ¥0.5 =80 %

. Mais

comme cette valeur ne figure pas dans les tables de la loi binomiale, il faut alors revenir au calcul

précédent (on inverse les boules rouges et les boules blanches dans le modèle de l’urne). Avoir au

moins 30 réponses revient donc à déterminer la probabilité d’avoir 10 ou moins de 10 non-réponses

dans une loi binomiale avec

v = 20 %

Si l’étudiant arrive à la bonne réponse par une autre méthode, plus compliquée, on pourra lui attribuer tous les points

pourvu que le raisonnement reste correct.

Problème sur 3 pts

Le plus simple est de calculer la probabilité de ne pas répondre :

0.5 ¥0.4 =0.2 =20 %

. 1

On se trouve alors dans le cadre d’une loi binomiale avec

N=40

v = 20 %

. 1

Avoir au moins 30 réponses est équivalent à avoir 10 ou moins non-réponses.

Il s’agit alors de calculer

PHk£10L=84 %

d’après la table. 1

Avec l’approximation de Poisson, tout juste valable,

Hl=nv = 40 ¥0.2 =8L

, on trouve

81.6 %

(on

acceptera le choix de l’approximation de Poisson même si elle est un peu limite).

Si on fait le calcul « à l’endroit », la probabilité de répondre est égale à

0.5 +0.6 ¥0.5 =80 %

. Mais

comme cette valeur ne figure pas dans les tables de la loi binomiale, il faut alors revenir au calcul

précédent (on inverse les boules rouges et les boules blanches dans le modèle de l’urne). Avoir au

moins 30 réponses revient donc à déterminer la probabilité d’avoir 10 ou moins de 10 non-réponses

dans une loi binomiale avec

v = 20 %

Si l’étudiant arrive à la bonne réponse par une autre méthode, plus compliquée, on pourra lui attribuer tous les points

pourvu que le raisonnement reste correct.

Probability@k£10, k ÈBinomialDistribution@40,0.2DDêêN

0.839231

Probability@k£10, k ÈPoissonDistribution@8DDêêN

0.815886

Probability@k≥30, k ÈBinomialDistribution@40,0.8DDêêN

0.839231

Problème n°4

Un laboratoire de contrôle de qualité (quality control laboratory) désire examiner et comparer les propriétés

mécaniques (mechanical properties) de deux types de pansements (2 types of wound dressings) en utilisant un essai de

traction (tensile strength test). Pour le premier type qui est un pansement breveté (proprietary), le test a porté sur un

échantillon de

n1=26

produits qui a donné une résistance moyenne (sample mean)

m1=10.05

et un écart-type

(sample standard deviation)

s1=0.72

. Pour le 2e type qui est générique (generic), nous avons

n2=26

m2=9.52

s2=0.91

. On fera l’hypothèse de normalité pour les populations desquelles sont issues ces échantillons

(hypothesis of normal distribution for the populations, these samples are coming from).

a) Calculez l'intervalle de confiance à 95% de la résistance moyenne (population mean) de chaque type de

pansements. Peut-on conclure à une différence entre les résistances moyennes des deux types de pansement ?

Question sur 2 pts

On a

M1ÈNIm1,s1

2ën1M

d’où

M1-m1

s1ën1ÈNH0, 1L

donc

M1-m1

*ën1ÈTHn1-1L

. 0.5

On en déduit, pour un risque a choisi que

-taê2£m1-m1

*ën1

£taê2

Au risque 5% on a

taê2=2.060

. 0.5

Donc que :

m1-taê2

£ m1£m1+taê2

Avec

n=s

n-1

, on a donc :

10.05 -2.060 ¥0.72

5£ m1£10.05 +2.060 ¥0.72

Soit l’intervalle

@9.75, 10.35D

. 0.5

De même pour

9.52 -2.060 ¥0.91

5£ m2£9.52 +2.060 ¥0.91

soit

@9.14, 9.90D

. 0.5

A ce stade on ne peut pas conclure à une différence entre les deux moyennes du fait du recouvrement

des deux intervalles de confiance.

Needs@"HypothesisTesting`"D

StudentTCI@10.05,0.72 ê5, 25D

89.75343,10.3466<

StudentTCI@9.52,0.91 ê5, 25D

89.14516,9.89484<

b) Calculez l'intervalle de confiance à 95% de la variance (population variance) de chaque type de pansements.

En déduire celui de l’écart-type.

Question sur 2 pts

On a

n S2

s2Èc2Hn-1L

0.5 d’où, au risque 5% :

2£n s2

s2£ c2

d’où :

n s2

2£ s2£n s2

Avec

2=13.12

2=40.65

0.5 pour les deux types de pansement

Hn1=n2L

, on obtient alors :

26¥0.722

40.65 £ s1

2£26¥0.722

13.12

soit

0.3316 £ s1

2£1.0274

0.5

26¥0.912

40.65 £ s2

2£26¥0.912

13.12

soit

0.5296 £ s2

2£1.6411

0.5

Desquels on déduit :

0.5758 £ s1£1.0136

0.7278 £ s2£1.2811

(-0.5 en cas d’erreur lors du

passage à l’écart-type)

Needs@"HypothesisTesting`"D

ChiSquareCI@H26 ê25L*0.72^2, 25D

80.331601,1.02734<

Sqrt@%D

80.575848,1.01358<

ChiSquareCI@H26 ê25L*0.91^2, 25D

80.529704,1.64109<

Sqrt@%D

80.727808,1.28105<

c) Faisant maintenant l’hypothèse que la variance des deux types de pansements est connue (known), égale

à 0.7, calculez l’intervalle de confiance de la différence des résistances moyennes des deux types de

pansements.

Question sur 3 pts

On construit

M1-M2ÈNJm1- m2,s2

n1+s2

n2N=NIm1- m2,2s2

26 M

On a donc

HM1-M2L-Hm1-m2L

2s2ê26 ÈNH0, 1L

d’où, au risque 5% :

-1.96 £Hm1-m2L-Hm1-m2L

2s2ê26

£1.96

. 1

Soit :

Hm1-m2L-1.96 2 s2ê26 £ m1- m2£Hm1-m2L+1.96 2 s2ê26

Soit :

H10.05 -9.52L-1.96 ¥2¥0.7 ê26 £ m1- m2£H10.05 -9.52L+1.96 ¥2¥0.7 ê26

Soit :

0.075 £ m1- m2£0.985

Certains étudiants auront peut-être recalculé les intervalles de confiance de chaque moyenne sous

l’hypothèse que la variance est connue et obtenu, respectivement pour

: au risque 5%,

[9.72, 10.38] et [9.19, 9.85] ou au risque 2.5%, [9.68, 10.42] et [9.15, 9.89]. On pourrait alors

calculer la différence des intervalles de confiance et obtenir : avec un risque de 5% (en réalité 10%

après différence) : [-0.13, 1.19] ou avec un risque de 2.5% (5% après différence) : [-0.21, 1.27]. Dans

les deux cas, on ne pourrait donc pas conclure à une différence. On mettra 2 pts pour l’ensemble de la

question, si les étudiants ont fait ce raisonnement mais avec des intervalles calculés avec un risque de 2.5% (sous réserve

que les calculs soient justes). On mettra 1 pt si ce même calcul a été fait avec des intervalles à 95% (risque de 5%).

Needs@"HypothesisTesting`"D

NormalCIB10.05 -9.52, 2 *0.7 ê26 F

80.0751948,0.984805<

NormalCIB10.05,0.7 ê26 ,ConfidenceLevel Æ0.95F

89.7284,10.3716<

NormalCIB9.52,0.7 ê26 ,ConfidenceLevel Æ0.95F

89.1984,9.8416<

NormalCIB10.05,0.7 ê26 ,ConfidenceLevel Æ0.975F

89.68222,10.4178<

NormalCIB9.52,0.7 ê26 ,ConfidenceLevel Æ0.975F

89.15222,9.88778<

Interval@89.72,10.38<D-Interval@89.19,9.85<D

Interval@8-0.13,1.19<D

Interval@89.68,10.42<D-Interval@89.15,9.89<D

Interval@8-0.21,1.27<D

d) Peut-on maintenant conclure à une différence de résistance moyenne entre les deux types de

pansements ? Rapprochez votre réponse de celle donnée à la question a).

Question sur 1 pt

Avec moins de 5 chances sur 100 de nous tromper, on peut conclure en effet à une différence

0.5 entre les moyennes des deux populations, donc des deux types de pansement. Et cela se justifie

par le fait que calculer l’intervalle de confiance d’une différence, ne revient pas au même que faire la

différence des intervalles de confiance 0.5, même d’ailleurs, si on adapte les risques en conséquence.

On dira que le test sur la différence est plus efficace, mais les étudiants ne verront la technique du test

qu’à partir de la prochaine séance.

Problème n°5

Une machine à emballer (packing machine) est censée (supposed to) produire des paquets de 1 kg. Le poids réel

(true weight) des paquets est modélisé par une variable aléatoire suivant une loi normale dont l’écart-type vaut

20 g. Par contre, il est possible de régler (set up) le poids moyen (population weight mean) des paquets. Le

responsable de la production décide de ne pas mettre à la vente les lots de paquets (packets batchs) dont le poids

moyen s’écarte de la valeur nominale (nominal value) de plus de 20 g, en plus ou en moins (less or more), et il veut

pouvoir détecter cette situation avec moins de 10 chances sur 100 de se tromper. Par ailleurs, lorsque le poids

moyen est bien réglé, il veut limiter la probabilité de rejeter les lots à 5%. Déterminer la règle de contrôle à

adopter pour respecter ces spécifications. Vous ferez un schéma explicatif montrant les lois en présence, les

seuils (thresholds) et les risques.

Problème sur 5 pts

Les données du problème correspondent au schéma suivant avec

a = 5%

b=10 %

. 1

980

1000

1020

sên

aê2

Comme le problème est symétrique. Il suffit de calculer l’une des bornes de l’intervalle de tolérance

pour déterminer le deuxième. En rappelant que la probabilité de dépasser

quand la loi est centrée

sur 980 est bien négligeable (de même, symétriquement, pour la loi centrée sur 1020 et

) 1, on peut

écrire directement :

a-980

20ën=u10 %=1.28

0.5 et

a-1000

20ën= -u2.5 %= -1.96

. 0.5

La résolution de ce système de 2 équations à 2 inconnues donne

a=987.901

n=10.49

. 1

Par symétrie on trouve aussi

b=1012.1

. 0.5

La règle de contrôle à adopter consiste donc à prélever un échantillon aléatoire de 11 paquets, à

calculer sa moyenne

et, si

mŒ@987.901, 1012.1D

on laisse la fabrication se poursuivre, sinon, on

rejette le lot. 0.5

Problème sur 5 pts

Les données du problème correspondent au schéma suivant avec

a = 5%

b=10 %

. 1

980

1000

1020

sên

aê2

Comme le problème est symétrique. Il suffit de calculer l’une des bornes de l’intervalle de tolérance

pour déterminer le deuxième. En rappelant que la probabilité de dépasser

quand la loi est centrée

sur 980 est bien négligeable (de même, symétriquement, pour la loi centrée sur 1020 et

) 1, on peut

écrire directement :

a-980

20ën=u10 %=1.28

0.5 et

a-1000

20ën= -u2.5 %= -1.96

. 0.5

La résolution de ce système de 2 équations à 2 inconnues donne

a=987.901

n=10.49

. 1

Par symétrie on trouve aussi

b=1012.1

. 0.5

La règle de contrôle à adopter consiste donc à prélever un échantillon aléatoire de 11 paquets, à

calculer sa moyenne

et, si

mŒ@987.901, 1012.1D

on laisse la fabrication se poursuivre, sinon, on

rejette le lot. 0.5

Map@Quantile@NormalDistribution@0, 1D,D&, 80.90,0.975<D

81.28155,1.95996<

SolveB:a-980

20 ín

== 1.28,a-1000

20 ín

ä -1.96>,8a, n<F

88aÆ987.901, n Æ10.4976<<

1000 +H1000 -987.901L

1012.1

Soyez clair et concis tout en rédigeant vos réponses et soignez la présentation. Notation globale sur 20 points.

1 / 5 100%

Documents connexes

Correction Fiche TP 12 On lance deux dés à quatre faces et on

D - Math93

examen de probabilites

Enoncé - Probabilités - e1045 Quatre amateurs d`astrologie se

Test 1 en Chimie Organique Chimie Organique Chimie Organique

Evaluation de la production écrite : Inventer un animal fantastique

3 - stgcfe.fr

Densité de probabilité

SERIE 9

Test loi normale

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Décision et Prévision Statistiques. Travail personnel de synthèse.

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Décision et Prévision Statistiques. Travail personnel de synthèse.

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib