Décision et Prévision Statistiques. Travail personnel de synthèse. Durée : 2 heures et 30 min. Thierry Verdel, Ecole des Mines de Nancy, 5 novembre 2013 Problème n°1 Une maladie, qui touche 1 personne sur 1000, peut être détectée par un test. Mais celui-ci a un taux d’erreurs positives de 5%, c’est-à-dire que 5% des personnes saines (not sick persons) sont diagnostiquées malades (sick). Un individu est soumis au test et le résultat est positif (maladie détectée - sickness detected). Quelle est la probabilité pour qu’il soit effectivement malade (really sick) ? Problème sur 2 pts Il s’agit d’un exercice de probabilité plutôt que de statistique. La difficulté est de comprendre l’énoncé. Sur une population de 100 000 personnes par exemple, il y a 99 900 non-malades (1 sur 1000) et 5 % ¥ 99 900 = 4995 faux positifs, tandis qu’il y a seulement 100 vrais malades. On a donc 4995 + 100 personnes positives au test 1pt pour seulement 100 personnes malades, soit une probabilité d’être malade de 100 ê H100 + 4995L > 2 %. 1pt Je proposerai à nouveau cet exercice au prochain test mais dans une formulation différente qui rend l’exercice plus facile à résoudre. C’est un classique pour montrer l’importance de la manière de présenter les choses. 100 ê H100 + 4995L êê N 0.0196271 Problème n°2 Les pertes (losses) de chacun des 25 assurés (insured people) d’une petite compagnie d’assurance (insurance compagny) suivent une loi normale de moyenne 19 000 et d’écart-type 5 000. Quelle est la probabilité que la perte moyenne des 25 assurés dépasse 20 000 ? Problème sur 2 pts C’est facile, on travaille avec la loi de la moyenne, de moyenne 19000 et d’écart-type s 5000 = = 1000. 1 n 25 On calcule alors : PHM > 20 000L = PIU > 20 000-19 000 1000 = 1M = 1 - 0.8413 = 15.87 % 1 Probability@m ≥ 20 000, m È NormalDistribution@19 000, 1000DD êê N 0.158655 Problème n°3 On estime que 50% des gens répondent à un questionnaire immédiatement et que 60% de ceux qui ne répondent pas immédiatement répondent après un rappel (reminder). Un questionnaire est envoyé à 40 personnes et une lettre de rappel (reminder letter) à ceux qui ne répondent par immédiatement. Quelle est la probabilité d’avoir finalement au moins (at least) 30 réponses au questionnaire après rappel ? Problème sur 3 pts Le plus simple est de calculer la probabilité de ne pas répondre : 0.5 ¥ 0.4 = 0.2 = 20 %. 1 On se trouve alors dans le cadre d’une loi binomiale avec N = 40 et v = 20 %. 1 Avoir au moins 30 réponses est équivalent à avoir 10 ou moins non-réponses. Il s’agit alors de calculer PHk £ 10L = 84 % d’après la table. 1 Avec l’approximation de Poisson, tout juste valable, Hl = n v = 40 ¥ 0.2 = 8L, on trouve 81.6 % (on acceptera le choix de l’approximation de Poisson même si elle est un peu limite). Si on fait le calcul « à l’endroit », la probabilité de répondre est égale à 0.5 + 0.6 ¥ 0.5 = 80 %. Mais Il s’agit alors de calculer PHk £ 10L = 84 % d’après la table. 1 Avec l’approximation de Poisson, tout juste valable, Hl = n v = 40 ¥ 0.2 = 8L, on trouve 81.6 % (on 2 acceptera le choix de l’approximation de Poisson même si elle est un peu limite). Si on fait le calcul « à l’endroit », la probabilité de répondre est égale à 0.5 + 0.6 ¥ 0.5 = 80 %. Mais comme cette valeur ne figure pas dans les tables de la loi binomiale, il faut alors revenir au calcul précédent (on inverse les boules rouges et les boules blanches dans le modèle de l’urne). Avoir au moins 30 réponses revient donc à déterminer la probabilité d’avoir 10 ou moins de 10 non-réponses dans une loi binomiale avec v = 20 %. Si l’étudiant arrive à la bonne réponse par une autre méthode, plus compliquée, on pourra lui attribuer tous les points pourvu que le raisonnement reste correct. Probability@k £ 10, k È BinomialDistribution@40, 0.2DD êê N 0.839231 Probability@k £ 10, k È PoissonDistribution@8DD êê N 0.815886 Probability@k ≥ 30, k È BinomialDistribution@40, 0.8DD êê N 0.839231 Problème n°4 Un laboratoire de contrôle de qualité (quality control laboratory) désire examiner et comparer les propriétés mécaniques (mechanical properties) de deux types de pansements (2 types of wound dressings) en utilisant un essai de traction (tensile strength test). Pour le premier type qui est un pansement breveté (proprietary), le test a porté sur un échantillon de n1 = 26 produits qui a donné une résistance moyenne (sample mean) m1 = 10.05 et un écart-type (sample standard deviation) s1 = 0.72. Pour le 2e type qui est générique (generic), nous avons n2 = 26, m2 = 9.52 et s2 = 0.91. On fera l’hypothèse de normalité pour les populations desquelles sont issues ces échantillons (hypothesis of normal distribution for the populations, these samples are coming from). a) Calculez l'intervalle de confiance à 95% de la résistance moyenne (population mean) de chaque type de pansements. Peut-on conclure à une différence entre les résistances moyennes des deux types de pansement ? Question sur 2 pts On a M1 È NIm1 , s21 ë n1 M d’où M1 -m1 s1 ë n 1 M1 -m1 È NH0, 1L donc s*1 ë n1 m1 -m1 £ taê2 On en déduit, pour un risque a choisi que -taê2 £ s*1 ë n1 È T Hn1 - 1L. 0.5 Au risque 5% on a taê2 = 2.060. 0.5 Donc que : m1 - taê2 Avec s* n = s n-1 s*1 n1 £ m1 £ m1 + taê2 s*1 n1 . , on a donc : 10.05 - 2.060 ¥ Soit l’intervalle @9.75, 10.35D. 0.5 De même pour m2 : 9.52 - 2.060 ¥ 0.91 5 0.72 5 £ m1 £ 10.05 + 2.060 ¥ £ m2 £ 9.52 + 2.060 ¥ 0.91 5 0.72 5 soit @9.14, 9.90D. 0.5 A ce stade on ne peut pas conclure à une différence entre les deux moyennes du fait du recouvrement des deux intervalles de confiance. Needs@"HypothesisTesting`"D [email protected], 0.72 ê 5, 25D 89.75343, 10.3466< 3 [email protected], 0.91 ê 5, 25D 89.14516, 9.89484< b) Calculez l'intervalle de confiance à 95% de la variance (population variance) de chaque type de pansements. En déduire celui de l’écart-type. Question sur 2 pts On a n S2 s2 È c2 Hn - 1L 0.5 d’où, au risque 5% : c21 £ n s2 s2 £ c22 d’où : n s2 c22 £ s2 £ n s2 . c21 Avec c21 = 13.12 et c22 = 40.65 0.5 pour les deux types de pansement Hn1 = n2 L, on obtient alors : et 26¥ 0.722 40.65 £ s21 £ 26¥ 0.722 13.12 soit 0.3316 £ s21 £ 1.0274 0.5 26¥ 0.912 40.65 £ s22 £ 26¥ 0.912 13.12 soit 0.5296 £ s22 £ 1.6411 0.5 Desquels on déduit : 0.5758 £ s1 £ 1.0136 et 0.7278 £ s2 £ 1.2811 (-0.5 en cas d’erreur lors du passage à l’écart-type) Needs@"HypothesisTesting`"D ChiSquareCI@H26 ê 25L * 0.72^ 2, 25D 80.331601, 1.02734< 80.575848, 1.01358< Sqrt@%D ChiSquareCI@H26 ê 25L * 0.91^ 2, 25D 80.529704, 1.64109< 80.727808, 1.28105< Sqrt@%D c) Faisant maintenant l’hypothèse que la variance des deux types de pansements est connue (known), égale à 0.7, calculez l’intervalle de confiance de la différence des résistances moyennes des deux types de pansements. Question sur 3 pts On construit M1 - M2 È NJm1 - m2 , On a donc HM1 -M2 L-Hm1 -m2 L 2 s2 ê26 Soit : Hm1 - m2 L - 1.96 s2 n1 + s2 N n2 = NIm1 - m2 , 2 s2 M 26 1 È NH0, 1L d’où, au risque 5% : -1.96 £ 2 s2 ê26 £ 1.96. 1 2 ¥ 0.7 ê 26 £ m1 - m2 £ H10.05 - 9.52L + 1.96 ¥ 2 ¥ 0.7 ê 26 2 s2 ê 26 £ m1 - m2 £ Hm1 - m2 L + 1.96 Soit : H10.05 - 9.52L - 1.96 ¥ Hm1 -m2 L-Hm1 -m2 L 2 s2 ê 26 Soit : 0.075 £ m1 - m2 £ 0.985 1 Certains étudiants auront peut-être recalculé les intervalles de confiance de chaque moyenne sous l’hypothèse que la variance est connue et obtenu, respectivement pour m1 et m2 : au risque 5%, [9.72, 10.38] et [9.19, 9.85] ou au risque 2.5%, [9.68, 10.42] et [9.15, 9.89]. On pourrait alors calculer la différence des intervalles de confiance et obtenir : avec un risque de 5% (en réalité 10% après différence) : [-0.13, 1.19] ou avec un risque de 2.5% (5% après différence) : [-0.21, 1.27]. Dans les deux cas, on ne pourrait donc pas conclure à une différence. On mettra 2 pts pour l’ensemble de la question, si les étudiants ont fait ce raisonnement mais avec des intervalles calculés avec un risque de 2.5% (sous réserve que les calculs soient justes). On mettra 1 pt si ce même calcul a été fait avec des intervalles à 95% (risque de 5%). 4 Needs@"HypothesisTesting`"D 2 * 0.7 ê 26 F NormalCIB10.05 - 9.52, 80.0751948, 0.984805< NormalCIB10.05, 89.7284, 10.3716< NormalCIB9.52, 89.1984, 9.8416< NormalCIB10.05, 0.7 ê 26 , ConfidenceLevel Æ 0.95F 0.7 ê 26 , ConfidenceLevel Æ 0.95F 0.7 ê 26 , ConfidenceLevel Æ 0.975F 89.68222, 10.4178< NormalCIB9.52, 0.7 ê 26 , ConfidenceLevel Æ 0.975F 89.15222, 9.88778< [email protected], 10.38<D - [email protected], 9.85<D Interval@8- 0.13, 1.19<D [email protected], 10.42<D - [email protected], 9.89<D Interval@8- 0.21, 1.27<D d) Peut-on maintenant conclure à une différence de résistance moyenne entre les deux types de pansements ? Rapprochez votre réponse de celle donnée à la question a). Question sur 1 pt Avec moins de 5 chances sur 100 de nous tromper, on peut conclure en effet à une différence 0.5 entre les moyennes des deux populations, donc des deux types de pansement. Et cela se justifie par le fait que calculer l’intervalle de confiance d’une différence, ne revient pas au même que faire la différence des intervalles de confiance 0.5, même d’ailleurs, si on adapte les risques en conséquence. On dira que le test sur la différence est plus efficace, mais les étudiants ne verront la technique du test qu’à partir de la prochaine séance. Problème n°5 Une machine à emballer (packing machine) est censée (supposed to) produire des paquets de 1 kg. Le poids réel (true weight) des paquets est modélisé par une variable aléatoire suivant une loi normale dont l’écart-type vaut 20 g. Par contre, il est possible de régler (set up) le poids moyen (population weight mean) des paquets. Le responsable de la production décide de ne pas mettre à la vente les lots de paquets (packets batchs) dont le poids moyen s’écarte de la valeur nominale (nominal value) de plus de 20 g, en plus ou en moins (less or more), et il veut pouvoir détecter cette situation avec moins de 10 chances sur 100 de se tromper. Par ailleurs, lorsque le poids moyen est bien réglé, il veut limiter la probabilité de rejeter les lots à 5%. Déterminer la règle de contrôle à adopter pour respecter ces spécifications. Vous ferez un schéma explicatif montrant les lois en présence, les seuils (thresholds) et les risques. Problème sur 5 pts Les données du problème correspondent au schéma suivant avec a = 5 % et b = 10 %. 1 sê n sê n sê n Problème sur 5 pts Les données du problème correspondent au schéma suivant avec a = 5 % et b = 10 %. 1 sê n sê n b aê2 980 sê n a b 1000 aê2 b 1020 Mn Comme le problème est symétrique. Il suffit de calculer l’une des bornes de l’intervalle de tolérance pour déterminer le deuxième. En rappelant que la probabilité de dépasser b quand la loi est centrée sur 980 est bien négligeable (de même, symétriquement, pour la loi centrée sur 1020 et a) 1, on peut écrire directement : a-980 20ë n = u10 % = 1.28 0.5 et a-1000 20ë n = -u2.5 % = -1.96. 0.5 La résolution de ce système de 2 équations à 2 inconnues donne a = 987.901 et n = 10.49. 1 Par symétrie on trouve aussi b = 1012.1. 0.5 La règle de contrôle à adopter consiste donc à prélever un échantillon aléatoire de 11 paquets, à calculer sa moyenne m et, si m Œ @987.901, 1012.1D on laisse la fabrication se poursuivre, sinon, on rejette le lot. 0.5 Map@Quantile@NormalDistribution@0, 1D, D &, 80.90, 0.975<D 81.28155, 1.95996< SolveB: a - 980 20 í == 1.28, n a - 1000 20 í 88a Æ 987.901, n Æ 10.4976<< ä - 1.96>, 8a, n<F n 1000 + H1000 - 987.901L 1012.1 Soyez clair et concis tout en rédigeant vos réponses et soignez la présentation. Notation globale sur 20 points. 5