ème CHU Amiens IFTLM 2 année 2012-2013 Statistique Cours 4 Intervalles de uctuation, intervalles de conance 1 Loi de Student Il s'agit d'une table bilatérale, très similaire à la table de l'écart réduit de la loi normale. Cette loi dépend d'un nombre de degrés de liberté (d.d.l.) qui sera determiné par le problème étudié. Supposons que T suive une loi de Student à n degrés de liberté. Ce nombre n xe la ligne dans laquelle on doit regarder. Contrairement à la table de la loi normale, on xe une probabilité α et la table de la loi de Student renvoie tα,n tel que P(|T | > tα,n ) = α. 2 Estimateurs Variable qualitative binaire : supposons que X soit une variable de Bernoulli B(p) dont on ne connaît pas la valeur du paramètre p. On dispose seulement d'un échantillon de taille n et on connaît la valeur de X sur chaque individu de l'échantillon. On a une proportion fn d'individus pour lesquels X = 1. Comment estimer p ? fn est un estimateur sans biais et convergent de p Variable quantitative : dans ce cas, on veut estimer la moyenne µ et la variance σ 2 (ou l'écart-type σ ) d'une variable X . On dispose toujours d'un échantillon de taille n dont on connaît les valeurs x de la variable X . Soit x̄ la moyenne sur l'échantillon et s2 la variance sur l'échantillon. x̄ est un estimateur sans biais et convergent de µ On dénit la variance corrigée pour un échantillon de taille n n s2c = 1 X n 2 s (xi − x̄)2 = n−1 n−1 i=1 alors s2c est un estimateur sans biais et convergent de σ 2 sc est un estimateur sans biais et convergent de σ 3 Intervalles de uctuation Exemple 1 Supposons que l'on ait une population de grande taille dont on sait que la proportion de malades est de 0,33. Tirons au hasard un échantillon de taille n. Quelle est la proportion de malades dans cet échantillon ? Il n'y a aucune raison pour qu'elle soit égale à 0,33. Il se peut très bien que l'on ait tiré au hasard seulement des malades, mais cette situation n'arrive pas souvent. La plupart du temps, la proportion de malades dans l'échantillon sera "proche" de 0,33 (elle va uctuer autour de 0,33). C'est ce qu'exprime l'intervalle de uctuation de la proportion. On suppose que les paramètres de la loi de la variable étudiée sont connus (proportion p ou moyenne µ et écart-type σ ). Un risque α est xé (généralement α = 0, 05). IF1−α : intervalle de uctuation avec un risque α, c'est l'intervalle dans lequel on a une probabilité 1 − α de trouver la proportion ou la moyenne sur l'échantillon considéré. α Soit uα tel que P(X > uα ) = , où X suit une loi normale N (0, 1). 2 α Soit tα,n−1 tel que P(T > tα,n−1 ) = , où T suit une loi de Student à n − 1 degrés de liberté. 2 paramètre conditions de uctuationr # " intervalle r p(1 − p) p(1 − p) proportion np ≥ 5, n(1 − p) ≥ 5 IF1−α = p − uα ; p + uα n n σ σ moyenne n ≥ 30 IF1−α = µ − uα √ ; µ + uα √ n n σ σ moyenne n 6 30, distr. normale IF1−α = µ − tα,n−1 √ ; µ + tα,n−1 √ n n 4 Intervalles de conance Exemple 2 Supposons que l'on ait une population de grande taille dont on ignore la proportion de malades (mais on voudrait la connaître. On tire au hasard un échantillon de taille n et on calcule la proportion de malades dans l'échantillon. Il n'y a aucune raison que la proportion de malades dans l'échantillon soit égale à la proportion de malades dans la population. Il se peut que par hasard on ait tiré un échantillon non représentatif de la population, mais ceci n'arrive pas souvent. La plupart du temps, la proportion de malades dans l'échantillon sera assez "proche" de la proportion de malades dans la population. C'est ce qu'exprime l'intervalle de conance de la proportion de la population. Un risque α est xé (généralement α = 0, 05). IC1−α : intervalle de conance avec un risque α, c'est l'intervalle qui contient la vraie valeur du paramètre à estimer avec une probabilité 1 − α. α Soit uα tel que P(X > uα ) = , où X suit une loi normale N (0, 1). 2 α 2 Soit tα,n−1 tel que P(T > tα,n−1 ) = , où T suit une loi de Student à n − 1 degrés de liberté. paramètre conditions intervalle de conance r r " proportion nfn ≥ 5, n(1 − fn ) ≥ 5 IC1−α moyenne n ≥ 30 moyenne n 6 30, distr. normale fn (1 − fn ) fn (1 − fn ) = fn − uα ; fn + uα n−1 n−1 sc sc IC1−α = x̄ − uα √ ; x̄ + uα √ n n sc sc IC1−α = x̄ − tα,n−1 √ ; x̄ + tα,n−1 √ n n # Lorsque la conance augmente (ou le risque diminue), la longueur de l'intervalle augmente. Lorsque la taille de l'échantillon augmente, la longueur de l'intervalle diminue. Résumé des notations population échantillon proportion moyenne variance écart-type variance corrigée écart-type corrigé A RETENIR p fn µ x̄ σ2 s2 σ s s2c : GRAND ECHANTILLON = LOI NORMALE PETIT ECHANTILLON = LOI DE STUDENT sc Exemple 3 Un échantillon de 30 enfants d'une ville donnée a fourni les tailles suivantes (en cm) : 70 85 93 99 101 105 110 121 138 166 74 85 93 99 102 106 110 125 140 180 79 87 94 99 102 107 114 128 147 180 Estimations ponctuelles n 1X 3339 xi = = 111, 3. n 30 i=1 395347 n 2 30 2 2 de la variance σ : s = − 111, 32 ' 790, 54 et donc s2c = s = × 790, 54 ' 30 n−1 29 817, 80. p de l'écart-type σ : sc = s2c ' 28, 6. Intervalle de conance de la moyenne µ. Première méthode : X supposée de loi normale N (µ, σ), σ inconnu. On a n − 1 = 29 donc on détermine tα,29 tel que P(|T | > tα,29 ). Pour α = 0, 05, on a tα,29 = 2, 045 et l'intervalle de conance de µ au niveau α est :IC0,95 = [100, 6; 122, 0]. Deuxième méthode : on considère que l'échantillon est grand (> 30), sans hypothèse sur la loi de X . On détermine le réel uα tel que P(−uα < U < uα ) = 1 − α. Pour n = 30 et α = 0, 05, on a uα = 1, 96 et IC0,95 = [101, 1; 121, 5]. de la moyenne µ : x̄ = 5 Exercices Exercice 1 Pour obtenir une estimation de la proportion d'hyperglycémiques parmi les personnes âgées de plus de soixante ans (population P ), on choisit au hasard 170 personnes dans P . On constate que parmi celles-ci, 31 sont hyperglycémiques. 1. Donnez un intervalle de conance au niveau 95% pour la proportion p de personnes hyperglycémiques de P. 2. Si on eectuait 200 fois le tirage de 170 personnes de P , on pourrait construire 200 intervalles de conance du type précédent. Parmi ces 200 intervalles, combien, en moyenne, contiendraient la valeur de p ? Exercice 2 On sait qu'une maladie atteint 10% des individus d'une population P donnée. Un chercheur a expérimenté un traitement sur un échantillon de n individus : il a alors recensé 5% de malades. Déterminer la valeur minimale de n qui permette au chercheur de conclure à l'ecacité du traitement au risque de 5%. Exercice 3 Sous forme de comprimé un médicament est ecace dans le traitement d'une maladie dans 80% des cas. Le pharmacien du laboratoire qui commercialise ce médicament, essaie une forme injectable par voie intra-musculaire, de ce même médicament. Il observe sur un échantillon de 50 malades, 35 guérisons. L'ecacité de la forme intra-musculaire est-elle diérente de celle en comprimé ? Exercice 4 Le fabricant d'un médicament breveté arme qu'il est ecace à 90% pour guérir une allergie. Dans un échantillon de 200 personnes atteintes par cette allergie, on en a guéri 160 avec le médicament. 1. Quel est l'intervalle de conance à 95% et à 99% du taux de patients guéris dans l'échantillon ? 2. Déterminer si l'armation du fabricant est légitime au risque de 1% et de 5%. 3. Pour quel risque minimum peut-on conclure que cette armation est illégitime ? Exercice 5 On suppose que le taux de cholesterol chez les hommes et les femmes de plus de 50 ans se répartissent selon des lois normales. Dans un échantillon de 18 hommes de plus de 50 ans, on a mesuré un taux moyen de 192.4 cg avec un écart-type de 45.2 cg Dans un échantillon de 22 femmes de plus de 50 ans, on a mesuré un taux moyen de 185.7 cg avec un écart-type de 36.4 cg 1. Donner des estimations des écart-types des deux populations 2. En utilisant les estimations par intervalle de conance à 95%, peut-on conclure que les femmes de plus de 50 ans ont moins de cholesterol que les hommes de plus de 50 ans ? Exercice 6 Un service hospitalier décide d'utiliser un analgésique dont la proportion d'ecacité indiquée par le laboratoire qui le produit est 0.75. 1. On s'intéresse à un échantillon de 220 personnes. Donner l'intervalle de uctuation de la proportion d'ecacité sur cet échantillon à 95% 2. Il a été observé dans le service, sur un échantillon de 220 personnes, 155 résultats positifs. La proportion d'ecacité indiquée par le laboratoire est-elle conrmée à 95% ? Exercice 7 Des études ont montré que dans les années 60, l'âge moyen d'appartition de la polyomélite était de 13,9 années avec un écart-type de 10,3 années. 1. On s'intéresse à un échantillon de 150 individus en 1998. Si on suppose que l'âge moyen d'apparition n'a pas varié depuis les années 60, donner l'intervalle de uctuation de la moyenne de l'échantillon à 98%. 2. On calcule la moyenne sur cet échantillon et on trouve 10,4 années. Peut-on conclure avec une conance de 98% que l'âge moyen d'apparition de la polyomélite a varié depuis les années 60 ? Exercice 8 Dans la population toute entière, le niveau de concentration d'une hormone H suit une loi normale de moyenne 110 et d'écart-type 8. On suppose que ce niveau de concentration est anormal s'il est supérieur à 112. Dans un échantillon de 800 sujets présentant un trouble endocrinien, on mesure la concentration de la même hormone. On trouve qu'il est anormal pour 340 sujets. On note p la proportion de concentrations anormales dans la population des individus présentant des troubles endocriniens. 1. Donner une estimation ponctuelle de p. 2. Donner un intervalle de conance à 98% pour p. 3. En se basant sur un intervalle de conance, peut-on conclure avec un risque de 2% que la proportion de concentrations anormales est supérieure dans la population des individus présentant un trouble endocrinien ? Exercice 9 Sur un échantillon de 100 patients sur lesquels a été pratiquée une opération chirurgicale donnée, 18 ont présenté ultérieurement des eets secondaires graves dus à l'opération. Donner un intervalle de conance à 95% de la proportion p des patients qui ont un eet secondaire. Exercice 10 On estime que le taux de glycémie moyen chez les patients présentant une pathologie X est de 7 mmol/l. Sur un échantillon de 150 personnes présentant cette pathologie, on observe une moyenne égale à 7.4 mmol/l et un écart type égal à 2 mmol/l. L'échantillon est-il représentatif de la population présentant la pathologie X au risque 5%. !#" Z $%'&)(+*-,.* /0*213$ (!,4% " $%'&)5 ! N (0, 1) *768&)9/:&<; &</ " ,4=5>&0,4$@? %%'&)5A, (!,45>&<$/B ?&C5A," D %'E "3> %F ?&C/:G<9,4/ "3#"3> %H?&C5A,I5 ! % /3;J,4 5>& Φ(t) = P(Z < t) * 68&K1:&LE %'? ,4=5>&0,4$H? %%'&C5>&L1M(N,45>&<$/:1B?& 1 − Φ(t) O'9 $/ t > 3 * Φ(t) 0 t 3. 4. 5. N (0, 1) t t 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0.00 0.5000 0.5398 0.5793 0.6179 0.6554 0.6915 0.7257 0.7580 0.7881 0.8159 0.01 0.5040 0.5438 0.5832 0.6217 0.6591 0.6950 0.7291 0.7611 0.7910 0.8186 0.02 0.5080 0.5478 0.5871 0.6255 0.6627 0.6985 0.7324 0.7642 0.7939 0.8212 0.03 0.5120 0.5517 0.5910 0.6293 0.6664 0.7019 0.7356 0.7673 0.7967 0.8238 0.04 0.5160 0.5557 0.5948 0.6331 0.6700 0.7054 0.7389 0.7703 0.7995 0.8264 0.05 0.5199 0.5596 0.5987 0.6368 0.6736 0.7088 0.7421 0.7734 0.8023 0.8289 0.06 0.5239 0.5636 0.6026 0.6406 0.6772 0.7122 0.7454 0.7764 0.8051 0.8315 0.07 0.5279 0.5675 0.6064 0.6443 0.6808 0.7156 0.7486 0.7793 0.8079 0.8340 0.08 0.5319 0.5714 0.6103 0.6480 0.6844 0.7190 0.7517 0.7823 0.8106 0.8365 0.09 0.5359 0.5754 0.6141 0.6517 0.6879 0.7224 0.7549 0.7852 0.8133 0.8389 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 0.8414 0.8643 0.8849 0.9032 0.9193 0.9332 0.9452 0.9554 0.9641 0.9713 0.8438 0.8665 0.8869 0.9049 0.9207 0.9345 0.9463 0.9564 0.9648 0.9719 0.8461 0.8687 0.8888 0.9066 0.9222 0.9357 0.9474 0.9573 0.9656 0.9726 0.8485 0.8708 0.8907 0.9083 0.9236 0.9370 0.9485 0.9582 0.9664 0.9732 0.8508 0.8729 0.8926 0.9099 0.9251 0.9382 0.9495 0.9591 0.9671 0.9738 0.8531 0.8749 0.8943 0.9115 0.9265 0.9394 0.9505 0.9599 0.9678 0.9744 0.8554 0.8770 0.8962 0.9131 0.9279 0.9406 0.9515 0.9608 0.9686 0.9750 0.8577 0.8790 0.8980 0.9147 0.9292 0.9418 0.9525 0.9616 0.9693 0.9756 0.8599 0.8810 0.8997 0.9162 0.9306 0.9429 0.9535 0.9625 0.9699 0.9761 0.8622 0.8830 0.9015 0.9177 0.9319 0.9441 0.9545 0.9633 0.9706 0.9767 2.0 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 0.9772 0.9821 0.9861 0.9893 0.9918 0.9938 0.9953 0.9965 0.9974 0.9981 0.9778 0.9826 0.9864 0.9895 0.9920 0.9940 0.9955 0.9966 0.9975 0.9982 0.9783 0.9830 0.9868 0.9898 0.9922 0.9941 0.9956 0.9967 0.9976 0.9982 0.9788 0.9834 0.9871 0.9901 0.9924 0.9943 0.9957 0.9968 0.9977 0.9983 0.9793 0.9838 0.9874 0.9903 0.9926 0.9944 0.9958 0.9969 0.9977 0.9984 0.9798 0.9842 0.9878 0.9906 0.9928 0.9946 0.9960 0.9970 0.9978 0.9984 0.9803 0.9846 0.9881 0.9909 0.9930 0.9948 0.9961 0.9971 0.9979 0.9985 0.9808 0.9850 0.9884 0.9911 0.9932 0.9949 0.9962 0.9972 0.9979 0.9985 0.9812 0.9854 0.9887 0.9913 0.9934 0.9951 0.9963 0.9973 0.9980 0.9986 0.9817 0.9857 0.9890 0.9916 0.9936 0.9952 0.9964 0.9974 0.9981 0.9986 0.5 233.10−6 34.10−7 19.10−9 0.6 159.10−6 21.10−7 11.10−9 0.0 135.10−5 317.10−7 29.10−8 0.1 968.10−6 207.10−7 17.10−8 0.2 687.10−6 133.10−7 10.10−8 0.3 483.10−6 85.10−7 58.10−9 0.4 337.10−6 54.10−7 33.10−9 0.7 108.10−6 13.10−7 60.10−10 0.8 723.10−7 79.10−8 33.10−10 0.9 481.10−7 48.10−8 18.10−10 α/2 0 ! #"%$ T &')(+*-,/.0, 12,34& " *#.5' $ &')(76 #"98 ( :$ & 8 (;' $=< ν 8 (;>?1A@B3 8 (+6 "%C (;1 $ @?, D ( $4$ ( $ . C 6E( 8 '')(?F!G &1IHAJ.#K:&)( 8 (;>?1A@ 8 (L6 "%C (;1 $ @ ν FM6E(B3N*?.56E(;&1A3 $ .BOM.5' $ 6P. G1 #C . C" 6 "%$ @ α 8RQTS;$ 1A( 8 @;G.#3A3A@B(B3UG.51 T (;'V*?.56E(;&1W. C 3 6%&)(YX α = P(|T | > t) , α/2 −t T t α ν 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 ∞ 0.90 0.50 0.30 0.20 0.10 0.05 0.02 0.01 0.001 0.158 0.142 0.137 0.134 0.132 0.131 0.130 0.130 0.129 0.129 0.129 0.128 0.128 0.128 0.128 0.128 0.128 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.127 0.126 1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.697 0.695 0.694 0.692 0.691 0.690 0.689 0.688 0.688 0.687 0.686 0.686 0.685 0.685 0.684 0.684 0.684 0.683 0.683 0.683 0.674 1.963 1.386 1.250 1.190 1.156 1.134 1.119 1108 1.100 1.093 1.088 1.083 1.079 1.076 1.074 1.071 1.069 1.067 1.066 1.064 1.063 1.061 1.060 1.059 1.058 1.058 1.057 1.056 1.055 1.055 1.036 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.282 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.645 12.71 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 1.960 31.82 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.326 63.66 9.925 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.831 2.819 2.807 2.797 2.787 2.779 2.771 2.763 2.756 2.750 2.576 636.6 31.60 12.92 8.610 6.869 5.959 5.408 5.041 4.781 4.587 4.437 4.318 4.221 4.140 4.073 4.015 3.965 3.922 3.883 3.850 3.819 3.792 3.767 3.745 3.725 3.707 3.690 3.674 3.659 3.646 3.291