1 Loi de Student 2 Estimateurs 3 Intervalles de uctuation

publicité
ème
CHU Amiens IFTLM 2
année
2012-2013
Statistique
Cours 4
Intervalles de uctuation, intervalles de conance
1 Loi de Student
Il s'agit d'une table bilatérale, très similaire à la table de l'écart réduit de la loi normale. Cette loi
dépend d'un nombre de degrés de liberté (d.d.l.) qui sera determiné par le problème étudié. Supposons
que T suive une loi de Student à n degrés de liberté. Ce nombre n xe la ligne dans laquelle on doit
regarder. Contrairement à la table de la loi normale, on xe une probabilité α et la table de la loi de
Student renvoie tα,n tel que P(|T | > tα,n ) = α.
2 Estimateurs
Variable qualitative binaire : supposons que X soit une variable de Bernoulli B(p) dont on ne
connaît pas la valeur du paramètre p. On dispose seulement d'un échantillon de taille n et on connaît
la valeur de X sur chaque individu de l'échantillon. On a une proportion fn d'individus pour lesquels
X = 1. Comment estimer p ?
fn est un estimateur sans biais et convergent de p
Variable quantitative : dans ce cas, on veut estimer la moyenne µ et la variance σ 2 (ou l'écart-type
σ ) d'une variable X . On dispose toujours d'un échantillon de taille n dont on connaît les valeurs x de
la variable X . Soit x̄ la moyenne sur l'échantillon et s2 la variance sur l'échantillon.
x̄ est un estimateur sans biais et convergent de µ
On dénit la variance corrigée pour un échantillon de taille n
n
s2c =
1 X
n 2
s
(xi − x̄)2 =
n−1
n−1
i=1
alors
s2c est un estimateur sans biais et convergent de σ 2
sc est un estimateur sans biais et convergent de σ
3 Intervalles de uctuation
Exemple 1 Supposons que l'on ait une population de grande taille dont on sait que la proportion de
malades est de 0,33. Tirons au hasard un échantillon de taille n. Quelle est la proportion de malades
dans cet échantillon ? Il n'y a aucune raison pour qu'elle soit égale à 0,33. Il se peut très bien que
l'on ait tiré au hasard seulement des malades, mais cette situation n'arrive pas souvent. La plupart du
temps, la proportion de malades dans l'échantillon sera "proche" de 0,33 (elle va uctuer autour de
0,33). C'est ce qu'exprime l'intervalle de uctuation de la proportion.
On suppose que les paramètres de la loi de la variable étudiée sont connus (proportion p ou moyenne
µ et écart-type σ ).
Un risque α est xé (généralement α = 0, 05).
IF1−α : intervalle de uctuation avec un risque α, c'est l'intervalle dans lequel on a une probabilité
1 − α de trouver la proportion ou la moyenne sur l'échantillon considéré.
α
Soit uα tel que P(X > uα ) = , où X suit une loi normale N (0, 1).
2
α
Soit tα,n−1 tel que P(T > tα,n−1 ) = , où T suit une loi de Student à n − 1 degrés de liberté.
2
paramètre
conditions
de uctuationr
#
" intervalle
r
p(1 − p)
p(1 − p)
proportion np ≥ 5, n(1 − p) ≥ 5 IF1−α = p − uα
; p + uα
n
n
σ
σ
moyenne
n ≥ 30
IF1−α = µ − uα √ ; µ + uα √
n
n
σ
σ
moyenne n 6 30, distr. normale
IF1−α = µ − tα,n−1 √ ; µ + tα,n−1 √
n
n
4 Intervalles de conance
Exemple 2 Supposons que l'on ait une population de grande taille dont on ignore la proportion de
malades (mais on voudrait la connaître. On tire au hasard un échantillon de taille n et on calcule la
proportion de malades dans l'échantillon. Il n'y a aucune raison que la proportion de malades dans
l'échantillon soit égale à la proportion de malades dans la population. Il se peut que par hasard on ait
tiré un échantillon non représentatif de la population, mais ceci n'arrive pas souvent. La plupart du
temps, la proportion de malades dans l'échantillon sera assez "proche" de la proportion de malades
dans la population. C'est ce qu'exprime l'intervalle de conance de la proportion de la population.
Un risque α est xé (généralement α = 0, 05).
IC1−α : intervalle de conance avec un risque α, c'est l'intervalle qui contient la vraie valeur du
paramètre à estimer avec une probabilité 1 − α.
α
Soit uα tel que P(X > uα ) = , où X suit une loi normale N (0, 1).
2
α
2
Soit tα,n−1 tel que P(T > tα,n−1 ) = , où T suit une loi de Student à n − 1 degrés de liberté.
paramètre
conditions
intervalle
de conance r
r
"
proportion nfn ≥ 5, n(1 − fn ) ≥ 5 IC1−α
moyenne
n ≥ 30
moyenne
n 6 30, distr. normale
fn (1 − fn )
fn (1 − fn )
= fn − uα
; fn + uα
n−1
n−1
sc
sc
IC1−α = x̄ − uα √ ; x̄ + uα √
n
n
sc
sc
IC1−α = x̄ − tα,n−1 √ ; x̄ + tα,n−1 √
n
n
#
Lorsque la conance augmente (ou le risque diminue), la longueur de l'intervalle augmente.
Lorsque la taille de l'échantillon augmente, la longueur de l'intervalle diminue.
Résumé des notations
population
échantillon
proportion moyenne variance écart-type variance corrigée écart-type corrigé
A RETENIR
p
fn
µ
x̄
σ2
s2
σ
s
s2c
: GRAND ECHANTILLON = LOI NORMALE
PETIT ECHANTILLON = LOI DE STUDENT
sc
Exemple 3 Un échantillon de 30 enfants d'une ville donnée a fourni les tailles suivantes (en cm) :
70 85 93 99 101 105 110 121 138 166
74 85 93 99 102 106 110 125 140 180
79 87 94 99 102 107 114 128 147 180
Estimations ponctuelles
n
1X
3339
xi =
= 111, 3.
n
30
i=1
395347
n 2
30
2
2
de la variance σ : s =
− 111, 32 ' 790, 54 et donc s2c =
s =
× 790, 54 '
30
n−1
29
817, 80.
p
de l'écart-type σ : sc = s2c ' 28, 6.
Intervalle de conance de la moyenne µ.
Première méthode : X supposée de loi normale N (µ, σ), σ inconnu. On a n − 1 = 29 donc on
détermine tα,29 tel que P(|T | > tα,29 ). Pour α = 0, 05, on a tα,29 = 2, 045 et l'intervalle de
conance de µ au niveau α est :IC0,95 = [100, 6; 122, 0].
Deuxième méthode : on considère que l'échantillon est grand (> 30), sans hypothèse sur la loi
de X . On détermine le réel uα tel que P(−uα < U < uα ) = 1 − α. Pour n = 30 et α = 0, 05,
on a uα = 1, 96 et IC0,95 = [101, 1; 121, 5].
de la moyenne µ : x̄ =
5 Exercices
Exercice 1
Pour obtenir une estimation de la proportion d'hyperglycémiques parmi les personnes âgées de plus
de soixante ans (population P ), on choisit au hasard 170 personnes dans P . On constate que parmi
celles-ci, 31 sont hyperglycémiques.
1. Donnez un intervalle de conance au niveau 95% pour la proportion p de personnes hyperglycémiques de P.
2. Si on eectuait 200 fois le tirage de 170 personnes de P , on pourrait construire 200 intervalles
de conance du type précédent. Parmi ces 200 intervalles, combien, en moyenne, contiendraient
la valeur de p ?
Exercice 2
On sait qu'une maladie atteint 10% des individus d'une population P donnée. Un chercheur a expérimenté un traitement sur un échantillon de n individus : il a alors recensé 5% de malades. Déterminer
la valeur minimale de n qui permette au chercheur de conclure à l'ecacité du traitement au risque de
5%.
Exercice 3
Sous forme de comprimé un médicament est ecace dans le traitement d'une maladie dans 80% des cas.
Le pharmacien du laboratoire qui commercialise ce médicament, essaie une forme injectable par voie
intra-musculaire, de ce même médicament. Il observe sur un échantillon de 50 malades, 35 guérisons.
L'ecacité de la forme intra-musculaire est-elle diérente de celle en comprimé ?
Exercice 4
Le fabricant d'un médicament breveté arme qu'il est ecace à 90% pour guérir une allergie. Dans
un échantillon de 200 personnes atteintes par cette allergie, on en a guéri 160 avec le médicament.
1. Quel est l'intervalle de conance à 95% et à 99% du taux de patients guéris dans l'échantillon ?
2. Déterminer si l'armation du fabricant est légitime au risque de 1% et de 5%.
3. Pour quel risque minimum peut-on conclure que cette armation est illégitime ?
Exercice 5
On suppose que le taux de cholesterol chez les hommes et les femmes de plus de 50 ans se répartissent
selon des lois normales.
Dans un échantillon de 18 hommes de plus de 50 ans, on a mesuré un taux moyen de 192.4 cg avec un
écart-type de 45.2 cg
Dans un échantillon de 22 femmes de plus de 50 ans, on a mesuré un taux moyen de 185.7 cg avec un
écart-type de 36.4 cg
1. Donner des estimations des écart-types des deux populations
2. En utilisant les estimations par intervalle de conance à 95%, peut-on conclure que les femmes de
plus de 50 ans ont moins de cholesterol que les hommes de plus de 50 ans ?
Exercice 6
Un service hospitalier décide d'utiliser un analgésique dont la proportion d'ecacité indiquée par le
laboratoire qui le produit est 0.75.
1. On s'intéresse à un échantillon de 220 personnes. Donner l'intervalle de uctuation de la proportion
d'ecacité sur cet échantillon à 95%
2. Il a été observé dans le service, sur un échantillon de 220 personnes, 155 résultats positifs. La
proportion d'ecacité indiquée par le laboratoire est-elle conrmée à 95% ?
Exercice 7
Des études ont montré que dans les années 60, l'âge moyen d'appartition de la polyomélite était de
13,9 années avec un écart-type de 10,3 années.
1. On s'intéresse à un échantillon de 150 individus en 1998. Si on suppose que l'âge moyen d'apparition n'a pas varié depuis les années 60, donner l'intervalle de uctuation de la moyenne de
l'échantillon à 98%.
2. On calcule la moyenne sur cet échantillon et on trouve 10,4 années. Peut-on conclure avec une
conance de 98% que l'âge moyen d'apparition de la polyomélite a varié depuis les années 60 ?
Exercice 8
Dans la population toute entière, le niveau de concentration d'une hormone H suit une loi normale
de moyenne 110 et d'écart-type 8. On suppose que ce niveau de concentration est anormal s'il est
supérieur à 112. Dans un échantillon de 800 sujets présentant un trouble endocrinien, on mesure la
concentration de la même hormone. On trouve qu'il est anormal pour 340 sujets. On note p la proportion
de concentrations anormales dans la population des individus présentant des troubles endocriniens.
1. Donner une estimation ponctuelle de p.
2. Donner un intervalle de conance à 98% pour p.
3. En se basant sur un intervalle de conance, peut-on conclure avec un risque de 2% que la proportion de concentrations anormales est supérieure dans la population des individus présentant
un trouble endocrinien ?
Exercice 9
Sur un échantillon de 100 patients sur lesquels a été pratiquée une opération chirurgicale donnée, 18
ont présenté ultérieurement des eets secondaires graves dus à l'opération. Donner un intervalle de
conance à 95% de la proportion p des patients qui ont un eet secondaire.
Exercice 10
On estime que le taux de glycémie moyen chez les patients présentant une pathologie X est de 7
mmol/l. Sur un échantillon de 150 personnes présentant cette pathologie, on observe une moyenne
égale à 7.4 mmol/l et un écart type égal à 2 mmol/l. L'échantillon est-il représentatif de la population
présentant la pathologie X au risque 5%.
!#" Z $%'&)(+*-,.* /0*213$ (!,4% " $%'&)5 ! N (0, 1) *768&)9/:&<; &</ " ,4=5>&0,4$@? %%'&)5A,
(!,45>&<$/B ?&C5A," D %'E "3> %F ?&C/:G<9,4/ "3#"3> %H?&C5A,I5 ! % /3;J,4 5>& Φ(t) = P(Z < t) *
68&K1:&LE %'? ,4=5>&0,4$H? %%'&C5>&L1M(N,45>&<$/:1B?& 1 − Φ(t) O'9 $/ t > 3 *
Φ(t)
0
t
3.
4.
5.
N (0, 1)
t
t
0.0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
0.00
0.5000
0.5398
0.5793
0.6179
0.6554
0.6915
0.7257
0.7580
0.7881
0.8159
0.01
0.5040
0.5438
0.5832
0.6217
0.6591
0.6950
0.7291
0.7611
0.7910
0.8186
0.02
0.5080
0.5478
0.5871
0.6255
0.6627
0.6985
0.7324
0.7642
0.7939
0.8212
0.03
0.5120
0.5517
0.5910
0.6293
0.6664
0.7019
0.7356
0.7673
0.7967
0.8238
0.04
0.5160
0.5557
0.5948
0.6331
0.6700
0.7054
0.7389
0.7703
0.7995
0.8264
0.05
0.5199
0.5596
0.5987
0.6368
0.6736
0.7088
0.7421
0.7734
0.8023
0.8289
0.06
0.5239
0.5636
0.6026
0.6406
0.6772
0.7122
0.7454
0.7764
0.8051
0.8315
0.07
0.5279
0.5675
0.6064
0.6443
0.6808
0.7156
0.7486
0.7793
0.8079
0.8340
0.08
0.5319
0.5714
0.6103
0.6480
0.6844
0.7190
0.7517
0.7823
0.8106
0.8365
0.09
0.5359
0.5754
0.6141
0.6517
0.6879
0.7224
0.7549
0.7852
0.8133
0.8389
1.0
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
0.8414
0.8643
0.8849
0.9032
0.9193
0.9332
0.9452
0.9554
0.9641
0.9713
0.8438
0.8665
0.8869
0.9049
0.9207
0.9345
0.9463
0.9564
0.9648
0.9719
0.8461
0.8687
0.8888
0.9066
0.9222
0.9357
0.9474
0.9573
0.9656
0.9726
0.8485
0.8708
0.8907
0.9083
0.9236
0.9370
0.9485
0.9582
0.9664
0.9732
0.8508
0.8729
0.8926
0.9099
0.9251
0.9382
0.9495
0.9591
0.9671
0.9738
0.8531
0.8749
0.8943
0.9115
0.9265
0.9394
0.9505
0.9599
0.9678
0.9744
0.8554
0.8770
0.8962
0.9131
0.9279
0.9406
0.9515
0.9608
0.9686
0.9750
0.8577
0.8790
0.8980
0.9147
0.9292
0.9418
0.9525
0.9616
0.9693
0.9756
0.8599
0.8810
0.8997
0.9162
0.9306
0.9429
0.9535
0.9625
0.9699
0.9761
0.8622
0.8830
0.9015
0.9177
0.9319
0.9441
0.9545
0.9633
0.9706
0.9767
2.0
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
0.9772
0.9821
0.9861
0.9893
0.9918
0.9938
0.9953
0.9965
0.9974
0.9981
0.9778
0.9826
0.9864
0.9895
0.9920
0.9940
0.9955
0.9966
0.9975
0.9982
0.9783
0.9830
0.9868
0.9898
0.9922
0.9941
0.9956
0.9967
0.9976
0.9982
0.9788
0.9834
0.9871
0.9901
0.9924
0.9943
0.9957
0.9968
0.9977
0.9983
0.9793
0.9838
0.9874
0.9903
0.9926
0.9944
0.9958
0.9969
0.9977
0.9984
0.9798
0.9842
0.9878
0.9906
0.9928
0.9946
0.9960
0.9970
0.9978
0.9984
0.9803
0.9846
0.9881
0.9909
0.9930
0.9948
0.9961
0.9971
0.9979
0.9985
0.9808
0.9850
0.9884
0.9911
0.9932
0.9949
0.9962
0.9972
0.9979
0.9985
0.9812
0.9854
0.9887
0.9913
0.9934
0.9951
0.9963
0.9973
0.9980
0.9986
0.9817
0.9857
0.9890
0.9916
0.9936
0.9952
0.9964
0.9974
0.9981
0.9986
0.5
233.10−6
34.10−7
19.10−9
0.6
159.10−6
21.10−7
11.10−9
0.0
135.10−5
317.10−7
29.10−8
0.1
968.10−6
207.10−7
17.10−8
0.2
687.10−6
133.10−7
10.10−8
0.3
483.10−6
85.10−7
58.10−9
0.4
337.10−6
54.10−7
33.10−9
0.7
108.10−6
13.10−7
60.10−10
0.8
723.10−7
79.10−8
33.10−10
0.9
481.10−7
48.10−8
18.10−10
α/2
0
! #"%$ T &')(+*-,/.0, 12,34& " *#.5' $ &')(76 #"98 ( :$ & 8 (;' $=< ν 8 (;>?1A@B3 8 (+6 "%C (;1 $ @?,
D ( $4$ ( $ . C 6E( 8 '')(?F!G &1IHAJ.#K:&)( 8 (;>?1A@ 8 (L6 "%C (;1 $ @ ν FM6E(B3N*?.56E(;&1A3 $ .BOM.5' $ 6P.
G1 #C . C" 6 "%$ @ α 8RQTS;$ 1A( 8 @;G.#3A3A@B(B3UG.51 T (;'V*?.56E(;&1W. C 3 6%&)(YX α = P(|T | > t) ,
α/2
−t
T
t
α
ν
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
∞
0.90
0.50
0.30
0.20
0.10
0.05
0.02
0.01
0.001
0.158
0.142
0.137
0.134
0.132
0.131
0.130
0.130
0.129
0.129
0.129
0.128
0.128
0.128
0.128
0.128
0.128
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.127
0.126
1.000
0.816
0.765
0.741
0.727
0.718
0.711
0.706
0.703
0.700
0.697
0.695
0.694
0.692
0.691
0.690
0.689
0.688
0.688
0.687
0.686
0.686
0.685
0.685
0.684
0.684
0.684
0.683
0.683
0.683
0.674
1.963
1.386
1.250
1.190
1.156
1.134
1.119
1108
1.100
1.093
1.088
1.083
1.079
1.076
1.074
1.071
1.069
1.067
1.066
1.064
1.063
1.061
1.060
1.059
1.058
1.058
1.057
1.056
1.055
1.055
1.036
3.078
1.886
1.638
1.533
1.476
1.440
1.415
1.397
1.383
1.372
1.363
1.356
1.350
1.345
1.341
1.337
1.333
1.330
1.328
1.325
1.323
1.321
1.319
1.318
1.316
1.315
1.314
1.313
1.311
1.310
1.282
6.314
2.920
2.353
2.132
2.015
1.943
1.895
1.860
1.833
1.812
1.796
1.782
1.771
1.761
1.753
1.746
1.740
1.734
1.729
1.725
1.721
1.717
1.714
1.711
1.708
1.706
1.703
1.701
1.699
1.697
1.645
12.71
4.303
3.182
2.776
2.571
2.447
2.365
2.306
2.262
2.228
2.201
2.179
2.160
2.145
2.131
2.120
2.110
2.101
2.093
2.086
2.080
2.074
2.069
2.064
2.060
2.056
2.052
2.048
2.045
2.042
1.960
31.82
6.965
4.541
3.747
3.365
3.143
2.998
2.896
2.821
2.764
2.718
2.681
2.650
2.624
2.602
2.583
2.567
2.552
2.539
2.528
2.518
2.508
2.500
2.492
2.485
2.479
2.473
2.467
2.462
2.457
2.326
63.66
9.925
5.841
4.604
4.032
3.707
3.499
3.355
3.250
3.169
3.106
3.055
3.012
2.977
2.947
2.921
2.898
2.878
2.861
2.845
2.831
2.819
2.807
2.797
2.787
2.779
2.771
2.763
2.756
2.750
2.576
636.6
31.60
12.92
8.610
6.869
5.959
5.408
5.041
4.781
4.587
4.437
4.318
4.221
4.140
4.073
4.015
3.965
3.922
3.883
3.850
3.819
3.792
3.767
3.745
3.725
3.707
3.690
3.674
3.659
3.646
3.291
Téléchargement