Version t l chargeable

publicité
Probabilités et Biostatistique
PCEM1 Pitié-Salpêtrière
A. Mallet et V. Morice
Cours 5 et 6
Statistiques descriptives
Rappels et compléments (1)
„
„
„
„
variable aléatoire: caractéristique
observable, variable, sans anticipation
expérience aléatoire: permet l’obtention
d’une valeur (réalisation)
types usuels de variables aléatoires:
„
„
quantitatives: continues ou discrètes
qualitatives: nominales ou ordinales
Rappels et compléments (2)
„
„
Définition de l’unité statistique:entité
sur laquelle s’observe la variable
aléatoire.
Interprétation de la probabilité d’un
événement aléatoire:
„
valeur limite de la fréquence avec laquelle
l’événement se réalise au cours d’un
nombre croissant de répétitions de
l’expérience.
Rappels et compléments (3)
„
la probabilité d’un événement aléatoire:
„
„
„
„
est une fiction
peut résulter d’une théorie
pour l’approcher: répéter des
expériences aléatoires
les fréquences sont les contreparties
expérimentales des probabilités
Echantillon (1)
„
1. Echantillon d’unités statistiques
„
„
n répétitions -> n unités statistiques
concernées (sous population): constituent
l’échantillon
2. Echantillon de valeurs de la variable
étudiée X
„
„
„
tirage au ‘hasard pur’
i-ème répétition -> résultat xi
x1,x2,…….,xn: échantillon de valeurs de X
Echantillon (2)
„
3. Echantillon d’une variable aléatoire X
„
„
„
ensemble X1,X2,…….. Xn de n variables
aléatoires, indépendantes entre elles, de
même distribution que X
un échantillon de valeurs de X est une
réalisation de l’échantillon de X
n s’appelle la taille de l’échantillon
Echantillon (3)
X
premier échantillon de valeurs de X
x’1
x’2
x’3
x’4
second échantillon de valeurs de X
X1
X2
X3
réalisations de
x4
réalisations de
x3
réalisations de
x2
réalisations de
x1
X4
X1,X2,X3,X4 indépendantes entre
elles
Echantillon (3)
X
x1
x2
x3
x’1
x’2
x’3
x4
premier échantillon de valeurs de X
première réalisation de X1,X2,X3,X4
x’4
second échantillon de valeurs de X
seconde réalisation de X1,X2,X3,X4
X1
X2
„
X3
X4
échantillon de la variable X
un échantillon de valeurs de X est une réalisation de l’échantillon de X
Représentation des résultats
variable qualitative
„
Référence: répartition
fréquences observées
X
modalité 1
X
modalité 2
Répartition observée
X
modalité 3
Représentation des résultats
variable qualitative
50
40
30
1
2
Est
20
Nord
10
0
1er
trim.
3e
trim.
(variable à 5 modalités)
3
4
5
Représentation des résultats
variable quantitative discrète
„
Référence: répartition
fréquences observées
X
X
X
valeur 1
valeur 2
valeur 3
Répartition observée ou histogramme en bâtons
Représentation des résultats
variable quantitative continue (1)
„
1,2
Référence: densité de probabilité
Série2
(/m)
1
0,8
0,6
0,4
0,2
(m)
1,90
1,80
1,70
1,60
1,50
1,40
1,30
1,20
1,10
1,00
0,90
0,80
0,70
0,60
0,50
0
Représentation des résultats
variable quantitative continue (2)
„
1,2
Référence: densité de probabilité
(/m)
1
0,8
0,6
Série2
0,4
0,2
(m)
1,90
1,80
1,70
b
1,60
1,50
1,40
a
1,30
1,20
1,10
Pr(X∈[a b])
1,00
0,90
0,80
0,70
0,60
0,50
0
Représentation des résultats
variable quantitative continue (3)
„
1,2
Référence: densité de probabilité
(/m)
1
0,8
0,6
H?
Série2
0,4
0,2
(m)
b-a
1,90
1,80
1,70
b
1,60
1,50
1,40
a
1,30
Proportion observée des xi∈[a b]
1,20
1,10
1,00
0,90
0,80
0,70
0,60
0,50
0
Représentation des résultats
variable quantitative continue (4)
„
1,2
Référence: densité de probabilité
(/m)
1
0,8
H = proportion des xi∈[a b] / (b-a)
0,6
Série2
0,4
0,2
(m)
b-a
1,90
1,80
1,70
b
1,60
1,50
1,40
a
1,30
Proportion observée des xi∈[a b]
1,20
1,10
1,00
0,90
0,80
0,70
0,60
0,50
0
Représentation des résultats
variable quantitative continue (5)
„
1,2
Référence: densité de probabilité
(/m)
1
0,8
0,6
Série2
0,4
0,2
(m)
1,90
1,80
1,70
b
1,60
1,50
1,40
a
1,30
1,20
1,10
1,00
0,90
0,80
0,70
0,60
0,50
0
Représentation des résultats
variable quantitative continue (6)
„
1,2
Référence: densité de probabilité
Série2
(/m)
1
0,8
0,6
0,4
0,2
(m)
1,90
1,80
1,70
1,60
1,50
1,40
1,30
1,20
1,10
1,00
0,90
0,80
0,70
0,60
0,50
0
Représentation des résultats
variable quantitative continue (7)
„
1,2
Référence: densité de probabilité
Série2
(/m)
1
0,8
0,6
0,4
0,2
(m)
1,90
1,80
1,70
1,60
1,50
1,40
1,30
1,20
1,10
1,00
0,90
0,80
0,70
0,60
0,50
0
Représentation des résultats
variable quantitative continue (8)
„
1,2
Référence: densité de probabilité
Série2
(/m)
1
0,8
0,6
0,4
0,2
(m)
•Réponse : HISTOGRAMME
1,90
1,80
1,70
1,60
1,50
1,40
1,30
1,20
1,10
1,00
0,90
0,80
0,70
0,60
0,50
0
Représentation des résultats
variable quantitative continue (9)
„
1,2
Référence: densité de probabilité
Sér
i 2
(/m)
1
0,8
0,6
0,4
0,2
(m)
•Réponse : HISTOGRAMME
1,90
1,80
1,70
1,60
1,50
1,40
1,30
1,20
1,10
1,00
0,90
0,80
0,70
0,60
0,50
0
Représentation simplifiée des résultats
variables quantitatives
„
Localisation des valeurs
„
„
„
Médiane observée: valeur telle qu’il y ait
autant de valeurs qui lui sont supérieures
que de valeurs qui lui sont inférieures
1 n
Moyenne observée: m = ∑ x i
n
i =1
Remarque: m est une réalisation
de la
n
1
variable aléatoire M n = n ∑ X i appelée
i =1
variable aléatoire moyenne arithmétique
construite sur un échantillon de taille n de
X.
Représentation simplifiée des résultats
variables quantitatives
„
Dispersion des valeurs:
„
variance observée
„
Écart type observé:
„
1 n
2
s =
(x
−
m)
∑
i
n - 1 i=1
2
s2
noté s
Remarque: s2 est une réalisation de la
variable aléatoire variance:
n
1
2
S2n =
(X
−
M
)
∑ i n
n - 1 i=1
Reformulation de la moyenne observée (1)
„
X variable aléatoire discrète finie à k
valeurs possibles: val1, val2, …., valk
(ex: jeu de dé)
„
„
Toute valeur de l’échantillon de valeurs,
xi , égale valj pour un j bien choisi.
Alors:
k n
1 n
m = ∑ x i = ∑ j val j
n i=1
j=1 n
Reformulation de la moyenne observée (2)
„
Exemple
1
m= (2+4+6+3+3+1+4+5)
8
x1=val2;….; x3=val6 ;……
n1=1,n2=1,n3=2,n4=2,n5=1,n6=1
m = 18 (1*1+1*2+2*3+2*4+1*5+1*6)
Reformulation de la moyenne observée (3)
„
„
Donc:
k n
1 n
m = ∑ x i = ∑ j val j
n i=1
j=1 n
Proche de :
k
∑ val
j=1
„
„
j
Pr(X = val j )
Qui est l’espérance mathématique de X, E(X): µ
->synonymes
„ Espérance mathématique
„ Moyenne ‘vraie’
„ Moyenne théorique
Ce résultat vaut pour toute variable aléatoire
Reformulation de la variance observée
„
De la même façon: la variance observée
1 n
2
2
s =
(
x
−
m)
∑
i
n - 1 i=1
approche k
2
(val
−
µ)
Pr (X = val j )
∑ j
j=1
„
qui est la variance de X, E (X - µ) 2 : σ 2
-> synonymes
„
„
„
„
variance
variance ‘vraie’
variance théorique
Ce résultat vaut pour toute variable aléatoire
Cas d’une variable de Bernoulli (1)
„
Variable très utilisée en médecine
„
„
„
„
à la frontière qualitative-quantitative
codage 0-1 des modalités
E (X) = Pr (X=1) =π = probabilité (un individu
présente la modalité 1)
Interprétation
de la moyenne observée
n
„
1
1
x i = (0 + 1 + 0 + 0 + 1 + 1 + ...) =
∑
n i=1
n
nombre de fois où X = 1
= proportion observée
n
m=
Cas d’une variable de Bernoulli (2)
„
„
„
la proportion observée, notée p, est une
moyenne observée
la proportion observée p approche E(X)
donc approche π
π pourra s’appeler proportion ‘vraie’
Cas d’une variable de Bernoulli (3)
„
„
„
Rappel : m est une réalisation de Mn
Si X est une variable de Bernoulli,
Mn sera noté Pn et on parlera de
variable aléatoire moyenne arithmétique
proportion construite sur un échantillon
de taille n
Avec ces notations adaptées, p est une
réalisation de Pn.
Conclusion
„
„
Ces premiers résultats (m approche
E(X); p approche π) engagent à étudier
les variables Mn et Pn.
Objet de la suite.
La variable aléatoire moyenne
arithmétique
Cours 6
Etude de la variable aléatoire
moyenne arithmétique (Mn et Pn)
„
„
„
Variable étudiée:X
Remarque: M1=P1=X
Exemple: la variable P2 ; elle repose sur:
„
„
une variable de Bernoulli: X. Ici on choisit π=1/2
un échantillon de taille 2: X1,X2
X1
X2
P2
Probabilité
0
0
½(0+0) = 0
1/4
0
1
½(0+1) =1/2
1/4
1
0
½(1+0) =1/2
1/4
1
1
½(1+1) =1
1/4
[(1-π)2 en général]
La variable aléatoire P2 (suite)
„
Répartition si π=1/2
P2
P1 (X elle-même)
0
1
0
1/2
1
La variable aléatoire P2 (suite)
„
Répartition si π=0,4
P2
P1
0
1
0
1/2
1
La variable aléatoire P2 (suite)
„
En particulier:
„ E(P2) = val1*Pr(P2=val1)+val2*Pr(P2=val2)+val3*Pr(P2=val3)
= 0 * 1/4
+ 1/2*1/2
=1/2=E(X)
„
+ 1*1/4
Généralement: =π
var(P2)=E[(P2-1/2)2]=(0-1/2)2*1/4+ (1/2-1/2)2*1/2 +(1-1/2)2 *1=1/8
=1/2*1/4=1/2 var(X)
Généralement: = 1/2 π(1-π)
Propriété de Mn (donc de Pn) (2)
„
Résultat général:
E(M n ) = E(X)
1
var(M n ) = var(X )
n
„
; donc var( n M n ) = var (X)
Attendu en fait car:
1 n
1 n
1 n
E( ∑ X i ) = ∑ E (X i ) = ∑ E(X) = E(X)
n i=1
n i=1
n i=1
1 n
1 n
1 n
1
var( ∑ X i ) = 2 ∑ var(X i ) = 2 ∑ var(X) = var(X )
n i=1
n i=1
n
n i=1
Propriété de Mn (donc de Pn) (1)
„
Habillage dans le cas d’une proportion
Pn :
E(Pn)=π
1
var(Pn ) = π(1 - π)
n
var(X)
Une étude ambitieuse
„
Etude simultanée des variables moyennes
arithmétiques, Mn et Qn construites sur 2
variables aléatoires X et Y
„
„
„
X: nombres entre 0 et 1 écrits sur des papiers
contenus dans une urne
Y: taille des adultes dans la population humaine
n=1: étude pratique de M1 (X) et Q1 (Y)
„
„
Constitution d’un échantillon de chaque variable
Construction des histogrammes
1,
5
1,
4
1,
3
1,
2
1,
1
1
0,
9
0,
8
0,
7
0,
6
0,
5
0,
4
0,
3
0,
2
0,
1
0
-0
,1
-0
,2
-0
,3
-0
,4
-0
,5
Histogramme de M1 (X)
papiers 1
1,4
1,2
1
0,8
Série1
0,6
0,4
0,2
0
Histogramme de Q1 (Y)
taille M1
1,2
1
0,8
Série1
0,6
0,4
0,2
0
-0,1
0
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
1
1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9
2
2,1 2,2 2,3 2,4 2,5
n=1: histogrammes de M1 (X) et Q1 (Y)
taille M1
papiers 1
1,2
1,6
1,4
1
1,2
0,8
1
0,8
Série1
Série1
0,6
0,6
0,4
0,4
0,2
0,2
0
1,
4
1,
5
1,
2
1,
3
1
1,
1
0,
9
0,
7
0,
8
0,
5
0,
6
0,
4
0,
2
0,
3
0
0,
1
-0
,1
-0
,2
-0
,3
-0
,4
-0
,5
0
-0,1 0
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
1
1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9
2
2,1 2,2 2,3 2,4 2,5
n=2: histogrammes de M2 et Q2 (*)
papiers 2
taille M2
1,6
1,2
1,4
1
1,2
0,8
1
Série1
0,8
Série1
0,6
0,6
0,4
0,4
0,2
0,2
0
* en réalité de
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
1
1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9
2
2,1 2,2 2,3 2,4 2,5
1,
5
1,
4
1,
3
1,
2
1
2 M 2 et
1,
1
0,
9
0,
8
0,
7
0,
6
0,
5
0,
4
0,
3
0,
2
0
0,
1
-0
,1
-0
,2
-0
,3
-0,1 0
-0
,4
-0
,5
0
2 Q 2 , ramenés à moyennes observées 0,5 et 1,3
n=30: histogrammes de M30 et Q30 (*)
papiers '30'
taille: M'30'
1,6
1,2
1,4
1
1,2
0,8
1
Série1
0,8
Série1
0,6
0,6
0,4
0,4
0,2
0,2
0
0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9
1
1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9
2
2,1 2,2 2,3 2,4 2,5
1,
5
1,
4
1,
3
1,
2
1
1,
1
0,
9
0,
8
0,
7
0,
6
0,
5
0,
4
0,
3
0,
2
0
0,
1
-0
,1
-0
,2
-0
,3
-0,1 0
-0
,4
-0
,5
0
* en réalité de 30 M 2 et 30 Q 2 , ramenés à moyennes observées 0,5 et 1,3
1,
1, 4
4
1,
5
1,
5
1,
1, 3
3
1,
1, 2
2
1,
1, 1
1
1
1
0
0,,9
9
0
0,,8
8
0
0,,7
7
0
0,,6
6
0
0,,5
5
0
0,,4
4
0
0,,3
3
00,,2
2
00,,1
1
00
--00 ,
,11
--00 ,
,22
--00 ,
,33
-0
,4
-0
,5
densité
asymptotique
papiers
'30'
1,6
1,6
1,4
1,4
Histogramme de M30
1,2
1,2
11
0,8
0,8
Série1
Série1
0,6
0,6
0,4
0,4
0,2
0,2
00
Le théorème central limite***
(Laplace,Gauss)
„
Pour toute variable quantitative, la
distribution limite (lorsque n croit
indéfiniment) de:
M n − E(X)
var(X)
n
E(Mn )
var(M n )
est la distribution d’une variable
normale centrée réduite (N(0,1))
Le théorème central limite, version pratique (1)
„
Lorsque n est ‘assez grand’, la variable
M n − E(X)
var(X)
n
„
„
a ‘à peu près’ une distribution d’une variable
normale centrée réduite.
est ‘à peu près’ distribuée selon une loi normale
centrée réduite
Le théorème central limite, version pratique (2)
„
Lorsque n est ‘assez grand’
„
„
M n − E(X)
var(X)
n
~
à peu près
N(0,1)
var(X)
~
M n à peu près N(E(X),
)
n
Diverses distributions de Mn pour divers n ’assez grands’
divers n
distribution de M2q
distribution de M3q
distribution de Mq
E(X)
Le théorème central limite, version pratique (3)
„
„
„
„
Qu’est-ce qu’assez grand ? Trois cas.
1. X est une variable normale.
Alors le théorème est vrai pour tout n
2. X n’est ni normale ni de Bernoulli.
Alors on considère que l’approximation est valide
si n>30
3. X est une variable de Bernoulli.
Alors l’approximation est valide si nπ>5 et
n(1-π)>5
Le théorème central limite, version pratique (4)
„
Forme habillée du théorème dans ce dernier cas:
Lorsque nπ>5 et n(1-π)>5, la variable
Pn − π ~
à peu près N(0,1)
π(1 - π)
n
Le rôle majeur de N(0,1) (1)
„
vaut bien une convention: la convention uα
„
„
Soit X distribuée N(0,1)
Pour toute valeur α entre 0 et 1, uα est la valeur
telle que
Pr (X ∉[-u α u α ]) = α
„
Le calcul de uα connaissant α, ou l’inverse, se fait
à l’aide d’une table numérique
Le rôle majeur de N(0,1) (2)
loi normale centrée réduite
0,45
0,4
Aire α/2
Aire α/2
0,35
0,3
0,25
Série1
0,2
0,15
0,1
0,05
-uα
3
2,
8
2,
6
2,
4
uα
2
2,
2
1,
8
1,
6
1,
4
1
1,
2
-1
-0
,8
-0
,6
-0
,4
-2 - 0,
,2
2
9E
-1
5
0,
2
0,
4
0,
6
0,
8
-2
-1
,8
-1
,6
-1
,4
-1
,2
,4
,2
-2
-2
,8
,6
-2
-2
-3
0
Application du théorème central limite (1)
„
Problème: déterminer [a b] tel que
Pr (M n ∈ [a b]) = 1 - α
pour α choisi (exemple 0,3)
„
Un tel intervalle s’appelle INTERVALLE
DE PARI pour la variable aléatoire Mn
„
„
de niveau 1-α
au risque α
Application du théorème central limite (2)
„
Solution: on suppose que les conditions d’application du
théorème central limite s’appliquent
Distribution de Mn
Série1
σ(X)
n
a
E(X)
b
Application du théorème central limite (3)
Distribution de Mn
Série1
a
b
E(X)
Application du théorème central limite (4)
Distribution de Mn
Série1
a
b
E(X)
Application du théorème central limite (5)
„
Les solutions sont multiples: choisir [a b] centré en E(X) Æ
solution unique
Distribution de Mn
E(X)-c
Série1
E(X)+c
a
b
E(X)
Application du théorème central limite (6)
„
Solution: on suppose que les conditions
d’application du théorème central limite s’appliquent
M n ∈ [E(X) - c E(X) + c] ⇔ M n − E(X) ∈[-c c] ⇔
M n − E(X)
c
−c
]
∈[
σ(X)
σ(X) σ(X)
n
n
n
M n − E(X)
−c
c
P(
∈[
] ) = 1- α
σ(X)
σ(X) σ(X)
n
n
n
Application du théorème central limite (7)
P(
~ N(0,1)
M n − E(X)
−c
c
∈[
] ) = 1- α
σ(X)
σ(X) σ(X)
n
n
n
[-uα
uα ]
σ(X)
σ(X)
IP1-α (M n ) = [ E(X) - u α
E(X) + u α
]
n
n
„
Pour une variable de Bernoulli
IP1-α (Pn ) = [ π - u α
nπ>5 et n(1-π)>5
π(1 - π)
π(1 - π)
π + uα
]
n
n
n>30
Terminologie
„
Généralisation
Tout intervalle [a b] tel que
Pr(X ∈[a b]) = 1 - α
se nomme INTERVALLE DE PARI POUR X
„
„
de niveau 1-α
au risque α
„
Site:
http://www.jcu.edu/math/isep/Quincunx/Quincunx.html
Téléchargement