Statistiques descriptives

publicité
Lo
Probabilités
Melle Jallet
Espace de probabilité ................................................................................................................. 2
I Définitions............................................................................................................................ 2
II Propriétés ............................................................................................................................ 3
Exercices .................................................................................................................................... 4
Variables aléatoires discrètes ..................................................................................................... 8
I Définitions............................................................................................................................ 8
II Moments d'une variable aléatoire discrète.......................................................................... 9
III Lois discrètes ................................................................................................................... 10
Exercices .................................................................................................................................. 12
Variables aléatoires continues .................................................................................................. 15
I Définitions.......................................................................................................................... 15
II Moments d'une variable aléatoire continue ...................................................................... 15
III Loi normale N(m,σ) ........................................................................................................ 16
IV Loi uniforme sur [a,b] ..................................................................................................... 17
V Comparaison variable aléatoire discrète et variable aléatoire continue ........................... 17
Statistiques descriptives ........................................................................................................... 18
I Cas discret .......................................................................................................................... 18
II Cas continu ....................................................................................................................... 20
Inférence statistique et échantillonnage ................................................................................... 22
I Moyenne, variance et proportion ....................................................................................... 22
II Propriétés .......................................................................................................................... 22
III Estimateurs ...................................................................................................................... 23
IV Théorèmes ....................................................................................................................... 23
Estimation par intervalle de confiance ..................................................................................... 24
I Pour la moyenne ................................................................................................................ 24
II Pour la variance ................................................................................................................ 26
III Pour la proportion............................................................................................................ 27
1
Lo
Espace de probabilité
I Définitions
Expérience aléatoire : notée Ω, correspond à un ensemble représentant les résultats
possibles.
Ex. : jet de dés, battage de cartes, observation d’une durée de fonctionnement
d’une machine...
Jet de trois dés Ω Є {1, 2, 3, 4, 5, 6}3, ω Є Ω, ω = (x1, x2, x3).
Elément aléatoire : noté A, correspond à un ensemble de résultats de l’expérience.
Ex. : jet de trois dés. A : la somme des 3 faces est supérieure à 9
A = {ω = (x1, x2, x3), xi Є {1, 2, 3, 4, 5, 6},
3
x
i 1
i
 9}
Elément contraire : Ā = CA = Ω\A
Intersection de 2 évènements A et B : A ∩ B, A et B.
Union de 2 évènements A et B : A U B, A ou B.
A et B sont 2 évènements incompatibles si A ∩ B = Ø
Soit  i i une suite d’évènements aléatoires deux à deux incompatibles et telle que
 i   , alors  i i forme une partition de Ω (ou un système complet).
i
Ω étant un vaste ensemble, on se limite à une partie de Ω notée C appelée algèbre
d’évènements. C’est une partie de Ω telle que :
-CЄΩ
- A Є C => Ā Є C : stabilité par l’évènement contraire.
-  i  famille d’évènements finie ou infinie    i  C : stabilité par l’union.
i
Probabilité : notée P, application P : Ω → [0, 1] telle que :
- P(Ω) = 1
-  i i famille d’évènements incompatibles   i     i 
i
Probabilité conditionnelle : P(A/B), probabilité de A sachant B.
   
Bayes :  /  
pour B ≠ Ø

On dit que A et B sont 2 évènements indépendants (A Ц B) si P(A ∩ B) = P(A) × P(B)
Ex. : on jette un dé
A « obtenir un chiffre pair »
B « obtenir 5 ou 6 »
2
Lo
  
1
1
1
,   ,    
2
3
6
       
=> A et B sont indépendants.
Remarque :
Si A et B sont indépendants, alors P(A/B) = P(A)
Indépendance ≠ incompatibilité
Permutation : il y a n! possibilités de permutations parmi n individus.
Arrangement : tirage de p objets parmi n en tenant compte de l’ordre.  np 
n!
n  p !
Combinaison : tirage de p objets parmi n en ne tenant pas compte de l’ordre.
 np
n!
p
Cn 

p! n  p ! p!
II Propriétés
1)    1    et  /   1   / 
Démo :    1       1        1
2) Ø  0
3)       
4)           
5)  i i système complet d’évènements        i 
i

 n 
Démo :             i  
 i 1  

    1   ...    n  Avec    i i évènements incompatibles
n
       i 
i 1
3
Lo
Exercices
Exercice 1 : sur 100 étudiants, on observe que :
20 lisent le magasine A
75 lisent le magasine B
60 lisent le magasine C
12 lisent A, B et C
3 lisent A et B mais pas C
24 lisent B mais ne lisent ni A ni C
12 ne lisent rien
1) On interroge un étudiant au hasard. Calculer la probabilité qu'il lise :
a) au moins un magazine
b) uniquement A
c) A et B
d) un seul magazine
2) On choisit maintenant au hasard un lecteur de A. Calculer la probabilité qu'il lise aussi C
(puis B). Les évènements A et C; A et B; B et C sont-ils indépendants ?
B : 75
24
3
36
12
x=1
y=4
z =8
A : 20
C : 60
De plus, 12 ne lisent rien et cardinal de (AUBUC) = 88.
1)
a)


 A  B  C       A  B  C  1 
12
88

100 100
 x  3  12  y  20
x  y  5
x  y 5


 z  8  y  4  x 1
 y  12  36  z  60   y  z  12
 x  y  z  13
 x  y  z  13


b) P (uniquement A) = 1/100
c) P (AUB) = 44/100
d) P (lire un seul magazine) = 33/100
2)
4
Lo
 A  C  1

 A
5
 A  B  3
  B / A 

  A
4
12
16
 A  C  

  A  C   A et C ne sont pas indépendants
100 100
15
 A   B  
  A  B   A et B sont indépendants
100
45
B   C  
 B  C   B et C ne sont pas indépendants
100
C / A 
Exercice 2 : au cours d'une étape de 500 km de la course Paris - Dakar, les probabilités de
crevaison des pneus d'une moto sont les suivantes :
- la probabilité de crevaison du pneu avant est de 0,5 (évènement A)
- la probabilité de crevaison du pneu arrière est de 0,4 (évènement B)
On sait qu'il y a 3 chances sur 4 de crever le pneu avant sachant que le pneu arrière est crevé.
On considère que la probabilité de crever un pneu réparé au cours de l'étape est nulle.
1) Calculer les probabilités :
a) de crever les 2 pneus
b) de crever uniquement le pneu arrière
c) de crever uniquement le pneu avant
d) de ne pas avoir de crevaisons
2) Sachant que la durée de réparation d'une crevaison à l'arrière est de 30 minutes et à l'avant
de 16 minutes, calculer la durée moyenne de réparation des crevaisons au cours de cette étape.
3) Calculer PB / A, P B / A , PA / B 


P(A) = 0,5, P(B) = 0,4, P(A/B) = 3/4
1)
a) On cherche P(A∩B)
P A  B 
P A / B  
P B 
3 4
3
P A  B  

4 10 10
1
 3 4
b) PA  B   PA / B PB   1  P A / B PB   1   
 4  10 10
c)
1 1

PA  B   PA  B barre  1  PA  B   1  PA   PB   PA  B   1   0,5  0,4   
10  5

d) PA  B   P A  B barre  1  P A  PB   P A  B   1 
6 2

10 5
2) Ne peut pas être fait avec les connaissances actuelles.
3)
5
Lo
P  B / A 
PB / A  
PA / B  
PB  A 3 / 10 3


P  A
5 / 10 5
PB  A  1 / 10 1


PA 
5 / 10 5
PA  B  2 / 10 1


PB 
6 / 10 3
Exercice 3 : montrer la formule généralisée :
P(A1∩…∩An) = P(A1) P(A2/A1) … P(An/[A1∩…∩An-1])
Pour n = 2 : P(A1∩A2) = P(A1) P(A2/A1)
P(A1∩…∩An+1)
= P([A1∩…∩An]∩An+1)
= P([A1∩…∩An]) P(An+1/[A1∩…∩An])
La propriété est vraie au rang n+1, donc vraie pour tout n.
Application : une classe contient 12 garçons et 4 filles. Si l'on choisit 3 élèves de la classe au
hasard, quelle est la probabilité que tous soient des garçons ?
12 11 10 11

P(G1∩G2∩G3) = P(G1) P(G2/G1) P(G3/[G1∩G2]) =
16 15 14 28
Exercice 4 : un voyageur arrive à un carrefour. Il sait qu'à cet endroit il va trouver 2 routes :
un cul-de-sac et la bonne route. Il y a 3 frères à ce carrefour : F1, F2 et F3
- F1 dit 1 fois sur 10 la vérité
- F2 dit 5 fois sur 10 la vérité
- F3 dit 9 fois sur 10 la vérité
Le voyageur demande son chemin à un seul des 3 frères.
1) Quelle est la probabilité qu'il emprunte le bon chemin ?
2) S'apercevant par la suite que son chemin est le bon, quelle est la probabilité qu'il se soit
adressé à F1 ?
1) C : "prendre le bon chemin"
P(C) = P((C∩F1) U (C∩F2) U (C∩F3)) = P(C∩F1) + P(C∩F2) + P(C∩F3)
= P(C/F1) P(F1) + P(C/F2) P(F2) + P(C/F3) P(F3)
1 1 5 1 9 1 1



=
10 3 10 3 10 3 2
2) PF1 / C  
PF1  C  PC / F1PF1 1 / 101 / 3 1



PC 
PC 
1/ 2
15
Exercice 5 : on tire 5 cartes d'un jeu de 32. Calculer la probabilité des évènements suivants :
A : "obtenir un carré"
B : "obtenir 2 rois et 2 dames"
C : "obtenir au moins 2 rois"
D : "obtenir au moins 1 as et au moins 1 roi"
6
Lo
P  A 
1
C44C28
C81
5
C32
1
C42C42C24
P B  
5
C35
PC  
3
2
1
5
4
C42C28
C43C28
C44C28
C40C28
C41C28



1


5
5
5
5
5
C32
C32
C32
C32
C32
P D   1 
5
2C40C28
5
C32
7
Lo
Variables aléatoires discrètes
I Définitions
Une variable aléatoire discrète est une application X : Ω → E où E est dénombrable.
Fonction de répartition F : R → [0,1]
x → F(x) = P(X ≤ x)
P(X ≤ x) = P(X=0) + P(X=1) + … + P(X=x) = p0 + p1 + … + px
P(X ≤ x) = Px est une probabilité ponctuelle
Propriétés :
1) F est à valeur dans [0,1]
2) F(-∞) = 0, F(+∞) = 1
3) F est une fonction croissante continue presque partout (partout sauf en un nombre fini de
points) (fonction en escalier)
Démo :
F(x+1) - F(x) = P(X ≤ x+1) - P(X ≤ x)
F(x+1) - F(x) = [P(X=0) + … + P(X=x) + P(X=x+1)] - [P(X=0) + …+ P(X=x)]
F(x+1) - F(x) = P(X=x+1) ≥ 0
Donc F est croissante.
La fonction de répartition F ou la fonction de probabilité P donnent la loi X.
X=x
px = P(X=x)
X=x
P(X ≤ x) = FX(x)
4) tt a et b
P(a < X ≤ b) = P(X ≤ b) - P(X ≤ a)
P(a < X ≤ b) = F(b) - F(a)
P(a ≤ X ≤ b) = P(X ≤ b) - P(X ≤ a-1)
P(a ≤ X ≤ b) = F(b) - F(a-1)
P(a < X < b) = P(a < X ≤ b-1)
P(a < X < b) = F(b-1) - F(a)
P(a ≤ X < b) = P(a ≤X ≤ b-1)
P(a ≤ X < b) = P(a-1 < X ≤ b-1)
P(a ≤ X < b) = F(b-1) - F(a-1)
a
b
a-1 a
b
a
b-1
b
a
b-1
b
8
Lo
II Moments d'une variable aléatoire discrète
1) Espérance
    x x    xpx
x
x
Propriétés :
1) tt a Є R, E(a) = a
2) tt X, tt a Є R, E(aX) = a E(X)
3) tt X, Y, E(X+Y) = E(X) + E(Y)
4) Si X et Y sont des variables aléatoires indépendantes, E(XY) = E(X) E(Y)
2) Variance
V(X) = E[X - E(X)]² = E(X²) - (E(X))²
Démo:
E[X - E(X)]² = E[X² - 2XE(X) + (E(x))²]
E[X - E(X)]² = E(X²) - E(2XE(X)) + E(E(X))²
E[X - E(X)]² = E(X²) - 2 E(X) E(X) + (E(X))²
E[X - E(X)]² = E(X²) - (E(X))²


V    x 2 x     x x  
x
 x

2
Propriétés :
1) tt a Є R, V(a) = 0
2) tt X, tt a Є R, V(aX) = a² V(X)
3) Si X et Y sont indépendants V(X+Y) = V(X) + V(Y)
Remarques :
 k    x k  x 
x
X et Y indépendants ssi P(X=x . Y=y) = P(X=x) . P(Y=y)
3) Ecart type
     V  
9
Lo
III Lois discrètes
Loi de Bernoulli B(p)
¤
Z ~ B(p)
Z = 1, p1 = P(Z=1) = p
Z = 0, p0 = P(Z=0) = 1-p
Z=z
P(Z=z)
0
p0 = p
1
p1 = 1-p
¤
E(Z) = p
Démo :
E(Z) = Σ z P(Z=z) = 0 P(Z=0) + 1 P(Z=1) = 0 (1-p) + 1 p = p
¤
V(Z) = p (1-p) = pq avec q = 1-p
Démo :
V(Z) = E(Z²) - (E(Z))² = (Σ z² P(Z=z)) - p²
V(Z) = (0² P(Z=0) + 1² P(Z=1)) - p²
V(Z) = (0² (1-p) + 1² p) - p² = p (1-p)
Σ pi = 1
Loi binomiale B(n,p)
n
¤
X ~ B(n,p),    Zi
où Zi ~ B(p) sont indépendants
i 1
 x   Cnx p x 1  p 
pour x Є N
Ex. : 10 tirages sans remise dans une urne contenant 20 boules, 5 noires et 15
blanches.
X : variable aléatoire, nombre de boules noires tirées
X ~ B(10,5/20)
n x
¤
E(X) = np
Démo : par linéarité de l'espérance
n
 n
 n
      Zi    Zi    p  np
i 1
 i1  i 1
¤
V(X) = npq
Démo : les Zi sont indépendants
n
 n
 n
V    V  Zi    VZi    pq  npq
i 1
 i1  i1
Loi de Poisson P(λ)
k
¤
 k   e 
¤
E(X) = V(X) = λ
Démo :
     k X k 
kЄN
k!
k
10
Lo
uk
k k!
Or eu  
      ke
k
     e   

k!
k
k 1

 e  
k
k 1
k  1!
k
k  1!
 e   
m0
m
m!

     e e  
V      2       
2
  2    k 2 e 
k
k
k!
 e   k 2
k
  2   e   k k  1  k 
k
  2   e  2 

k 2


k 2
k  2!

k
k!
k
k!
 e  
k
 e   
k 1

k
k  2!
k 1
k  1!
 e  
k
k
k  1!
 2  
V          
2
2
Théorème d'approximation :
Si n > 50 et p < 0,1 alors B(n,p) ≈ P(np)
Loi uniforme
X ~ V({1,…,n})
P(X=k) = 1/n
E(X) = (n+1) / 2
V(X) = (n²-1) / 12
Loi géométrique g(p)
P(X=k) = (1-p)k-1 p
E(X) = 1/p
V(X) = (1-p) / p² = q/p²
Propriétés :
X1 ~ P(λ1)
X2 ~ P(λ2)
X1 et X2 indépendants
Alors X1+X2 ~ P(λ1+ λ2)
1) Si
X1 ~ B(n1,p)
X2 ~ B(n2,p)
X1 et X2 indépendants
Alors X1+X2 ~ B(n1+n2,p)
2) Si
11
Lo
Exercices
Exercice 1 : un tireur, ayant à sa disposition 4 cartouches, tire sur une cible jusqu’à la
première atteinte. La probabilité d’atteindre le but lors de chaque coup est égale à 0,6. On
appelle X la variable aléatoire égale au nombre de cartouches non utilisées. Donner la loi de
X. Calculer son espérance, sa variance et son écart-type.
Loi de X :
X=x
P(X=x)
0
p0
1
p1=0,096
2
p2=0,24
3
p3=0,6
p3 = 0,6
p2 = (1 – 0,6) × 0,6 = 0,24
p1 = (1 – 0,6)² × 0,6 = 0,096
p0 = (1 – 0,6)3 × 0,6 + (1 – 0,6)4
(Σ pi = 1)
E(X) = Σ x P(X=x) = 0 p0 + 1 p1 + 2 p2 + 3 p3 = 2,376
V(X) = E(X²) – (E(X))² = Σ x² P(X=x) – (Σ x P(X=x))²
V(X) = (0² p0 + 1² p1 + 2² p2 + 3² p3) – 2,376² = 0,81
σ(X) = V  X  = 0,9
Exercice 2 : le propriétaire d’un petit hôtel de 10 chambres possède 3 TV qu’il peut installer
dans les chambres sur demande, moyennant une petite rétribution. L’expérience passée lui a
appris que seulement 20% des clients demandaient la TV, et il estime donc qu’en temps
ordinaire ses 3 TV doivent suffire. En ne tenant compte que des nuits où les 10 chambres sont
toutes occupées, calculer :
1) la proportion des nuits où les 3 postes ne satisferont pas la demande.
2) le nombre moyen de postes demandés.
3) le nombre moyen de postes réellement loués.
4) le rendement moyen de la location des TV, en supposant que le propriétaire touche 5 € par
poste.
1) X : nombre de TV demandées
X=x
0
1
1
10
P(X=x)
C10
.0,2.0,89
 80 


 100 
10
10
X ~ B(10,20/100), X   Z i , Zi ~ B(p) car p = P(Zi=1) = 20/100 = 1/5
i 1
Zi = 1 si la ième chambre demande une TV.
P X  k   Cnk p k q nk  C10k
10 k
1  1
1  
5  5
k
2) E(X) = np = 10.0,2 = 2
3) et 4) ne peuvent pas être traitées avec les connaissances actuelles.
12
Lo
Exercice 3 : une certaine quantité de substance radioactive est telle que le nombre X d’atomes
désintégrés par unité de temps obéit à la loi de Poisson de paramètre 4.
1) Calculer P(X=3), P(X≥4). Trouver le plus petit entier n tel que P(X≥n) ≤ 1/1000.
2) On note Y le nombre d’atomes désintégrés par unité de temps par une deuxième quantité
de substance radioactive. Y suit une loi de Poisson de paramètre 5. Calculer P(X+Y=4), en
supposant que X et Y sont indépendantes.
43
3!
P(X≥4) = 1 – P(X≤3) = 1 – F(3) = 0,5665 valeur lue dans la table, ou par le calcul :

40
41
42
43 
F 3  1   e 4  e 4  e 4  e 4 
0!
1!
2!
3! 

P(X≥n) ≤ 1/1000
<=> 1 – P(X<n) ≤ 1/1000
<=> 1 – P(X≤n-1) ≤ 1/1000
<=> 1 – 10-3 ≤ P(X≤n-1)
<=> 0,999 ≤ P(X≤n-1)
avec la table
<=> n – 1 ≥ 11 ou n ≥ 12
1) X ~ P(4) => P(X=3) = 0,1954 valeur lue dans la table, ou par le calcul : P X  3  e 4
2) Y ~ P(5), X ~ P(4), X et Y sont indépendantes
D’après le théorème du cours :
X + Y = Z ~ P(9)
Il suffit donc de regarder dans la table la valeur de P(Z=4)
On peut aussi calculer
P(X+Y=4)
= P[(X=0∩Y=4) U (X=1∩Y=3) U (X=2∩Y=2) U (X=3∩Y=1) U (X=4∩Y=0)]
disjoints
= P(X=0∩Y=4) +…+ P(X=4∩Y=0)
indépendantes = P(X=0).P(Y=4) +…+ P(X=4).P(Y=0) valeurs à lire dans la table.
Exercice 4 : le taux de suicides dans un certain pays est de 4 pour un million d’habitants par
mois. Trouver la probabilité que dans une ville de 500 000 habitants il y ait au plus 4 suicides
pour un mois donné. Serait il surprenant que sur une année il y ait au moins 2 mois pour
lesquels plus de 4 suicides surviennent ?
X=x
P(X=x)
0
p0
500 000
p500 000
P(X≤4) = P(X=0) + P(X=1) + P(X=2) + P(X=3) + P(X=3)
X
500000
 Zi
où Zi ~ B(p)
i 1
Zi = 1 si le ième individu se suicide, 0 sinon.
p = P(Zi=1) = 4/106
X ~ B(n,p) = B(500 000,4/106)
1ère méthode :
13
Lo
4
P X  4   P X  k 
k 0
P X  k   C p q
k
n
k
6
nk
C
4 
 4  
 6  1  6 
 10   10 
5000006
6
500000
2ème méthode :
n > 50 et p < 0,1 dans ce cas B(n,p) ≈ P(np) => B(500 000,4/106) ≈ P(2)
P(X≤4) = 0,9473 (cf. table de Poisson numéro 2)
Remarque : si on avait eu P(2,6), la valeur n’aurait pas été dans la table, il aurait fallu calculer
P X  k   e

k
k!
avec λ = 2,6
14
Lo
Variables aléatoires continues
I Définitions
Une variable aléatoire continue est une application X : Ω → I où I est un intervalle de
R. La loi de X est définie par F(X) = P(X ≤ x) sa fonction de répartition.
Propriétés de F :
1) F est à valeur dans [0,1]
2) F(-∞) = 0, F(+∞) = 1
3) F continue et linéaire par morceaux
La loi de X est déterminée également par la fonction de densité, ƒ avec F' = ƒ (à
condition que F soit dérivable).
x
F   x    f t dt

Propriétés :
1) ƒ ≥ 0 (F croissante avec F' = ƒ)
2)



f t dt   f t dt  1
(F(+∞) = 1)

3) ƒ est continue presque partout
Remarque : tt X variable aléatoire continue, P(X=a) = 0 ; d'où P(a < X ≤ b) = P(a ≤ X
≤ b) = P(a < X < b) = P(a ≤ X < b).
II Moments d'une variable aléatoire continue
1) Espérance
      xf x  dx
Propriétés : tt a Є R,
E(a) = a
E(aX) = a E(X)
E(X+Y) = E(X) + E(Y)
Si X et Y sont indépendants, E(XY) = E(X) . E(Y)
2) Variance
V           2         x 2 f  x  dx 
Propriétés : tt a Є R,
V(a) = 0
V(aX) = a² V(X)
Si X et Y sont indépendants, V(X+Y) = V(X) + V(Y)
2
2
 xf dx
2
x
3) Ecart type
15
Lo
     V  
III Loi normale N(m,σ)
f   



1
 x  m 2
xЄR
e 2
2 
f  1 , ƒcontinue et positive
Loi normale centrée réduite : cas particulier de m = 0 et σ = 1
f   
1
2
e

 x 2
ƒ(x)
2
-a
P(X<0) = 1/2, P(X<0,57) = 0,7157
x
a
les valeurs de P(X<a) sont lues dans la table.
a fractile : a Є R+,
F(a) = P(X<a)
F(-a) = P(X<-a) = P(X>a) = 1- P(X<a)
P(X>-a) = P(X<a)
Soit Y ~ N(m,σ)
E(Y) = m
V(Y) = σ²
Calcul de P(Y<b)
On a :
Ym
Y  b    Y  m  b  m      b  m 
~  0,1
où  

  
 
 
bm

Y  b     

 

Propriété : toute combinaison linéaire de gaussiennes (i.e. X variable aléatoire suivant
une loi normale) est gaussienne.
Donc T est gaussienne et T ~ N(?,?)
Espérance de T
1
1
Ym 1
  
  Y  m   Y   m   m  m   0


   
Donc T est centrée
Variance de T
1
1
Ym 1
2
V  V
  2 VY  m   2 VY   Vm   2   0  1








16
Lo
Donc T est réduite
Propriétés :
Z ~ N(0,1), P(|Z|<t) = P(-t<Z<t) = 2 P(Z<t) - 1
Théorèmes d'approximations :
Si n>50 et p<0,1
alors B(n,p) ≈ P(np)
Si n>50 et 0,1<p<0,9 (ou np>5 et nq>5)
alors B(n,p) ≈ N(np, np(1  p) ) ≈ N(np, npq )
IV Loi uniforme sur [a,b]
 1
pour t  a, b

U([a,b]), f t    b  a
0 sinon
V Comparaison variable aléatoire discrète et variable aléatoire
continue
X variable aléatoire discrète
grandeur mécanique
Loi
xi
pi
pi = P(X=xi)
E(X) = Σ xi pi
V(X) = E(X²) - (E(X))² = Σ xi² pi - (Σ xi pi)²
Y variable aléatoire continue
prend ses valeurs dans I Є R
Loi fonction de densité ƒ = F'
    xf x dx
 
V     2      x 2 f  x dx 
2
 xf dx
2
x
17
Lo
Statistiques descriptives
On veut étudier une population P contenant n individus.
I Cas discret
X = xi
ni
x1
n1
…
…
xk
nk
k
 ni  n
i 1
ni 

,   fi  1
n  i 1

Le graphe de la fréquence empirique est le diagramme en bâtons.
fi
k
Fréquence empirique : fi 
f2
f3
f1
xi
x1
x2
x3
xk
Le mode m est la valeur la plus fréquente (correspond au bâton le plus haut). Le mode
peut ne pas être unique.
i
Fréquence empirique cumulée : Fi   fl  f 1  ...  fi
l 1
Fi = f1 +…+ fi-1 + fi = Fi-1 + fi
Fk = f1 +…+fk = n1/n +…+ ni/n =1
F
F3=f1+f2+f3
F1=f1
x1
x2
Fonction en escalier
X = xi
ni
fi
Fi
x1
n1
n1/n
n1/n
x3
xi
ni
ni/n
(n1+…+ni)/n
xk
x
xk
nk
nk/n
1
18
Lo
Médiane : me est la valeur xe telle que 50% de la population soit en dessous de cette
valeur et 50% au dessus.
n impair => me valeur des ((n+1)/2)ème individus
n pair => pas de valeur pour la médiane, elle se situe entre le (n/2)ème et le (n/2 + 1)ème
individus
1er quartile : Q1 est la valeur telle que 25% de la population soit en dessous de cette
valeur et 75% au dessus.
3ème quartile : Q3 est la valeur telle que 75% de la population soit en dessous de cette
valeur et 25% au dessus.
Concrètement, on classe les informations par ordre croissant (diagramme tige feuilles).
Box plot ou boîte à moustaches :
1,5 e
Q1 - 1,5 e
Q1
Q2 = me
1,5 e
Q3
Q3 + 1,5 e
Ecart inter quartile = Q3 – Q1
Moyenne : x 
1 k
 ni xi
n i 1
1 n
1 n
1 n

2
2
Variance : S   ni xi  x    ni xi    ni xi 
n i 1
n i 1
 n i 1

2
2
19
Lo
II Cas continu
Ci = ]xi,xi+1]
C1
Ci
ni
n1
ni
Fréquence relative : fi = ni/n
fi
Ck
nk
f2
f3
f1
Ci
C1
C2
C3
Histogramme
Classe modale : classe ayant la fréquence fi la plus importante (attention aux largeurs
des classes, i.e. prorata de l’amplitude).
Ex. :
fi
0,4
0,3
0,15
Ci
5
C1 = [0,5[
10
15
20
C2 classe modale
C3 = [10,15[
fi
0,45
0,4
0,15
Ci
10
15
20
C2 = [10,15[ f2/5 = 0,4/5
C1 = [0,10[ f1/10 = 0,45/10
=> C2 est la classe modale
20
Lo
Fréquence cumulée : Fi = f1 +…+ fi = Fi-1 + fi
Fi
Fk = 1
Fme = 0,5
Ci
F1 = f1
C1
C2
Ck
me
Courbe linéaire par morceaux
Fi
Fme = 0,5
Fi-1
xi-1
me
xi
Ci
0,5  Fi 1 me  xi 1
0,5  Fi 1

 me  xi 1  xi  xi 1 
Fi  Fi 1
xi  xi 1
fi
De même, avec FQ1 = 0,25 et FQ3 = 0,75 les valeurs Q1 et Q3.
Thalès :
Ci
ni
fi
Fi
C1
n1
n1/n
n1/n
Ci
ni
ni/n
(n1+…+ni)/n
Ck
nk
nk/n
1
Approximation :
x
k
1
 ni c i
n i 1
1 n
1 n

2
S   ni c i    ni x i 
n i 1
 n i 1

2
2
21
Lo
Inférence statistique et échantillonnage
Démarche théorique : soit une population P de structure connue. On veut déterminer
les caractéristiques d’un échantillon E, c’est l’échantillonnage.
Démarche pratique : inverse. On a les caractéristiques d’un échantillon, on détermine
celles de la population. C’est une extrapolation appelée inférence statistique.
I Moyenne, variance et proportion
Soit une population P contenant N individus : X1,X2,…,XN.
- a pour moyenne la moyenne théorique
1 N
m   Xi
N i 1
- a pour variance la variance théorique
1 N
1 N
 2   X i 2  m 2    X i  m 2
N i 1
N i 1
- p proportion théorique
Soit un échantillon E contenant n << N individus : X1,X2,…,Xn, n variables aléatoires
indépendantes et de même loi (IID = Indépendantes Identiquement Distribuées).
- a pour moyenne une moyenne empirique
1 n
X   Xi
n i 1
1 1 n
X i  X 2 )
- a pour variance la variance empirique (en stat descriptives S 2 

n  1 n i 1
n
1
X i  X 2
S2 

n  1 i 1
et pour variance empirique corrigée : S’²
- F fréquence empirique
II Propriétés
E X   m
Démo :
1 n
 1 n
E X   E   X i    E  X i 
 n i 1  n i 1
 X 1, X 2,..., Xn   X 1, X 2,..., XN   E  X i   m
E X  
V X  
1
1
m  mn  m

n
n
2
n
Démo :
22
Lo
1 n
 1  n

V X   V   X i   2 V   X i 
 n i 1  n  i 1 
1 n
1
2
2
indépendants  V X   2  V  X i   2 n 
n
n i 1
n
E(S²) = σ²
III Estimateurs
   
 
1) Soit ˆn estimateur d’un paramètre θ, biais b ˆn  E ˆn  
On dit que ˆ est sans biais si b ˆ  0  E ˆ  
n
 
n
n
E X   m  X estimateur sans biais pour m
E(S²) = σ² => S² est un estimateur sans biais pour σ²
E(F) = p => F estimateur sans biais de p
1 n
1 n
n 1 2
2
2
Sˆ 2   X i  X    X i  X 2 
S
n i 1
n i 1
n
n 1
n 1 2
E Sˆ 2 
E S 2  
  Sˆ 2 est asymptotiquement sans biais E Sˆ 2   2
n 
n
n
 
 
 
2) ˆn estimateur convergent si V ˆn  0
V X  
 
V S2

n 
2
 0  X estimateur convergent pour m.
n n 
 0 => S² estimateur convergent pour σ².
n
V F   0 => F estimateur convergent pour p
n 
3) Pour un paramètre θ donné, on peut avoir une infinité d’estimateurs ˆn
Pm, σ² ↔ E, X ,S²
IV Théorèmes
Loi des grands nombres pour n → infini (>30), X → m
Théorème de la limite centrale (Theorem Central Limit)
  
X m
X ~ L m,
 d'où T 
~ N 0,1
n

 2 nn50
n
  
 et T ~ N(E(T), σ(T))
TCL => L ~ N soit X ~ N  m,
n


p1  p  

Ou encore F ~ N  p,

n


23
Lo
Estimation par intervalle de confiance
I Pour la moyenne
On veut trouver I = [a, b] tel que P [m Є I] = 1-α où 1-α est le niveau de confiance et α
l’erreur, le risque.
1) σ est connu et n > 30
X m
  
TCL : X ~ N  m,
~ N 0,1
  T 

n

n
1- α
α/2
-tα/2
α/2
tα/2
tα/2 fractile d’une N(0, 1)

 
P  t  T  t   1  
2
 2




 X m


 P t 
t
 1
 2

2


n


X m

 
 
t  X mt
 X t
m

2
2 n
2 n
n
 X m
 
t 
 m  X t

2
2 n
n

 
  
 P X  t
 m  X t
  1
2 n
2 n 


 
  
 I  a, b   X  t
,X t
2 n
2 n 


  
Remarque : si n < 30, on suppose la population Gaussienne et donc I   X  t
2 n 

2) σ inconnu, on le remplace par S
24
Lo
U
X m
~ Studentn  1 , où n-1 est le degré de liberté, Uα/2 fractile d’une Student (n-1).
S
n
1- α
α/2
-Uα/2
α/2
Uα/2



P  U  U  U   1  
2
2





 X m


 P U 
U
 1

S
2
2


n



  
 I  a, b   X  U
2 n 

25
Lo
II Pour la variance
On veut trouver I = [a, b] tel que P [σ² Є I] = 1-α
Soit (Ti) i=1,…,n suite de variables aléatoires centrées réduites
n
T
i 1
2
i
2
~ x n  Khi - deux à n degrés de liberté
n  1S 2  n  X i  X
1 n
2


S 
X

X

 i

 
n  1 i 1
2
i 1 
2
X X
Or   i

i 1 
n
X X
Donc   i

i 1 
n
2

 avec Xi ~ L(m, σ)

2

 ~  n  2

2

 ~  2n 1

1-α
α/2
k1
K
α/2
k2
n  1S 2

2
~  n 1
k1 et k2 fractiles d’une  2n1
2
Pk1  K  k 2  1  

n  1S 2  k 2   1  
 P k1 

2


 n  1S 2
n  1S 2   1  
 P
 2 
k1 
 k2
 n  1S 2 n  1S 2 
I 
,

k1 
 k2
26
Lo
III Pour la proportion
On veut trouver I = [a, b] tel que P [p Є I] = 1-α

p 1  p  

n > 30, TLC => F ~ N  p,

n


p est dans les 2 termes, on ne peut pas le calculer.
p1  p 
F 1  F 
pour n > 50,
0,1 < p < 0,9,

n
n

F 1  F  

F ~ N  p,

n


Fp
T
~ N 0,1
F 1  F 
n
1- α
α/2
α/2
tα/2
-tα/2
tα/2 fractile d’une N(0,1)

 
P  t  T  t   1  
2
 2





F m


 P t 
t
 1
 2
2
F 1  F 


n




 I  F  t
2

F 1  F  

n

27
Téléchargement