Statistique inductive

publicité
Esnard Aurélien
Statistique
ENSERB Informatique
Statistique inductive
Introduction
Introduction
On étudie le caractère d’une population. Etant donné une variable aléatoire X, on examine un échantillon X1 …
Xn. Lors d’une épreuve, cette échantillon donne les valeurs réelles x1 … xn, encore appelé série statistique.
Observée (variable aléatoire)
Moyenne
Variance
X 
SX 
2

De la série statistique (réel)
1
 Xi
n i
1
 Xi  X
n i

2
x
 X2 X
2
Vx 

1
 xi
n i
1
 xi  x
n i

2
 x2  x
2
Pour les séries statistiques doubles1, on donne le formulaire suivant.
Observée (variable aléatoire)
Covariance
S XY 
2


1
 X i  X Yi  Y
n i

 XY  X Y
Corrélation
De la série statistique (réel)
C xy 
2
2


 xy  x. y
S XY
S X SY
R XY 
On remarquera que S XX

1
 xi  x y i  y
n i
rxy 
C xy
V xV y
 SX .
2
Introduction à la statistique des données
Considérons l’échantillon
X1  X m
. Soit e1  en les valeurs prises par les x i .
X :
 x1  xm
 Cas de n petit (loi discrète)
On suppose que le nombre de valeurs prises par la série statistique est petit, c’est-à-dire n est petit. On note la
nombre de x égal à ei
, et pi  P X  ei  .
m
Théorème : «A moins de ne pas avoir de chance, les p i sont proches des p i . »
fréquence de la valeur
e i , pi 
Diagramme bâton :
p3
p1
p2
1
e1
e2
Comprenant toutes deux n échantillons
pn
e3
en
Page 1 sur 10
Esnard Aurélien
Statistique
ENSERB Informatique
 Cas de n grand (loi diffuse)
Dans le cas d’une loi diffuse, on partage l’intervalle des valeurs prises en classe Ai. On exige que chaque classe
comporte au moins 3 éléments.
On redéfinit la fréquence de la classe Ai comme
pi 
nombre de x Ai
, et pi  P X  Ai  .
m
Histogramme :
Densité de la loi X
A1
A2
A3
An
Les pi représentent les aires et non pas les hauteurs !
De la même façon, on a que les
p i sont proches des pi ; ce qui se traduit sur le graphique, pour une classe
donnée, par des aires grises proches de l’intégrale de la densité.
Grâce au dessin par histogramme, on peut approcher la densité de la loi X.

-
Vocabulaire
On appelle mode, la valeur ou la classe ayant la fréquence la plus importante.
La médiane est telle qu’elle partage également en deux le nombre des xi.
On nomme étendue la différence entre la plus grande valeur prise et la plus petite.
Régression linéaire
Cf. TD…
Estimation ponctuelle
On souhaite estimer une grandeur a inconnue. Le plus souvent, a est le paramètre d’une loi de probabilité.
Considérons un échantillon
X1  X m
. On cherche un estimateur A X 1  X m  , tel qu’on espère que
X :
 x1  xm
Ax1  x m  soit proche de a.

Définitions
-
Un estimateur est sans biais si
-
E A  a .
Un estimateur est convergent si A X 1  X m  converge en probabilité vers a lorsque m   .
-
Un estimateur sans biais et convergent est dit correct. X est un estimateur correct de l’espérance de X.
Un estimateur est dit de variance minimum, si pour tout autre estimateur B on

 

E  A  a   E B  a  . Un estimateur de variance minimum est sans biais.
2
2
X
 X m A ne dépend pas de a. ? ? ?
-
Un estimateur est exhaustif si la loi de
-
Un estimateur est robuste si il est insensible aux données aberrantes.
1
Page 2 sur 10
a:
Esnard Aurélien

Statistique
ENSERB Informatique
Estimateur au maximum de vraisemblance
On définit la fonction de vraisemblance
v : x1  xm   P X 1  x1  X m  xm  dans le cas discret, et
v : x1  xm   f x1  xm  dans le cas diffus avec densité f. La fonction de vraisemblance caractérise la
vraisemblance des données. On va donc chercher a   x1  x m  qui rend v maximum, c’est-à-dire tel que
v
 0 2. On prend A    X 1  X m , l’estimateur au maximum de vraisemblance.
a

Inégalité de Frechet-Cramer-Rav
f x1  xm , a  avec a le paramètre à estimer. On appelle la borne de Cramer-Rav, le
1
réel B x, a  
.
   log  f x, a   2 
m.E  
 


a
 

Soit X une loi de densité
Soit A un estimateur sans biais, on démontre :
E A a ;

 
2
Var  A  E  A  a   ;
Var A  Bx, a.
Efficacité d’un estimateur
On définit alors le coefficient d’efficacité d’un estimateur :
0
B  x, a 
 1 . Le coefficient d’efficacité
Var  A
maximum est 1. On cherche toujours un estimateur qui soit le plus précis possible, tel donc que sa variance soit
la plus petite possible. On dit que l’estimateur a une efficacité maximum lorsque Var A  B x, a ; la borne
est atteinte. Par conséquent, on ne peut pas trouver d’estimateur qui soit plus précis !
 


Estimation par intervalle de confiance
X1  X m
. On cherche un estimateur A X 1  X m  d’une grandeur a.
X :
 x1  xm
Soit  > 0, on cherche un intervalle de confiance autour de l’estimateur Ax1  x m  qui soit de la forme
Ax1  xm    , Ax1  xm     .
Considérons un échantillon
-
+
Ax1  x m 
a
On se donne généralement un seuil  égal à 0,05 ou 0,01, ce qui garantit un niveau de confiance de 95% ou 99%
dans l’intervalle.
L’estimation par intervalle de confiance est telle que
ou encore
P Ax1  xm   a      (seuil).
P Ax1  xm   a     1   (niveau de confiance)
Plus le seuil est petit, plus le niveau de confiance exigé est élevé, et plus l’intervalle de confiance va être large.
2
on vérifiera que l’on a bien à faire à un maximum.
Page 3 sur 10
Esnard Aurélien
Statistique
ENSERB Informatique
Quelques lois de probabilités utiles en statistique
Loi du chi-deux
n
Soient
X 1  X n indépendants, qui suivent N 0,1 . U n   X i suit la loi du 2 , à n degrés de liberté.
2
i 1
Estimateur de variance d’une loi normale, et intervalle de confiance
Soient X qui suit

N m,   , et un échantillon X 1  X n .
Cas où m est connue
On a
nVn
2
*
Vn   n
*
*2

 
1
 X i  m2 l'estimateur de la variance, sans biais car E Vn *  Var X  . Alors

n n
2
  n* 
 suit la loi du 2 , à n degrés de liberté.
 n




0
*
r *
Déterminons l'intervalle de confiance pour  ,au seuil . Seule la partie droite de l'intervalle de confiance est




P   r *   ou P   r *  1   , ce qui
n
 n

2
donne P 2  U n   1   . La table du  à n degrés de liberté nous donne 2 . On déduit r.
r
r

significative (pas de valeur absolue). On cherche r tel que

Cas où m est inconnue
*2

1
 Xi  X
n 1 n

2
On remplace m par son estimateur X . Par conséquent, on a
Vn 1   n 1
l'estimateur de la variance, sans biais. Notons bien que si l'on prenait
1
1
plutôt que
dans l'expression de
n
n 1
*

cet estimateur, on introduirait un biais. Ce point est sans importance dès que n devient grand. Alors
2
*


n  1  n1  suit la loi du 2 , à n - 1 degrés de liberté.
  


P   r n1   , ce qui
n 1
 n 1

2
donne P 2  U n 1   1   . La table du  à n - 1 degrés de liberté nous donne
. On déduit r.
r2
 r

Déterminons l'intervalle de confiance pour  ,au seuil . On cherche r tel que
Page 4 sur 10
*
Esnard Aurélien
Statistique
ENSERB Informatique
Loi de Student

Définition
Soient
X 0  X n indépendants, un échantillon de N 0,1 . Alors St 
X0
1 n
2
 Xi
n i 1

X0
X
suit la loi de
2
Stundent à n degrés de liberté.
Les tables de Student donne
St suit à peu près
normale réduite.

P St  x  . Ces tables ne sont établies que pour n  30 , après on considère que
N 0,1. En effet, la loi des grands nombres montre que St converge en probabilité vers la loi
Application de cette loi
Soient
 X m
X 1  X n indépendants, un échantillon de N m,   . Alors  *  n suit Student à n - 1 degrés
  n 1 
de liberté.
Intervalle de confiance pour l'espérance m d’une loi normale
Déterminons l'intervalle de confiance pour m ,au seuil .
X 

X 
X
Cas où  est connu





 
P X  m     ou P X  m    1   . X suit N  m,
 . On se ramène
n

 X m



  1   et on déduit  n .
à la loi normale réduite : P
n

n
 





On cherche  tel que

Cas où  est inconnu
Comme  est inconnue, on ne peut pas se ramener à la loi normale réduite. On va donc utiliser l’estimateur de
l’écart-type
avec

 n*1
et la loi de Student : c’est-à-dire, on cherche  tel que
 X m
P *
  n 1

n



n
,
*

 n1

 X m
 *  n qui suit Student à n - 1 degrés de liberté.
 

 n 1 
Propriété importante, cas où  est inconnu, grand échantillon
Dans le cas d’un grand échantillon
vrai si


n  30, on a  X * m 
  n 1 
n qui suit la loi normale réduite. C’est encore
X 1  X n est un échantillon quelconque (pas forcément une loi normale) ! Ce théorème est une
conséquence de la loi des grands nombres, et du théorème central limite.
Page 5 sur 10
Esnard Aurélien
Statistique
ENSERB Informatique
Loi de Snedecor
X1  X m
deux échantillons indépendants, qui suivent la loi normale réduite. Par définition, on a
Y1 Yn
Considérons 
S m,n
1
2
Xi

X2
m m
qui suit la loi de Snedecor à


2
1
2
Y
 Yi
n n
m
  degrés de liberté.
n
Tests d’hypothèses
Généralités
On cherche à tester une hypothèse.
1.
Le bon choix de l'hypothèse : Considérons le problème classique du critère de qualité : par exemple, le
vendeur vient de recevoir un lot de 1000 pièces et il souhaite qu'il y ait moins de 50 pièces défectueuses
dans le lot. L'hypothèse H à tester est celle dont on a confiance dans le rejet, c'est-à-dire "Il y a plus de 50
pièces défectueuses dans le lot". Il ne faut pas confondre avec l'hypothèse contraire H qui représente ce en
quoi on a confiance dans l'acceptation. Soit  un paramètre de la loi de X sur lequel doit portee le test. Par
exemple, X suit N m,  et   m . On distingue deux sortes d’hypothèses : les hypothèses composées

(" m 
2.

m0 ") et les hypothèses simples (" m  m0 ").
La condition de rejet de l'hypothèse : On définit alors une condition ou région de rejet de l'hypothèse H.


Par exemple X  a pour " m 
3.


m0 ", et X  m  a pour " m  m0 ".
Condition de seuil : On cherche à déterminer a tel que
Prejet H / H vraie   (risque de 1ère
espèce) avec  un seuil donné. On exprime que la probabilité que l'on se trouve dans la région de rejet de H,
sachant que H est vraie, est inférieure au seuil . En effet, le seuil représente le niveau de confiance que l'on
souhaite avoir dans le rejet, qui est en général de 0.05, 0.01 ou 0.1. Plus  est petit, et plus le niveau de
confiance exigé pour l'acceptation de H est élevé.
4.
Principe de la puissance maximum : On obtient en résultat une inégalité sur a, le plus souvent
a  a0 ou a  a0 . On applique le principe de la puissance maximum, qui cherche à grandir au maximum
la région de rejet. Ce qui impose
5.
a  a0 .
Interprétation du résultat : Il faut envisager deux cas. Ainsi, si on a effectivement
X  a0 alors on peut
rejeter l'hypothèse H avec un niveau de confiance de 90%, 95% ou 99% , ce qui revient à accepter H . En
revanche, si

X  a0 n'est pas vérifié, alors il n'y a pas de rejet.
Test de Bayes
P1  Prejet H / H vraie un coût C1 et au risque de 2nde espèce
P2  Paccepter H / H faux un coût C2. On définit le coût moyen d'erreur par C  C1 P1  C2 P2 . On
On affecte au risque de 1ère espèce
cherche le minimum de C.
Comparaison de deux moyennes
X : X1  X m
deux échantillons indépendants.
Y : Y1 Yn
Considérons 
Page 6 sur 10
Esnard Aurélien

Statistique
Grands échantillons (taille  30)
On ne suppose rien sur X et Y. On pose
m X  E X  et mY  EY  . T 
près la loi normale réduite.
On veut tester l'hypothèse H :"
ENSERB Informatique
Y  X   m
Y
 mX 
suit à peu
1 2 1 2
S X  SY
m
n


m X  mY ". On prend la condition de rejet Y  X  a . Seulement d'un




YX


 a  . On cherche à
point de vue strictement calculatoire, il serait plus habile de prendre 
 1 S 2 1S 2

Y
 m X

n
déterminer a pour un seuil  donné. On écrit Prejet H / H vraie   , c'est-à-dire PT  a    avec T
qui suit
N 0,1. On en déduit a  a0 . Le principe de la puissance maximale impose a  a0 .
 Petits échantillons
On suppose en plus que X et Y suivent des lois normales de même écart-type. On définit



mnm  n  2 Y  X  mY  m X 
. U suit la loi de Student à m  n  2 degrés de liberté.
2
2
mn
mS X  nSY
On veut tester l'hypothèse H :" m X  mY ". Comme précédemment, on cherche à se ramener au théorème ;
U
 mnm  n  2

YX
 a  . On cherche à déterminer a
2
2
mn
mS X  nSY


pour un seuil  donné. On écrit Prejet H / H vraie   , c'est-à-dire PU  a    avec U qui suitla loi
donc, on prend la condition de rejet 
de Student à
m  n  2 degrés de liberté. En application du principe de la puissance maximale, on déduit
a  a0 .
Test des longueurs (comparaison de deux lois)
X : X1  X m
deux échantillons indépendants. On veut tester l'hypothèse H :" X et Y suivent la

Y : Y1 Yn
même loi". On classe par ordre croissant (ou décroissant) les x et les y en les regroupant : xx, y, xxx, yyyy, x .
On appelle L le nombre des longueurs. Ici, L  5 . Si L est petit, cela signifie que les X et les Y ne se mélange
Considérons
pas bien ; par conséquent, il ne s'agira pas de la même loi. On traduit l'hypothèse H dans cette même idée, en
disant que tous les ordres possibles sont équiprobables. La condition de rejet est L  l . On cherche à
déterminer l tel que


PL  l / H vraie   .

Petits échantillons
Supposons m  n . On s'intéresse au X, les résultats sont symétriques pour Y. Soit s le nombre de longueurs
relatif au X. On a :
2C ms 11C ns11
pour 1  s  m
C mm n
-
P L  2 s  
-
PL  2s  1 
C ms 1C ns11  C ms 11C ns1
pour 1  s  m
C mm n
Page 7 sur 10
Esnard Aurélien
Grands échantillons ( m, n  7 ou 8 )
L suit
ENSERB Informatique
C mn 1
C mm n
PL  2m  1 
-

Statistique
N mL ,  L  avec m L  1 


2mn
2mn m 2  n 2  m  n
et  L 
.
mn
m  n2
Test du rang (comparaison de deux lois)
X : X1  X m
deux échantillons indépendants. On veut tester l'hypothèse H :" X et Y suivent la

Y : Y1 Yn
même loi". On classe par ordre croissant (ou décroissant) les x et les y : x x y x x x y y y y x . Soit T la somme
des rangs de X. Ici, T  1  2  4  5  6  11  29 .
Considérons

Définition du test




Y est stochastiquement supérieure à X, noté Y  X si et seulement si z, P Y  z  P X  z . On teste
l'hypothèse H : "X et Y suivent la même loi" contre K : "Y est stochastiquement supérieur à X". La condition de
rejet de H est T  t . On cherche à déterminer t tel que P T  t / H vraie   .





Théorème
Si H est vraie, si n et m sont "grands", alors T suit à peu près
T2 
N mT , T  avec mT 
m
m  n  1 et
2
mn
m  n  1 .
12
Test du 2
Considérons un échantillon X
: X 1  X n . A partir de l'histogramme, on imagine la loi P de X. On teste
l'hypothèse H : "X suit la loi P". Ce test va permettre de vérifier si un échantillon est conforme à une loi. On
effectue un partage de la droite réelle en q classes. Chaque classe doit comporter un nombre suffisant de xi.
A1
A2
On rappelle :

la fréquence de la classe des Aj :
pj 
Aq
Card A j 
n
la fréquence théorique de la classe des Aj : p j  P X  A j  calculé avec la loi P
Règle heuristique pour le partage en classe
1. Le nombre de classes doit être supérieure à 4 fois le nombre de paramètre de la loi. Par exemple pour la
loi normale, il faudra au moins 8 classes.
2. Le nombre d'éléments attendus pour la classe A j doit être telle que np j  5 , sauf éventuellement
pour deux classes où il doit être > 1.

Théorème
Si H est vraie, Yn  n
 p  p
q
j 1
1
j
2
 p j  converge en loi vers la loi du 2 à q – 1 degrés de liberté.
j
Page 8 sur 10
Esnard Aurélien

Statistique
Condition de rejet
La condition de rejet de H est
ENSERB Informatique
Yn   ou Yn   . Si Yn  
fréquences théoriques p j pour que X suivent la loi P. Si
, la fréquence des p j est trop différente des
Yn   , l'échantillon est trop bon, et il a certainement
été truqué !
Analyse de la variance
Test de comparaison de S moyennes (S  3)
X 1 , X 2  X S suivent des lois normales avec même écart-type : N mi ,   pour 1  i  s . On souhaite tester
l'hypothèse H : " m1  m2    mS ". Pour chaque Xi, on dispose d'un échantillon Xi,j avec j  1 ni . Soit
n la somme des ni. On suppose tous les Xi,j indépendants.
On définit :
-
-
-
-

1 ni
 X i, j , l'estimateur de Xi ;
ni j 1
1
1
X   X i , j   ni X i , la moyenne estimée globale ;
n i, j
n i
Xi 


2
1 ni
X i , j  X i , l'estimateur de variance de Xi ;

ni  1 j 1
2
1
ni  1Vi*  1  X i , j  X i
V* 

nS i
n  S i, j
2
*
1
2 
ni X i  X , l'estimateur de  2 (si H vraie).

S 1 i
Vi 
*




Théorème
 S 1

 degrés de liberté. La condition de rejet de H est W  w.
V
n  S 
Donc on cherche w tel que PW  w / H vraie   .
Si H est vraie, W 
2
*
*
suit Snedecor à
Test de l’interaction et de l’influence de deux facteurs A et B sur un caractère X
 Préliminaires
Soit X un caractère sur lequel peuvent agir deux facteurs A et B. A peut prendre des états A1… Ap, B peut prendre
des états B1… Bq. Lorsque A  Ai et B  B j , le caractère obtenu est X i , j .  i représente l'influence de la
cause
A  Ai ,  j représente l'influence de la cause B  B j ,  i, j représente l'influence de l'interaction entre
les deux causes. On suppose que X i , j suit
Considérons l'équation


N mi , j ,  2 , avec 2 fixé.
   i   j   i , j  mi , j
de même que la somme des
i
est nulle,
est nulle par rapport à i et par rapport à j. On a
  m,
pour i  1 p et j  1 q . La somme des
 j . La somme des  i, j
 i  mi ,  m ,  j  m, j  m .
On définit les hypothèses suivantes :
- HI : "Il n'y a pas d'interaction.", c'est-à-dire i, j ,  i , j  0 .
Page 9 sur 10
Esnard Aurélien

Statistique
ENSERB Informatique
i, i  0 .
HB : "Le facteur B n'a pas d'influence.", c'est-à-dire j ,  j  0 .
HA : "Le facteur A n'a pas d'influence.", c'est-à-dire
Cas où il n'y a pas d'interaction
On se place dans le cas où il n'y a pas d'interaction entre les facteurs A et B : i, j ,  i , j  0 . Cf. Notations…
~ 2 
pq

2
S , est un estimateur sans biais de  2 , et il suit la loi du 2 à  p  1q  1 degrés de liberté.
2
Par conséquent, on peut effectuer une estimation par intervalle de confiance de
Test de HA : Si HA est vraie, alors
liberté. La condition de rejet est
WA  q  1
SA
2.
2
S ,
2
suit la loi de Snedecor à
 p 1


 degrés de
 p  1q  1
WA  wA . On cherche wA tel que PWA  wA / H vraie  0.05 .
 Cas plus général (avec échantillons)
(…)
Page 10 sur 10
Téléchargement