SMI semestre 4 : Probabilités - Statistique

publicité
UNIVERSITE MOHAMMED V-AGDAL
SCIENCES
FACULTE DES
DEPARTEMENT DE MATHEMATIQUES
SMI semestre 4 : Probabilités - Statistique
Introduction à la Statistique Inférentielle
Prinemps 2013
Introduction à la Statistique Inférentielle
0 – INTRODUCTION
La statistique est la science dont l'objet est de recueillir, de traiter et d'analyser des données
issues de l'observation de phénomènes aléatoires, c'est-à-dire dans lesquels le hasard
intervient.
L'analyse des données est utilisée pour décrire les phénoménes étudiés, faire des prévisions
et prendre des décisions à leur sujet. En cela, la statistique est un outil essentiel pour la
compréhension et la gestion des phénomènes complexes.
Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile dans tous
les champs disciplinaires et explique pourquoi elle est enseignée dans toutes les filières
universitaires, de l'économie à la biologie en passant par la psychologie, et bien sûr les
sciences de l'ingénieur.
Les méthodes statistiques se répartissent en deux classes :
- La statistique descriptive, statistique exploratoire ou analyse des données, a pour but de
résumer l'information contenue dans les données de façon efficace. Elle utilise pour cela des
représentations de données sous forme de graphiques, de tableaux et d'indicateurs
numériques (par exemple des moyennes). Elle permet de dégager les caractéristiques
essentielles du phénomène étudié et de suggérer des hypothèses pour une étude ultèrieure
plus sophistiquée. Les probabilités n'ont ici qu'un rôle mineur.
- La statistique inférentielle va au delà de la simple description des données. Elle a pour but
de faire des prévisions et de prendre des décisions au vu des observations. Les probabilités
jouent ici un rôle fondamental.
L'objet de ce cours est de décrire les techniques de la statistique inférentielle utilisées pour
recueillir de l'information et prendre des décisions à partir des données observées.
2
Introduction à la Statistique Inférentielle
1 - ECHANTILLONNAGE
Tout, dans la statistique inférentielle, repose sur l'étude des distributions des échantillons.
1.1 - Généralités
Le terme d'échantillon est souvent associé à un sous-ensemble de cardinal n tiré d'une
population finie ou infinie selon certaines règles: il s'agit alors d'un échantillon d'individus.
Dans cette partie, on s'intéresse plutôt aux échantillons de variables que l'on relie aux
échantillons d'individus par la considération élémentaire suivante:
Sur chaque individu tiré, on mesure une certaine grandeur X et on note
observées. Le n-uplet x = (
) est un échantillon de valeurs.
les valeurs
Exemple 1: On prélève au hasad n ampoules électriques dans une production et on mesure
leur durée de fonctionnement. Si les caractéristiques de fabrication n'ont pas varié d'une
ampoule à l'autre, les différences entre les (xi) peuvent être considérées comme des
fluctuations de nature aléatoire.
Cette dernière remarque justifie l'hypothèse fondamentale de la théorie de
l'échantillonnage: Les valeurs observées xi sont des réalisations d'une même variable
aléatoire X, appelée variable parente ou de population. Dans notre exemple, ceci revient à
postuler l'existence d'une variable abstraîte, la durée de vie d'une ampoule de type donné,
fabriquée dans des conditions données.
On peut cependant introduire aussi le modèle suivant:
À chaque individu tiré, on associe une variable aléatoire Xi dont on observe une seule
réalisation xi.
L'hypothèse formulée plus haut revient alors à dire que les Xi sont des variables aléatoires
réelles ayant toutes la même distribution, celle de X. On supposera également que les X i sont
indépendantes (dire qu'elles sont indépendantes sous entend qu'elles sont définies sur le
même espace de probabilit
).
Définition 1:
Les variables aléatoires
forment un échantillon aléatoire de taille n (on dit
aussi un n-échantillon) si les v.a.
sont indépendantes et identiquement distribuées
(i.i.d. en abrégé).
On dit que (
) est un échantillon de taille n (ou aussi un n-échantillon),si pour
tout i, xi est une réalisation de Xi .
Dans toute la suite on notera les variables aléatoires par des lettres capitales, et leurs
réalisations (non aléatoires ou déterministes) par des lettres minuscules.
En convenant de noter par fX(.) aussi bien la masse de probabilité dans le cas discret que la
densité marginale dans le cas continu de la v.a. X, c'est-à-dire:
,
La densité conjointe du n-uplet (X1,..., Xn) est donnée par:
3
Introduction à la Statistique Inférentielle
Cette densité conjointe peut être utilisée pour calculer diverses probabilités relatives à
l’échantillon
. En particulier, si fX(x) appartient à une famille paramétrique de
densités de probabilités { (x) , } où l'espace des paramètres  est contenu dans IRk,
k1, nous avons:
avec inconnu.
En considérant différentes valeurs possibles de , on peut étudier le comportement de notre
échantillon pour différentes distributions appartenant à la famille considérée.
Exemple 2 : Soit
un n-échantillon représentant les n durées de fonctionnement (en
mois) de n ampoules issues d'une population exponentielle de paramètre :
n
-  x i /
n
n
f(x1,...,xn) =  f(xi) =  (1/) e-xi/ = (1/n) e i1
,
x1,...,xn  0.
i 1
i 1
Quelle est la probabilité que toutes les ampoules admettent une durée de fonctionnement
d'au moins 2 mois?
 
P(X1> 2,..., Xn > 2) =  ...2 f(x1,...,xn)dx1dx2...dxn
2
  n
= 2 ...2  (1/) e-xi/ dx1dx2...dxn
i 1

 n
= e-2/ 2 ...2 {  1/ e-xi/ }dx2...dxn
(intégration p.r. à x1)
i 1
= ...
(intégration p.r. à xi)
= (e-2/ )n
= e-2n/.
On peut retrouver ce résultat en utilisant l'indépendance des v.a. X 1,...,Xn :
P(X1 > 2, ..., Xn >2) = P(X1 >2) ... P(Xn >2)
= (P[X1 > 2])n
= e-2n / 
(indépendance)
(lois identiques)
(loi exp())

Remarques:
1) Le modèle d'échantillonnage décrit dans la définition 1 est aussi appelé échantillonnage à
partir d'une population infinie.
2) Echantillonnage d'une population finie: dans ce cas, les hypothèses d'indépendance
peuvent ne pas être vérifiées selon que le tirage est avec ou sans remise. Considérons en
effet une population finie dont les N mesures ou observations possibles de X sont
{x1,..., xN}. Un échantillon
est à constituer à partir de cette population. On peut
procéder de deux manières:
i) tirage avec remise: dans ce cas, chaque Xi est une variable discrète prenant chaque
valeur xi avec la même probabilité 1/N :
1
P(Xi=xi) = ,
 i=1,...,N
N
4
Introduction à la Statistique Inférentielle
Les (Xi) sont indépendantes car le processus de choix de toute variable Xi est le même
indépendamment de la valeur obtenue.
ii) tirage exhaustif ou sans remise: l'indépendance est en défaut car par exemple, si x et y
sont deux éléments distincts de l'ensemble {x1,...,xN}, on a P(X2=y/X1=y)=0 car y ne peut
être choisi à l'étape suivante, alors que P(X2=y/X1=x) = 1/(N-1) et donc la loi de X2 dépend
de celle de X1. Cependant, si N est grand comparativement à n, les variables aléatoires
peuvent être considérées comme presque indépendantes. Ceci est illustré par
l'exemple suivant.
Exemple 3: P = {1,...,1000} est notre population de taille N=1000. Un échantillon de taille
n=10 est tiré sans remise. Quelle est la probabilité que toutes les 10 valeurs échantillonnées
soient > 200?
 Si X1,..., X10 sont indépendantes et, puisque P(Xi > 200) = 800/1000, i, on a:
10
10
P(X1> 200,..., X10 > 200) =  P(X1>200) = ( 800 1000 ) = 0,107374.
i 1
 Calcul exact: Soit la v.a. Y = nombre de X i > 200 parmi n. Alors, Y suit la loi
hypergéométrique H(N,n,r) avec N=1000, n=10, r=800, et donc
10
0
10
P (Y=10) = P(X1 >200,..., X10 >200) = C 800 C 200 / C1000= 0,106164,
valeur qui est très proche de celle obtenue sous l'hypothèse d'indépendance

Dans la suite du cours, nous utilisons la définition 1 comme définition d'un échantillon
aléatoire.
1.2 - Statistiques basées sur un échantillon aléatoire
Il est d'usage dans la pratique de résumer les n valeurs x1,..., xn observées d'un échantillon
X =(
) par quelques caractéristiques simples telles que la moyenne, la variance,
l'étendue, la plus grande valeur, etc. Ces caractéristiques sont elles-mêmes des réalisations
ou observations de variables aléatoires qui sont fonctions de l'échantillon aléatoire X.
Définition 2:
Soit
un échantillon de taille n de X et soit T(
) une fonction vectorielle
définie sur l'espace image du vecteur X=(
). Alors la variable aléatoire ou vecteur
aléatoire défini par T=T(X) est appelée statistique. La distribution de probabilité de la
statistique est appelée distribution échantillonnale de T.
Exemple4 :
est une statistique
est sa valeur observée
Remarque:
a) La définition d'une statistique est assez large, mais il est sous-entendu qu'une
statistique ne peut dépendre d'un paramètre.
5
Introduction à la Statistique Inférentielle
b) Une statistique peut être à valeurs dans IR ou dans IRp. Dans ce dernier cas, on parlera
de statistique vectorielle.
Les résumés empiriques par une statistique peuvent contenir diverses informations. La plus
petite et la plus grande de ces valeurs ainsi que leur valeur moyenne constituent des
exemples courants de tels résumés.
Définition 3:
1) La moyenne échantillonnale est la variable aléatoire définie par:
2) La variance échantillonnale est la variable aléatoire définie par:
S2 =
n
2
 (X i  X) .
n - 1 i1
1
L'écart-type échantillonal est la racine carrée S de la variance échantionnale.
3) La statistique d'ordre de l'échantillon X1,..., Xn est l'échantillon ordonné dans l'ordre
croissant et noté X(1),..., X(n) avec :
X = min X , X = seconde plus petite observation ,.., X = max X .
(1) 1  i  n
i
(n) 1  i  n
(2)
i
4) L'étendue échantillonnale R est la variable aléatoire :
R = X(n) - X(1).
Remarques:
a) Dans cette définition, on devrait écrire:
), S = S(X1,...,Xn), R = R(X1,...,Xn), etc.
X = X(
b) La variance et l'écart-type échantillonnaux sont deux mesures de la variabilité dans
l'échantillon. Ces deux caractéristiques sont liées à la variance et l’écart-type inconnus de la
population comme nous le verrons plus loin.
1.2.1 - Propriétés de
X
et S2
Lemme 1: Soit X = (
) un échantillon aléatoire et x
réalisation de X. Soit x la moyenne empirique des xi. Alors:
n
n
2
a) M in
(x   ) 2 =  (x  x )
une observation ou
 i
1
i
i
i1
n
n 2
2
b) (n-1) s2 =  (x i  x ) =  x i - n x 2
i1
i1
n
n
2
2
Preuve :
 (x i   ) =  (x i  x + x -  )
i1
i1
n
2
n
n
2
n
n
=  (x i  x ) +  (x   ) 2 + 2  (x i  x)(x -  )
i1
i1
i1
=  (x i  x ) +  (x   ) 2 .
i1
i1
Cette dernière expression résulte du fait que
6
Introduction à la Statistique Inférentielle
Elle montre clairement que
est minimisée par  = x , d'où a).
L'identité b) se déduit par un calcul analogue au précédent

Commentaires: Pour résumer les n valeurs observées d'un échantillon, il ne faut jamais
perdre de vue qu'un resumé par une seule caractéristique n'a aucun sens: la statistique
commence précisement là où il y a variabilité et on ne peut évidemment pas se contenter
d'une valeur unique telle que la moyenne. Il convient donc de définir à la fois une valeur
centrale et une mesure de dispersion autour de cette valeur. La recherche de cette valeur
centrale répond à la préoccupation suivante:
par une valeur unique  aussi voisine que possible des (xi)".
"Résumer les n valeurs
Nous commençons par étudier les distributions échantillonnales de X et de S2 en
considérant d'abord l'espérance de ces statistiques.
En utilisant la linéarité de l'espérance mathématique ainsi que l'indépendance, on peut établir
le théorème suivant:
Théorème 1:
Soit X un n-échantillon d'une population de moyenne  et de variance 2 finie. Alors on a :
a) E[ X ] = 
2
b) Var[ X ] = 
n
c) E[S2] = 2.
Preuve:
a) E[ X ] =
=
;
(Car X1,..., Xn sont de même loi)
=
b)
étant indépendantes et de même loi, donc
Var( X ) =
1
n var( X1)
n
2
2
= n2 = n .
n
c) Puisque:
, on a:
X
X

7
Introduction à la Statistique Inférentielle
Commentaires: les deux relations a) et c) du théorème précédent sont des relations entre
une statistique ( X ou S2) et un paramètre de la population ( ou 2). Ce sont deux exemples
de statistiques sans biais (à voir plus loin en détail).
Théorème 2: (Théorème central limite)
Soit
un n-échantillon de X. On pose =E(X) et 2=var(X).
On considère la variable aléatoire centrée réduite Zn définie par:
Alors, pour n grand, la distribution de Zn est approximativement
P (Zn  x)  P (Z  x) pour n grand, avec Z de loi
(0,1):
(0,1).
Ainsi, lorsque n est suffisamment grand, la moyenne X est assimilée à une v.a. normale
quelque soit la distribution de l'échantillon X.
1.3 - Echantillonnage à partir d'une distribution normale
Le théorème central limite est souvent utile lorsque la distribution échantillonnale de X ou
de S2 est inconnue ou difficile à déterminer. Dans le cas où X 1,..., Xn est issu d'une
population de loi normale
, il est facile de déduire plusieurs propriétés
échantillonnales intéressantes.
En particulier, nous avons:
Théorème 3: (Théorème de Fisher).
Soit (
) un n-échantillon issu d'une population normale
moyenne et sa variance échantillonnales. Alors:
(,2). Soient X et S2 sa
a) X et S2 sont deux variables aléatoires indépendantes;
b)
;
c)
la loi Khi-deux à (n-1) degrés de libertés d.d.l.
d)
la loi de Student à (n-1) d.d.l.
La détermination des lois de X et S2 est une des premières étapes dans l'analyse statistique.
En particulier, la variance 2 est inconnue dans la plupart des cas pratiques et, pour avoir
une idée précise de la variablilité de X (considérée comme estimateur de ), il est
nécessaire d'estimer cette variance.
Si
suit la loi
(,2), alors la variable aléatoire
.
Si on connait et on observe X , on peut utiliser Z pour faire de l'inférence concernant  car
ce paramètre est le seul inconnu dans ce cas. Cependant, lorsque  est inconnu, l'utilisation
de Z devient impossible. Student (pseudonyme de W.S Gosset, 1900) a proposé dans ce cas
d'utiliser plutôt la statistique
.
8
Introduction à la Statistique Inférentielle
2 – ESTIMATION PONCTUELLE
On observe un échantillon
issu d'une variable aléatoire X dont la loi de
probabilité dépend d'un paramètre inconnu.
Le problème qui se pose est celui de l'estimation du paramètre .
L’estimation statistique consiste à donner, à partir des observations
, une
approximation ou une évaluation de que l'on espère la plus proche possible de la vraie
valeur inconnue. On pourra proposer une unique valeur vraisemblable pour (estimation
ponctuelle), ou un ensemble de valeurs vraisemblables (estimation ensembliste ou région de
confiance).
Exemple5 : Supposons qu'on fabrique des pièces sur une machine, chaque pièce ayant une
probabilité  inconnue (mais la même pour chaque pièce) d'être défectueuse.
On cherche, à l'aide d'un échantillon de n pièces, à obtenir des renseignements sur .
Pour cela, on dispose de l'observation, constituée du nombre X de pièces défectueuses parmi
les N pièces fabriquées.
Il est "naturel" de prendre comme valeur de  la proportion X N de pièces défectueuses.
Il est "vraisemblable" que la valeur exacte de  soit proche de X/N, mais tout-à-fait
invraisemblable qu'elle soit égale à X N exactement.
2.1 - Méthodes d'estimation ponctuelle
Dans cette section, nous présentons deux méthodes classiques qui permettent de sélectionner
des estimateurs raisonnables pour le paramètre inconnu  (ou encore une fonction
de ce paramètre).
Mais il faut d'abord définir précisement ce que sont une estimation et surtout un estimateur.
Pour estimer
on ne dispose que des données
, donc une estimation de
sera une fonction de ces observations.
Définition4 : Soit
un échantillon issu d’une loi de paramètre . On appelle
estimateur de toute staistique T(X)=T
à valeurs dans l'ensemble des valeurs
possibles de . Une estimation de est une réalisation t de l'estimateur T.
Un estimateur est donc une variable aléatoire, alors qu'une estimation est une valeur
déterministe.
2.1.1 - Méthode des moments
Soit X un échantillon d'une distribution dépendant de k paramètres 1,...,k. Soient
les
k moments d'ordre j (
) de la v.a X. On définit les moments échantillonnaux
d'ordre j correspondants par :
Pour pouvoir appliquer la méthode des moments, supposons pouvoir exprimer les k premiers
moments
en fonction des k paramètres 1,...,k :
On remplace ensuite les moments
système :
par leurs estimateurs respectifs mj puis on résout le
9
Introduction à la Statistique Inférentielle
Les k solutions
paramètres
de ce système, constituent les estimateurs des moments des k
.
Exemple6: Soit
paramètre à estimer est
un échantillon issu d’une v.a aléatoire X. Supposons que le
, où  est la moyenne de X et 2 est sa variance.
On a dans ce cas:
le système à résoudre est:
D'où :
.
Et l’estimateur des moments pour
est
.
2.1.2 - Méthode du maximum de vraisemblance
Soit
un échantillon aléatoire issu d’une loi inconnue appartenant à la
famille de lois paramétriques {
}, et soit x =
la valeur observée
correspondante.
Définition 5:
On appelle fonction de vraisemblance, la fonction définie sur  par
Les va
étant indépendantes, donc
N.B: Dans la suite de ce cours on notera par la loi de probabilité d’une v.a discrète
(
et la densité de probabilité d’une v.a continue(
.
Définition 6:
Soit
un échantillon aléatoire issu d’une loi inconnue appartenant à la
famille de lois paramétriques {
}, et soit x =
une valeur observée de X.
pour x fixé on note
de
qui maximise, la fonction de
10
Introduction à la Statistique Inférentielle
est appelée l’estimateur du maximum de
La statistique
vraisemblace (EMV) de
La méthode du maximum de vraisemblance (M.M.V) consiste, étant donné un échantillon
de valeurs
, à estimer le paramétre  par la valeur
qui rend maximale la
fonction de vraisemblance
:
Pour déterminer la valeur , il est souvent commode d'utiliser
car cette
dernière fonction atteint son maximum au même point que la fonction
et se prète
mieux aux calculs. En effet, si
et
est différentiable en
les candidats possibles pour l’E. M.V sont les valeurs de 1,...,k solutions du système
Exemple7:
Contrôle de qualité par sondage: Une machine fabrique une proportion  inconnue de
pièces défectueuses. On désire estimer . Pour cela, on effectue un sondage:
On prélève n pièces avec remise et on observe les v.a
où Xi = 1 si la pièce tirée
est défectueuse et 0 sinon. Les données xi sont les valeurs observées des n variables
aléatoires indépendantes
de même loi
:
.
La fonction de vraisemblance est donnée par:
En dérivant la fonction
et en résolvant par rapport à
nous obtenons l'estimateur de M.V. de
l'équation:
suivant:
Exemple8:
Fiabilité: Considérons la v.a. continue à valeurs positives X représentant la durée de
fonctionnement sans panne d'un système. Sa densité de probabilité f est celle d'une
distribution exponentielle de moyenne
1/ .
On désire estimer par la méthode du M.V le paramètre . Pour celà, on considère n systèmes
identiques et on observe leur durée de vie
. Ce sont des observations des v.a.
qui sont i.i.d. de loi exp ( ) où
est inconnu. La fonction de vraisemblance est
donnée par:
L(x, ) =
11
Introduction à la Statistique Inférentielle
et la fonction logarithme de la vraisemblance L(x, ) est:
.
En déterminant le zéro de la dérivée de cette fonction par rapport à , on obtient:
L'estimateur du maximum de vraisemblance du paramètre  est donc:
.
Exemple9:
Dans le cas d'un échantillon aléatoire
vraisemblance est donnée par :
de loi Uniforme sur
, la fonction de
.
Cette fonction est maximale en
. L'estimateur de M.V de
est donc:
2.2 - Méthode d'évaluation d'estimateurs
Dans la section précédente, nous avons présenté deux méthodes de construction
d'estimateurs raisonnables d'un paramètre  ou d'une fonction
de celui-ci.
Ces techniques d'estimation conduisent généralement à différents estimateurs et la question
qui se pose tout naturellement est celle du choix entre ces derniers.
Soit X = (
) un n-échantillon dont la distribution est spécifiée grace à un paramètre
   inconnu, et soit T=T(X) un estimateur de la fonction
de ce paramètre.
T sera un bon estimateur de
s'il est suffisamment proche, en un certain sens, de
.
Il faut donc définir une mesure de l'écart entre
et T. On appelle cette mesure le risque
de l'estimateur. On a intérêt à ce que le risque d'un estimateur soit le plus petit possible.
Parmi les critères qui permettent d'optimiser le choix d'un estimateur, nous avons:
Définition 7:
Le risque moyen quadratique où erreur moyenne quadratique (EMQ en abrégé) d'un
estimateur T=T(X) de
est la fonction de  définie par:
Où
désigne l'espérance mathématique relativement à
.
Remarque :
En écrivant
, il est facile d'exprimer l'EMQ en fonction
de la moyenne et la variance de l'estimateur T. On a:
,
12
Introduction à la Statistique Inférentielle
où
La fonction
.
désigne le biais de l'estimateur T.
Définition 8:
Soient T = T(X) et S=S(X) deux estimateurs de
On dit que T est meilleur que S (au sens de l’EMQ) si
, pour tout   ,
Il est dit strictement meilleur si de plus il existe au moins une valeur de
l'inégalité précédente est stricte.
Exemple10:
Soit X un n-échantillon de loi
échantillonnale . Comme
. Un estimateur raisonnable de
et
, on a:
pour laquelle
est la moyenne
.
La dernière égalité résulte du fait que suit une loi
(d'après le théorème 3).
D'autre part, la statistique
peut aussi bien être considérée comme estimateur de .
Sa moyenne est égale à  et son EMQ vaut
.
Donc l'estimateur
est strictement meilleur que
(si n>1).
L'exemple précédent montre que
est strictement meilleur que
estimer la moyenne d'une loi normale.
lorsqu'on veut
2.3 - Estimateurs sans biais
Le biais mesure
Par exemple, si
une
erreur systématique d'estimation de
par T.
, cela signifie que T aura tendance à sous-estimer
.
Définition 9:
On appelle estimateur sans biais de
toute statistique T=T(X) telle que :
Remarque:
a) Si T est un estimateur sans biais, son EMQ est égale à sa variance. On en déduit
immédiatement que de deux estimateurs sans biais, le meilleur est celui qui a la plus petite
variance. On a donc intérêt à ce qu'un estimateur soit sans biais et de faible variance.
b) La définition précédente signifie que l'estimateur sans biais T n'a tendance ni à sousestimer ni à sur-estimer le paramètre  : en moyenne il vise juste.
Exemples11:
Contrôle de qualité par sondage (suite): dans cet exemple, l'estimateur de M.V du
paramètre  est donné par X . Il s'agit là d'un estimateur sans biais puisque:
Exemples12:
Fiabilité: L'estimateur du MV de  est
. Est-il sans biais?
13
Introduction à la Statistique Inférentielle
loi
Suit la loi gamma
, car c’est la somme de n variables aléatoires i.i.d de
sa densité de probabilité est:
et alors,
Et
n'est pas un estimateur sans biais de .
Par contre, l'estimateur
est sans biais.
Nous avons vu précédemment que le critère d'EMQ n'est autre que la variance d'un
estimateur sans biais. Par conséquent, la comparaison d'estimateurs sans biais selon la
définition 8 revient à comparer leurs variances respectives.
Exemple13: Estimation du paramètre d'une distribution uniforme.
Soit
un échantillon d'une v.a. de loi Uniforme sur
, où  est un
paramètre réel positif inconnu. Puisque:
il est "naturel" d'utiliser l'estimateur sans
biais (estimateur des moments) T=T(X)=2 X .
.
Un second estimateur de  est l'estimateur du MV obtenu précédemment:
S
Un tel estimateur est-il sans biais? Pour calculer E[S], nous avons besoin de déterminer la
densité de probabilité de la v.a. S.
Soit
sa fonction de répartition:
Il en résulte, en dérivant
par rapport à x:
14
Introduction à la Statistique Inférentielle
Par suite, on a:
.
et S n'est donc pas sans biais.
Par contre, l'estimateur
est sans biais et on peut vérifier que :
. Par conséquent, l'estimateur U fonction de l'estimateur du MV est
meilleur que l'estimateur naturel des moments T=2 X
et tout n >1.
puisque var(U)  var(T) pour tout 
Définition 10:
On dit qu'un estimateur T=T(X) de la fonction g() du paramètre  est un estimateur sans
biais de variance minimale s'il est sans biais pour g() et si, pour tout autre estimateur
S=S(X) sans biais de g(), on a:
R(,T) = var(T)  var(S) = R(,S),
.
La recherche du meilleur estimateur sans biais de variance minimale (s'il en existe un!) n'est
pas une tache facile en général. La difficulté réside d'abord dans l'évaluation de la variance
d'estimateurs potentiels. Une autre difficulté réside dans la détermination du meilleur
estimateur sans biais au sens de la définition précédente: même si on montre par exemple
que var (T)  var(S), rien ne permet d'affirmer qu'il n'existe pas d'autres estimateurs sans
biais de variance inférieure à celle de T.
15
Introduction à la Statistique Inférentielle
3 - ESTIMATION ENSEMBLISTE
3.1 - Introduction
Il peut parfois être intéressant de chercher à approcher le paramètre  inconnu non pas
par un point T(X) mais par un sous-ensemble de l'espace  des paramètres. Autrement dit,
au lieu d'un estimateur ponctuel, on cherche un estimateur ensembliste de  appelé aussi
intervalle ou domaine de confiance.
Note: Comme celà était convenu précédemment, nous notons par T(x) la valeur de la
statistique observée pour T(X).
Définition 10:
Un intervalle de confiance d’un paramètre réel est un intervalle
R(x) et S(x) est une paire de fonctions telle que
L'intervalle aléatoire
est appelé estimateur ensembliste de .
où
.
Exemple14:
Soit
un échantillon de loi
(,1).
Lorsqu’on estime le paramètre  par X , la probabilité, P( X =), que cette estimation soit
exacte, est nulle. Cependant, avec un intervalle de confiance on peut évaluer la probabilité
que  soit dans un intervalle I(X).
Un estimateur ensembliste possible pour  est par exemple l'intervalle I(X) = [ X -1, X +1].
Prenons pour illustrer notre échantillon gaussien, n=4.
Puisque la statistique X 
(,1/n), nous pouvons écrire en utilisant la table de la fonction
de répartition (.) de la loi normale centrée et réduite:
0,9544.
Ainsi, nous avons plus de 95% de "chance" que notre paramètre  soit dans l'intervalle
aléatoire I(X).
3.2 - Intervalle de confiance de niveau (1-)
Pour déterminer un intervalle de confiance pour un paramètre inconnu, nous devons
connaître la distribution échantillonnale d'un estimateur ponctuel de ce dernier.
Définition 11:
Soient R(X) et S(X) deux statistiques. L’intervalle aléatoire
intervalle de confiance de niveau 1- pour le parrmètre si :
est un
Les statistiques R(X) et S(X) sont respectivement les limites de confiance inférieure et
supérieure pour . Notre objectif est donc de les déterminer.
16
Introduction à la Statistique Inférentielle
est la probabilité que le paramètre n'appartienne pas à l’intervalle
, c'est à dire la
probabilité que l'on se trompe en affirmant que
. C'est donc une probabilité
d'erreur, qui doit être assez petite. Les valeurs usuelles de sont 10%, 5%, 1%, etc.
Nous allons illustrer la procédure générale par des exemples, en déterminant des intervalles
de confiance pour la moyenne et la variance dans un échantillon de loi normale.
3.2.1 Intervalle de confiance pour la moyenne d’une loi normale
Soit
un n-échantillon d'une population gaussienne
Intervalle de confiance pour la moyenne
.
lorsque la variance
est connue
La loi normale standard étant tabulée, il est alors possible de déterminer pour tout
(0,1) qui vérifie :
 appelé le -fractile de la loi
Compte tenu de la symétrie de la densité de la loi
(0,1), on a:
D'après le théorème de Fisher, nous savons que
Donc
Ainsi un intervalle de confiance de niveau 1- pour , quand
est connue, est donné par :
Exemple14:
Supposons que lorsqu'un signal ayant la valeur est transmis d'un endroit A, le signal reçu
en B est normalement distribué avec moyenne  et variance
.
Supposons que la même valeur est transmise 9 fois. Les valeurs reçues succéssivement en B
sont :
5; 8,5 ; 12 ; 15 ; 7; 9 ; 7,5 ; 6,5 ; 10,5.
Puisque x =81/9=9 et z/2=1,96 si =0,05, un intervalle de niveau 1-=95% pour la
moyenne  est alors:
17
Introduction à la Statistique Inférentielle
= [7,69 ; 10,31].
La vraie valeur du message sera comprise entre 7,69 et 10,31 avec 95% de confiance.
Intervalle de confiance pour la moyenne
lorsque la variance
inconnue
Dans ce qui a précédé, nous avons supposé que est connue. Cette hypothèse est souvent
non vérifiée dans la pratique et dans un tel cas, on pense à remplacer le paramètre inconnu
dans la v.a.
par son estimateur S.
Nous savons que la v.a.
Soit donc
que:
est distribuée selon la loi de student t à n-1 d.d.l.
le -fractile de la loi de Student t à n-1 d.d.l, c'est-à-dire le réel
tel
La loi de Student étant symétrique, donc
Donc
Ainsi un intervalle de niveau 1-
pour
lorsque
est inconnu est donné par:
Exemple15:
Avec les valeurs utilisées dans l'exemple précédent, nous avons:
x =9 et s=3,08.
lorsque =0,05 et n=9.
La table de la loi de student donne la valeur
Un intervalle de confiance de niveau 95% pour la moyenne est alors:
Un tel intervalle est bien sûr moins précis que celui obtenu lorsque la variance
supposée connue.
3.2.2. Intervalle de confiance pour la variance d’une loi normale
Intervalle de confiance pour la variance
18
lorsque la moyenne
est connue
est
Introduction à la Statistique Inférentielle
La statistique
est un estimateur sans biais pour
Nous savons que la v.a.
est distribuée selon la loi khi deux
car
(0,1) et
Soit donc
le
à n d.d.l
indépendantes.
-fractile de la loi
à n d.d.l. c'est-à-dire le réel
tel que:
Avec ces notations, nous avons :
Donc
Alors, un intervalle de niveau 1-
pour
lorsque
Intervalle de confiance pour la variance
Dans le cas où
et
Où
est connu, est donné par:
lorsque la moyenne
est inconnue
sont inconus on a :
est un estimateur sans biais pour
.
Avec les mêmes notations ci-dessus, nous avons :
où
désigne
-fractile de la loi
à (n-1) d.d.l.
Ainsi, un intervalle de confiance de niveau 1-
pour
lorsque
est inconnu est donné par:
Remarque :
Dans le cas ou X n'est pas gaussienne et l’échantillon
est de grande taille
(n > 30), d’après le théorème limite centrale on peut approcher la loi de
par
et
donc la loi de
par
. On a alors la même définition de l'intervalle de confiance
que dans le cas où X est gaussienne et
connue (si
est inconnue, on lui attribue la
valeur de son estimation ponctuelle).
19
Introduction à la Statistique Inférentielle
Exemple16 : Intervalle de confiance pour une proportion
Soit une population dont les individus possèdent un caractère A avec une probabilité p. On cherche à
déterminer cette probabilité inconnue en prélevant un échantillon de taille n (n > 30) dans cette
population.
Soit x est le nombre d’individus possèdant le caractère A dans l’échantillon.
est une
estimation de p.
La v.a.
( nombre d’individus possèdant le caractère A dans la population) est la somme de n
variables aléatoires indépendantes de même loi de bernouilli de paramètre p. C’est donc, d’après le
théorème central limite, une variable aléatoire dont la loi de probabilité peut être approchée par une
, donc la loi de
loi normale de moyenne np et de variance
approchée par
.
Ainsi un intervalle de confiance de niveau 1-
pour la proportion p est :
.
20
peut être
Introduction à la Statistique Inférentielle
Résumé
Intervalle de confiance de
niveau
moyenne
pour
variance
moyenne
connue
inconnue
connue
inconnue
d’une loi normale
pour
la
d’une loi normale
Intervalle de confiance de
niveau
inconnue
la
Intervalle de confiance de
niveau
connue
pour
la
d’une loi inconnue
(n grand)
Intervalle de confiance de
niveau
pour
une
proportion p (n grand)
21
Introduction à la Statistique Inférentielle
4 - TESTS D'HYPOTHESES
4.1 - Généralités et définitions
P
Dans tous les domaines de l'expérimentation scientifique à la vie quotidienne, on est amené
à prendre des décisions sur une activité risquée au vu de résultats d'expériences ou
d'observation de phénomènes dans un contexte incertain. Par exemple : décider si un
nouveau traitement médical est meilleur qu'un ancien au vu du résultat de son
expérimentation sur des malades, décider si l'accusé est innocent ou coupable à partir des
informations acquises pendant le procès.
Dans chaque cas, le problème de décision consiste à trancher, au vu d'observations, entre
une hypothèse appelèe hypothèse nulle notée , et une autre hypothèse dite hypothèse
alternative notée .
Un test d'hypothèses est une procèdure qui permet de choisir entre ces deux hypothèses.
Les tests qui ont pour objet de tester une certaine hypothèse relative à un ou plusieurs
paramètres d’une variable aléatoire de loi spécifiée, sont appelés tests paramétriques. Les
tests qui ne portent pas sur la valeur d'un paramètre sont appelés tests non paramètriques.
Dans tout ce qui suit, on se restreint aux hypothèses dites paramétriques,
et on notera
la loi (ou modèle) de la variable X dont on observe un
échantillon
.
Si est un paramètre vectoriel, on fera des tests sur chacune de ses composantes. Par
exemple, on fera des tests sur la moyenne de la loi normale, puis des tests sur la variance,
mais pas sur les deux en même temps.
Définition 12:
Soit
un n-échanitillon de X  ;
et
une réalisation de
X. Un test d'hypothèses est une règle de décision permettant, à partir d'une réalisation x,
d'accépter ou de rejeter une hypothèse émise concernant le paramètre.
Un test est généralement décrit en termes d'une statistique
qui est un
résumé des données expérimentales observées. T est appelée statistique du test.
Définition 13:
Soit
un n-échanitillon de X et
On appelle région critique ou région de rejet de
R de associé à la règle de décision suivante :
é
é
une réalisation de X.
un sous-ensemble
’
’
Remarque :
Un test statistique est défini par sa région critique et réciproquement.
Dans un problème de décision, deux types d'erreurs sont possibles :
- erreur de première espèce : décider que est vraie alors que
- erreur de seconde espèce : décider que
est vraie alors que
est vraie.
est vraie.
Les conséquences de ces deux erreurs peuvent être d'importances diverses. En généal, une
des erreurs est plus grave que l'autre.
22
Introduction à la Statistique Inférentielle
Définition 14:
La probabilité de l'erreur de première espèce, qui est la probabilité de rejeter à tort
est notée et est appelée seuil ou niveau de signification du test.
,
La probabilité de l'erreur de deuxième espèce est notée
est la probabilité de décider
du test.
ou de rejeter
à raison. Elle est appelée puissance
Le tableau suivant résume simplement le rôle de ces probabilités de bonne et mauvaise
décision dans un test d'hypothèses.
est vraie
: bonne décision
: mauvaise décision
Accepter
Rejeter
est vraie
: mauvaise décision
: bonne décision
L'idéal serait évidemment de trouver une procédure qui minimise les deux risques d'erreur
en même temps. Malheureusement, on montre qu'ils varient en sens inverse, c'est-à-dire que
toute procédure diminuant va en général augmenter et réciproquement.
Dans la pratique, on va donc considérer que l'une des deux erreurs est plus importante que
l'autre, et tâcher d'éviter que cette erreur se produise. Par exemple, dans le cas du procés, on
fait en général tout pour éviter de condamner un innocent, quitte à prendre le risque
d'acquitter un coupable.
On va choisir
et
de sorte que l'erreur que l'on cherche à éviter soit l'erreur de première
espéce. Mathématiquement cela revient à se fixer la valeur du seuil du test .
Les valeurs usuelles de sont 10%, 5%, 1%, ou beaucoup moins. Le principe de précaution
consiste à limiter au maximum la probabilité de se tromper, donc à prendre très petit.
Définition 15:
 Une hypothèse est simple si elle est du type = ", où est un réel fixé.
 Une hypothèse est composite ou multiple si elle est du type
où A est une partie
de non réduite à un élément.
4.2 - Tests d'hypothèses simples
Le cas le plus simple à analyser est celui où les deux hypothèses à confronter sont simples.
Définition 16:Tests d'hypothèses simples
Un test d'hypothèses simples est un test dans lequel les hypothèses nulle et alternative
sont simples toutes les deux. C'est donc un test du type
:"
=
" contre
:"
=
"
Un tel test permet de dire laquelle des deux valeurs
et
est la plus vraisemblable au vu
des observations. Mais il ne prend pas en compte la possibilité que ne soit égal ni à
ni
à . Pour cela, il faudra faire un test d'hypothèses composites.
Le seuil du test est la probabilité de rejeter à tort , c'est à dire la probabilité que les
observations soient dans la région critique quand la vraie valeur de est :
23
Introduction à la Statistique Inférentielle
La puissance du test est la probabilité de rejeter à raison , c'est à dire la probabilité que
les observations soient dans la région critique quand la vraie valeur de est :
R désigne la région critique du test.
Cas limites:
 Si on choisit
c'est-à-dire on adopte la règle de ne jamais rejeter
soit le résultat de l'expérience, alors
et
.
 De même, si
alors
et
.
 Plus généralement, si on prend près de 0 alors sera près de 1.
quelque
Exemple17:
Soit
un n-échantillon de
de taille n = 25.
On désire tester les hypothèses suivantes:
:" = " contre
: " = ".
Puisque est un estimateur de la moyenne , il est intuitif de vouloir rejeter
lorsque
est grand par rapport à une certaine constante.
La région critique R est alors définie par
. Puisque
, la taille d'erreur de
première espèce est définie par
De la même façon on déduit la taille d'erreur de seconde espèce:
=
A titre d'exemple, prenons k = 0.4, on trouve:  = 0.1587 et  = 0.0668.
sous H 0
sous H 1


0 0.4
1
Ce graphique montre que si on augmente la valeur de k, alors  diminue mais  augmente.
Plusieurs approches sont utilisées pour choisir un test. Nous allons considérer ici l'approche
qui considère l'erreur de première espèce comme étant la plus sérieuse.
24
Introduction à la Statistique Inférentielle
Un niveau accéptable  est fixé et le test (c-à-d la région R) est choisi de manière à
minimiser .
4.3 - Méthode de construction du meilleur test de
simple
simple contre
Soit
et soient
et
deux hypothèses simples sur . Nous avons déjà
observé qu'un test est défini de manière biunivoque par sa région critique R. Par exemple, si
on se donne pour région critique
Le test est déterminé selon la règle de décision suivante: on rejettera
telle que
, sinon
Définition 17:
Soit une région de l'espace des observations
pour tester:
Si pour tout sous-ensemble R de
si on observe
n'est pas rejetée.
.
tel que
est dite meilleure région de niveau
, on a
i)
ii)
Le théorème suivant dû à Neyman-Pearson fournit un moyen systématique pour déterminer
la meilleure région critique.
Théorème4:(Lemme de Neyman-Pearson)
Soit
un n-échantillon et L(x, ) la vraisemblance associée à
l'observation x de cet échantillon. La région critique
définie par:
est la meilleure région critique de niveau  pour tester
Commentaire: Le test de Neyman-Pearson (N-P en abrégé) de région est le plus puissant
(donc ayant la plus petite probabilité de risque de seconde espèce *) parmi toutes les
régions R ayant le même risque de première espèce.
Exemple18:Test sur la moyenne d'une loi normale
,
Soit
Pour
fixé, la région optimale au sens de N-P est donnée par:
25
connue
Introduction à la Statistique Inférentielle
D'où la règle de décision: on rejette
La constante k est déteminée à partir de
Or sous
Pour
si on observe x tel que
.
grâce à la relation:
. Par conséquent on a:
0.05, n=25, en utilisant la table de la loi
, nous pouvons déduire k:
D’où la région optimale au sens de N-P pour tester la moyenne d’une loi normale quand
est connue est :
Exemple19:
Soit
Pour
Pour
fixé, la région optimale au sens de N-P est donnée par:
0.05, n=25, en utilisant la table de la loi
, nous pouvons déduire k:
La puissance du test se calcule elle aussi à l’aide de la table de la loi normale:
26
Introduction à la Statistique Inférentielle
Or sous
. Par conséquent on a:
Exemple2 :Test sur la moyenne d'une loi normale
,
inconnue
Soit
Pour
fixé, la région optimale au sens de N-P est donnée par:
D'où la règle de décision: on rejette
si on observe x tel que
La constante k est déteminée à partir de
Or sous
En utilisant la table de la loi
.
grâce à la relation:
. Par conséquent on a:
, nous pouvons déduire k:
D’où la région optimale au sens de N-P pour tester la moyenne d’une loi normale quand
est connue est :
27
Introduction à la Statistique Inférentielle
Remarque : Pour tester la moyenne d'une loi inconnue sur un échantillon de grande taille, on
utilise l’approximation de la loi de
par la loi
et applique ce qui précéde, si est
inconnu on le remplace par son estimation s.
4.4 - Tests d'hypothèses composites
Définition 18:
Un test d'hypothèses composites est un test dans lequel l'une au moins des deux
hypothèses est composite. C'est donc un test du type
:"
" Contre
:"
"
Les tests les plus usuels sont du type :
test bilatéral :
:" =
" contre
:"
". (Seule
tests unilatéraux :
:"
" contre
:"
"
Ou
:"
" contre
:"
"
(
et
est composite).
sont composites).
Dans tous ces exemples,
forcément vraie.
et
sont complémentaires : des deux hypothèses, l'une est
Remarque :
Quand une hypothèse est composite, la notion de puissance est à repréciser. En effet,
a
été définie comme la probabilité de rejeter
quand
est vraie. Or, dans les exemples
ci-dessus, il y a une infinité de valeurs de pour lesquelles
est vraie. Donc la puissance
du test doit dépendre de la vraie valeur (inconnue) de , ce qui nous amène à redéfinir la
puissance et le seuil d'un test :
Définition19 :
On conidère le test d’hypothèses
:"
" contre
est R. On appelle fonction puissance du test la fonction
:"
" dont la région critique
définie par :
où
est la probabilité de rejeter
quand la vraie valeur du paramètre est
Le seuil du test est
est la probabilité maximale de rejeter
plus forte probabilité de rejeter à tort .
Par exemple, pour un test bilatéral,
présenté,
.
alors que
est vraie, c'est à dire la
, et pour le premier test unilatéral
28
Introduction à la Statistique Inférentielle
Notons que le "test idéal" est celui qui a pour fonction puissance:
Mais un test basé sur une quantité finie de données ne peut jamais atteindre cet idéal et tout
ce que l'on peut espérer est un test tel que:
petit sous
et grand sous .
4.5. Test du rapport de vraisemblances
Définition20 :
On appelle test du rapport de vraisemblances (TRV) pour tester les hypothèses
" Contre
:"
"
, le test dont la région critique est donnée
par :
, où
Exemple2 :Test sur la variance d'une loi normale
,
connue
Soit
On a:
Le TRV quand
est inconnue a pour région critique
D'où la règle de décision: on rejette
La constante k est déteminée à partir de
Or sous
:"
si on observe x tel que
grâce à la relation:
. Par conséquent on a:
En utilisant la table de la loi khi deux, nous pouvons déduire k:
29
.
Introduction à la Statistique Inférentielle
Exemple2 :Test sur la variance d'une loi normale
,
inconnue
Soit
Le TRV quand
est inconnue a pour région critique
D'où la règle de décision: on rejette
La constante k est déteminée à partir de
Or sous
si on observe x tel que
grâce à la relation:
. Par conséquent on a:
En utilisant la table de la loi khi deux, nous pouvons déduire k:
.
30
.
Téléchargement