UNIVERSITE MOHAMMED V-AGDAL FACULTE DES
SCIENCES DEPARTEMENT DE MATHEMATIQUES
SMI semestre 4 : Probabilités - Statistique
Introduction à la Statistique Inférentielle
Prinemps 2013
Introduction à la Statistique Inférentielle
2
0 INTRODUCTION
La statistique est la science dont l'objet est de recueillir, de traiter et d'analyser des données
issues de l'observation de phénomènes aléatoires, c'est-à-dire dans lesquels le hasard
intervient.
L'analyse des données est utilisée pour décrire les phénoménes étudiés, faire des prévisions
et prendre des décisions à leur sujet. En cela, la statistique est un outil essentiel pour la
compréhension et la gestion des phénomènes complexes.
Les données étudiées peuvent être de toute nature, ce qui rend la statistique utile dans tous
les champs disciplinaires et explique pourquoi elle est enseignée dans toutes les filières
universitaires, de l'économie à la biologie en passant par la psychologie, et bien sûr les
sciences de l'ingénieur.
Les méthodes statistiques se répartissent en deux classes :
- La statistique descriptive, statistique exploratoire ou analyse des données, a pour but de
résumer l'information contenue dans les données de façon efficace. Elle utilise pour cela des
représentations de données sous forme de graphiques, de tableaux et d'indicateurs
numériques (par exemple des moyennes). Elle permet de dégager les caractéristiques
essentielles du phénomène étudié et de suggérer des hypothèses pour une étude ultèrieure
plus sophistiquée. Les probabilités n'ont ici qu'un rôle mineur.
- La statistique inférentielle va au delà de la simple description des données. Elle a pour but
de faire des prévisions et de prendre des décisions au vu des observations. Les probabilités
jouent ici un rôle fondamental.
L'objet de ce cours est de décrire les techniques de la statistique inférentielle utilisées pour
recueillir de l'information et prendre des décisions à partir des données observées.
Introduction à la Statistique Inférentielle
3
1 - ECHANTILLONNAGE
Tout, dans la statistique inférentielle, repose sur l'étude des distributions des échantillons.
1.1 - Généralités
Le terme d'échantillon est souvent associé à un sous-ensemble de cardinal n tiré d'une
population finie ou infinie selon certaines règles: il s'agit alors d'un échantillon d'individus.
Dans cette partie, on s'intéresse plutôt aux échantillons de variables que l'on relie aux
échantillons d'individus par la considération élémentaire suivante:
Sur chaque individu tiré, on mesure une certaine grandeur X et on note les valeurs
observées. Le n-uplet x = () est un échantillon de valeurs.
Exemple 1: On prélève au hasad n ampoules électriques dans une production et on mesure
leur durée de fonctionnement. Si les caractéristiques de fabrication n'ont pas varié d'une
ampoule à l'autre, les différences entre les (xi) peuvent être considérées comme des
fluctuations de nature aléatoire.
Cette dernière remarque justifie l'hypothèse fondamentale de la théorie de
l'échantillonnage: Les valeurs observées xi sont des réalisations d'une même variable
aléatoire X, appelée variable parente ou de population. Dans notre exemple, ceci revient à
postuler l'existence d'une variable abstraîte, la durée de vie d'une ampoule de type donné,
fabriquée dans des conditions données.
On peut cependant introduire aussi le modèle suivant:
À chaque individu tiré, on associe une variable aléatoire Xi dont on observe une seule
réalisation xi.
L'hypothèse formulée plus haut revient alors à dire que les Xi sont des variables aléatoires
réelles ayant toutes la même distribution, celle de X. On supposera également que les Xi sont
indépendantes (dire qu'elles sont indépendantes sous entend qu'elles sont définies sur le
même espace de probabilit).
Définition 1:
Les variables aléatoires forment un échantillon aléatoire de taille n (on dit
aussi un n-échantillon) si les v.a. sont indépendantes et identiquement distribuées
(i.i.d. en abrégé).
On dit que () est un échantillon de taille n (ou aussi un n-échantillon),si pour
tout i, xi est une réalisation de Xi .
Dans toute la suite on notera les variables aléatoires par des lettres capitales, et leurs
réalisations (non aléatoires ou déterministes) par des lettres minuscules.
En convenant de noter par fX(.) aussi bien la masse de probabilité dans le cas discret que la
densité marginale dans le cas continu de la v.a. X, c'est-à-dire:

 ,
La densité conjointe du n-uplet (X1,..., Xn) est donnée par:
Introduction à la Statistique Inférentielle
4

Cette densité conjointe peut être utilisée pour calculer diverses probabilités relatives à
. En particulier, si fX(x) appartient à une famille paramétrique de
densités de probabilités {(x) , } où l'espace des paramètres est contenu dans IRk,
k1, nous avons:
 avec inconnu.
En considérant différentes valeurs possibles de, on peut étudier le comportement de notre
échantillon pour différentes distributions appartenant à la famille considérée.
Exemple 2 : Soit un n-échantillon représentant les n durées de fonctionnement (en
mois) de n ampoules issues d'une population exponentielle de paramètre :
f(x1,...,xn) =
i 1
n
f(xi) =
i 1
n
(1/) e-xi/ = (1/n) e-
xi
i 1
n
/, x1,...,xn 0.
Quelle est la probabilité que toutes les ampoules admettent une durée de fonctionnement
d'au moins 2 mois?
P(X1> 2,..., Xn > 2) =
2
...
2
f(x1,...,xn)dx1dx2...dxn
=
2
...
2
i 1
n
(1/) e-xi/ dx1dx2...dxn
= e-2/
2
...
2
{
i 1
n
1/ e-xi/ }dx2...dxn (intégration p.r. à x1)
= ... (intégration p.r. à xi)
= (e-2/ )n
= e-2n/.
On peut retrouver ce résultat en utilisant l'indépendance des v.a. X1,...,Xn :
P(X1 > 2, ..., Xn >2) = P(X1 >2) ... P(Xn >2) (indépendance)
= (P[X1 > 2])n (lois identiques)
= e-2n / (loi exp())
Remarques:
1) Le modèle d'échantillonnage décrit dans la définition 1 est aussi appelé échantillonnage à
partir d'une population infinie.
2) Echantillonnage d'une population finie: dans ce cas, les hypothèses d'indépendance
peuvent ne pas être vérifiées selon que le tirage est avec ou sans remise. Considérons en
effet une population finie dont les N mesures ou observations possibles de X sont
{x1,..., xN}. Un échantillon est à constituer à partir de cette population. On peut
procéder de deux manières:
i) tirage avec remise: dans ce cas, chaque Xi est une variable discrète prenant chaque
valeur xi avec la même probabilité 1/N :
P(Xi=xi) =
1
N
, i=1,...,N
Introduction à la Statistique Inférentielle
5
Les (Xi) sont indépendantes car le processus de choix de toute variable Xi est le même
indépendamment de la valeur obtenue.
ii) tirage exhaustif ou sans remise: l'indépendance est en défaut car par exemple, si x et y
sont deux éléments distincts de l'ensemble {x1,...,xN}, on a P(X2=y/X1=y)=0 car y ne peut
être choisi à l'étape suivante, alors que P(X2=y/X1=x) = 1/(N-1) et donc la loi de X2 dépend
de celle de X1. Cependant, si N est grand comparativement à n, les variables aatoires
peuvent être considérées comme presque indépendantes. Ceci est illust par
l'exemple suivant.
Exemple 3: P = {1,...,1000} est notre population de taille N=1000. Un échantillon de taille
n=10 est tiré sans remise. Quelle est la probabilité que toutes les 10 valeurs échantillonnées
soient > 200?
Si X1,..., X10 sont indépendantes et, puisque P(Xi > 200) = 800/1000, i, on a:
P(X1> 200,..., X10 > 200) =
P(X1>200) =
( )800 1000
10
= 0,107374.
Calcul exact: Soit la v.a. Y = nombre de Xi > 200 parmi n. Alors, Y suit la loi
hypergéotrique H(N,n,r) avec N=1000, n=10, r=800, et donc
P (Y=10) = P(X1 >200,..., X10 >200) =
C800
10
C200
0
/
C1000
10
= 0,106164,
valeur qui est très proche de celle obtenue sous l'hypothèse d'indépendance
Dans la suite du cours, nous utilisons la finition 1 comme finition d'un échantillon
aléatoire.
1.2 - Statistiques basées sur un échantillon aléatoire
Il est d'usage dans la pratique de résumer les n valeurs x1,..., xn observées d'un échantillon
X = () par quelques caractéristiques simples telles que la moyenne, la variance,
l'étendue, la plus grande valeur, etc. Ces caractéristiques sont elles-mêmes des réalisations
ou observations de variables aléatoires qui sont fonctions de l'échantillon aléatoire X.
Définition 2:
Soit un échantillon de taille n de X et soit T() une fonction vectorielle
définie sur l'espace image du vecteur X=(). Alors la variable aléatoire ou vecteur
aléatoire défini par T=T(X) est appelée statistique. La distribution de probabilité de la
statistique est appelée distribution échantillonnale de T.
Exemple4 :
 est une statistique
est sa valeur observée
Remarque:
a) La finition d'une statistique est assez large, mais il est sous-entendu qu'une
statistique ne peut dépendre d'un paramètre.
1 / 30 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !