Telechargé par Cherifmoussa624

Statistique Descriptive & Tests d'Hypothèses : Support de Cours

Département de Mathématiques et Informatique
Abdelhamid El Mossadeq
P rofesseu r à l’E H T P
2006-2007
© A. El Mossadeq
Juin 2006
TABLE DES MATIERES
Chapitre 1 : Statistique Descriptive
1. Concepts généraux de la statistique descriptive
2. Les types de caractères et de variables statistiques
2.1. Les caractères qualitatifs
2.2. Les caractères quantitatifs
2.2.1. Les variables statistiques discrètes
2.2.2. Les variables statistiques continues
3. Présentation générale des tableaux statistiques
4. Présentation des distributions à caractères qualitatifs
5. Présentation des distributions à caractères quantitatifs discrets
6. Présentation des distributions à caractères quantitatifs continus
7.Le résum é num érique d’une distribution statistique
8. Les caractéristiques de tendance centrale
8.1. Le mode
8.1.1. Détermination pratique
8.1.2. Propriétés
8.2. La médiane
8.2.1. Détermination pratique
8.2.2. Propriétés
8.3. La moyenne arithmétique
8.2.1. Calcul pratique
8.2.2. Propriétés
8.4. La moyenne géométrique
8.5. La moyenne harmonique
9. Les caractéristiques de dispersion
9.1.L’étendue
9.1.1. Calcul pratique
9.1.2. Propriétés
9.2.L’intervalle interquartile
9.2.1. Détermination pratique
9.2.2. Propriétés
9.2.3. Déciles et percentiles
9.3.L’écart absolu moyen
9.3.1. Calcul pratique
9.3.2. Propriétés
3
3
3
3
4
4
4
5
7
9
12
13
13
13
13
14
14
15
16
16
16
17
18
19
19
19
20
20
20
21
21
21
21
22
9.4.L’écart-type
9.4.1. Détermination pratique
9.4.2. Correction de W. F. Sheppard
9.4.3. Propriétés
10. Aplatissement et dissymétrie
10.1.Les m om ents d’ordre r
10.2.Le coefficient d’aplatissem ent
10.3. Le coefficient de dissymétrie
22
22
23
23
23
23
24
25
Chapitre 2 : Structures Statistiques et Estimation
1. Statistique et structure statistique
2. Fonction de vraisemblance
2.1. Structure statistique discrète
2.2. Structure statistique continue
3. Statistiques exhaustives
4. Information concernant un paramètre
4.1.M atrice d’information
4.2. Inégalité de Cramer-Rao
5. Estimateurs
6.L’estim ation par la m éthode de la vraisem lance
8. Exercices
29
31
31
31
32
38
38
43
45
50
54
Chapitre 3 : Les Procédures Usuelles des Tests
d’H ypothèses : Les Fréquences
1.Fluctuations d’échantillonnage d’une fréquence
2. Les sondages
3.Test de com paraison d’une fréquence à une norm e
4. Test de comparaison de deux fréquences
5. Exercices
61
62
64
65
68
Chapitre 4 : Les Procédures Usuelles des Tests
d’H ypothèses : Les Tests du Khi-Deux
1.Test de com paraison d’une proportion observée à une
proportion théorique
2.Test d’indépendance du Khi-deux
3. Exercices
73
76
82
Chapitre 5 : Les Procédures Usuelles des Tests
d’H ypothèses : Moyennes et Variances
..1.Estim ation de la m oyenne et de la variance d’une population
2.Intervalle de confiance d’une variance
3.Intervalle de confiance d’une m oyenne
3.1. n30
3.2. n<30
..4.Test de com paraison d’une variance observée à une norme
..5.Test de com paraison d’une m oyenne observée à une norme
5.1. n30
5.2. n<30
6. Test de comparaison de deux variances
7. Test de comparaison de deux moyennes
7.1. n30
7.2. n<30
8. Exercices
91
91
93
93
94
95
97
97
98
100
102
102
104
107
Chapitre 6 : Le Modèle Linéaire Simple
1. Le modèle linéaire simple
2. Analyse du modèle linéaire simple par la méthode des
moindres carrés
3. Propriétés statistiques des estimateurs
3.1. Etude de 
3.2. Etude de 
3.3. Etude de 
3.4. Etude de la covariance de  et 
4. Etude de la variance des estimateurs
5. Estimation de ²
6. Analyse de la variance
7. Tests et intervalles de confiance
7.1. Intervalle de confiance de ²
7.2. Région de confiance et tests concernant (,)
7.3. Intervalle de confiance et test concernant 
7.4. Intervalle de confiance et test concernant 
7.5. Intervalle de confiance de 
7.6. Coefficient de corrélation
8. Le test de linéarité du modèle
9. Prédiction
10. Exemple
10.1. Estimation des paramètres du modèle
10.2. Validation du modèle
10.3 Intervalles de confiance
115
117
120
120
121
122
123
124
128
129
130
130
130
131
132
134
135
136
140
142
142
144
146
Chapitre 1
Statistique Descriptive
A. El Mossadeq
Statistique Descriptive
1. CONCEPTS GÉNÉRAUX DE LA
STATISTIQUE DESCRIPTIVE
Une population est l’ensemble des unités statistiques ou individus étudié par le
statisticien.
Pour décrire une population, on s’eﬀorce de classer les individus qui la composent
en un certain nombre de sous ensembles.
Cette opération aboutit à la confection de tableaux statistiques.
Le classement peut se faire relativement à un ou plusieurs caractères.
Le choix d’un caractère détermine le critère qui servira à classer les individus de la
population étudiées en deux ou plusieurs sous ensembles.
Le nombre de ses sous ensembles correspond aux diﬀérentes situations possibles ou
modalités de ce caractère.
Les diﬀérentes modalités d’un caractère doivent être à la fois incompatibles et exhaustives : un individu appartient à un et un seul des sous ensembles définis par ces
modalités.
2. LES TYPES DE CARACTÈRES ET
DE VARIABLES STATISTIQUES
Un caractère peut être soit qualitatif soit quantitatif.
Dans ce dernier cas, on lui associe une variable statistique.
2.1. LES CARACTÈRES QUALITATIFS
Un caractère qualitatif est un caractère dont les modalités échappent à la mesure.
Elles peuvent seulement être constatées : le sexe, la nationalité et la profession sont
des caractères qualitatifs.
2.2. LES CARACTÈRES QUANTITATIFS
On dit qu’un caractère est quantitatif lorsqu’il est mesurable.
A chaque unité statistique correspond alors un nombre qui est la mesure ou la valeur
du caractère.
A ce nombre, on donne le nom de variable statistique.
Elle peut être discrète ou continue.
3
Statistique Descriptive
A. El Mossadeq
2.2.1. LES VARIABLES STATISTIQUES DISCRÈTES
Une variable statistique est discrète lorsqu’elle ne prend que certaines valeurs
isolées : le nombre d’enfants à charge d’une famille, le nombre de ventes journalier
d’un certain type d’appareils, le nombre de jours pluvieux dans une région donnée.
2.2.2. LES VARIABLES STATISTIQUES CONTINUES
Une variable statistique est continue lorsqu’elle peut prendre toutes les valeurs à
l’intérieur de son intervalle de variation : la taille, le poids, l’age d’une personne, la
teneur en nickel d’un alliage, le débit d’une canalisation, la pression atmosphérique,
la force du vent.
Les valeurs d’une telle variable sont groupées en classes qui peuvent avoir une amplitude constante ou variable.
3. PRÉSENTATION GÉNÉRALE DES
TABLEAUX STATISTIQUES
Soit une population P comprenant n individus pour chacun desquels on a fait une
observation concernant le caractère X qui comporte les modalités M1 , ..., Mk .
Le nombre ni d’individus présentant la modalité Mi est l’eﬀectif de Mi .
La fréquence fi de la modalité Mi est le rapport entre l’eﬀectif de Mi et la taille
de la population :
ni
fi =
n
Un tableau statistique décrivant une population P suivant un caractère X se présente
en général comme suit :
Distribution de la population Psuivant le caractère X
Source : .......
Modalités de X
M1
M2
..
Mk
Total
Eﬀectifs des modalités Fréquence des modalités
n1
f1
n2
f2
..
..
nk
fk
k
k
P
P
n=
ni
1=
fi
i=1
i=1
Une première synthèse de l’information contenue dans un tableau statistique peut
être fournie par sa traduction sous forme de graphe.
4
A. El Mossadeq
Statistique Descriptive
4. PRÉSENTATION DES
DISTRIBUTIONS A CARACTÈRES
QUALITATIFS
La présentation d’un tableau statistique concernant un tel caractère suit exactement
les règles générales exposées ci-dessus.
Deux types de représentation graphique sont surtout utilisés : les tuyaux d’orgues
et les secteurs :
• Dans la représentation par tuyaux d’orgues, les diﬀérentes modalités du caractère sont figurées par des rectangles dont la base est constante et dont la
hauteur, et l’air par conséquent, est proportionnelle aux eﬀectifs. Très souvent,
les modalités sont ordonnées sur le graphique dans le sens des eﬀectifs croissants
ou décroissants.
• Dans la représentation par secteurs, ces derniers ont une aire, et par conséquent
un angle au centre proportionnel aux eﬀectifs des modalités correspondantes.
Ce système de figuration permet de mieux visualiser la part de chaque modalité.
Exemple 1
Cet exemple fournit la répartition de la population active occupée de la France par
catégorie socio-professionnelle en 1987.
Tableau 1. Répartition de la population active occupée de la France
par catégorie socio-professionnelle
Source : I.N.S.E.E. , enquête par sondage sur l’emploi en mars 1987
Catégorie Socio-Professionnelle
Eﬀectif (103 ) fréquence
Agriculteurs Exploitants
1385.5
6.4
Artisans, Commerçants et Chefs d’Entreprises
1709.0
8.0
Cadres et Professions Intellectuelles Supérieures
2117.2
9.9
Professions Intermédiaires
4317.5
20.2
Employés
5709.2
26.7
Ouvriers
6167.6
28.8
Total
21405
100
5
Statistique Descriptive
A. El Mossadeq
Fig 1.1. Représentation par tuyaux d’orgue
Répartition de la population active occupée par
catégorie socio-professionnelle
Fig 1.2. Représentation par secteur
Répartition de la population active occupée par
catégorie socio-professionnelle
6
A. El Mossadeq
Statistique Descriptive
5. PRÉSENTATION DES
DISTRIBUTIONS A CARACTÈRES
QUANTITATIFS DISCRETS
Les diﬀérentes modalités sont constituées par les valeurs possibles de la variable
statistique discrète.
En face de chacune de ses valeurs xi , on fait figurer dans le tableau l’eﬀectif ni , la
fréquence fi , et la fréquence cumulée Fi :
⎧
F1 = 0
⎪
⎪
⎪
⎪
⎨
F2 = f1
⎪
⎪
⎪
⎪
⎩ F = f + ... + f
i
1
i−1
Le tableau statistique d’une telle distribution se présente comme ci-après :
Tableau Statistique. Distribution Statistique Discrète
Source : .......
V aleurs xi
Effectifs ni
F réquences fi
F réquences Cumulées Fi
x1
n1
f1
F1 = 0
x2
n2
f2
F2 = f1
:
:
:
:
xk
nk
fk
Fk = f1 + ... + fk−1
T otal
n=
k
P
ni
1=
i=1
k
P
fi
i=1
Il existe deux types de représentation graphique pour les séries statistiques à caractères quantitatifs discrets :
• le diagramme diﬀérentiel ou diagramme en bâtons, qui correspond à la
représentation des fréquences ou des eﬀectifs,
• le diagramme intégral ou courbe cumulative, qui correspond à la représentation des fréquences cumulées ou eﬀectifs cumulés.
7
Statistique Descriptive
A. El Mossadeq
Exemple 2
Au cours d’une année, comportant 253 jours d’ouverture, on a relevé chaque jour le
nombre de ventes xi d’un appareil A.
Tableau 2. Distribution des jours d’ouverture d’un magasin
suivant le nombre de vente d’un appareil A
Source : Service Commercial
xi
ni
fi
Fi
0
24
9.5
0
1
57
22.5 09.5
2
75
29.6 32.0
3
53
21.0 61.6
4
33
13.0 82.6
5
07
02.8 95.6
6
04
01.6 98.4
T otal
253
100
100
Fig 2.1. Diagramme en bâtons
Représentation graphique du nombre de ventes par jour
8
A. El Mossadeq
Statistique Descriptive
Fig 2.2. Courbe cumulative
Représentation graphique du nombre de ventes par jour
6. PRÉSENTATION DES
DISTRIBUTIONS A CARACTÈRES
QUANTITATIFS CONTINUS
Les observations sont nécessairement regroupées par classe. Les modalités du caractère sont constituées par les diﬀérentes classes.
Si l’on désigne par xi−1 et xi les extrémités inférieure et supérieure de la ième classe,
celle-ci est généralement définie par :
xi−1 ≤ x < xi
En face de la ième classe, on fait figurer, dans le tableau statistique, l’eﬀectif ni , la
fréquence fi et la fréquence cumulée Fi :
⎧
F1 = 0
⎪
⎪
⎪
⎪
⎨
F2 = f1
⎪
⎪
⎪
⎪
⎩ F = f + ... + f
i
1
i−1
9
Statistique Descriptive
A. El Mossadeq
Tableau Statistique. Distribution Statistique Continue
Source : .......
V aleurs xi
Eff ectif s ni
F réquences fi
F réquences Cumulées Fi
(x0 , x1 [
n1
f1
F1 = 0
[x1 , x2 [
n2
f2
F2 = f1
:
:
:
:
[xk−1 , xk )
nk
fk
Fk = f1 + ... + fk−1
T otal
n=
k
P
ni
1=
i=1
k
P
fi
i=1
Deux types de représentation graphique sont possibles pour les séries statistiques
continues :
• le diagramme diﬀérentiel appelé histogramme,
• le diagramme intégral appelé courbe cumulative.
L’histogramme est la représentation graphique de la distribution des eﬀectifs ou des
fréquences de la variable statistique continue.
A chaque classe de valeurs de la variable, portée en abscisse, on fait correspondre
un rectangle basé sur cette classe.
Or deux fréquences ne sont directement comparables que s’ils concernent des classes
de même amplitude.
Dans le cas d’une série dont les amplitudes des classes sont inégales, on choisit une
amplitude de classe u (pour simplifier les calculs, on retiendra le plus grand commun
diviseur des diverses amplitudes).
L’expression des amplitudes dans cette nouvelle unité est :
ai =
xi − xi−1
u
La hauteur hi des rectangles représentatifs de chaque classe est alors :
hi =
fi
ai
La courbe cumulative, comme pour les variables statistiques discrètes, est la représentation graphique de la fonction cumulative F (fonction de répartition).
Les observations étant groupées par classe [xi , xi+1 [, la valeur de F en xi est :
½
F (x1 ) = 0
F (xi ) = f1 + ... + fi−1 , 2 ≤ i ≤ n
10
A. El Mossadeq
Statistique Descriptive
Exemple 3
Dans cet exemple, on étudie la répartition des ouvriers d’un établissement industriel
selon leur salaire mensuel net.
Tableau 3. Répartition des ouvriers d’un établissement industriel
selon leur salaire mensuel net
Source : Service du personnel
Salaire
Eff ectif
F réquence F. cumulée Amplitude Hauteur
[800, 1000[
26
18.6
0
2.102
09.30
[1000, 1100[
33
23.5
18.6
1.102
23.50
[1100, 1200[
64
45.8
42.1
1.102
45.80
[1200, 1300[
07
05.0
87.9
1.102
05.00
[1300, 1500[
10
07.1
92.9
2.102
03.55
T otal
140
100
100
Fig 3.1. Représentation par histogramme
Répartition des ouvriers selon le salaire mensuel net
11
Statistique Descriptive
A. El Mossadeq
Fig 3.2. Courbe cumulative
Répartition des ouvriers selon le salaire mensuel net
7. LE RÉSUME NUMÉRIQUE D’UNE
DISTRIBUTION STATISTIQUE
La représentation graphique des distributions statistiques permet une première synthèse des informations contenues dans les tableaux.
De l’examen de cette représentation, l’oeil retire deux impressions :
• la première concerne l’ordre de grandeur de la variable statistique, caractérisé
par les valeurs de la variable situées au centre de la distribution : c’est la
tendance centrale de la série statistique,
• la seconde est relative à la plus ou moins grande fluctuations des observations
autour de la tendance centrale : c’est la dispersion.
Le statisticien britanique Yule a précisé les propriétés souhaitables que doit présenter
une bonne caractéristique de tendance centrale ou de dispersion :
(1) Être définie d’une manière objective.
(2) Dépendre de toutes les observations.
(3) Avoir une signification concrète et facile à concevoir
(4) Être simple à calculer.
(5) Être peu sensible aux fluctuations d’échantillonnage
(6) Se prêter aisément au calcul algébrique.
12
A. El Mossadeq
Statistique Descriptive
8. LES CARACTÉRISTIQUES DE
TENDANCE CENTRALE
Les caractéristiques de tendance centrale les plus utilisées sont :
• le mode,
• la médiane,
• la moyenne arithmétique.
On peut leur ajouter :
• la moyenne géométrique,
• la moyenne harmonique
dont l’usage s’impose dans certains cas particuliers.
8.1. LE MODE
C’est la valeur de la variable statistique pour laquelle la fréquence est la plus élevée.
C’est donc la valeur de la variable qui se rencontre le plus fréquemment dans la série
statistique.
8.1.1. DÉTERMINATION PRATIQUE
Lorsque la variable est discrète, le mode est défini avec précision.
Ainsi, dans l’exemple 2, le mode est égal à 2 appareils.
Si deux valeurs successives de la variable statistique ont la fréquence maximum, il
y a un intervalle modal dont les extrémités correspondent à ces valeurs.
Lorsque la variable est continue, la détermination du mode est beaucoup moins
précise : on peut définir la classe modale comme la classe dont la fréquence par
unité d’intervalle est la plus élevée.
Ainsi dans l’exemple 3, le salaire modale de la distribution des ouvriers est compris
entre 1100 et 1200.
8.1.2. PROPRIÉTÉS
Le principal avantage du mode c’est d’avoir une signification immédiate.
Si son calcul dans le cas discret est très facile, par contre, sa détermination dans le
cas d’une variable statistique continue n’est pas absolument précise : elle dépend en
partie du découpage en classes retenu.
Il ne dépend des observations que par leur fréquence et non par leur valeur.
Il se prête mal au calcul algébrique et est très sensible aux fluctuations d’échantillonnage.
Il sera surtout utilisé lorsqu’on désire se faire rapidement une première idée de la
tendance centrale d’une série statistique.
13
Statistique Descriptive
A. El Mossadeq
Les distributions statistiques les plus répandues n’ont qu’un seul mode : distribution unimodale, mais il arrive de rencontrer des distributions présentant deux ou
plusieurs mode : distribution bimodale ou plurimodale. Chacun d’eux, correspond à un maximum local de la courbe de fréquence.
Généralement, la présence de plusieurs modes indique que la population observée est,
en réalité, hétérogène et composée de sous-populations ayant des caractéristiques de
tendace centrale diﬀérentes.
8.2. LA MÉDIANE
C’est la valeur M da la variable statistique pour laquelle la fréquence cumulée est
1
égale à :
2
1
F (M) =
2
Elle partage donc en deux eﬀectifs égaux les observations constituant la série préalablement rangée par ordre croissant ou décroissant du caractère.
8.2.1. DÉTERMINATION PRATIQUE
• Si la variable est discrète, alors dans une série comportant (2k + 1) observations ordonnées dans le sens croissant ou décroissant, la valeur de la (k + 1)ème
observation correspond à la médiane.
Si la série comporte 2k observations, les extrémités de l’intervalle médian
correspondent à la kème et la (k + 1)ème observation.
Lorsque à certaines valeurs de la variable statistique correspondent plusieurs
observations, l’équation :
1
F (M) =
2
peut ne pas avoir de solution.
On convient de retenir pour la valeur médiane, la valeur xi telle que :
F (xi −) <
1
< F (xi +)
2
c’est à dire telle que :
1
< f1 + ... + fi
2
On peut aussi déterminer la médiane en utilisant la courbe des fréquences cumulée.
f1 + ... + fi−1 <
14
A. El Mossadeq
Statistique Descriptive
Ainsi, dans l’exemple 2, il y a 253 observations, la médiane correspond à la
valeur de la 127ème observations. La valeur de la médiane est 2.
Il n’y a que 38.4% des observations dont la valeur soit supérieure à la médiane.
• Dans le cas d’une variable statistique continue, la médiane est toujours strictement définie.
On détermine d’abord la classe médiane [xi , xi+1 [ telle que :
1
< f1 + ... + fi
2
L’estimation de la valeur précise de la médiane s’obtient par interpolation
linéaire :
∗ si n est impair égal à 2k + 1 alors :
Ã
!
i−1
P
k+1−
nj
f1 + ... + fi−1 <
j=1
M = xi + (xi+1 − xi )
ni
∗ si n est pair égal à 2k alors les extrémités de l’intervalle médian sont :
!
Ã
i−1
P
k−
nj
M1
M2
=
=
xi + (xi+1 − xi )
xi + (xi+1 − xi )
j=1
Ã
ni
k+1−
ni
i−1
P
j=1
nj
!
On peut aussi déterminer la valeur de la médiane graphiquement en utilisant la
courbe des fréquences cumulées.
Il est préférable de retenir cette valeur puisque celle-ci n’implique pas d’hypothèse
de répartition uniforme à l’intérieur de la classe médiane.
8.2.2. PROPRIÉTÉS
L’inconvénient principal de la médiane est de ne pas satisfaire la dernière condition
de Yule : définie comme la racine d’une équation, elle ne se prête pas au calcul algébrique., la médiane d’une série constituée par le mélange de plusieurs populations
ne peut être déduite des médianes des séries composantes.
Son emploi n’est pas recommandé dans le cas de séries statistiques discrètes présentants des sauts importants ou dans le cas de séries statistiques continues ne comportant que peu d’observations, car sa signification devient alors très incertaines.
15
Statistique Descriptive
A. El Mossadeq
8.3. LA MOYENNE ARITHMÉTIQUE
8.3.1. CALCUL PRATIQUE
• Soit une variable statistique discrète prenant les valeurs x1 , ..., xk auxquelles
correspondent respectivement les eﬀectifs n1 , ..., nk , et n = n1 + ... + nk .
la moyenne arithmétique de cette série est :
1X
m=
ni xi
n i=1
k
Ainsi, dans l’exemple 2, le nombre moyen de ventes de l’appareil A par jour
d’ouverture est 2.2.
• Soit une variable statistique continue où x1 , ..., xk sont respectivement les centres des classes [c1 , c2 [ , ..., [ck , ck+1 [ auquelles correspondent les eﬀectifs n1 , ..., nk
respectivement, et n = n1 + ... + nk .
la moyenne arithmétique de cette série est :
1X
ni xi
n i=1
k
m=
Ainsi, dans l’exemple 3, la salaire moyen net des ouvriers de l’établissement est
1103F .
8.3.2. PROPRIÉTÉS
La moyenne arithmétique satisfait assez bien les conditions de Yule.
Son principal mérite est d’avoir une signification concrète, simple et se prête au calcul algébrique.
Elle possède les propriétés suivantes :
(1) On a :
1X
ni (xi − m) = 0
n i=1
k
c’est à dire, l’écart moyen des observations par rapport à la moyenne arithmétique est nulle.
(2) La quantité :
v
u k
u1 X
S (t) = t
ni (xi − t)2
n i=1
16
A. El Mossadeq
Statistique Descriptive
est minimal pour :
t=m
c’est à dire, la distance moyenne des observations à la moyenne arithmétique
est minimale.
(3) Si des populations P1 , ..., Pk d’eﬀectifs n1 , ..., nk ont pour moyennes arithmétiques m1 , ..., mk alors la population P constituée des populations P1 , ..., Pk
a pour moyenne arithmétique :
1X
m=
ni mi
n i=1
k
8.4. LA MOYENNE GÉOMÉTRIQUE
Soit une série statistique prenant les valeurs x1 , ..., xk auxquelles correspondent
respectivement les eﬀectifs n1 , ..., nk , et n = n1 + ... + nk .
la moyenne géométrique de cette série est :
v
u k
u
Y n
n
xi i
G= t
i=1
On a :
1X
ln G =
ni ln xi
n i=1
k
ln G est donc la moyenne arithmétique de la série statistique ln x1 , ..., ln xk .
Exemple 4
Trois équipes se sont succédées à la direction d’une entreprise.
Pendant la première période, qui a durée trois ans, les bénifices réalisés ont augmenté
de 5.6% par an. Pendant la seconde période de deux ans, de 4.5% et pendant la
dernière période de cinq, de 11.3%.
Calculons l’indice moyen d’accroissement des bénifices pendant ces dix ans.
Soit B0 le bénifice réalisé pendant l’année précédente, alors :
Bi
= Bi−1 + 0.056Bi−1
= 1.056Bi−1
=
Bi
= Bi−1 + 0.045Bi−1
= 1.045Bi−1
=
Bi
= Bi−1 + 0.113Bi−1
= 1.113Bi−1
=
17
105.6
Bi−1
100
104.5
Bi−1
100
111.3
Bi−1
100
, 1≤i≤3
, 4≤i≤5
, 6 ≤ i ≤ 10
Statistique Descriptive
A. El Mossadeq
On en déduit :
B10 =
µ
105.6
100
¶3 µ
104.5
100
¶2 µ
111.3
100
¶5
B0
Soit bm l’indice moyen annuel de variation des bénifices pendant ces dix années.
On a :
µ
¶10
bm
B10 =
B0
100
d’où :
q
bm =
(105.5)3 (104.5)2 (111.3)5 = 108.2
10
8.5. LA MOYENNE HARMONIQUE
Soit une série statistique prenant les valeurs x1 , ..., xk auxquelles correspondent respectivement les eﬀectifs n1 , ..., nk , et n = n1 + ... + nk .
la moyenne harmonique de cette série est :
n
H= k
P ni
i=1 xi
On a :
1
1 X ni
=
H
n i=1 xi
k
1
1
1
est donc la moyenne arithmétique de la série statistique , ..., .
H
x1
xk
Exemple 5
Une entreprise a n camions qui font la rotation Casablanca et Rabat.
Au cours d’une de celle-ci, le trajet Casablanca-Rabat (distance D) a été couvert
par ces véhicules aux vitesses moyennes :
v1 pour n1 camions
v2 pour n2 camions
v3 pour n3 camions
où
n1 + n2 + n3 = n
Déterminons la vitesse moyenne vm mise pour parcourir cette distance.
18
A. El Mossadeq
Statistique Descriptive
Le temps mis est :
t1
=
t2
=
t3
=
D
pour n1 camions
v1
D
pour n2 camions
v2
D
pour n3 camions
v3
La distance totale parcourue par les n camions est nD alors que le temps total mis
est :
t = n1 t1 + n2 t2 + n3 t3
Pour l’ensemble des camions, la vitesse moyenne est :
vm
nD
t
=
n
n1 n2 n3
+
+
v1
v2
v3
=
9. LES CARACTÉRISTIQUES DE
DISPERSION
Les caractéristiques de dispersion les plus utilisées sont :
• l’étendue,
• l’intervalle interquartile,
• l’écart absolu moyen,
• l’écart-type.
9.1. L’ÉTENDUE
9.1.1. CALCUL PRATIQUE
Soit une série statistique prenant les valeurs x1 , ..., xk auxquelles correspondent respectivement les eﬀectifs n1 , ..., nk .
L’étendue ω est la diﬀérence entre la plus grande et la plus petite des valeurs
observées :
k
k
i=1
i=1
ω = max xi − min xi
19
Statistique Descriptive
A. El Mossadeq
9.1.2. PROPRIÉTÉS
La signification de l´étendue est claire et son calcul est extrêmement rapide.
Ces avantages la font fréquemment utiliser dans le contrôle de fabrication industrielle où l’on préfère eﬀectuer un plus grand nombre d’observations plutôt que de
confier, compte tenu des conditions de travail d’un atelier, des calculs complexes à
des agents sans formation statistique.
Mais cette caractéristique présente des inconvénients sérieux qui conduisent à l’écarter
chaque fois que cela est possible.
Ne dépendant que des termes extrêmes, qui sont souvent exceptionnels, voir abérrants, et non de tous les termes, elle est sujette à des fluctuations considérables d’un
échantillon à l’autre.
C’est une caractéristique de dispersion très imparfaite.
9.2. L’INTERVALLE INTERQUARTILE
Les trois quartiles Q1 , Q2 et Q3 sont les valeurs de la variables pour lesquels la
3
1 1
fréquence cumulée est respectivement , et :
4 2
4
⎧
1
⎪
⎪
F
(Q
1) =
⎪
⎪
4
⎨
1
F (Q2 ) =
⎪
2
⎪
⎪
⎪
⎩ F (Q3 ) = 3
4
Le 2ème quartile est la médiane.
Q3 − Q1 est appelé l’intervalle interquartile. C’est l’intervalle qui contient 50%
des observations en laissant 25% à droite et 25% à gauche.
9.2.1. DÉTERMINATION PRATIQUE
Les quartiles se déterminent à la manière de la médiane, soit par le calcul, soit
graphiquement à partir de la courbe des fréquences cumulées.
• Pour l’exemple 2, la variable étant discrète, en utilisant les mêmes conventions
que pour la médiane, on trouve :
⎧
Q =1
⎪
⎪
⎨ 1
Q2 = 2
Q3 = 3
⎪
⎪
⎩ Q −Q =2
3
1
Comme pour la médiane, la signification des quartiles dans le cas discret est
très incertaines : dans cet exemple, l’intervalle interquartile contient 73% et
non 50% des observations.
20
A. El Mossadeq
Statistique Descriptive
• Pour l’exemple 3, l’interpolation linéaire à l’intérieur des intervalles contenant
Q1 et Q3 , à savoir les intervalles [1000, 1100[ et [1100, 1200[ respectivement,
conduit à :
µ
¶
140
(1100 − 1000)
− 26
4
= 1027F
Q1 = 1000 +
33µ
¶
3 × 140
(1200 − 1100)
− 59
4
Q3 = 1100 +
= 1172F
64
La détermination graphique fournit des évaluations peu diﬀérentes mais plus
précises :
Q1 = 1040F
,
Q3 = 1150F
50% des ouvriers se trouvent dans cet intervalle.
9.2.2. PROPRIÉTÉS
Les avantages de l’intervalle interquartile sont la rapidité de son calcul et la simplicité
de sa signification.
Mais il ne tient compte que de l’ordre des observations et non de leurs valeurs et
des écarts qui existe entre elles. En outre, sa détermination dans le cas discret n’est
pas précise et il ne se prête pas au calcul algébrique. C’est une caractéristique très
imparfaite qui ne convient qu’à des mesures de dispersion élémentaires.
9.2.3. DÉCILES ET PERCENTILES
• Les 9 déciles D1 , ..., D9 sont définies de manière analogue par :
k
, 1≤k≤9
10
L’intervalle D9 −D1 , qui contient 80% des observations, est utilisé parfois comme
mesure de dispersion.
• Les 99 percentiles P1 , ..., P99 divisent l’eﬀectif de la série en 100 partie égales :
F (Dk ) =
F (Pk ) =
k
, 1 ≤ k ≤ 99
100
9.3. L’ÉCART ABSOLU MOYEN
9.3.1. DÉTERMINATION PRATIQUE
Soit une variable statistique X prenant les valeurs x1 , ..., xk auxquelles correspondent
respectivement les eﬀectifs n1 , ..., nk , et n = n1 + ... + nk .
L’écart absolu moyen e [X] est la moyenne arithmétique des valeurs absolues des
21
Statistique Descriptive
A. El Mossadeq
écarts à la moyenne arithmétique :
1X
ni |xi − m|
e [X] =
n i=1
k
où m est la moyenne arithmétique da la variable.
Ainsi, dans l’exemple 3, l’écart absolu moyen est
e = 100.26F
9.3.2. PROPRIÉTÉS
L’écart absolu moyen satisfait assez bien aux premières conditions de Yule, mais se
prête mal au calcul algébrique puisqu’il fait intervenir des valeurs absolues.
9.4. L’ÉCART-TYPE
9.4.1. DÉTERMINATION PRATIQUE
Soit une variable statistique X prenant les valeurs x1 , ..., xk auquelles correspondent
respectivement les eﬀectifs n1 , ..., nk , et n = n1 + ... + nk .
• La variance V [X] de la variable statistique X est :
1X
1X
ni (xi − m)2 =
ni xi 2 − m2
n i=1
n i=1
k
V [X] =
k
où m est la moyenne arithmétique da la variable.
C’est la moyenne arithmétique des carrés des écarts à la moyenne arithmétique.
• L’écart-type σ [X] est la racine carrée de la variance :
p
σ [X] = V [X]
C’est une sorte de distance moyenne des observations à la moyenne arithmétique.
Ainsi, dans l’exemple 2 :
m [X]
V [X]
σ [X]
=
=
=
2.2
1.8
1.34
et pour l’exemple 3 :
m [X]
V [X]
σ [X]
=
=
=
22
1102.95F
19719.5
129.3
A. El Mossadeq
Statistique Descriptive
9.4.2. CORRECTION DE W. F. SHEPPARD
Lorsque les observations sont groupées par classe, l’hypothèse de la concentration
des observations au centre de chaque classe entraine une approximation dans le
calcul.
Si toutes les classes ont une même amplitude a et si la courbe de distribution est
unimodale et se raccorde, en ses extrémités, tangentiellement à l’axe des abscisses,
alors on introduit la correction suivante de l’écart-type σ, dite la correction de
Sheppard :
r
a2
σ corrigé = σ 2 −
12
9.4.3. PROPRIÉTÉS
L’écart-type satisfait assez bien les conditions de Yule.
Sa signification n’apparait clairement que dans l’étude des distributions d’échantillonnages.
Il jouera un rôle essentiel dans les applications pratiques.
10. APLATISSEMENT ET
DISSYMÉTRIE
10.1. LES MOMENTS D’ORDRE r
Soit une variable statistique X prenant les valeurs x1 , ..., xk auxquelles correspondent
respectivement les eﬀectifs n1 , ..., nk , et n = n1 + ... + nk .
• Le moment d’ordre r de X est :
1X
ni xri
mr =
n i=1
k
• Le moment d’ordre r de X par rapport à α est :
1X
mr (α) =
ni (xi − α)r
n i=1
k
• Le moment centré d’ordre r de X est :
1X
μr =
ni (xi − m1 )r
n i=1
k
23
Statistique Descriptive
A. El Mossadeq
En particulier :
m1
μ1
=
=
m2
=
m [X] = m
0
k
£ ¤
1X
ni x2i = m X 2
n i=1
£ ¤
1X
ni (xi − m)2 = σ 2 = m X 2 − m2
n i=1
k
μ2
=
On peut aussi, dans les mêmes conditions que pour l’écart-type, introduire les
corrections de Sheppard :
μ3 (corrigé)
=
μ3
μ4 (corrigé)
=
1
7 4
μ4 − a2 σ 2corrigé −
a
2
240
où a est l’amlitude de classe.
10.2. LE COEFFICIENT D’APLATISSEMENT
Le coeﬃcient d’aplatissement peut être défini selon le sens de Fisher (β 2F )
ou selon le sens de Paerson (β 2P ) :
μ4
β 2F =
σ4
μ4
β 2P =
− 3 = β 2F − 3
σ4
Pour une loi normale :
μ4 = 3σ 4
et par suite :
β 2F
β 2P
=
=
3
0
Le coeﬃcient d’aplatissement permet de comparer l’aplatissement d’une courbe
de fréquence à celui d’une courbe de Gauss de même écart-type : lorsque
β 2P > 0, la courbe de fréquence est moins aplatie que celle de Gauss; c’est
l’inverse lorsque β 2P < 0.
24
A. El Mossadeq
Statistique Descriptive
10.3. LE COEFFICIENT DE DISSYMÉTRIE
Le coeﬃcient de dissymétrie peut être défini selon le sens de Fisher (β 1F )
ou selon le sens de Paerson (β 1P ) :
μ3
β 1F =
σ3
μ23
β 1P =
= (β 1F )2
σ6
Pour une courbe symétrique
μ3 = 0
et par conséquent :
β 1F = β 1P = 0
Il est préférable d’utiliser le coeﬃcient de dissymétrie selon le sens de Fisher
β 1F puisqu’il permet de distinguer la dissymétrie à gauche [β 1F < 0] de la
dissymétrie à droite [β 1F > 0] .
β 1F < 0 : dissymétrie à gauche
β 1F > 0 : dissymétrie à droite
25
Chapitre 2
Structure Statistique
et
Estimation
A. El Mossadeq
Structures Statistiques et Estimation
1. STATISTIQUE ET STRUCTURE
STATISTIQUE
Définition 1
Soit X un aléa défini sur un espace probabilisé (Ω, T ,P ) à valeurs dans un espace
probabilisable (E, B) .
(X1 , ..., Xn ) est un échantillon de taille n de variable parente X, ou plus
simplement un n-échantillon issu de X, si X1 , ..., Xn sont n aléas indépendants
qui suivent la même loi que X.
Définition 2
Soit (X1 , ..., Xn ) un n-échantillon issu d’un aléa X défini sur un espace probabilisé
(Ω, T ,P ) à valeurs dans un espace probabilisable (E, B) et soit g un aléa défini sur
(E, B)n .
L’aléa g ◦ (X1 , ..., Xn ) est appelé une statistique.
La loi de g ◦ (X1 , ..., Xn ) est appelé une distribution d’échantillonnage.
Exemple 1
Soit (X1 , ..., Xn ) un n-échantillon issu d’une variables aléatoire X.
Les variables aléatoires :
⎧
n
1X
⎪
⎪
M
=
Xi
⎪
⎪
⎪
n i=1
⎨
⎪
⎪
⎪
⎪
2
⎪
⎩ S
1X
(Xi − M)2
n i=1
n
=
sont des statistiques.
M est la moyenne empirique et S 2 est la variance empirique.
Définition 3
Soit P une famille de lois de probabilité sur un espace probabilisable (Ω, T ).
Le triplet (Ω, T ,P) est appelé une structure statistique.
29
Structures Statistiques et Estimation
A. El Mossadeq
Remarque 1
Le plus souvent, la famille de lois de probabilité P est décrite à l’aide d’un paramètre
θ appartenant à un sous ensemble Θ de Rp , p ≥ 1. On écrit alors :
P = {Pθ | θ ∈ Θ}
et la structure statistique s’écrit :
(Ω, T , {Pθ | θ ∈ Θ})
Exemple 2
Soit X une variable aléatoire de P oisson de paramètre θ, θ > 0 :
pθ (ω) =
θω −θ
e
ω!
où ω ∈ N.
La structure statistique associée est (N, {pθ | θ > 0}) .
Exemple 3
Soit X une variable aléatoire exponentielle de paramètre θ, θ > 0 :
⎧
si x ≤ 0
⎨ 0
fθ (x) =
⎩ θ exp −θx si x > 0
La structure statistique associée est (R, BR , {fθ | θ > 0}) .
Définition 4
On appelle un r-échantillon d’une structure statistique (Ω, T , {Pθ | θ ∈ Θ}), la
structure produit :
(Ω, T , {Pθ | θ ∈ Θ})r = (Ωr , ⊗r T , {⊗r Pθ | θ ∈ Θ})
30
A. El Mossadeq
Structures Statistiques et Estimation
2. FONCTION DE VRAISEBLANCE
2.1. STRUCTURE STATISTIQUE DISCRÈTE
Définition 5
Soit (Ω, {pθ | θ > 0}) une structure statistique discrète.
On appelle fonction de vraisemblance, de cette structure, la fonction numérique
L définie pour tout (θ; x) ∈ Θ × Ω par :
L (θ; x) = pθ (x)
La fonction de vraisemblance d’un r-échantillon de cette structure est définie
pour tout (θ; x1 , ..., xr ) ∈ Θ × Ωr par :
L (θ; x1 , ..., xr ) =
r
Y
pθ (xi )
i=1
Exemple 4
Si (X1 , ..., Xr ) est un r-échantillon issu d’une variables aléatoire de P oisson de
paramètre θ, θ > 0, sa fonction de vraisemlance est :
L (θ; ω 1 , ..., ω r )
=
r
Y
pθ (ω i )
i=1
r
P
ωi
θ
e−rθ
ω1 !...ω r !
i=1
=
2.2. STRUCTURE STATISTIQUE CONTINUE
Définition 6
Soit (Rn , BRn , {Pθ | θ > 0}) une structure statistique dans laquelle les probabilités
Pθ sont définies à partir de densité fθ .
On appelle fonction de vraisemblance, de cette structure, la fonction numérique
L définie pour tout (θ; x) ∈ Θ × Rn par :
L (θ; x) = fθ (x)
31
Structures Statistiques et Estimation
A. El Mossadeq
La fonction de vraisemblance d’un r-échantillon de cette structure est définie
pour tout (θ; x1 , ..., xr ) ∈ Θ × (Rn )r par :
L (θ; x1 , ..., xr ) =
r
Y
fθ (xi )
i=1
Exemple 5
Si (X1 , ..., Xr ) est un r-échantillon issu d’une variables aléatoire exponentielle de
paramètre θ, θ > 0, sa fonction de vraisemlance est :
L (θ; x1 , ..., xr )
=
r
Y
fθ (xi )
i=1
=
r
θ exp −θ
r
X
i=1
xi , xi > 0 , 1 ≤ i ≤ r
Exemple 6
Si (X1 , ..., Xr ) est un r-échantillon issu d’une variables aléatoire qui suit la loi uniforme sur l’intervalle [0, θ], θ > 0, sa fonction de vraisemlance est :
L (θ; x1 , ..., xr )
=
r
Y
fθ (xi )
i=1
=
1
, xi ∈ [0, θ] , 1 ≤ i ≤ r
θr
3. STATISTIQUES EXHAUSTIVES
Soit (Ω, T ,P ) un espace probabilisé et T ∗ une sous-tribu de T .
Si A est un événement de T et χA la fonction caractéristique de A, l’espérence
conditionnelle E [χA | T ∗ ], que l’on note P [A | T ∗ ], s’appelle la probabilité
conditionnelle de A relativement à la sous-tribu T ∗ .
P [A | T ∗ ] est une variable aléatoire définie sur (Ω, T ∗ ) d’une façon unique
(P -p.p) par :
Z
Z
∗
P [A | T ] dP =
χA dP
B
B
=
32
P [AB]
A. El Mossadeq
Structures Statistiques et Estimation
pour tout B ∈ T ∗ .
Si T ∗ est la sous-tribu engendrée par une partition A1 , ..., Ar de Ω, alors :
P [A | T ∗ ] = P [A | Ai ] sur Ai
c’est à dire :
∗
P [A | T ] =
r
X
i=1
P [A | Ai ] χAi
Si T est un aléa défini sur un espace probabilisé (Ω, T ,P ) à valeurs dans un
espace probabilisable (E, B), on définit la probabilité conditionnelle de A
relativement à T par :
£
¤
P [A | T ] = P A | T −1 (B)
et comme :
alors :
P [A | T ] = u ◦ T = u (T )
P [A | T = t] = u (t)
Définition 7
Soit (Ω, T , {Pθ | θ ∈ Θ}) une structure statistique.
Une sous-tribu T ∗ de T est dite exhaustive pour la famille {Pθ | θ ∈ Θ} si pour
tout A dans T , la probabilité conditionnelle Pθ [A | T ∗ ] est indépendante de θ.
Définition 8
On dit que la statistique T définie sur (Ω, T , {Pθ | θ ∈ Θ}) à valeurs dans un
espace probabilisable (E, B) est exhaustive pour la famille {Pθ | θ ∈ Θ} si la sous
tribu T −1 (B) est exhaustive pour cette famille.
Une statistique exhaustive est appelée aussi un résumé exhaustif.
Proposition 1
Soit (Ω, {pθ | θ ∈ Θ}) une structure statistique discrète.
Une statistique T définie sur (Ω, T , {Pθ | θ ∈ Θ}) à valeurs dans un espace probabilisable (E, B) est exhaustive pour la famille {Pθ | θ ∈ Θ} si et seulement si il existe
une fonction positive g définie sur Θ × Ω et une fonction h définie sur Ω telle que
pour tout (θ; ω) ∈ Θ × Ω on ait :
pθ (ω) = g (θ; T (ω)) h (ω)
33
Structures Statistiques et Estimation
A. El Mossadeq
Preuve 1
• Supposons T exhaustif.
∗ Si :
Pθ [T = T (ω)] = 0
il suﬃt de prendre :
g (θ; T (ω)) = 0
et :
h (ω) = 0
∗ Si :
Pθ [T = T (ω)] 6= 0
alors :
pθ (ω)
=
=
Pθ [{ω} ∩ {T = T (ω)}]
Pθ [T = T (ω)] Pθ [ω | T = T (ω)]
On peut poser donc :
g (θ; T (ω)) = Pθ [T = T (ω)]
et :
h (ω) = Pθ [ω | T = T (ω)]
puisque d’après l’exhaustuvité, cette probabilité conditionnelle ne dépend
pas de θ.
• Inversement, supposons que pour tout (θ; ω) ∈ Θ × Ω on a :
pθ (ω) = g (θ; T (ω)) h (ω)
Il suﬃt de prouver que pour tout (ω, t) ∈ Ω × E, la probabilité Pθ [ω | T = t]
ne dépend pas de θ.
En eﬀet, supposons :
Pθ [T = t] 6= 0
∗ si :
T (ω) 6= t
alors :
Pθ [ω | T = t]
=
=
Pθ [{ω} ∩ {T = t}]
Pθ [T = t]
0
34
A. El Mossadeq
Structures Statistiques et Estimation
∗ si :
T (ω) = t
alors :
Pθ [ω | T = t]
Pθ [{ω} ∩ {T = t}]
Pθ [T = t]
g (θ; T (ω)) h (ω)
P
g (θ; T (ω)) h (ω)
=
=
{ω∈Ω|T (ω)=t}
h (ω)
P
=
h (ω)
{ω∈Ω|T (ω)=t}
Exemple 7
Soit (Ω, {pθ | θ ∈ Θ}) une structure statistique discrète.
Les familles de lois exponentielles :
" k
#
X
pθ (ω) = exp
αi (θ) ai (ω) + β (θ) + b (ω)
i=1
admettent des résumés exhaustifs.
Exemple 8
Soit X une variable aléatoire de Bernouilli de paramètre θ, 0 < θ < 1 :
pθ (ω) = exp [(1 − ω) ln (1 − θ) + ω ln θ]
Si (X1 , ..., Xr ) est un r-échantillon de cette structure alors :
pθ (ω1 , ..., ω r ) = exp
r
X
i=1
Posons :
[(1 − ωi ) ln (1 − θ) + ω i ln θ]
1X
T (ω1 , ..., ω r ) =
ωi
r i=1
r
alors :
pθ (ω 1 , ..., ω r )
r
X
[(1 − ω i ) ln (1 − θ) + ω i ln θ]
=
exp
=
=
exp r [(1 − T (ω 1 , ..., ω r )) ln (1 − θ) + T (ω 1 , ..., ω r ) ln θ]
g [θ; T (ω1 , ..., ω r )]
i=1
35
Structures Statistiques et Estimation
A. El Mossadeq
T est alors un résumé exhaustif pour la famille des lois de Bernouilli de paramètre
θ, 0 < θ < 1.
Proposition 2
Soit (Rn , BRn , {Pθ | θ > 0}) une structure statistique dans laquelle les probabilités
Pθ sont définies à partir de densité fθ .
Une statistique T définie sur (Rn , BRn , {Pθ | θ > 0}) à valeurs dans (Rs , BRs ) est
exhaustive pour la famille {Pθ | θ ∈ Θ} si et seulement si il existe une fonction positive g définie sur Θ × Rs mesurable pour tout θ fixé dans Θ et une fonction positive
et mesurable h définie sur Rn telle que pour tout (θ; x) ∈ Θ × Rn on ait :
fθ (x) = g (θ; T (x)) h (x)
Preuve 2
Admis
Exemple 9
Soit (Rn , BRn , {Pθ | θ > 0}) une structure statistique dans laquelle les probabilités
Pθ sont définies à partir de densité fθ .
Les familles de lois exponentielles :
" k
#
X
fθ (x) = exp
αi (θ) ai (x) + β (θ) + b (x)
i=1
admettent des résumés exhaustifs.
Exemple 10
Soit X une variable aléatoire exponentielle de paramètre θ, θ > 0 :
⎧
si x ≤ 0
⎨ 0
fθ (x) =
⎩ θ exp −θx si x > 0
Si (X1 , ..., Xr ) un r-échantillon de cette structure alors :
⎧
r
P
⎪
r
⎪
⎨ θ exp −θ xi si xi > 0 , 1 ≤ i ≤ r
i=1
fθ (x1 , ..., xr ) =
⎪
⎪
⎩ 0
ailleurs
36
A. El Mossadeq
Structures Statistiques et Estimation
Posons :
1X
xi
r i=1
r
T (x1 , ..., xr ) =
alors :
fθ (ω1 , ..., ω r )
r
r
X
=
θ exp −θ
=
=
θr exp −rθT (x1 , ..., xr )
g [θ; T (x1 , ..., xr )]
xi
i=1
T est alors un résumé exhaustif pour la famille des lois exponentielles de paramètres
θ, θ > 0.
Exemple 11
Soit X une variable aléatoire normale de paramètres μ ∈ R et σ 2 , σ > 0 :
1
1
f (μ, σ; x) = √ exp − 2 (x − μ)2
2σ
σ 2π
Si (X1 , ..., Xr ) est un r-échantillon de cette structure alors :
Posons :
r
1
1 X
f (μ, σ; x1 , ..., xr ) = ¡ √ ¢r exp − 2
(xi − μ)2
2σ
σ 2π
i=1
1X
xi
r i=1
n
M (x1 , ..., xr )
=
S 2 (x1 , ..., xr )
=
1X
[xi − M (x1 , ..., xr )]2
r i=1
n
On a :
f (μ, σ; x1 , ..., xr )
=
=
puisque :
r
X
i=1
2
¤
1
r £
¡ √ ¢r exp − 2 S 2 (x1 , ..., xr ) + (M (x1 , ..., xr ) − μ)2
2σ
σ 2π
£
¤
g μ, σ; M (x1 , ..., xr ) , S 2 (x1 , ..., xr )
£
¤
(xi − μ)2 = r S 2 (x1 , ..., xr ) + (M (x1 , ..., xr ) − μ)2
(M, S ) est alors un résumé exhaustif pour la famille des lois normales de paramètres
μ ∈ R et σ 2 , σ > 0.
37
Structures Statistiques et Estimation
A. El Mossadeq
4. INFORMATION CONCERNANT
UN PARAMÈTRE
Dans tout ce paragraphe, on suppose donné un vecteur aléatoire à n dimensions défini sur une structure statistique (Ω, T , {Pθ | θ ∈ Θ}), ce qui permet
de trasporter la structure statistique sur Rn .
Par abus, on note Pθ , la loi (Pθ )X du vecteur aléatoire X, et on suppose que
Pθ possède une densité fθ .
On désigne par Dθ le domaine :
Dθ = {x ∈ Rn | f (θ; x) > 0}
4.1. MATRICE D’INFORMATION
Proposition 3
Soit (Rn , BRn , {Pθ | θ ∈ Θ}), Θ ⊂ Rk , une structure statistique dans laquelle les
probabilités Pθ sont définies à partir des densités fθ .
Sous réserve de légitimité de dérivations sous le signe intégrale et en supposant le
domaine :
Dθ = {x ∈ Rn | f (θ; x) > 0}
indépendant de θ, pour tout θ ∈ Θ, le vecteur aléatoire :
∙
¸
∂
ln f (θ; X)
∂θj
1≤i≤k
est centré.
Preuve 3
Puisque :
Z
f (θ, x) dx = 1
Rn
alors, en supposant légitimes les dérivations sous le signe d’intégration et le domaine
Dθ indépendant de θ, pour tout θ ∈ Θ, on obtient :
¸
Z ∙
Z
∂
∂
f (θ, x) dx =
ln f (θ, x) f (θ, x) dx
Rn ∂θ j
Rn ∂θ j
= 0
pour tout j, 1 ≤ j ≤ k.
38
A. El Mossadeq
Structures Statistiques et Estimation
Définition 9
La matrice des variances et covariances du vecteur aléatoire :
¸
∙
∂
ln f (θ; X)
∂θj
1≤i≤k
est appelée, lorsqu’elle existe, la matrice d’information concernant le paramètre
θ fourni par la structure statistique (Rn , BRn , {Pθ | θ ∈ Θ}).
On la note I [X, θ] .
Lorsque n = 1, I [X, θ] n’a qu’un seul élément appelé la quantité d’information
de Fisher.
Pour calculer les éléments de la matrice I [X, θ] = [Iij ], partons de la relation :
Z
f (θ, x) dx = 1
Rn
donc, pour tout j, 1 ≤ j ≤ n, on a :
Z
∂
f (θ, x) dx = 0
∂θj Rn
Sous reserve de validité des dérivations sous le signe intégrale et en supposant
le domaine :
Dθ = {x ∈ Rn | f (θ; x) > 0}
indépendant de θ, on obtient :
Z
∂
f (θ, x) dx =
Rn ∂θ j
=
Z
Rn
0
∙
¸
∂
ln f (θ, x) f (θ, x) dx
∂θj
Sous les mêmes conditions on a :
∙
¸
∙
¸∙
¸
∂2
∂
∂
ln f (θ, x) f (θ, x) dx +
ln f (θ, x)
ln f (θ, x) f (θ, x) dx = 0
∂θi
∂θj
Rn ∂θ i ∂θ j
Z
d’où :
Iij
=
=
∙
¸
∂
∂
E
ln f (θ, X)
ln f (θ, X)
∂θi
∂θj
¸
∙
∂2
ln f (θ, X)
−E
∂θi ∂θj
39
Structures Statistiques et Estimation
A. El Mossadeq
Remarque 2
En tant que matrice des variances et covariances, I [X, θ] est symétrique et positive.
Exemple 12
Soit X une variable aléatoire normale de paramètres μ ∈ R et σ 2 , σ > 0.
La matrice d’information concernant les paramètres μ et σ est donnée par :
⎡ 1
⎤
0
⎢ σ2
⎥
⎥
I [X; μ, σ] = ⎢
⎣
⎦
2
0
σ2
Remarque 3
Lorsque n = 1, la quantité d’information de Fisher est :
"µ
¶2 #
∂
I [X, θ] = E
ln f (θ, X)
∂θ
¸
∙ 2
∂
ln f (θ, X)
= −E
∂θ2
Proposition 4
Soit I [X, θ] la matrice d’information de la structure statistique (Rn , BRn , {Pθ | θ ∈ Θ}),
où Θ ⊂ Rk et les probabilités Pθ sont définies à partir des densités fθ , et soit
I [X1 , ..., Xr ; θ] un r-échantillon de cette structure.
40
A. El Mossadeq
Structures Statistiques et Estimation
Sous reserve de légétimité de dérivations sous le signe intégrale et en supposant le
domaine :
Dθ = {x ∈ Rn | f (θ; x) > 0}
indépendant de θ, pour tout θ ∈ Θ, alors :
I [X1 , ..., Xr ; θ] = rI [X, θ]
Preuve 4
Puisque :
L (θ; x1 , ..., xr ) =
alors :
¸
∂2
ln L (θ; X1 , ..., Xr )
E
∂θi ∂θj
∙
r
Y
f (θ, xi )
i=1
=
=
=
"
#
r
Y
∂2
E
ln
f (θ; Xi )
∂θi ∂θj i=1
∙
¸
r
X
∂2
E
ln f (θ; Xi )
∂θ
∂θ
i
j
i=1
¸
∙
∂2
ln f (θ; X)
rE
∂θi ∂θj
Exemple 13
Soit X une variable aléatoire normale de paramètres μ ∈ R et σ 2 , σ > 0. On suppose
que σ est connu.
"µ
¶2 #
∂
I [X, μ] = E
ln f (μ, X)
∂μ
¸
∙
1
2
= E 4 (X − μ)
σ
1
=
σ2
Si X1 , ..., Xr est un r-échantillon de cette structure, alors :
I [X1 , ..., Xr ; μ]
=
=
41
rI [X, μ]
r
σ2
Structures Statistiques et Estimation
A. El Mossadeq
Proposition 5
Soit T1 , ..., Ts un système de s statistiques définies sur un r-échantillon de la structure
statistique (Rn , BRn , {Pθ | θ ∈ Θ}), s ≤ r.
On suppose qu’il existe des statistiques Ts+1 , ..., Tr telles que les équations :
ti = Ti (x1 , ..., xr ) , 1 ≤ i ≤ r
définissent un changement de variables continument diﬀérentiable.
Sous réserve de légétimité de dérivations sous le signe intégrale et en supposant le
domaine :
Dθ = {x ∈ Rn | f (θ; x) > 0}
indépendant de θ, pour tout θ ∈ Θ, la matrice :
I [X1 , ..., Xr ; θ] − I [T1 , ..., Ts ; θ]
est positive.
Elle est nulle si et seulement si T1 , ..., Ts est un résumé exhaustif.
Preuve 5
Le changement de variables :
ti = Ti (x1 , ..., xr ) , 1 ≤ i ≤ r
permet d’écrire :
d’où :
−
¯
¯
¯ D (t1 , ..., tr ) ¯
¯
L (θ; x1 , ..., xr ) = g (θ; t1 , ..., ts ) g (θ; ts+1 , ..., tr | t1 , ..., ts ) ¯¯
D (x1 , ..., xr ) ¯
∂2
∂2
∂2
ln L (θ; x1 , ..., xr ) = −
ln g (θ; t1 , ..., ts )−
ln g (θ; ts+1 , ..., tr | t1 , ..., ts )
∂θi ∂θj
∂θi ∂θj
∂θi ∂θj
Il en découle que :
I [X1 , ..., Xr ; θ] = I [T1 , ..., Ts ; θ] + J
La matrice J est positive puisqu’elle s’obtient comme moyenne des matrices des
variances et covariances associées à :
∂
ln g (θ; ts+1 , ..., tr | t1 , ..., ts )
∂θi
Elle est nulle si et seulement si la fonction :
g (θ; ts+1 , ..., tr | t1 , ..., ts )
est indépendant de θ, donc si et seulement si (T1 , ..., Ts ) est un résumé exaustif.
42
A. El Mossadeq
Structures Statistiques et Estimation
Remarque 4
Dans ces conditions, il est équivalent de travailler avec le r-échantillon ou le résumé
exhaustif.
Remarque 5
Lorsque θ est un paramètre réel, la quantité d’information fournie par un résumé T
défini sur un r-échantillon est majorée par celle qui est fournie par le r-échantillon :
I [T ; θ] ≤ I [X1 , ..., Xr ; θ]
L’égalité a lieu si et seulement si T est un résumé exhaustif.
Exemple 14
Soit X une variable aléatoire normale de paramètres μ ∈ R et σ 2 , σ > 0.
On suppose que σ est connu.
Considérons la statistique :
r
1X
M=
Xi
r i=1
où X1 , ..., Xr est un r-échantillon issu de X.
Puisque M est une variable aléatoire normale de paramètres μ et
σ2
, alors :
r
r
σ2
M est alors un résumé exhaustif pour μ concernant la structure statistique considérée.
I [M, μ] =
4.2. INÉGALITÉ DE CRAMER-RAO
Proposition 6
Soit (Rn , BRn , {Pθ | θ ∈ Θ}), Θ ⊂ Rk , une structure statistique dans laquelle les
probabilités Pθ sont définies à partir des densités fθ .
Considérons un r-échantillon de cette structure et notons L sa fonction de vraiseblance.
43
Structures Statistiques et Estimation
A. El Mossadeq
Soit :
T = Φ (X1 , ..., Xr )
un résumé exhaustif de cette structure.
On suppose que :
(1) la variance σ 2 [T ] = V [T ] existe,
∂
∂
(2)
L (θ; x1 , ..., xr ) et Φ (x1 , ..., xr ) L (θ; x1 , ..., xr ) existent et sont intégrables,
∂θ
∂θ
(3) la quantité d’information de Fisher existe,
(4) le domaine Dθ est indépendant de θ, pour tout θ ∈ Θ.
Alors sous reserve de légétimité de dérivations sous le signe d’intégration on a :
∙
¸
∂
E [T ]
∂θ
V [T ] ≥
I [X1 , ..., Xr ; θ]
de plus, l’égalité a lieu si et seulement si :
∂
ln L (θ; X1 , ..., Xr ) = γ (θ) [T − E [T ]]
∂θ
C’est l’inégalité de Cramer-Rao.
Preuve 6
∂
ln L (θ; X1 , ..., Xr ) est centrée, c’est
D’après ce qui précède, la variable aléatoire
∂θ
à dire :
¸
∙
∂
E
ln L (θ; X1 , ..., Xr ) = 0
∂θ
et donc :
Par définition :
∙
¸
∂
E E [T ]
ln L (θ; X1 , ..., Xr ) = 0
∂θ
E [T ] =
Z
Rnr
Φ (x1 , ..., xr ) L (θ; x1 , ..., xr ) dx1 ...dxr
Les hypothèses permettent d’écrire :
Z
∂
∂
E [T ] =
Φ (x1 , ..., xr ) L (θ; x1 , ..., xr ) dx1 ...dxr
∂θ
∂θ
Rnr
∙
¸
∂
ln L (θ; X1 , ..., Xr )
= E T
∂θ
¸
∙
∂
ln L (θ; X1 , ..., Xr )
= E (T − E [T ])
∂θ
44
A. El Mossadeq
Structures Statistiques et Estimation
Il s’en suit par application de l’inégalité de Schwarz :
"µ
¸2
¶2 #
∙
£
∂
∂
2¤
E [T ]
ln L (θ; X1 , ..., Xr )
≤ E (T − E [T ]) E
∂θ
∂θ
≤
V [T ] I [X1 , ..., Xr ; θ]
d’où :
∙
¸2
∂
E [T ]
∂θ
V [T ] ≥
I [X1 , ..., Xr ; θ]
De plus légalité a lieu si et seulement si :
∂
ln L (θ; X1 , ..., Xr ) = γ (θ) [T − E [T ]]
∂θ
5. ESTIMATEURS
Définition 10
Soit (Ω, T , {Pθ | θ ∈ Θ}) une structure statistique et considérons un aléa :
h : (Θ, W) −→ (E, B)
où W est une tribu de P (Θ) .
On appelle estimateur de h (θ), θ ∈ Θ, toute statistique à valeurs dans (E, B).
Définition 11
Soit T un estimateur de h (θ), θ ∈ Θ.
1. T est dit sans biais si :
E [T ] = h (θ)
2. T est dit asymptoquement sans biais si :
lim E [T ] = h (θ)
r→∞
3. T est dit convergent si :
lim V [T ] = 0
r→∞
45
Structures Statistiques et Estimation
A. El Mossadeq
Exemple 15
Soit (X1 , ..., Xr ) un r-échantillon issu d’une variable aléatoire X de moyenne μ et
de variance σ 2 .
1. La statistique :
1X
M=
Xi
r i=1
r
est un estimateur sans biais et convergent de la moyenne μ :
" r
#
1X
E [M] = E
Xi
r i=1
1X
E [Xi ]
r i=1
μ
r
=
=
2. La statistique :
1X
(Xi − μ)2
r i=1
r
S12 =
est un estimateur sans biais de la variance σ 2 .
En eﬀet :
#
" r
£ 2¤
1X
E S1
(Xi − μ)2
= E
r i=1
¤
1X £
E (Xi − μ)2
r i=1
r
=
1X
V [Xi ]
r i=1
r
=
=
σ2
Donc S12 est un estimateur sans biais de σ 2 .
3. La statistique :
1X
=
(Xi − M)2
r i=1
r
S22
est un estimateur biaisé de la variance σ 2 .
46
A. El Mossadeq
Structures Statistiques et Estimation
En eﬀet :
r
X
i=1
2
(Xi − M)
=
=
r
X
i=1
r
X
i=1
=
r
X
i=1
d’où :
E
" r
X
i=1
2
(Xi − M)
[(Xi − μ) − (M − μ)]2
2
(Xi − μ) − 2
r
X
i=1
(Xi − μ) (M − μ) +
r
X
i=1
(M − μ)2
(Xi − μ)2 − r (M − μ)2
#
=
E
" r
X
i=1
=
2
(Xi − μ)
#
(r − 1) σ 2
£
¤
− rE (M − μ)2
On en déduit :
£ ¤ r−1 2
E S22 =
σ
r
d’où S22 est biasé.
4. La statistique :
1 X
S =
(Xi − M)2
r − 1 i=1
r
2
est un estimateur sans biais de la variance σ 2 .
En eﬀet, puisque :
r
S2 =
S2
r−1 2
on en déduit :
£ ¤
E S 2 = σ2
Remarque 6
Si T un estimateur sans biais de h (θ), on a en vertu de l’inégalité de Cramer-Rao :
[h0 (θ)]2
V [T ] ≥
I [X1 , ..., Xr ; θ]
Si de plus h (θ) = θ, alors :
V [T ] ≥
1
I [X1 , ..., Xr ; θ]
47
Structures Statistiques et Estimation
A. El Mossadeq
Remarque 7
Soit T l’ensemble des estimateurs sans biais de h (θ), vérifiant l’inégalité de CramerRao.
On a :
[h0 (θ)]2
inf V [T ] ≥
T ∈T
I [X1 , ..., Xr ; θ]
Définition 12
Un estimateur T0 de T est dit de variance minimale si :
V [T0 ] = inf V [T ]
T ∈T
Définition 13
Si :
[h0 (θ)]2
inf V [T ] =
T ∈T
I [X1 , ..., Xr ; θ]
on appelle eﬃcacité d’un estimateur T0 de T, le rapport :
inf V [T ]
e [T0 ] =
T ∈T
V [T0 ]
T0 est dit eﬃcace lorsque son eﬃcacité est égale à 1 :
e [T0 ] = 1
Proposition 7
Soit T = Φ (X1 , ..., Xr ) un estimateur de T.
Les trois conditions suivantes sont équivalentes :
(1) T est eﬃcace
∂
(2)
ln L (θ; x1 , ..., xr ) = γ (θ) [Φ (x1 , ..., xr ) − h (θ)]
∂θ
(3) T un résumé exhaustif dont la densité de probabilité g (θ; t) est telle que :
∂
ln g (θ; x) = γ (θ) [t − h (θ)]
∂θ
48
A. El Mossadeq
Structures Statistiques et Estimation
Preuve 7
• (1) ⇐⇒ (2)
D’après la définition de l’eﬃcacité, T est eﬃcace si et seulement si l’inégalité de
Cramer-Rao est une égalité, donc si et seulement si :
∂
ln L (θ; X1 , ..., Xr ) = γ (θ) [T − h (θ)]
∂θ
• (1) =⇒ (3)
T est eﬃcace donc :
V [T ]
[h0 (θ)]2
I [X1 , ..., Xr ; θ]
[h0 (θ)]2
I [T ; θ]
=
=
d’où :
I [X1 , ..., Xr ; θ] = I [T ; θ]
et par conséquent T est un résumé exhaustif concernant θ et on a :
∂
ln g (θ; x) = γ (θ) [t − h (θ)]
∂θ
par application de l’inégalité de Cramer-Rao (qui est une égalité dans ce cas) à
T.
• (3) =⇒ (2)
Si T est un résumé exhaustif concernant θ, alors d’après le théorème de factorisation :
D’où :
L (θ; X1 , ..., Xr ) = g (θ; t) s (X1 , ..., Xr )
∂
ln L (θ; X1 , ..., Xr )
∂θ
=
=
49
∂
ln g (θ; x)
∂θ
γ (θ) [T − h (θ)]
Structures Statistiques et Estimation
A. El Mossadeq
6. L’ESTIMATION PAR LA
MÉTHODE DE LA
VRAISEMBLANCE
La méthode du maximum de vraisemblance a pour but de fournir un moyen
eﬃcace pour choisir un estimateur d’un paramètre.
Définition 14
Soit L (θ; X1 , ..., Xr ) la fonction de vraisemlance d’un r-échantillon X1 , ..., Xr .
Si pour (x1 , ..., xr ) donné :
θ = Φ (x1 , ..., xr )
réalise le maximum strict de la fonction :
θ 7−→ L (θ; X1 , ..., Xr )
on dit que :
θ̂ = Φ (X1 , ..., Xr )
est l’estimateur du maximum de vraisemlance de θ.
Exemple 16
Soit X1 , ..., Xr un r-échantillon d’une variable aléatoire de P oisson de paramètre θ,
θ > 0. Sa fonction de vraisemlance est :
r
P
ωi
θ
L (θ; ω1 , ..., ω r ) =
e−rθ
ω 1 !...ω r !
i=1
Cette fonction atteint son maximum strict pour :
1X
ωi
r i=1
r
θ=
Donc, l’estimateur du maximum de vraisemlance de θ est :
1X
Xi
r i=1
r
θ̂ =
θ̂ est un estimateur sans biais et convergent du paramètre θ de la loi de P oisson.
θ̂ représente la moyenne empirique du n-échantillon.
50
A. El Mossadeq
Structures Statistiques et Estimation
Exemple 17
Soit (X1 , ..., Xr ) un r-échantillon d’une variable aléatoire qui suit une loi normale
de paramètres μ ∈ R et σ 2 , σ > 0.
On suppose σ connu.
La fonction de vraisemlance de ce r-échantillon est :
r
1
1 X
(xi − μ)2
L (μ; x1 , ..., xr ) = ¡ √ ¢r exp − 2
2σ i=1
σ 2π
Cette fonction atteint son maximum strict pour :
1X
μ=
xi
r i=1
r
Donc, l’estimateur du maximum de vraisemlance de μ est :
1X
μ̂ =
Xi
r i=1
r
Et comme :
V [μ̂] =
σ2
r
et :
I [X1 , ..., Xr ; μ] =
r
σ2
donc :
e [μ̂] = 1
μ̂ est alors un estimateur eﬃcace de μ.
Exemple 18
Soit (X1 , ..., Xr ) un r-échantillon d’une variable aléatoire qui suit une loi normale
de paramètres μ ∈ R et σ 2 , σ > 0.
On suppose μ connu.
L’estimateur du maximum de vraisemlance de σ2 est :
r
1X
2
(Xi − μ)2
σ̂ =
r i=1
σ̂ 2 est un estimateur sans biais de σ 2 .
51
Structures Statistiques et Estimation
A. El Mossadeq
Exemple 19
Soit (X1 , ..., Xr ) un r-échantillon d’une variable aléatoire qui suit une loi normale
de paramètres μ ∈ R et σ 2 , σ > 0.
Les estimateurs du maximum de vraisemlance de μ et σ 2 sont :
⎧
r
1X
⎪
⎪
=
Xi
⎪
⎨ μ̂
r i=1
r
⎪ 2
1X
⎪
⎪
=
(Xi − μ)2
⎩ σ̂
r i=1
σ̂ 2 est un estimateur biaisé de σ 2 .
Proposition 8
S’il existe un résumé exhaustif T1 , ..., Ts alors tout estimateur de θ par le maximum
de vraisemlance est fonction de T1 , ..., Ts .
Preuve 8
Si (T1 , ..., Ts ) est un résumé exhaustif alors :
L (θ; x1 , ..., xr ) = g (θ; t1 , ..., ts ) h (x1 , ..., xr )
Donc, maximiser L revient à maximiser g.
Proposition 9
Supposons les hypothèses de l’inégalité de Cramer-Rao vérifiées.
S’il existe un estimateur sans biais et eﬃcace T de h (θ), alors toute fonction
θ̂ (x1 , ..., xr ) telle que :
³ ´
T (x1 , ..., xr ) = h θ̂
est solution de l’équation de vraisemlance et réalise le maximum strict de la vraisemlance.
Preuve 9
Si T est un estimateur sans biais et eﬃcace de h (θ) alors :
∂
ln L (θ; x1 , ..., xr ) = γ (θ) [t − h (θ)]
∂θ
Donc, pour (x1 , ..., xr ) donné, toute fonction θ̂ telle que :
³ ´
t (x1 , ..., xr ) = h θ̂
52
A. El Mossadeq
Structures Statistiques et Estimation
est solution de l’équation de vraisemblance.
D’autre part :
∂2
0
0
2 ln L (θ; x1 , ..., xr ) = γ (θ) [t − h (θ)] − γ (θ) h (θ)
∂θ
et :
I [X1 , ..., Xr ; θ]
=
=
∙
¸
∂2
−E
ln L (θ; X1 , ..., Xr )
∂θ2
γ (θ) h0 (θ)
Or :
I [X1 , ..., Xr ; θ]
"µ
¶2 #
∂
ln L (θ; X1 , ..., Xr )
∂θ
=
E
=
[γ (θ)]2 V [T ]
donc :
γ (θ) h0 (θ) > 0
d’où, pour θ = θ̂ :
´
³ ´ ³ ´
³
∂2
0
2 ln L θ̂; x1 , ..., xr = γ θ̂ h θ̂
∂θ
est strictement négatif, ce qui assure que θ̂ réalise le maximum strict.
53
Structures Statistiques et Estimation
A. El Mossadeq
7. EXERCICES
Exercice 1
Déterminer et étudier les propriétés de l’estimateur du maximum de vraisemlance
d’un r-échantillon pour :
1. le paramètre p d’une loi de Bernouilli
2. le paramètre p d’une loi géométrique
3. le paramètre p d’une loi binomiale d’ordre n
4. le paramètre α d’une loi de P oisson
5. le paramètre λ d’une loi exponentielle
6. les paramètres μ et σ 2 d’une loi normale
7. le paramètre θ d’une loi unif orme sur l’intervalle [0, θ]
Exercice 2
Soit X une variable aléatoire dont la densité de probabilité f est définie par :
x
1
exp − , x > 0
θ
θ
où θ est un paramètre réel strictement positif.
f (x) =
1. Déterminer l’estimateur du maximum de vraisemlance θ̂ de θ d’un r-échantillon
de variable parente X.
2. θ̂ est-il un résumé exhaustif ?
3. Calculer l’espérance mathématique et la variance de θ̂.
Que peut-on conclure ?
4. Calculer la quantité d’information de F isher.
En déduire que θ̂ est eﬃcace.
Exercice 3
Soit X une variable aléatoire dont la densité de probabilité f est définie par :
λ k−1
x
x exp − , x > 0
k
θ
θ
où θ est un paramètre réel strictement positif , k un entier naturel non nul et λ une
constante réel.
f (x) =
1. Déterminer la constante λ.
2. Déterminer l’estimateur du maximum de vraisemlance θ̂ de θ d’un r-échantillon
de variable parente X.
54
A. El Mossadeq
Structures Statistiques et Estimation
3. θ̂ est-il un résumé exhaustif ?
4. Calculer l’espérance mathématique et la variance de θ̂.
Que peut-on conclure ?
5. Calculer la quantité d’information de F isher.
En déduire que θ̂ est eﬃcace.
Exercice 4
Soit X une variable aléatoire dont la densité de probabilité f est définie par :
⎧
si x ∈
/ [0, θ]
⎪
⎨ 0
f (x) =
⎪
⎩ 1 si x ∈ [0, θ]
θ
où θ est un paramètre réel.
1. Déterminer la fonction de répartition de X.
2. Calculer la quantité d’information de F isher.
3. Déterminer l’estimateur du maximum de vraisemlance θ̂ de θ d’un r-échantillon
de variable parente X.
4. Calculer l’espérance mathématique et la variance de θ̂.
Que peut-on conclure ?
5. Dans le cas où θ̂ est biasé, proposer un estimateur sans biais de θ.
Exercice 5
Soit X une variable aléatoire dont la densité de probabilité f est définie par :
⎧
si x < θ
⎨ 0
f (x) =
⎩ exp θ − x si x ≥ θ
où θ est un paramètre réel.
1. Déterminer la fonction de répartition de X.
2. Calculer la quantité d’information de F isher.
3. Déterminer l’estimateur du maximum de vraisemlance θ̂ de θ d’un r-échantillon
de variable parente X.
4. Calculer l’espérance mathématique et la variance de θ̂.
Que peut-on conclure ?
5. Dans le cas où θ̂ est biasé, proposer un estimateur sans biais de θ.
55
Structures Statistiques et Estimation
A. El Mossadeq
Exercice 6
Les éléments d’une population possédent un caractère X qui suit une loi de P oisson
de paramètre inconnu α.
Une suite de r expériences a fourni les valeurs k1 , ..., kr .
1. Déterminer l’estimateur du maximum de vraisemlance α̂ de α et étudier les
propriétés de cet estimateur.
2. α̂ est-il un résumé exhaustif ?
3. On désire estimer la quantité :
δ = P [X = 0]
Déterminer l’estimateur du maximum de vraisemlance δ̂ de δ.
Que remarquez-vous ?
Exercice 7
Soit α un réel appartenant à ]1, +∞[ et X une variable aléatoire telle que :
µ
¶k−1
1
1
P [X = k] =
, k ∈ N∗
1−
α
α
1. Calculer l’espérance mathématique et la variance de X.
2. Déterminer l’estimateur du maximum de vraisemlance α̂ de α d’un r-échantillon
de variable parente X et étudier ses propriétés.
3. α̂ est-il un résumé exhaustif ?
Exercice 8
Soit X une variable aléatoire qui suit une loi de Pareto dont la densité de probabilité
f est définie par :
⎧
si x < a
⎪
⎨ 0
f (x) =
α
⎪
⎩ αa
si x ≥ a
xα+1
où X représente le revenu par habitant, a le revenu minimum et α, α > 2, un
coeﬃcient dépendant du type du pays où l’on se place.
1. Vérifier que f est bien une densité de probabilité.
2. Calculer l’espérance mathématique et la variance de X.
3. Calculer la fonction de répartition de X.
4. Déterminer l’estimateur du maximum de vraisemlance â de a d’un r-échantillon
issu X.
5. Dans le cas où â est biasé, proposer un estimateur sans biais de a.
56
A. El Mossadeq
Structures Statistiques et Estimation
Exercice 9
Soit X une variable aléatoire dont la densité de probabilité f est définie par :
⎧
si x ≤ θ
⎪
⎨ 0
f (x) =
⎪
⎩ 1 exp (θ − x) si x > θ
α
α
où θ est un paramètre réel et α un paramètre réel strictement positif.
1. Vérifier que f est bien une densité de probabilité.
2. Calculer l’espérance mathématique et la variance de X.
3. Calculer la fonction de répartition de X.
4. On suppose θ connu et α inconnu.
(a) Déterminer l’estimateur du maximum de vraisemlance α̂ de α d’un réchantillon issu X.
(b) Etudier les propriétés de α̂.
(c) Dans le cas où α̂ est biasé, proposer un estimateur sans biais de α.
5. On suppose α connu et θ inconnu.
(a) Déterminer l’estimateur du maximum de vraisemlance θ̂ de θ d’un réchantillon issu de X.
(b) Etudier les propriétés de θ̂
(c) Dans le cas où θ̂ est biasé, proposer un estimateur sans biais de θ.
6. On suppose que θ et α sont tous les deux inconnus.
(a) Déterminer l’estimateur du maximum de vraisemlance
d’un r-échantillon issu de ³X. ´
(b) Etudier les propriétés de α̂, θ̂
³
´
α̂, θ̂ de (α, θ)
(c) Proposer un estimateur sans biais de (α, θ) .
Exercice 10
Soient X et Y deux variables aléatoires indépendantes, la première prenant les
valeurs 1 et 0 avec les probabilités respectives α et 1 − α, et la deuxième prenant les
valeurs 1 et 0 avec les probabilités respectives P et 1 − P . On suppose α inconnue
et P connue, P > 0.5.
On définit la variable aléatoire Z par :
⎧
⎨ Z = 1 si X = Y
⎩ Z=0
si
57
X 6= Y
Structures Statistiques et Estimation
A. El Mossadeq
On considère un n-échantillon ((X1 , Y1 ) , ..., (Xn , Yn )) de (X, Y ) et on définit Zi ,
1 ≤ i ≤ n, à partir de Xi et Yi comme on a défini Z à partir de X et Y .
1. Montrer que (Z1 , ..., Zn ) est un n-échantillon de Z.
2. Etudier les propriétés de l’estimateur :
1
(Z1 + ... + Zn )
n
3. Proposer alors un estimateur sans biais S de α.
4. Etudier la variance de S en fonction de P .
5. Indiquer un intervalle de confiance pour α lorsque n est grand, en supposant
1
qu’on dispose d’une observation p de (Z1 + ... + Zn ).
n
6. Voyez-vous une application de ce qui précède dans le domaine des sondages ?
T =
58
Chapitre 3
T ests d ’H yp oth èses
Les Fréquences
A. El Mossadeq
Tests : Les Fréquences
1. FLUCTUATIONS
D’ECHANTILLONNAGE D’UNE
FRÉQUENCE
On considère une population où le caractère étudié ne prend que les valeurs 0 et 1,
c’est à dire X est une variable aléatoire de Bernouilli.
On désigne par p la proportion des individus de la population de caractère 1 :
p = P [X = 1]
c’est à dire le paramètre de la loi de Bernouilli.
On extrait de cette population un échantillon de taille n sur lequel on observe une
fréquence f du caractère 1 qui diﬀère plus ou moins de p.
Le hasard de l’échantillonnage peut produire une quelconque composition, et la
fréquence f est susceptible de prendre des valeurs variant de 0 à 1, mais un grand
écart entre f et p reste peu probable.
D’après le théorème centrale limite, et pourvu que np et n (1 − p) soient supérieurs
ou égaux à 5 (n est considéré dans ces conditions assez grand), la quantité :
t= r
f −p
p (1 − p)
n
peut être considérée comme une réalisation de la variable aléatoire normale centrée
réduite :
F −p
N=r
p (1 − p)
n
où F est la fréquence empirique du n-échantillon :
1X
Xi
n i=1
n
F =
Ainsi, pour tout α ∈ [0, 1], il existe t1−α/2 ∈ R tel que :
£
¤
P |N| < t1−α/2 = 1 − α
c’est à dire :
Z
t1−α/2
−t1−α/2
1
t2
√ exp − dt = 1 − α
2
2π
61
Tests : Les Fréquences
ou encore :
A. El Mossadeq
Z
t1−α/2
−∞
On dit que :
"
F ∈ p − t1−α/2
1
t2
α
√ exp − dt = 1 −
2
2
2π
r
p (1 − p)
, p + t1−α/2
n
r
p (1 − p)
n
#
à 1 − α ou au seuil α.
Cet intervalle est appelé l’intervalle de pari à 1 − α.
Exemple 1
Une urne contient quarante boules noires et soixante boules blanches.
Dans quelles limites peut varier le nombre de boules blanches si l’on tire de l’urne
trente boules avec remise ?
Construisons d’obord l’intervalle de pari, pour un échantillon de taille n = 30,
correspondant à la probabilité d’obtenir une boule blanche p = 0.6.
Au seuil α, cet intervalle est défini par :
"
#
r
r
p (1 − p)
p (1 − p)
p − t1−α/2
, p + t1−α/2
n
n
Pour α = 5%, on a :
t.975 = 1.96
on obtient alors l’intervalle :
[.42, .78]
Il en résulte que sur les trente boules tirées, le nombre de boules blanches serait
compris, à 95%, entre 13 et 23.
2. LES SONDAGES
Le plus souvent, la proportion p est inconnue du fait que l’examen de toute la
population est impossible.
Puisque F est un estimateur sans biais de p, on peut extraire un échantillon de taille
n sur lequel on observe une fréquence f qui constitue une estimation ponctuelle de
p, puis on assigne à p un intervalle de variation appelé intervalle de confiance
avec une probabilité 1 − α, 0 ≤ α ≤ 1.
62
A. El Mossadeq
Tests : Les Fréquences
p (1 − p)
f (1 − f )
En eﬀet, en estimant
par
, et pourvu que np et n (1 − p) soient
n
n
supérieurs ou égaux à 5, la quantité :
f −p
t= r
f (1 − f )
n
peut être considérée comme une réalisation de la variable aléatoire normale centrée
réduite :
F −p
N=r
f (1 − f )
n
Ainsi, pour tout α ∈ [0, 1], il existe t1−α/2 ∈ R tel que :
£
¤
P |N| < t1−α/2 = 1 − α
L’intervalle :
"
f − t1−α/2
r
f (1 − f )
, f + t1−α/2
n
r
f (1 − f )
n
#
est appelé l’intervalle de confiance de p à 1 − α ou au seuil α.
Exemple 2
A la veille d’une consultation électorale, on a intérrogé cent électeurs constituant un
échantillon au hasard. Soixante ont déclaré avoir l’intention de voter pour le candidat C.
En quelles limites, au moment du sondage, la proportion du corps électoral favorable à C se situe-t-elle ?
Construisons l’intervalle de confiance correspondant à la fréquence f = 0.6 du corps
électoral favorable à C observée sur un échantillon de taille n = 100.
Au seuil α, cet intervalle est défini par :
"
#
r
r
f (1 − f )
f (1 − f )
f − t1−α/2
, f + t1−α/2
n
n
Pour α = 5%, on a :
t.975 = 1.96
on obtient alors l’intervalle :
[.504, .696]
A 95%, le candidat C serait élu.
63
Tests : Les Fréquences
A. El Mossadeq
3. TEST DE COMPARAISON D’UNE
FRÉQUENCE À UNE NORME
On dispose d’une population où le caractère étudié présente une proportion p.
Sur un échantillon de taille n, on observe une fréquence f.
La diﬀérence entre p et f est-elle significative ou est-elle dûe seulement au hasard
de l’échantillonnage ?
Soit donc à tester l’hypothèse nulle :
H0 : ”f = p”
contre l’hypothèse alternative :
H̄0 : ”f 6= p”
au seuil α.
Sous l’hypothèse nulle H0 et pourvu que np et n (1 − p) soient supérieurs ou égaux
à 5, la quantité :
f −p
t= r
p (1 − p)
n
peut être considérée comme une réalisation de la variable aléatoire normale centrée
réduite :
F −p
N=r
p (1 − p)
n
Ainsi, pour tout α ∈ [0, 1], il existe t1−α/2 ∈ R tel que :
¤
£
P |N| < t1−α/2 = 1 − α
On rejette l’hypothèse nulle H0 , au seuil α, dès que :
|t| > t1−α/2
Exemple 3
Une machine à former des pilules fonctionne de façon satisfaisante si la proportion
de pilules non réussies est de 1 pour 1000.
Sur un échantillon de 10000 pilules, on a trouvé 15 pilules défectueuses.
Que faut-il conclure ?
64
A. El Mossadeq
Tests : Les Fréquences
Ici on a :
⎧
⎨ n = 104
f = 15 × 10−4
⎩ p = 10−3
Testons, au seuil α, l’hypothèse nulle :
H0 : ”la machine est bien réglée”
Sous cette hypothèse, la quantité :
t= r
f −p
p (1 − p)
n
peut être considérée comme une réalisation d’une variable aléatoire normale centrée
réduite.
Pour α = 5%, on a :
t.975 = 1.96
et comme :
t= r
f −p
= 1.58
p (1 − p)
n
on accepte donc l’hypothèse nulle H0 au seuil α = 5%, c’est à dire, qu’au seuil
α = 5%, la machine fonctionne de façon satisfaisante.
4. TEST DE COMPARAISON DE
DEUX FRÉQUENCES
On dispose de deux échantillons indépendants de tailles respectives n1 et n2 sur
lesquels le caractère étudié présente les fréquences f1 et f2 respectivement.
On se demande si ces deux échantillons proviennent d’une même population.
Soit donc à tester l’hypothèse nulle :
H0 : ”p1 = p2 ”
contre l’hypothèse alternative :
H̄0 : ”p1 6= p2 ”
au seuil α.
65
Tests : Les Fréquences
A. El Mossadeq
Si les deux échantillons proviennent d’une même population définie par la proportion
p = p1 = p2 (souvent inconnue) du caractère étudié, f1 et f2 peuvent être considérées
comme des réalisations des variables aléatoires normales centrées réduites :
F1 − p
N1 = r
f1 (1 − f1 )
n1
F2 − p
N2 = r
f2 (1 − f2 )
n2
respectivement, pourvu que n1 p1 , n1 (1 − p1 ), n2 p2 et n2 (1 − p2 ) soient tous supérieurs
ou égaux à 5.
En conséquence , la quantité :
t= r
f1 − f2
f1 (1 − f1 ) f2 (1 − f2 )
+
n1
n2
peut être considérée comme une réalisation d’une variable aléatoire normale centrée
réduite.
On rejette l’hypothèse nulle H0 , au seuil α, dès que :
|t| > t1−α/2
Exemple 4
Avant de procéder au lancement d’un produit, une entreprise a fait procéder à une
enquête portant sur deux régions géographiques A et B.
Sur 1800 réponses provenant de la région A, 630 se déclarent intéressées par le produit.
En provenance de B, 150 réponses sur 600 se déclarent favorables.
Tester, au seuil de 5%, l’hypothèse de l’identité des opinions des régions A et B
quant au produit considéré.
Ici on :
⎧
7
⎪
⎪
⎨ nA = 1800 , fA = 20
⎪
⎪
⎩ n = 600 , f = 1
B
B
4
Testons, au seuil α, l’hypothèse nulle :
H0 : ”les opinions des régions A et B sont identiques”
66
A. El Mossadeq
Tests : Les Fréquences
Sous cette hypothèse, la quantité :
t= r
fA − fB
fA (1 − fA ) fB (1 − fB )
+
nA
nB
peut être considérée comme une réalisation d’une variable aléatoire normale centrée
réduite.
Pour α = 5%, on a :
t.975 = 1.96
et comme :
t
=
=
fA − fB
fA (1 − fA ) fB (1 − fB )
+
nA
nB
4.77
r
on rejette donc l’hypothèse nulle H0 à 95% (et même à 99.98%), cest à dire, les deux
régions A et B ont des opinions diﬀérentes.
67
Tests : Les Fréquences
A. El Mossadeq
5. EXERCICES
Exercice 1
A la veille d’une consultation électorale, on a intérrogé cent électeurs constituant
un échantillon au hasard. Soixante ont déclaré avoir l’intention de voter pour le
candidat C.
En quelles limites, au moment du sondage, la proportion du corps électoral favorable
à C se situe-t-elle ?
Exercice 2
On sait que le taux de mortalité d’une certaine maladie est de 30%.
Sur 200 malades testés, combien peut-on envisager de décès ?
Exercice 3
Dans une pré-enquête, on selectionne, par tirage au sort cent dossiers.
Quinze d’entre eux sont incomplets.
Combien de dossiers incomplets trouvera-t-on sur dix milles dossiers ?
Exercice 4
Dans une maternité, on fait le point de la proportion de filles toutes les cent naissances.
Comment peut varier cette proportion d’une fois à l’autre si l’on admet qu’il nait
en moyenne 51% de filles ?
Exercice 5
Une machine à former des pilules fonctionne de façon satisfaisante si la proportion
de pilules non réussies est de 1 pour 1000.
Sur un échantillon de 10000 pilules, on a trouvé 15 pilules défectueuses.
Que faut-il conclure ?
Exercice 6
Sur un échantillon de 600 sujets atteints du cancer des poumons, on a trouvé 550
fumeurs.
Que peut-on dire du pourcentage de fumeurs parmi les cancéreux ?
68
A. El Mossadeq
Tests : Les Fréquences
Exercice 7
Avant de procéder au lancement d’un produit, une entreprise a fait procéder à une
enquête portant sur deux régions géographiques A et B.
Sur 1800 réponses provenant de la région A, 630 se déclarent intéressées par le
produit.
En provenance de B, 150 réponses sur 600 se déclarent favorables.
Tester, au seuil de 5%, l’hypothèse de l’identité des opinions des régions A et B
quant au produit considéré.
Exercice 8
Dans un groupe de 200 malades atteints du cancer du col de l’utérus, un traitement
par application locale du radium a donné 50 guérisons.
Un autre groupe de 150 sujets atteints de la même maladie a été traité par chirurgie,
on a trouvé 50 guérisons.
Que peut-on conclure ?
Exercice 9
Aux guichets d’une gare parisienne, sur les 350 billets vendus vendredi après-midi,
95 étaient des billets de 1ère classe. Sur les 250 billets vendus la matinée du lundi
suivant, 55 étaient de 1ère classe.
Peut-on considérer qu’il y a une diﬀérence entre les proportions de vente de parcours
en 1ère classe pour les fins et débuts de semaines ?
Exercice 10
On a lancé cent fois une pièce de monnaie et l’on a obtenu soixante fois ”pile” et
quarante fois ”face”.
Tester au seuil de 5%, puis 1%, l’hypothèse de la loyauté de la pièce.
Exercice 11
Un échantillon de taille n a donné lieu au calcul d’une fréquence observée f correspondant à l’intervalle de confiance [.22 − .34] au seuil α = 5%.
1. Calculer n.
2. Par rapport à la proportion p = 0.3, l’écart est-il significatif au seuil α = 5% ?
3. Déterminer l’intervalle de confiance de |f − p| au seuil α = 5%.
69
Tests : Les Fréquences
A. El Mossadeq
Exercice 12
L’étude du taux de défectuosités aﬀérentes aux caractéristiques de traitements thermiques d’une même pièce, traitée par deux fours diﬀérents, a donné lieu aux résultats
suivants :
* Pour le premier four, 20 pièces défectueuses sur un échantillon de 200 pièces
traitées.
* Pour le second four, 120 pièces défectueuses sur un échantillon de 800 pièces
traitées.
Que peut-on conclure ?
Exercice 13
Un questionnaire auquel on ne peut répondre que par ”oui” ou par ”non”, a été
rempli par un échantillon de taille n.
L’intervalle de confiance de la fréquence observée f des réponses ”oui” est (0.35 − 0.43)
au seuil α = 5%.
1. Quelle est la taille n de l’échantillon.
2. Par rapport à la proportion p = 0.4, l’écart est-il significatif au seuil α = 5% ?
3. Déterminer l’intervalle de confiance de |f − p| au seuil α = 5%.
Exercice 14
Parmi 470 sujets exposés à une infection, 370 n’ayant pas été immunisés.
Parmi ces derniers, 140 contractent la malidie ainsi que 25 sujets immunisés.
Le traitement donne-t-il une protection significative ?
70
Chapitre 4
Les Tests du Khi-deux
A. El Mossadeq
Les Tests du Khi-Deux
1. TEST DE COMPARAISON D’UNE
RÉPARTITION OBSERVÉE À UNE
RÉPARTITION THÉORIQUE
On considère un caractère à k classes diﬀérentes en proportion p1 , ..., pk .
Comme p1 + ... + pk = 1, la composition de la population est entièrement déterminée
par k − 1 de ces proportions.
On extrait de cette populations un échantillon de taille n.
Si la composition de cet échantillon était identique à celle de la population, il contiendrait :
t1 = np1 du caractère 1
:
tk = npk du caractère k
ce sont les eﬀectifs calculés ou les eﬀectifs théoriques.
En réalité, on observe des eﬀectifs :
o1 du caractère 1
:
ok du caractère k
diﬀérant plus ou moins des eﬀectifs théoriques. Ce sont les eﬀectifs observés.
Le problème est de décider si l’écart entre ces eﬀectifs est significatif ou il est dû
seulement au hasard de l’échantillonnage.
Soit donc à tester, au seuil α, l’hypothèse nulle :
H0 : ”o1 = t1 , ... , ok = tk ”
contre l’hypothèse alternative H̄0 .
Sous l’hypothèse nulle H0 , et pourvu que tous les eﬀectifs théoriques soient supérieurs
ou égaux à 5, la quantité :
2
χ =
k
X
(oi − ti )2
i=1
ti
est une réalisation d’une variable du Khi-deux à k − 1 degrés de liberté : χ2k−1 .
α étant donné, il existe χ2k−1;1−α ∈ R tel que :
¤
£
P χ2 < χ2k−1;1−α = 1 − α
On rejette alors l’hypothèse nulle H0 à 1 − α dès que :
χ2 > χ2k−1;1−α
73
Les Tests du Khi-Deux
A. El Mossadeq
Exemple 1
On a croisé deux types de plantes diﬀérant par deux caractères A et B.
La première génération est homogène.
La seconde fait apparaitre quatre types de plantes dont les génotypes sont notés :
AB , Ab , aB , ab.
Si les caractères se trasmettent selon les lois de Mendel, les proportions théoriques
9
3 3 1
des quatre génotypes sont :
,
,
,
respectivement.
16 16 16 16
Sur un échantillon de 160 plantes, on a observé les eﬀectifs :
100
28
24
8
pour
pour
pour
pour
AB
Ab
aB
ab
Au vu de ces résultats, les lois de Mendel sont-elles applicables ?
Testons alors, au seuil α, l’hypothèse nulle :
H0 : ”les lois de Mendel sont applicables”
Si H0 est vraie, la répartition des 160 plantes sur les quatre génotypes devrait être
comme suit :
t1 = 90 pour AB
t2 = 30 pour Ab
t3 = 30 pour aB
t4 = 10 pour ab
On résume toutes les données dans le tableau suivant :
Génotypes Répartition Observée Répartition T héorique
AB
100
90
Ab
28
30
aB
24
30
ab
8
10
T otal
160
160
74
A. El Mossadeq
Les Tests du Khi-Deux
Sous l’hypothèse nulle H0 , et vu que tous les eﬀectifs théoriques sont supérieurs
ou égaux à 5, la quantité :
2
χ =
4
X
(oi − ti )2
i=1
ti
est une réalisation d’une variable du Khi-deux à :
4−1=3
degrés de liberté : χ23 .
Pour α = 5%, on a :
χ23;.95 = 7.81
et comme :
χ2
=
4
X
(oi − ti )2
i=1
=
ti
2.84
On accepte alors l’hypothèse nulle H0 au seuil de 5%, c’est à dire, les transmissions
génétiques de ce type de plantes se font selon les lois de Mendel.
Remarque 1
Si pour l’ajustement par une loi théorique dépendant de paramètres, on utilise les
estimations de s parmi ces paramètres, et non leurs valeurs réelles, alors le nombre
de degrés de liberté, dans ce cas, est :
(k − 1) − s = k − s − 1
Ainisi , par exemple :
(1) si, pour l’ajustement par une loi de Poisson, on utilise l’estimation de son
paramètre, supposé inconnu, alors le nombre de degrés de liberté est :
(k − 1) − 1 = k − 2
(2) si, pour l’ajustement par une loi normale, on utilise l’estimation de la moyenne
et de la variance, supposées toutes les deux inconnues, alors le nombre de
degrés de liberté est :
(k − 1) − 2 = k − 3
75
Les Tests du Khi-Deux
A. El Mossadeq
2. TEST D’INDÉPENDANCE DU
KHI-DEUX
On considère deux caractères X et Y à n et m classes respectivement.
Le tableau suivant résume les observations faites sur un échantillon de taille N
concernant le couple de caractères (X, Y ) :
T ableau des eff ectif s observés
XÂY
1
2
..
m
T otal
1
o11
o12
..
o1m
o1.
2
o21
o22
..
o2m
o2.
:
:
:
::
:
:
n
on1
on2
. . onm
on.
T otal
o.1
o.2
..
N
oi.
=
o.m
où :
m
X
oik
k=1
o.j
n
X
=
okj
k=1
et :
n
X
i=1
oi. =
m
X
o.j =
j=1
n X
m
X
oij = N
i=1 j=1
Au vu de ces résultats, Il s’agit de décider si les deux caractère X et Y sont indépendants.
Soit à tester, au seuil α, l’hypothèse nulle :
H0 : ”Xet Y sont indépendants”
contre l’hypothèse alternative H̄0 .
Si X et Y étaient indépendants, alors pour tout (i, j) ∈ {1, ..., n} × {1, ..., m} :
P [X = i, Y = j] = P [X = i] P [Y = j]
76
A. El Mossadeq
Les Tests du Khi-Deux
et l’échantillon contiendrait en conséquence :
oi. o.j
tij =
N
individus possédant le caractère [X = i, Y = j]. Ce sont les eﬀectifs théoriques
ou les eﬀectifs calculés.
T ableau des ef fectif s théoriques
XÂY
1
2
..
m
T otal
1
t11
t12
..
t1m
o1.
2
t21
t22
..
t2m
o2.
:
:
:
::
:
:
n
tn1
tn2
. . tnm
on.
T otal
o.1
o.2
..
N
o.m
Sous l’hypothèse nulle H0 , et pourvu que tous les eﬀectifs théoriques soient supérieurs
ou égaux à 5, la quantité :
2
χ =
m
n X
X
(oij − tij )2
i=1 j=1
tij
est une réalisation d’une variable du Khi-deux à (n − 1) (m − 1) degrés de liberté :
χ2(n−1)(m−1) .
α étant donné, il existe χ2(n−1)(m−1);1−α ∈ R tel que :
¤
£
P χ2 < χ2(n−1)(m−1);1−α = 1 − α
On rejette alors l’hypothèse nulle H0 à 1 − α dès que :
χ2 > χ2(n−1)(m−1);1−α
Exemple 2
On se propose de comparer les réactions produites par deux vaccins A et B.
Un groupe de 348 individus a été divisé, par tirage au sort, en deux séries qui ont
été vaccinées l’une par A et l’autre par B.
Les réactions ont été lues par une personne ignorant le vaccin utilisé.
Le problème est de décider si les réactions observées sont indépendantes du vaccin
utilisé.
77
Les Tests du Khi-Deux
A. El Mossadeq
T ableau des eff ectif s observés
V accinÂRéaction légère moyenne ulcération abcès T otal
A
12
156
8
1
177
B
29
135
6
1
171
T otal
41
291
14
2
348
Soit à tester, au seuil α = 5%, l’hypothèse nulle d’indépendance H0 contre l’hypothèse
alternative H̄0 .
Si les réactions étaient indépendantes du vaccin utilisé, les probabilités correspondantes aux réactions seraient alors :
41
, pour une réaction légère
348
291
p2 =
, pour une réaction moyenne
348
14
p3 =
, pour une ulcération
348
2
p4 =
, pour un abcès
348
On détermine les eﬀectifs théoriques du premier échantillon de 177 sujets puis ceux
du second échantillon de 171 sujets :
p1 =
T ableau des ef fectif s théoriques
V accinÂRéaction légère moyenne ulcération abcès T otal
A
20.9
148
7.1
1
177
B
20.1
143
6.9
1
171
T otal
41
291
14
2
348
Une légère diﬃculté apparait cependant sur cet exemple : les eﬀectifs théoriques
dans la colonne ”Abcès” sont inférieurs à 5 ce qui empêche l’application d’un test
du Khi-deux.
On peut remédier à cet état en opérant le groupement ”logique” des classes ”Ulcération”
et ”Abcès”.
78
A. El Mossadeq
Les Tests du Khi-Deux
Les tableaux des eﬀectifs observés et théoriques obtenus après regroupement sont :
T ableau des eff ectif s observés
V accinÂRéaction légère moyenne ulcération ou abcès T otal
A
12
156
9
177
B
29
135
7
171
T otal
41
291
16
348
T ableau des ef fectif s théoriques
V accinÂRéaction légère moyenne ulcération ou abcès T otal
A
20.9
148
8.1
177
B
20.1
143
7.9
171
T otal
41
291
16
348
On calcule alors la quantité χ2 à partir des nouveaux tableaux :
2
χ =
2 X
3
X
(oij − tij )2
i=1 j=1
tij
Le nombre de degrés de liberté est :
(2 − 1) (3 − 1) = 2
Et comme :
χ22;.95 = 5.99
et :
2
χ
=
2 X
3
X
(oij − tij )2
i=1 j=1
=
tij
8.8
on rejette alors, à 95%, l’hypothèse selon laquelle les deux vaccins A et B provoquent
les mêmes réactions.
79
Les Tests du Khi-Deux
A. El Mossadeq
Remarque 2
Lorsque l’hypothèse nulle est rejetée, il est souhaitable de préciser l’intensité de la
liaison entre les deux caractères X et Y .
On introduit alors le coeﬃcient suivant, dit coeﬃcient de Tschuprov :
χ2
p
T =
N (n − 1) (m − 1)
2
1. Si les deux caractères X et Y sont indépendants alors :
χ2 = 0
puisque pour tout (i, j) ∈ {1, .., n} × {1, ..., m} :
oij = tij
d’où :
T2 = 0
2. Si les deux caractères X et Y sont en liason fonctionnelle (bijection), alors n = m
et par une permutation sur les lignes ou sur les colonnes, on peut ramener le
tableau des eﬀectifs observés à un tableau diagonal.
On a :
oi. = o.i = oii
d’où :
2
χ
=
=
n X
n
X
(oij − tij )2
tij
i=1 j=1
n
X
(oii − tii )2
i=1
tii
+
X (oij − tij )2
i6=j
tij
Or :
n
X
(oii − tii )2
i=1
et :
tii
= N (n − 2) +
80
n
X
i=1
o2ii
A. El Mossadeq
Les Tests du Khi-Deux
X (oij − tij )2
i6=j
tij
=
X
tij
i6=j
=
X oi. × o.j
i6=j
=
=
donc :
Il en résulte que :
n
1 X
oi. (N − o.i )
N i=1
n
1 X 2
o
N−
N i=1 i.
χ2 = N (n − 1)
|T | = 1
3. Dans les autres cas, on admet que :
(a) Si :
0 < T < 0.3
on dit que la liaison est faible.
(b) Si :
0.3 < T < 0.5
on dit que la liaison est moyenne.
(c) Si :
0.5 < T < 1
on dit que la liaison est forte.
81
N
Les Tests du Khi-Deux
A. El Mossadeq
3. EXERCICES
Exercice 1
Avant de procéder au lancement d’un produit, une entreprise a fait procéder à une
enquête portant sur deux régions géographiques A et B.
Sur 1800 réponses provenant de la région A, 630 se déclarent intéressées par le
produit.
En provenance de B, 150 réponses sur 600 se déclarent favorables.
Tester, au seuil de 5%, l’hypothèse de l’identité des opinions des régions A et B
quant au produit considéré.
Exercice 2
Dans un groupe de 200 malades atteints du cancer du col de l’utérus, un traitement
par application locale du radium a donné 50 guérisons.
Un autre groupe de 150 sujets atteints de la même maladie a été traité par chirurgie,
on a trouvé 54 guérisons.
Que peut-on conclure ?
Exercice 3
Aux guichets d’une gare parisienne, sur les 350 billets vendus vendredi après-midi,
95 étaient des billets de 1ère classe. Sur les 250 billets vendus la matinée du lundi
suivant, 55 étaient de 1ère classe.
Peut-on considérer qu’il y une diﬀérence entre les proportions de vente de parcours
en 1ère classe pour les fins et débuts de semaines ?
Exercice 4
On a lancé cent fois une pièce de monnaie et l’on a obtenu soixante fois ”pile” et
quarante fois ”face”.
Tester au seuil de 5% puis 1%, l’hypothèse de la loyauté de la pièce.
82
A. El Mossadeq
Les Tests du Khi-Deux
Exercice 5
On veut savoir si la réussite (R) d’un traitement est indépendantes du niveaux de
la tension artérielle du malade (T ).
On dispose pour cela de 250 observations réparties comme suit :
T ÂR
echec succès
basse
21
104
élevée
29
96
Que peut-on conclure ?
Exercice 6
On veut savoir s’il y a une liason entre la localisation (L) du cancer du poumon
(périphérique , non périphérique) et le côté (C) de la lésion (poumon gauche ,
poumon droit). L’étude a porté sur 1054 malades :
LÂC
gauche droit
périphérique
26
62
non périphérique
416
550
Que peut-on conclure ?
Exercice 7
De nombreuses observations cliniques ont montré que jusque là :
•
•
•
•
30%
50%
10%
10%
des malades atteints de M ont une survie inférieure à un an
ont une survie entre un an et deux ans
ont une survie entre deux ans et cinq ans
ont une survie supérieure à cinq ans.
On applique un nouveau traitement à 80 malades atteint de la maladie M et on
constate :
• 12 ont une survie inférieure à un an
• 56 ont une survie entre un an et deux ans
• 8 ont une survie entre deux ans et cinq ans
• 4 ont une survie supérieure à cinq ans.
Que peut-on conclure ?
83
Les Tests du Khi-Deux
A. El Mossadeq
Exercice 8
On suppose pouvoir classer les malades atteints d’une maladie M en trois catégories
cliniques : A , B , C.
On se demande si ces trois catégories diﬀèrent par leurs survies à un an.
Les eﬀectifs observés sont les suivants :
SurvieÂCatégorie
A
B
C
survie à un an
5
20
45
décés avant un an
15 50 145
Que peut-on conclure ?
Exercice 9
75 enfants sont vus en consultation pour un asthme. On relève chez eux les deux
symptômes suivants :
* Intensité de la maladie asmathique : légère , moyenne , forte
* Existence ou absence d’un eczéma au moment de l’observation ou dans le passé.
On peut classer les enfants selon la répartition suivante :
EÂA
fort moyen léger
présent
8
2
2
passé
11
11
3
jamais
6
18
14
Existe-t-il une association entre l’intensité de l’asthme et l’existence d’un eczéma ?
Exercice 10
Une étude statistique relative aux résultats d’admission du concours d’une grande
école fait ressortir la répartition des admis selon la profession des parents lorsque
celle-ci est connue :
84
A. El Mossadeq
Les Tests du Khi-Deux
P rof ession des P arents
Candidats Admis
F ontionnaires et Assimilés
2224
180
Commerce et Industrie
998
89
P rof essions Libérales
575
48
P ropriétaires Rentiers
423
37
P ropriétaires Agricoles
287
13
Artisans
210
18
Banques et Assurances
209
17
1. La profession des parents a-t-elle une influence sur l’accès à cette école ?
2. Cette conclusion persiste-t-elle lorsqu’on tient compte pour compléter la statistique précédente de 961 candidats dont l’origine socio-professionnelle est inconnue et qui ont obtenus 43 succès ?
Exercice 11
Sur un échantillon de 84 prématurés, on cherche s’il existe une liaison entre la
survenue d’une hypoglycémie et la survenue d’un ictère :
• sur 43 enfants n’ayant pas d’ictère, 23 sont hypoglycémiques
• sur 20 enfants ayant un ictère modéré, 6 sont hypoglycémiques
• sur 21 enfants ayant un ictère intense, 4 sont hypoglycémiques
Que peut-on conclure ?
Exercice 12
Un médicament essayé sur 42 patients est contrôlé quant aux eﬀets secondaires qu’il
peut avoir sur le poids des malades. On peut considérer que :
• quinze d’entre eux ont maigri
• dix sept n’ont pas changé de poids
• dix ont grossi
En supposant que la maladie est sans eﬀet sur les variations de poids, le médicament
a-t-il un eﬀet significatif sur le poids ?
85
Les Tests du Khi-Deux
A. El Mossadeq
Exercice 13
Pour étudier la densité de poussières dans un gaz, on a procédé à une série d’observations
de petits échantillons de gaz au moyen d’un microscope.
On a ainsi eﬀectué 143 observations et les résultats sont les suivants :
Nombre de particules en suspension
Nombre d0 échantillons de gaz
0
34
1
46
2
38
3
19
4
4
5
2
>5
0
Peut-on admettre, au seuil α = 5%, que le nombre de particules en suspension est
une variable de P oisson ?
Exercice 14
Le tableau ci-après concerne le nombre annuel de cyclones tropicaux ayant atteint
la côte orientale des Etats-Unis entre 1887 et 1956 :
Nombre annuel de cyclones Nombre d0 années
0
1
2
3
4
5
6
7
8
9
>9
1
6
10
16
19
5
8
3
1
1
0
Peut-on admettre, au seuil α = 5%, que ce nombre annuel de cyclones est une
variable de P oisson ?
86
A. El Mossadeq
Les Tests du Khi-Deux
Exercice 15
Le tableau suivant indique le résultat de l’examen de 124 sujets, classés d’après la
couleur de leurs yeux (Y ) et la couleur de leus cheveux (C) :
Y ÂC
Blonds Bruns Noirs Roux
Bleus
25
9
3
7
Gris ou V erts
13
17
10
7
Marrons
7
13
8
5
Existe-t-il une liason entre ces deux caractères ?
Exercice 16
On considère les familles de quatre enfants.
Sur un échantillon de cent familles à quatre enfants, la répartition suivante a été observée :
Nombre de f illes Nombre de f amilles
0
7
1
20
2
41
3
22
4
10
Peut-on considérer que la probabilité qu’un enfant soit une fille est
1
?
2
Exercice 17
On distribue un jeu de quarante cartes à quatre joueurs : A , B , C , D ; chacun
reçevant dix cartes
Un statisticien a élaboré un programme de distribution de donnes par ordinateur.
Pour un ensemble de deux cents donnes, obtenues à partir de ce programme, il
observe le nombre de donnes où le joueur A reçoit k as, 0 ≤ k ≤ 4.
87
Les Tests du Khi-Deux
A. El Mossadeq
Les résultats sont les suivants :
Nombre d0 as Nombre de donnes
0
64
1
74
2
52
3
8
4
2
Le programme du statisticien est-il fiable ?
88
Chapitre 5
T ests d ’H yp oth èses
Moyennes et Variances
A. El Mossadeq
Tests : Moyennes et Variances
1. ESTIMATION DE LA MOYENNE
ET DE LA VARIANCE D’UNE
POPULATION
Soit X une variable aléatoire continue de moyenne μ et de variance σ 2 .
Si (X1 , ..., Xn ) est un n-échantillon issu de X, alors les statistiques :
1X
Xi
n i=1
n
M
=
1 X
(Xi − M)2
n − 1 i=1
n
S
2
=
constituent des estimateurs sans biais de μ et σ 2 respectivement.
Si :
n
1X
m =
xi
n i=1
et :
1 X
(xi − m)2
s =
n − 1 i=1
n
2
sont des réalisations de M et S 2 , alors m et s2 sont des estimations ponctuelles de
μ et σ 2 .
2. INTERVALLE DE CONFIANCE
D’UNE VARIANCE
Si X suit une loi normale de moyenne μ et de variance σ 2 , alors la quantité :
χ2 =
(n − 1) s2
σ2
est une réalisation d’une variable χ2n−1 du Khi-deux à (n − 1) degrés de liberté.
Ainsi, pour tout α ∈ [0, 1], il existe χ2n−1;α/2 et χ2n−1;1−α/2 dans R tels que :
¤
£
P χ2n−1;α/2 < χ2 < χ2n−1;1−α/2 = 1 − α
91
Tests : Moyennes et Variances
A. El Mossadeq
où χ2n−1;α/2 et χ2n−1;1−α/2 vérifient :
⎧
³
´
2
⎪
K
χ
⎪
n−1
n−1;α/2
⎨
³
´
⎪
⎪
⎩ Kn−1 χ2
n−1;1−α/2
=
α
2
=
1−
α
2
Kn−1 étant la fonction de répartition de χ2n−1 .
Il en résulte que :
"
#
2
(n − 1) s2
(n
−
1)
s
P
=1−α
< σ2 < 2
χ2n−1;1−α/2
χn−1;α/2
L’intervalle :
"
(n − 1) s2 (n − 1) s2
,
χ2n−1;1−α/2 χ2n−1;α/2
#
est appelé l’intervalle de confiance de la variance σ 2 à 1 − α ou au seuil α.
L’intervalle de confiance de l’écart-type σ à 1 − α est alors donné par :
#
"s
s
(n − 1)
(n − 1)
s,
s
χ2n−1;1−α/2
χ2n−1;α/2
Exemple 1
La force de rupture d’un certain type de cable peut être assimilée à une variable
aléatoire normale.
Des essais portant sur dix cables ont donné une variance empirique s2 de 1560 N2 .
Construire un intervalle de confiance, à 95%, de l’écart-type de cette force de rupture.
Au seuil α, l’intervalle de confiace de l’écart-type est défini par :
"s
#
s
(n − 1)
(n − 1)
s,
s
χ2n−1;1−α/2
χ2n−1;α/2
Pour α = 5% :
⎧ 2
⎨ χ9;.025 = 2.7
⎩ χ2
9;.975 = 19
d’où l’intervalle de confiace de l’écart-type à 95% :
[27.18 N, 72.11 N]
92
A. El Mossadeq
Tests : Moyennes et Variances
3. INTERVALLE DE CONFIANCE
D’UNE MOYENNE
3.1. n ≥ 30
La taille de l’échantillon est assez grande, d’après le théorème centrale limite, la
quantité :
m−μ
t= σ
√
n
peut être considérée comme une réalisation de la variable aléatoire normale centrée
réduite :
M −μ
N= σ
√
n
Ainsi, pour tout α ∈ [0, 1], il existe t1−α/2 ∈ R tel que :
¤
£
P |N| < t1−α/2 = 1 − α
c’est à dire :
ou encore :
On dit que :
Z
t1−α/2
−t1−α/2
Z
t1−α/2
−∞
1
t2
√ exp − dt = 1 − α
2
2π
α
1
t2
√ exp − dt = 1 −
2
2
2π
∙
σ
σ
μ ∈ m − t1−α/2 √ , m + t1−α/2 √
n
n
¸
à 1 − α ou au seuil α.
Cet intervalle est appelé l’intervalle de confiance de la moyenne μ à 1 − α.
Si la variance σ 2 est inconnue, on la remplace sans inconvénient par son estimation
s2 .
Exemple 2
D’une population de variance σ 2 = 25, on extrait un échantillon de taille n = 100
sur lequel on observe une moyenne empirique m = 12.5.
Quel intervalle peut-on assigner à la moyenne μ de la population ?
93
Tests : Moyennes et Variances
A. El Mossadeq
Au seuil α, l’intervalle de confiace de la moyenne est défini par :
¸
∙
σ
σ
m − t1−α/2 √ , m + t1−α/2 √
n
n
Pour α = 5%, on a :
t.975 = 1.96
d’où l’intervalle de confiance à 95% :
[11.52, 13.48]
3.2. n < 30
Si X suit une loi normale de moyenne μ et de variance σ 2 , alors la quantité :
t=
m−μ
s
√
n
est une réalisation de la variable aléatoire de Student à (n − 1) degrés de liberté :
Tn−1 =
M −μ
S
√
n
Ainsi, pour tout α ∈ [0, 1], il existe tn−1;1−α/2 ∈ R tel que :
¤
£
P |Tn−1 | < tn−1;1−α/2 = 1 − α
où tn−1;1−α/2 vérifie :
¡
¢
α
Fn−1 tn−1;1−α/2 = 1 −
2
Fn−1 étant la fonction de répartition de Tn−1 .
On dit que :
¸
∙
s
s
μ ∈ m − tn−1;1−α/2 √ , m + tn−1;1−α/2 √
n
n
à 1 − α ou au seuil α.
Cet intervalle est appelé l’intervalle de confiance de la moyenne μ à 1 − α.
Exemple 3
Pour déterminer le point de fusion moyen μ d’un certain alliage, on a procédé à neuf
observations qui ont données une moyenne m = 1040 ◦ C et un écart-type s = 16 ◦ C.
Construire un intervalle de confiance de la moyenne μ à 95%.
94
A. El Mossadeq
Tests : Moyennes et Variances
Ici on a :
n
m
s
=
=
=
9
1040 ◦ C
16 ◦ C
Au seuil α, l’intervalle de confiace d’une telle moyenne est défini par :
∙
¸
s
s
m − tn−1;1−α/2 √ , m + tn−1;1−α/2 √
n
n
Pour α = 5%, on a :
t8;.975 = 2.31
d’où l’intervalle de confiance à 95% :
[1027.68 ◦ C, 1052.32 ◦ C]
4. TEST DE COMPARAISON D’UNE
VARIANCE OBSERVÉE À UNE
NORME
Si X suit une loi normale de moyenne μ et de variance σ 2 , alors sous l’hypothèse
nulle :
H0 : ”s2 = σ 2 ”
la quantité :
(n − 1) s2
σ2
2
est une réalisation d’une variable χn−1 du Khi-deux à (n − 1) degrés de liberté.
Ainsi, pour tout α ∈ [0, 1], il existe χ2n−1;α/2 et χ2n−1;1−α/2 dans R tels que :
£
¤
P χ2n−1;α/2 < χ2 < χ2n−1;1−α/2 = 1 − α
χ2 =
où χ2n−1;α/2 et χ2n−1;1−α/2 vérifient :
⎧
³
´
⎨ Kn−1 χ2
³ n−1;α/2 ´
⎩ Kn−1 χ2
n−1;1−α/2
95
=
=
α
2 α
1−
2
Tests : Moyennes et Variances
A. El Mossadeq
Kn−1 étant la fonction de répartition de χ2n−1 .
On rejette alors l’hypothèse nulle H0 , à 1 − α, dès que :
¤
(n − 1) s2 £ 2
∈
/ χn−1;α/2 − χ2n−1;1−α/2
2
σ
Exemple 4
La force de rupture d’un certain type de cable peut être assimilée à une variable
aléatoire normale.
Un vendeur de ce type de cable aﬃrme que cette force de rupture a pour variance
σ 2 = 2000 N2 .
Des essais portant sur dix cables ont donné une variance empirique s2 de 1560 N2 .
Que peut-on conclure ?
Ici on a :
Testons l’hypothèse nulle :
⎧
⎨ n = 10
σ 2 = 2000 N2
⎩ 2
s = 1560 N2
H0 : ”la variance de la force de rupture du cable est σ 2 =2000 N2 ”
Sous cette hypothèse, la quantité :
(n − 1) s2
χ =
σ2
est une réalisation d’une variable du Khi-deux à :
2
(10 − 1) = 9
degrés de liberté : χ29
Pour α = 5% :
et comme :
⎧ 2
⎨ χ9;.025 = 2.7
⎩ χ2
9;.975 = 19
χ2
=
=
(n − 1) s2
σ2
7.02
on accepte l’hypothèse nulle H0 , au seuil α = 5%, c’est à dire, la force de rupture
de ce type de cable a pour variance :
σ2 = 2000 N2
96
A. El Mossadeq
Tests : Moyennes et Variances
5. TEST DE COMPARAISON D’UNE
MOYENNE OBSERVÉE À UNE
NORME
5.1. n ≥ 30
Sous l’hypothèse nulle :
H0 : ”m = μ”
la quantité :
t=
m−μ
σ
√
n
peut être considérée comme une réalisation de la variable aléatoire normale centrée
réduite :
M −μ
N= σ
√
n
Ainsi, pour tout α ∈ [0, 1], il existe t1−α/2 ∈ R tel que :
£
¤
P |N| < t1−α/2 = 1 − α
c’est à dire :
ou encore :
Z
t1−α/2
−t1−α/2
Z
1
t2
√ exp − dt = 1 − α
2
2π
t1−α/2
1
α
t2
√ exp − dt = 1 −
2
2
2π
−∞
On rejette alors l’hypothèse nulle H0 , à 1 − α, dès que :
|t| > t1−α/2
Si la variance σ 2 est inconnue, on la remplace par son estimation s2 .
Exemple 5
D’une population, on extrait un échantillon de taille n = 40 sur lequel on observe
une moyenne m = 7.5 et une variance s2 = 80.
Tester l’hypothèse selon laquelle cet échantillon est extrait d’une population de
moyenne μ = 10.
97
Tests : Moyennes et Variances
A. El Mossadeq
Ici on a :
n = 40
μ = 10
m = 7.5
s2 = 80
Testons l’hypothèse nulle :
H0 : ”la moyenne de la population est μ = 10”
Sous cette hypothèse, la quantité :
t=
m−μ
s
√
n
peut être considérée comme une réalisation d’une variable aléatoire normale centrée
réduite.
Pour α = 5%, on a :
t.975 = 1.96
et comme :
t=
m−μ
s = −1.77
√
n
on accepte l’hypothèse nulle H0 au seuil α = 5%, c’est à dire, l’échantillon est extrait
d’une population de moyenne μ = 10.
5.2. n < 30
Si X suit une loi normale de moyenne μ et de variance σ 2 , alors sous l’hypothèse
nulle :
H0 : ”m = μ”
la quantité :
t=
m−μ
s
√
n
est une réalisation de la variable aléatoire de Student à (n − 1) degrés de liberté :
Tn−1 =
M −μ
s
√
n
Ainsi, pour tout α ∈ [0, 1], il existe tn−1;1−α/2 ∈ R tel que :
¤
£
P |Tn−1 | < tn−1;1−α/2 = 1 − α
98
A. El Mossadeq
Tests : Moyennes et Variances
où tn−1;1−α/2 vérifie :
¡
¢
α
Fn−1 tn−1;1−α/2 = 1 −
2
Fn−1 étant la fonction de répartition de Tn−1 .
On rejette alors l’hypothèse nulle H0 , à 1 − α, dès que :
|t| > tn−1;1−α/2
Exemple 6
Un fabriquant de corde aﬃrme que les objets qu’il produit ont une tension de rupture
moyenne de trois cents Kilogrammes.
Peut-on admettre le bien fondé de cette aﬃrmation si des expériences faites sur dix
cordes ont permis de constater les forces de rupture suivantes :
251 247 255 305 341 326 329 345 392 289
Avant de tester l’hypothèse nulle :
H0 : ”la tension de rupture moyenne de la corde est 300 kg”
Calculons les estimations m et s2 sur cet échantillon de taille n = 10.
On a :
10
1 X
m=
xi = 308 kg
10 i=1
et :
1X
(xi − m)2 = 2269.8 kg2
s =
9 i=1
10
2
Sous l’hypothèse nulle H0 , la quantité :
t=
m−μ
s
√
n
est une réalisation d’une variable aléatoire de Student à :
n−1=9
degrés de liberté :T9 .
Pour α = 5%, on a :
t9;.975 = 2.26
99
Tests : Moyennes et Variances
A. El Mossadeq
et comme :
t
m−μ
s
√
n
.531
=
=
on accepte l’hypothèse nulle H0 au seuil α = 5%, c’est à dire, la tension de rupture
moyenne de la corde est 300 kg.
6. TEST DE COMPARAISON DE
DEUX VARIANCES
On considère deux populations dans lesquelles le caractère étudié est distribué selon
des lois normales de variances σ 21 et σ 22 inconnues.
Il s’agit de décider si les variances de ces deux populations sont égales.
Soit à tester, au seuil α, l’hypothèse nulle :
H0 : ”σ 21 = σ 22 ”
On extrait de ces deux populations, deux échantillons indépendants de taille n1 et
n2 respectivement, sur lesquels on calcule les estimations s21 de σ 21 et s22 de σ 22 .
Sous l’hypothèse nulle H0 , la quantité :
f=
s21
s22
est une réalisation d’une variable aléatoire Fn1 −1,n2 −1 de Fisher à (n1 − 1, n2 − 1)
degrés de liberté.
Ainsi, pour tout α ∈ [0, 1], il existe Fn1 −1,n2 −1;α/2 ∈ R et Fn1 −1,n2 −1;1−α/2 ∈ R tels
que :
£
¤
P Fn1 −1,n2 −1;α/2 < f < Fn1 −1,n2 −1;1−α/2 = 1 − α
On rejette alors l’hypothèse nulle H0 , à 1 − α, dès que :
£
¤
f∈
/ Fn1 −1,n2 −1;α/2 − Fn1 −1,n2 −1;1−α/2
En pratique, on rejette l’hypothèse nulle H0 , à 1 − α, dès que :
⎧ 2
s1
⎪
⎪
> Fn1 −1,n2 −1;1−α/2 si s21 > s22
⎪
⎪
⎨ s22
⎪
⎪
s2
⎪
⎪
⎩ 22 > Fn2 −1,n1 −1;1−α/2
s1
100
si s22 > s21
A. El Mossadeq
Tests : Moyennes et Variances
Exemple 7
Sur deux échantillons indépendants de tailles n1 = 9 et n2 = 21, extraits de deux
populations gaussiennes, les variances ont été estimées par s21 = 16 et s22 = 12.
Peut-on admettre, au seuil α = 10%, que les deux populations considérées ont la
même variance ?
Ici on a :
½
s21 = 16
s22 = 12
n1 = 9
n2 = 21
Testons au seuil α, l’hypothèse nulle :
H0 : ”σ 21 = σ 22 ”
Sous cette hypothèse, la quantité :
f=
s21
s22
est une réalisation d’une variable aléatoire de F isher à
(n1 − 1, n2 − 1) = (8, 20)
degrés de liberté : F8,20
Pour α = 10%, on a :
F8,20;.95 = 2.45
et comme :
s21
s22
4
=
3
on accepte l’hypothèse nulle H0 au seuil α = 10%.
f
=
Exemple 8
Sur deux échantillons indépendants de tailles n1 = 17 et n2 = 21, extraits de deux
populations gaussiennes, les variances ont été estimées par s21 = 36 et s22 = 45.
Peut-on admettre, au seuil α = 2%, que ces deux populations ont la même variance ?
Ici on a :
½
n1 = 17
n2 = 21
s21 = 36
s22 = 45
Testons au seuil α, l’hypothèse nulle :
H0 : ”σ 21 = σ 22 ”
101
Tests : Moyennes et Variances
A. El Mossadeq
Sous cette hypothèse, la quantité :
f=
s22
s21
est une réalisation d’une variable aléatoire de F isher à
(n2 − 1, n1 − 1) = (20, 16)
degrés de liberté : F20,16
Pour α = 2, on a :
F20,16;.99 = 3.25
et comme :
f
=
=
s22
s21
1.25
on accepte l’hypothèse nulle H0 au seuil α = 2%.
7. TEST DE COMPARAISON DE
DEUX MOYENNES
On considère deux populations dans lesquelles le caractère étudié est défini par
(μ1 , σ 21 ) et(μ2 , σ 22 ) respectivement.
On extrait de ces deux populations, deux échantillons indépendants de taille n1 et n2
respectivement, sur lesquels on calcule les estimations (m1 , s21 ) de (μ1 , σ 21 ) et (m2 , s22 )
de (μ2 , σ 22 ).
7.1. n1 ≥ 30 et n2 ≥ 30
Sous l’hypothèse nulle :
H0 : ”μ1 = μ2 ”
la quantité :
m1 − m2
t= r 2
σ 1 σ 22
+
n1 n2
peut être considérée comme une réalisation de la variable aléatoire normale centrée
102
A. El Mossadeq
Tests : Moyennes et Variances
réduite :
M1 − M2
N=r 2
σ 1 σ 22
+
n1 n2
Ainsi, pour tout α ∈ [0, 1], il existe t1−α/2 ∈ R tel que :
£
¤
P |N| < t1−α/2 = 1 − α
On rejette alors l’hypothèse nulle H0 , à 1 − α, dès que :
|t| > t1−α/2
Si σ 21 ou σ 22 est inconnue, on peut remplacer sans inconvénient l’une ou l’autre par
son estimation.
Exemple 9
Chez cent sujet normaux, on dose l’acide urique, les résultats sont :
⎧
⎨ m1 = 53.3 mg/ l
⎩ s = 9.1 mg/ l
1
Chez cent sujet atteints de la maladie de goutte, le même dosage fournit les résultats
suivants :
⎧
⎨ m2 = 78.6 mg/ l
Que peut-on conclure ?
⎩ s = 13.1 mg/ l
2
Testons au seuil α, l’hypothèse nulle :
H0 : ”la maladie de goutte n’a pas d’influence sur la dose de l’acide urique.”
Sous cette hypothèse, la quantité :
m1 − m2
t= r 2
s1
s2
+ 2
n1 n2
peut être considérée comme une réalisation d’une variable aléatoire normale centrée
réduite.
Pour α = 5%, on a :
t.975 = 1.96
103
Tests : Moyennes et Variances
A. El Mossadeq
et comme :
t
=
=
m − m2
r 12
s1
s2
+ 2
n1 n2
15.862
on rejette l’hypothèse nulle H0 à 95% (même à 99.99%), c’est à dire, la maladie de
goutte a une influence sur la dose de l’acide urique.
7.2. n1 < 30 ou n2 < 30
Si le caractère étudié est distribué dans les deux populations selon des lois normales
de même variance σ 2 = σ 21 = σ 22 (pour vérifier cette hypothèse, on peut faire un test
de comparaison de deux variances) estimée par :
s2 =
alors sous l’hypothèse nulle :
(n1 − 1) s21 + (n2 − 1) s22
n1 + n2 − 2
H0 : ”μ1 = μ2 ”
la quantité :
m1 − m2
t= r
1
1
s
+
n1 n2
est une réalisation de la variable aléatoire Tn1 +n2 −2 de Student à (n1 + n2 − 2) degrés
de liberté.
Ainsi, pour tout α ∈ [0, 1], il existe tn1 +n2 −2;1−α/2 ∈ R tel que :
¤
£
P |Tn1 +n2 −2 | < tn1 +n2 −2;1−α/2 = 1 − α
On rejette alors l’hypothèse nulle H0 , à 1 − α, dès que :
|t| > tn1 +n2 −2;1−α/2
Exemple 10
On étudie l’eﬀet d’une substance sur la croissance d’une tumeur greﬀée.
Les résultats sont consignés sur le tableau ci-dessous donnant la surface de la tumeur
au 20ème jour après sa greﬀe :
104
A. El Mossadeq
Tests : Moyennes et Variances
Surf ace 5.5 6 6.5 7 7.5 8
T émoins 1 2 3 8 4 3
T raités
4 4 8 3 1 1
Le traitement a-t-il un eﬀet significatif sur la surface tumorale ?
On suppose que la surface tumorale est distribuée selon des lois normales N (μ1 , σ 21 )
et N (μ2 , σ 22 ) chez les témoins et les traités respectivement.
Calculons les estimations (m1 , s21 ) de (μ1 , σ 21 ) et (m2 , s22 ) de (μ2 , σ 22 ).
On a :
⎧
6
⎪
1 X
⎪
⎪
m
=
n1i xi = 7
⎪
1
⎪
⎪
21 i=1
⎨
et :
⎪
6
⎪
⎪
1 X
⎪
2
⎪
n1i (xi − m1 )2 = .45
⎪
⎩ s1 = 20
i=1
⎧
6
⎪
1 X
⎪
⎪
m
=
n2i xi = 6.4048
⎪
2
⎪
⎪
21 i=1
⎨
⎪
6
⎪
⎪
1 X
⎪
2
⎪
n2i (xi − m2 )2 = .87972
⎪
⎩ s2 = 20
i=1
Testons d’abord, au seuil α = 2%, l’hypothèse nulle d’égalité des variances des
surfaces tumorales chez les populations des témoins et des traités.
Sous cette hypothèse, la quantité :
f=
s22
s21
est une réalisation d’une variable aléatoire de Fisher à :
(n2 − 1, n1 − 1) = (20, 20)
degrés de liberté.
Pour α = 2%, on a :
F20,20;.99 = 2.94
et comme :
f
=
=
s22
s21
1.9549
105
Tests : Moyennes et Variances
A. El Mossadeq
on accepte donc l’hypothèse d’égalité des variances des deux populations.
Calculons maintenant l’estimation commune s2 de cette variance :
s2
=
=
(n1 − 1) s21 + (n2 − 1) s22
n1 + n2 − 2
.66486
et testons l’hypothèse nulle :
H0 : ”le traitement est sans eﬀet sur la croissance de la surface tumorale”
Sous cette hypothèse, la quantité :
m1 − m2
t= r
1
1
s
+
n1 n2
est une réalisation de la variable aléatoire de Student à :
n1 + n2 − 2 = 40
degrés de liberté.
Pour α = 2%, on a :
t40;.99 = 2.42
et comme :
t
=
=
m − m2
r1
1
1
s
+
n1 n2
2.831
on rejette l’hypothèse nulle H0 à 98%, c’est à dire, le traitement a une influence sur
la croissance de la surface tumorale.
106
A. El Mossadeq
Tests : Moyennes et Variances
8. EXERCICES
Exercice 1
Une série de cent mesures a donné comme résultat :
⎧ 100
X
⎪
⎪
⎪
xi = 5200
⎪
⎪
⎪
⎨ i=1
"
#2
⎪
100
⎪
X
100
⎪
P
1
⎪
⎪
⎪
xi −
xj = 396
⎩
100 j=1
i=1
1. Estimer la moyenne et la variance.
2. Quel est, à 95%, l’intervalle de confiance de la moyenne ?
3. En supposant la variable mesurée gaussienne, déterminer, à 95%, l’intervalle de
confiance de la variance.
Exercice 2
La force de rupture d’un certain type de cable peut être assimilée à une variable
aléatoire normale.
Des essais portant sur dix cables ont donné une variance empirique s2 de 1560 N2 .
Construire un intervalle de confiance, à 95%, de l’écart-type de cette force de rupture.
Exercice 3
Une enquête statistique eﬀectuée sur cent sujets permet de définir, à 95%, l’intervalle
de confiance de la moyenne :
[49.6 − 50.4]
Dans quelles conditions aurait-il été possible que le résultat fût à 95% :
[49.8 − 50.2]
Exercice 4
Pour déterminer le point de fusion moyen μ d’un certain alliage, on a procédé à neuf
observations qui ont données une moyenne m = 1040 ◦ C et un écart-type s = 16 ◦ C.
Construire un intervalle de confiance de la moyenne μ à 95%.
107
Tests : Moyennes et Variances
A. El Mossadeq
Exercice 5
La taille de 1200 conscrits du bureau de recrutement X a pour moyenne X̄ = 172 cm
et pour écart-type sX = 6 cm.
Les mêmes mesures eﬀectuées sur les 250 conscrits du bureau de recrutement Y ont
donné pour moyenne Ȳ = 170 cm et pour écart-type sY = 5 cm.
Que peut-on conclure ?
Exercice 6
On se propose de comparer le poids à la naissance chez une série de primapares
(série 1) et une série de multipares (série 2) :
Série 1 : n1 = 95
m1 = 3197 g s21 = 210100 g2
Série 2 : n2 = 105 m2 = 3410 g s22 = 255400 g2
Que peut-on conclure ?
Exercice 7
Chez cent sujet normaux, on dose l’acide urique, les résultats sont :
⎧
⎨ m1 = 53.3 mg/ l
⎩ s
1
=
9.1 mg/ l
Chez cent sujet atteints de la maladie de goutte, le même dosage de l’acide urique
fournit les résultats suivants :
⎧
⎨ m2 = 78.6 mg/ l
Que peut-on conclure ?
⎩ s
2
=
13.1 mg/ l
Exercice 8
On admet que la valeur moyenne de la glycémie du sujet normal est 1 g/ l.
Sur 17 sujets, on a trouvé une moyenne de .965 g/ l et un écart-type estimé de
.108 g/ l.
Cette valeur peut-elle être considérée comme diﬀérente du taux normal ?
108
A. El Mossadeq
Tests : Moyennes et Variances
Exercice 9
Dans un échantillon de 17 prématurés, la moyenne du Na-plasmatique est :
½
m1 = 133
s21
= 81.2
Soit un autre échantillon de 25 dysmaturés, dans lequel la moyenne du Na-plasmatique
est :
½
m2 = 136
s22
= 56.57
Que peut-on conclure ?
Exercice 10
Lorqu’une machine est bien réglée, elle produit des pièces dont le diamètre D est
une variable gaussienne de moyenne 25 mm.
Deux heures après le réglage de la machine, on a prélevé au hasard neuf pièces.
Leurs diamètres ont pour mesure en mm :
22 23 21 25 24 23 22 26 21
Que peut-on conclure quant à la qualité du réglage après deux heures de fonctionnement de la machine ?
Exercice 11
Si l’écart-type de la durée de vie d’un modèle de lampe électrique est estimé à cent
heures, quelle doit être la taille de l’échantillon à prélever pour que l’erreur sur
l’estimation de la durée de vie moyenne n’exède pas vingt heures et ce avec une
probabilité de 95% puis 99% ?
Exercice 12
Une machine fabrique des rondelles dont le diamètre D est une variable guassienne.
On prélève au hasard un échantillon de huit rondelles.
Leurs diamètres ont pour mesure en mm :
20.1 19.9 19.7 20.2 20.1 23.1 22.6 19.8
Construire à 95% puis 99% les intervalles de confiance de la moyenne et de la variance.
109
Tests : Moyennes et Variances
A. El Mossadeq
Exercice 13
On eﬀectue un dosage par deux méthodes diﬀérentes A et B.
On obtient les résultats suivants :
M éthode A
.6
.65
.7
.7
.7
.7
.75
.8
.8
M éthode B
.6
.6
.65
.65
.7
.6
.75
.8
.8
Peut-on considérer que les deux méthodes sont équivalentes ?
Exercice 14
Dans deux types de forêts, on a mesuré les hauteurs de treize et quatorze peuplements choisis au hasard et indépendamment dans le but de vérifier si les hauteurs
de ces deux types d’arbres sont ou ne sont pas égales. Les résultats sont les suivants :
T ype 1 : 22.5 22.9 23.7 24.0 24.4 24.5 26.0
26.2 26.4 26.7 27.4 28.6 28.7
T ype 2 : 23.4 24.4 24.6 24.9 25.0 26.2 26.3
26.8 26.8 26.9 27.0 27.6 27.7 27.8
On admet que les hauteurs de ces deux types d’arbres sont des variables gaussiennes
N (μ1 , σ 21 ) et N (μ2 , σ 22 ).
Que peut-on conclure ?
Exercice 15
On considère deux variétés de maïs M1 et M2 dont les rendements sont des variables
aléatoires gaussiennes N (μ1 , σ 21 ) et N (μ2 , σ 22 ).
Afin de comparer les rendements de ces deux variétés de maïs, on a choisi de cultiver
dans neuf stations diﬀérentes des parcelles voisines encemencées de l’une ou l’autre
des deux variétés.
On a observé les rendements suivants :
110
A. El Mossadeq
Station
Tests : Moyennes et Variances
1
2
3
4
5
6
V ariété 1 39.6 32.4 33.1 27
36
32
7
8
9
25.9 32.4 33.2
V ariété 2 39.2 33.1 32.4 25.2 33.1 29.5 24.1 29.2 34.1
Que peut-on conclure ?
Exercice 16
Le relevé des températures journalières minimales de deux stations S1 et S2 , au
cours de neuf journées consécutives a fourni les valeurs suivantes en ◦ C:
Station 1 12
Station 2
8
9 10 11 13 10 7 10
7 11 10
6
8 11 12 9
7
On admet que la distribution des températures journalières minimales des deux
stations S1 et S2 sont des variables gaussiennes N (μ1 , σ 21 ) et N (μ2 , σ 22 ).
1. Déterminer les estimations des moyennes et des variances des températures
journalières minimales des deux stations S1 et S2 .
2. Construire, au seuil α = 5%, les intervalles de confiance de ces estimations.
3. Peut-on admettre, au seuil α = 10%, l’hypothèse selon laquelle les températures
journalières minimales moyennes des deux stations S1 et S2 sont identiques ?
Exercice 17
On étudie l’eﬀet d’une substance sur la croissance d’une tumeur greﬀée.
Les résultats sont consignés sur le tableau ci-dessous donnant la surface de la tumeur
au 20ème jour après sa greﬀe :
Surf ace 5.5 6 6.5 7 7.5 8
T émoins 1 2 3 8 4 3
T raités
4 4 8 3 1 1
Le traitement a-t-il un eﬀet significatif sur la surface tumorale ?
On suppose que la surface tumorale est distribuée selon des lois normales N (μ1 , σ 21 )
et N (μ2 , σ 22 ) chez les témoins et les traités respectivement.
111
Chapitre 6
Le Modèle Linéaire
A. El Mossadeq
Le Modèle Linéaire
1. LE MODÈLE LINÉAIRE SIMPLE
Etant données deux variables x et y, on désire savoir si la variable y est fonction de
x, ou encore si la connaissance de x fournit une certaine information sur y.
On peut aussi s’intéresser à la forme de la relation entre x et y, ou à des prédictions
de y connaissant x.
Pour répondre à ces besoins, on est amené à eﬀectuer une régression de y sur x.
En agronomie, par exemple, la production du maïs, peut être décrite par la régression
du rendement de maïs selon la dose de l’engrais utilisé.
La variable y est appelée : variable expliquée ou réponse ou variable exogène ou
contrôle ...
Quant à la variable x, elle est appelée : variable explicative ou variable endogène ou
contrôle ...
Définition 1
Soit η une variable (réponse) dépendant de variables indépendantes z1 , ..., zs :
η = f (z1 , ..., zs )
On dit que η obéit à un modèle linéaire si :
η=
k
X
β j xj (z1 , ..., zs )
j=1
où les xj , 1 ≤ j ≤ k, sont des fonctions de (z1 , ..., zs ) seulement et β 1 , ..., β k sont
des paramètres souvent inconnus.
Exemple 1
Le modèle :
η = α0 + α1 z + α2 z 2 + ... + αr z r
est un modèle linéaire.
En eﬀet, si l’on pose :
⎧
s =1
⎪
⎪
⎨
k =r+1
β = αj−1
⎪
⎪
⎩ x j = x (z) = z j−1
j
j
le modèle précédent s’écrit alors :
η=
k
X
j=1
115
β j xj
Le Modèle Linéaire
A. El Mossadeq
Définition 2
Un modèle linéaire est dit simple si :
η = α + βz
C’est le cas où :
s=1
β1 = α
x1 (z) = 1
z1 = z
β2 = β
x2 (z) = z
,
,
,
Exemple 2
Le modèle
γ = δ exp βz
où δ > 0, est un modèle linéaire simple.
En eﬀet, si l’on pose :
η = ln γ
,
α = ln δ
le modèle s’écrit :
η = α + βz
Exemple 3
Le modèle
η = α + β sin 2πz
est un modèle linéaire.
En eﬀet, si l’on pose :
s=1
β1 = α
x1 (z) = 1
,
,
,
k=2
β2 = β
x2 (z) = sin 2πz
le modèle s’écrit :
η = β 1 x1 + β 2 x2
Exemple 4
Le modèle :
1
[exp (−β 1 z) − exp (−β 2 z)]
β2 − β1
n’est pas un modèle linéaire.
η=
116
A. El Mossadeq
Le Modèle Linéaire
Remarque 1
De ces exemples, on déduit que la linéarité du modèle doit être envisagée comme
une linéarité par rapport aux paramètres du modèle.
2. ANALYSE DU MODÈLE
LINÉAIRE SIMPLE PAR LA
MÉTHODE DES MOINDRES
CARRÉS
Suposons qu’on s’intéresse à la relation entre les variations de la température (x) et
les variations du volume d’un gaz (y).
Lorsqu’on applique au gaz une température xi (qui peut être choisie au hasard ou
fixée par l’expérimentateur), le volume du gaz résultant est une variable aléatoire
yi .
Supposons que, l’erreur expérimentale mise à part, la relation entre x et y soit
linéaire, de telle manière que l’espérance conditionnelle de y relativement à x, qu’on
appelle la fonction de régression de y en x, est de la forme :
E [y | x] = η x = α + βx
où α et β sont des paramètres qu’on se propose d’estimer.
Supposons aussi que pour tout x, le volume observé contient la même erreur expérimentale donnée par :
V [y | x] = σ 2
On appelle erreur aléatoire la variable :
ε = y − (α + βx)
Pour tout x, ε a une même distribution de moyenne nulle et de variance σ 2 :
⎧
⎨ E [ε] = 0
⎩ V [ε] = σ 2
Considérons maintenant n réalisations indépendantes y1 , ..., yn sous x1 , ..., xn respectivement.
117
Le Modèle Linéaire
A. El Mossadeq
Pour tout i, 1 ≤ i ≤ n, on a :
yi = α + βxi + εi
où :
Posons :
⎧
E [εi ]
⎪
⎪
⎪
⎪
⎨
V [εi ]
⎪
⎪
⎪
⎪
⎩ Cov [ε , ε ]
i j
Q (α, β)
=
0
=
σ2
=
0
n
X
=
i=1
n
X
=
si
i 6= j
(yi − α − βxi )2
ε2i
i=1
La méthode
des moindres carrés consiste à estimer le couple (α, β) par le couple
³
´
α̂, β̂ minimisant Q (α, β) :
³
´
Q α̂, β̂ = min Q (α, β)
(α,β)
³
´
α̂, β̂ sont appelés les estimateurs des moindres carrés de (α, β).
On obtient :
α̂
=
β̂
=
ȳ − β̂ x̄
S (ẋ, ẏ)
S (ẋ2 )
où :
1X
xi
x̄ =
n i=1
n
1X
ȳ =
yi
n i=1
n
118
A. El Mossadeq
Le Modèle Linéaire
et :
S (ẋ, ẏ)
=
=
n
X
i=1
n
X
i=1
S (ẋ, ẋ)
=
(xi − x̄) (yi − ȳ)
xi yi − nx̄ȳ
¡ ¢
S ẋ2
Un estimateur η̂ de η est alors donné par :
η̂ = α̂ + β̂x
Posons :
ei
=
=
On a :
n
X
ei
=
i=1
=
n ³
´
X
yi − α̂ − β̂xi
i=1
n h
X
i=1
=
yi − η̂ i
´
³
yi − α̂ + β̂xi
0
i
(yi − ȳ) − β̂ (xi − x̄)
La droite des moindres carrés η̂ = α̂ + β̂x
et les résidus ei = yi − η̂ i
119
Le Modèle Linéaire
A. El Mossadeq
3. PRORIÉTÉS STATISTIQUES DES
ESTIMATEURS
Posons :
ci =
On a :
⎧ n
X
⎪
⎪
⎪
ci
⎪
⎪
⎪
i=1
⎪
⎪
⎪
⎪
⎪
⎪
n
⎨ X
c2i
⎪
⎪
i=1
⎪
⎪
⎪
⎪
⎪
⎪
n
⎪
X
⎪
⎪
⎪
ci xi
⎩
(xi − x̄)
S (ẋ2 )
=
0
=
1
S (ẋ2 )
=
1
i=1
3.1. ETUDE DE β̂
Puisque :
S (ẋ, ẏ) =
n
X
i=1
on en déduit :
β̂
(xi − x̄) (yi − ȳ) =
=
=
=
n
X
i=1
S (ẋ, ẏ)
S (ẋ2 )
n
X
(xi − x̄) yi
i=1
S (ẋ2 )
n
X
ci yi
i=1
120
(xi − x̄) yi
A. El Mossadeq
Le Modèle Linéaire
d’où :
h i
E β̂
=
E
" n
X
ci yi
i=1
=
=
n
X
i=1
n
X
#
ci E [yi ]
ci (α + βxi )
i=1
=
β
et :
h i
V β̂
=
V
" n
X
i=1
=
n
X
ci yi
#
c2i V [yi ]
i=1
=
σ2
S (ẋ2 )
Proposition 1
β̂ est un estimateur sans biais de β de variance :
h i
σ2
V β̂ =
S (ẋ2 )
3.2. ETUDE DE α̂
Puisque :
α̂ = ȳ − β̂ x̄
On a :
E [α̂]
=
=
=
=
h
i
E ȳ − β̂ x̄
h i
E [ȳ] − E β̂ x̄
α + β x̄ − β x̄
α
121
Le Modèle Linéaire
A. El Mossadeq
et comme :
n
X
β̂ =
ci yi
i=1
alors :
α̂
=
=
ȳ − β̂ x̄
!
Ã n
X
ȳ −
ci yi x̄
i=1
=
n µ
X
1
n
i=1
d’où :
V [α̂]
V
=
i=1
n µ
X
i=1
=
σ
− x̄ci yi
" n µ
X 1
=
2
∙
¶
n
¶ #
− x̄ci yi
1
− x̄ci
n
¶2
1
x̄2
+
n S (ẋ2 )
V [yi ]
¸
Proposition 2
α̂ est un estimateur sans biais de α de variance :
∙
¸
x̄2
2 1
+
V [α̂] = σ
n S (ẋ2 )
3.3. ETUDE DE η̂
On a :
η̂
=
=
α̂ + β̂x
n µ
X
1
i=1
=
n
n ∙
X
1
i=1
n
¶
− x̄ci yi +
n
X
i=1
¸
+ ci (x − x̄) yi
122
ci yi x
A. El Mossadeq
Le Modèle Linéaire
d’où :
E [η̂]
h
i
E α̂ + β̂x
h i
E [α̂] + E β̂ x
=
=
=
α + βx
et :
V [η̂]
" n ∙
X 1
=
V
=
n ∙
X
i=1
n
¸ #
+ ci (x − x̄) yi
¸2
1
+ ci (x − x̄) V [yi ]
n
i=1
"
#
2
1
(x
−
x̄)
σ2
+
n
S (ẋ2 )
=
Proposition 3
η̂ est un estimateur sans biais de η de variance :
"
#
2
1 (x − x̄)
+
V [η̂] = σ2
n
S (ẋ2 )
3.4. ETUDE DE LA COVARIANCE DE α̂ ET β̂
On a :
β̂ − β
α̂ − α
=
=
n
X
ci (yi − η i )
i=1
n µ
X
j=1
¶
¡
¢
1
− x̄cj yj − η j
n
123
Le Modèle Linéaire
A. El Mossadeq
donc :
³
´
(α̂ − α) β̂ − β
=
n ³
X
ci
i=1
Xµ
=
n
´
− x̄c2i (yi − η i )2 +
¶
¡
¢
1
− x̄ci cj (yi − η i ) yj − η j
n
i6=j
¶
n ³
´
Xµ1
X
ci
2
2
− x̄ci (yi − η i ) +
− x̄ci cj εi εj
n
n
i=1
i6=j
d’où :
h
i
Cov α̂, β̂
=
=
=
h
³
´i
E (α̂ − α) β̂ − β
n ³
´
X
ci
2
σ
− x̄c2i
n
i=1
x̄
−σ 2
S (ẋ2 )
Proposition 4
La covariance de α̂ et β̂ est donnée par :
h
i
Cov α̂, β̂ = −σ 2
x̄
S (ẋ2 )
4. ETUDE DE LA VARIANCE DES
ESTIMATEURS
Soient a et b deux réels donnés et considérons l’estimateur des moindres carrés :
τ̂ = aα̂ + bβ̂
de :
τ = aα + bβ
124
A. El Mossadeq
Le Modèle Linéaire
Comme :
E [τ̂ ]
h
i
E aα̂ + bβ̂
=
=
=
aα + bβ
τ
τ̂ est donc un estimateur sans biais de τ .
D’autre part, puisque :
τ̂
=
=
on en déduit :
V [τ̂ ]
aα̂ + bβ̂
n h
i
X
a
+ (b − ax̄) ci yi
n
i=1
" n
Xha
=
V
=
n h
X
a
n
i=1
i=1
=
σ2
"
n
i
+ (b − ax̄) ci yi
+ (b − ax̄) ci
a2 (b − ax̄)2
+
n
S (ẋ2 )
i2
#
V [yi ]
#
Considérons un estimateur t de τ sans biais et linéaire en yi :
t=
n
X
di yi
i=1
Puisque :
E [t] = τ
alors :
⎧ n
X
⎪
⎪
di
⎪
⎪
⎪
⎨ i=1
⎪
n
⎪
X
⎪
⎪
⎪
di xi
⎩
i=1
125
=
a
=
b
Le Modèle Linéaire
A. El Mossadeq
Calculons la covariance de τ̂ et t :
τ̂ − E [τ̂ ]
n h
X
a
=
i=1
n h
X
=
i=1
t − E [t]
n
i
+ (b − ax̄) ci (yi − η i )
i
a
+ (b − ax̄) ci εi
n
n
X
=
j=1
n
X
=
¡
¢
dj yj − η j
dj εj
j=1
d’où :
Cov [τ̂ , t]
=
=
=
E [(τ̂ − τ ) (t − τ )]
n h
n X
i
X
a
+ (b − ax̄) ci dj Cov [εi , εj ]
n
i=1 j=1
n h
X
a
i=1
=
σ2
"
n
i
+ (b − ax̄) ci di V [εi ]
X
a2
+ (b − ax̄)
ci di
n
i=1
n
#
Et comme :
n
X
ci di
=
i=1
=
=
n
X
xi − x̄
d
2) i
S
(
ẋ
i=1
#
" n
n
X
X
1
xi di − x̄
di
S (ẋ2 ) i=1
i=1
(b − ax̄)
S (ẋ2 )
on obtient alors :
Cov [τ̂ , t]
=
=
=
"
X
a2
σ
+ (b − ax̄)
ci di
n
i=1
"
#
2
(b − ax̄)2
2 a
+
σ
n
S (ẋ2 )
2
V [τ̂ ]
126
n
#
A. El Mossadeq
Le Modèle Linéaire
Or :
V [τ̂ − t]
=
=
V [τ̂ ] + V [t] − 2Cov [τ̂ , t]
V [t] − V [τ̂ ]
et :
on en déduit :
V [τ̂ − t] ≥ 0
V [τ̂ ] ≤ V [t]
Proposition 5
Parmi tous les estimateurs sans biais de :
τ = aα + bβ
linéaires en yi , l’estimateur des moindres carrés :
τ̂ = aα̂ + bβ̂
est de variance minimale.
Corollaire 1
Parmi tous les estimateurs sans biais de α, linéaires en yi , l’estimateur des moindres
carrés α̂ est de variance minimale.
Corollaire 2
Parmi tous les estimateurs sans biais de β, linéaires en yi , l’estimateur des moindres
carrés β̂ est de variance minimale.
Corollaire 3
Parmi tous les estimateurs sans biais de :
η = α + βx
linéaires en yi , l’estimateur des moindres carrés :
η̂ = α̂ + β̂x
est de variance minimale.
127
Le Modèle Linéaire
A. El Mossadeq
5. ESTIMATION DE σ 2
On appelle somme des carrés des résidus la quantité :
SSe =
n
X
e2i
i=1
où
yi − η̂ i
=
ei
yi − α̂ − β̂xi
=
En remplaçant, on obtient :
SSe
=
n
X
e2i
i=1
=
n ³
´2
X
yi − α̂ − β̂xi
i=1
=
n
X
i=1
Posons :
"
yi2 − α̂
SSr = α̂
n
X
n
X
i=1
yi + β̂
i=1
yi + β̂
n
X
xi yi
i=1
n
X
xi yi
i=1
alors :
SSr
=
2
nα̂ + 2α̂β̂
n
X
xi + β̂
i=1
=
n
X
η̂ 2i
i=1
d’où :
SSe =
n
X
i=1
yi2 − SSr
128
2
n
X
i=1
x2i
#
A. El Mossadeq
Et comme :
Le Modèle Linéaire
£ ¤
E α̂2
h 2i
E β̂
=
V [α̂] + E [α̂]2
=
h i
h i2
V β̂ + E β̂
h i
E α̂β̂
=
E [yi2 ]
=
h
i
h i
Cov α̂, β̂ + E [α̂] E β̂
V [yi ] + E [yi ]2 = σ 2 + (α + βxi )2
alors :
2
"
2
E [SSr ] = 2σ + nα + 2αβ
=
E
" n
X
yi2
i=1
=
xi + β
i=1
d’où :
E [SSe ]
n
X
#
2
n
X
i=1
x2i
#
− E [SSr ]
(n − 2) σ 2
Proposition 6
La statistique :
est un estimateur sans biais de σ 2 .
1
SSe
n−2
6. ANALYSE DE LA VARIANCE
On a :
n
X
yi2 = SSe + SSr
i=1
n
X
yi2 se décompose en la somme de deux carrés :
i=1
• le premier, SSe , donnant une information sur l’erreur,
• le second, SSr , donnant une information sur les paramètres de la fonction de
régression.
129
Le Modèle Linéaire
A. El Mossadeq
Nous résumons l’analyse dans le tableau suivant, appelé table de l’analyse de la variance :
Source
d.d.l
SS
Régression
2
SSr
Résidu
n−2
T otal
n
SSe
n
P
yi2
SS/ddl
SSr
2
SSe
n−2
Espérance
¸
∙
n
1
2P 2
2
2
nα + 2αβ x̄ + β
σ +
xi
2
i=1
σ2
i=1
7. TESTS ET INTERVALLES DE
CONFIANCE
On suppose, dans ce paragraphe, que pour tout i, 1 ≤ i ≤ n, yi est une variable
normale de moyenne α + βxi et de variance σ 2 .
Proposition 7
³
´
Le couple d’estimateurs α̂, β̂ a pour densité la fonction :
"
#
n
n
X
X
1
S (ẋ2 )
2
2
exp − 2 n (x − α) + 2 (x − α) (y − β)
xi + (y − β)
x2i
f (x, y) = n
2πσ 2
2σ
i=1
i=1
7.1. INTERVALLE DE CONFIANCE DE σ 2
Proposition 8
La variable :
SSe
σ2
suit une loi du khi-deux à (n − 2) degrés de liberté : χ2n−2 .
130
A. El Mossadeq
Le Modèle Linéaire
Un intervalle de confiance de σ 2 à 1 − δ est alors donné par :
"
#
SSe
SSe
,
χ2n−2;1−δ/2 χ2n−2;δ/2
7.2. RÉGION DE CONFIANCE ET TESTS
CONCERNANT (α, β)
Proposition 9
La variable :
n
n
³
´X
³
´2 X
T (α, β) = n (α̂ − α)2 + 2 (α̂ − α) β̂ − β
xi + β̂ − β
x2i
i=1
i=1
est telle que la variable :
1
T (α, β)
σ2
suit une loi du Khi-deux à deux degrés de liberté χ22 indépendamment de SSe .
Supposons qu’on veut tester l’hypothèse :
H0 : ” (α, β) = (α0 , β 0 ) ”
Si H0 est vraie, alors la variable aléatoire :
1
T (α0 , β 0 )
σ2
suit une loi du Khi-deux à deux degrés de liberté χ22 indépendamment de la variable
aléatoire :
SSe
σ2
qui suit une loi du khi-deux à (n − 2) degrés de liberté : χ2n−2 .
Considérons la statistique:
F =
T (α0 , β 0 ) /2
SSe /n − 2
Sous l’hypothèse nulle H0 , F est une variable de Fisher-Snedecor à (2, n − 2) degrés
de liberté F2,n−2 .
On rejette l’hypothèse nulle H0 , au seuil δ, dès que :
F < F2,n−2;δ/2 ou F > F2,n−2;1−δ/2
131
Le Modèle Linéaire
A. El Mossadeq
La région de confiance de (α, β) à 1 − δ est donnée par :
¾
½
SSe
F2,n−2;1−δ/2
(α, β) | T (α, β) ≤ 2
n−2
³
´
C’est une région limitée par une ellipse centrée en α̂, β̂ .
7.3. INTERVALLE DE CONFIANCE ET TEST
CONCERNANT β
Proposition 10
La variable aléatoire β̂ est distribuée selon une loi normale de moyenne :
h i
E β̂
= β
et de variance :
indépendamment de SSe .
h i
V β̂
Ainsi, la variable :
X=
=
σ2
S (ẋ2 )
³
´p
S (ẋ2 )
β̂ − β
σ
est distribuée selon une loi normale centrée réduite.
Et comme la variable :
SSe
Y = 2
σ
suit une loi du khi-deux à (n − 2) degrés de liberté : χ2n−2 , il en résulte que la statistique :
T (β)
=
=
X
p
Y /n − 2
s
³
´ (n − 2) S (ẋ2 )
β̂ − β
SSe
suit une loi de Student à (n − 2) degrés de liberté : Tn−2 .
132
A. El Mossadeq
Le Modèle Linéaire
L’intervalle de confiance de β à 1 − δ est donné par :
"
β̂ − tn−2;1−δ/2
s
SSe
, β̂ + tn−2;1−δ/2
(n − 2) S (ẋ2 )
s
SSe
(n − 2) S (ẋ2 )
#
Afin de tester l’hypothèse nulle :
H0 : ”β = β 0 ”
on compare T (β 0 ) à tn−2;1−δ/2 .
7.4. INTERVALLE DE CONFIANCE ET TEST
CONCERNANT α
Proposition 11
La variable aléatoire α̂ est distribuée selon une loi normale de moyenne :
E [α̂]
=
α
et de variance :
V [α̂]
=
σ2
n
P
i=1
x2i
nS (ẋ2 )
indépendamment de SSe .
Posons :
γ2 =
n
P
i=1
x2i
nS (ẋ2 )
Ainsi, la variable :
(α̂ − α)
σγ
est distribuée selon une loi normale centrée réduite.
Z=
133
Le Modèle Linéaire
A. El Mossadeq
Et comme la variable :
SSe
σ2
suit une loi du khi-deux à (n − 2) degrés de liberté : χ2n−2 , il en résulte que la
statistique :
Y =
T (α)
Z
p
Y /n − 2
s
(α̂ − α) (n − 2)
γ
SSe
=
=
suit une loi de Student à (n − 2) degrés de liberté : Tn−2 .
L’intervalle de confiance de α à 1 − δ est donné par :
s
s
"
#
SSe
SSe
α̂ − tn−2;1−δ/2 γ
, α̂ + tn−2;1−δ/2 γ
(n − 2)
(n − 2)
Afin de tester, au seuil δ, l’hypothèse nulle :
H0 : ”α = α0 ”
on compare T (α0 ) à tn−2;1−δ/2 .
7.5. INTERVALLE DE CONFIANCE DE η
Proposition 12
La variable aléatoire η̂ x est distribuée selon une loi normale de moyenne :
E [η̂ x ]
=
et de variance :
V [η̂ x ]
"
ηx
1 (x − x̄)2
+
n
S (ẋ2 )
=
σ2
U=
(η̂ x − η x )
σ [η̂ x ]
indépendamment de SSe .
Ainsi, la variable :
134
#
A. El Mossadeq
Le Modèle Linéaire
est distribuée selon une loi normale centrée réduite.
Et comme la variable :
SSe
Y = 2
σ
suit une loi du khi-deux à (n − 2) degrés de liberté : χ2n−2 , il en résulte que la statistique :
T (η x )
U
p
Y /n − 2
(η̂ x − η x )
s
r
SSe
1 (x − x̄)2
+
n−2 n
S (ẋ2 )
=
=
suit une loi de Student à (n − 2) degrés de liberté : Tn−2 .
L’intervalle de confiance de η x à 1 − δ est donné par :
η̂ x ∓ tn−2;1−δ/2
s
SSe
(n − 2)
s
1 (x − x̄)2
+
n
S (ẋ2 )
7.6. COEFFICIENT DE CORRÉLATION
Par définition , le coeﬃcient de corrélation de x et y est donnée par :
ρ
Cov [x, y]
σ [x] σ [y]
S (ẋ, ẏ)
p
p
S (ẋ2 ) S (ẏ 2 )
=
=
Il en résulte que :
2
β̂ S (ẋ2 )
ρ =
S (ẏ 2 )
2
Or :
¡ ¢
2 ¡ ¢
SSe = S ẏ 2 − β̂ S ẋ2
135
Le Modèle Linéaire
A. El Mossadeq
donc :
SSe
S (ẏ 2 )
2
=
=
β̂ S (ẋ2 )
1−
S (ẏ 2 )
1 − ρ2
En utilisant les résultats précédents, on obtient :
Proposition 13
La variable aléatoire :
(n − 2) ρ
T (ρ) = p
1 − ρ2
suit une loi de Student à n − 2 degrés de liberté : Tn−2 .
Afin de tester, au seuil δ, l’hypothèse nulle :
H0 : ”ρ = 0”
c’est à dire :
”il n’y a pas de relation linéaire entre x et y”
on compare T (ρ) à tn−2;1−δ/2 .
8. LE TEST DE LINÉARITÉ DU
MODÈLE
Dans toute l’analyse que nous avons menée, nous avons supposé l’existence d’une
relation linéaire entre x et y de la forme :
E [y | x] = η x = α + βx
c’est à dire, que le modèle étudié, est un modèle linéaire simple.
Il s’agit, maintenant de vérifier si cette hypothèse est vraie, autrement dit :
le modèle est-il réellement linéaire ?
Soient x1 , ..., xm m valeurs fixée de x, m ≥ 3, telles que :
x1 < ... < xm
136
A. El Mossadeq
Le Modèle Linéaire
¡Pour chaque¢ xj , 1 ≤ j ≤ m, supposons qu’on dispose de nj , nj ≥ 1, observations
y1j , ..., ynj j de y et que l’un au moins des nj est strictement supérieur à 1.
Soit :
m
X
nj
n=
j=1
et pour tout j, 1 ≤ j ≤ m, posons :
nj
1 X
yij
ȳ.j =
nj i=1
La méthode des moindres carrés nous fournit la droite :
η̂ = α̂ + β̂x
avec :
α̂
=
β̂
=
ȳ − β̂ x̄
S (ẋ, ẏ)
S (ẋ2 )
où :
1X
ni xi
x̄ =
n i=1
m
nj
1X
1 XX
ȳ =
nj ȳ.j =
yij
n j=1
n j=1 i=1
m
S (ẋ, ẏ) =
m
X
j=1
m
nj (xj − x̄) (ȳ.j − ȳ) =
nj
m X
X
j=1 i=1
(xj − x̄) (yij − ȳ)
m
¡ 2¢ X
nj (xj − x̄)2
S ẋ =
j=1
Il est clair que :
SSe =
nj
m X
X
j=1 i=1
où pour tout j ∈ {1, ..., m} :
e2ij
nj
m X
X
¡
¢2
=
yij − η̂ ij
j=1 i=1
η̂ ij = α̂ + β̂xj , 1 ≤ i ≤ nj
137
Le Modèle Linéaire
A. El Mossadeq
Intuitivement, si la relation entre x et y n’est pas linéaire, alors les résidus eij
contiennet une information autre que celle liée à l’erreur.
Dans ce cas, il faut s’attendre à ce que la somme des carrés des résidus SSe contient,
en plus de l’information sur σ2 , une information sur l’écart à la vraie relation entre
x et y.
Posons :
nj
m X
X
(yij − ȳ)2
SST =
j=1 i=1
SSB =
m
X
j=1
SSW =
(yij − ȳ.j )2
nj
m X
X
j=1 i=1
alors on a :
(yij − ȳ.j )2
SST = SSB + SSW
• SST représente la variation totale,
• SSB représente la variation inter-groupe,
• SSW représente la variation intra-groupe.
Puisque pour tout j ∈ {1, ..., m}, y1j , ..., ynj j sont identiquement distribués selon
une loi d’espérace mathématique α + βxj et de variance σ 2 , alors :
" nj
#
X
2
E
(yij − ȳ.j ) = (nj − 1) σ 2
i=1
et :
On conclut que la statistique :
E [SSW ] = (n − m) σ 2
SSW
n−m
est un estimateur sans biais de σ 2 .
Cet estimateur est indépendant de la relation linéaire pouvant exister entre x et y
contrairement au précédent estimateur :
SSe
n−2
Posons :
SSL = SSB − SSr (β)
138
A. El Mossadeq
où :
Le Modèle Linéaire
2 ¡ ¢
SSr (β) = β̂ S ẋ2
On démontre que, sous l’hypothèse de linéarité du modèle on a :
E [SSL ] = (m − 2) σ 2
sinon :
E [SSL ] = (m − 2) σ2 + Λ2
où Λ2 dépend de la nature de la relation entre x et y de telle sorte que :
Λ2 = 0 ⇐⇒ η = α + βx
Il en résulte que si les yij , 1 ≤ i ≤ nj et 1 ≤ j ≤ m, sont identiquement distribués
selon une même loi normale, alors sous l’hypothèse nulle :
H0 : ”le modèle est linéaire”
la statistique :
FL =
SSL / (m − 2)
SSW / (n − m)
est distribuée selon une loi de Ficher à (m − 2, n − m) degrés de liberté : Fm−2,n−m .
On rejette l’hypothèse nulle H0 , au seuil δ, dès que :
FL > Fm−2,N−m;δ
On résume les diﬀérents résultats dans la table suivante où g (Λ2 ) est une fonction
de Λ2 telle que :
g (0) = 0
Source
Ámodèle
Inter
Ânon linéarité
Intra
T otal
d.d.l
SS
1
m−2
E [SS/ddl]
SSr (β)
m−1
n−m
n−1
SSL
SSB
SSW
SST
σ 2 +β 2 S (ẋ2 )+g (Λ2 )
σ 2 +g(Λ2 )/(m−2)
2
σ
Lorsque l’hypothèse de la linéarité du modèle est acceptée, il devient intéressant
d’examiner l’hypothèse nulle :
H0 : ”β = 0”
c’est à dire, la réponse est une fonction constante.
Sous l’hypothèse de linéarité du modèle, c’est à dire :
Λ=0
139
Le Modèle Linéaire
A. El Mossadeq
et sous l’hypothèse nulle :
H0 : ”β = 0”
la statistique :
Fβ =
SSr (β)
SSe / (n − 2)
est distribuée selon une loi de Ficher à (1, n − 2) degrés de liberté : F1,n−2 .
9. PREDICTION
Souvent, le but d’une expérimentation est de pouvoir, pour une valeur donnée x0 de
la variable explicative x, prédire la valeur de la variable à expliquer y.
Supposons que la relation entre x et y soit linéaire :
E [y | x] = η x = α + βx
et supposons qu’après validation du modèle, par les données (xi , yi )1≤i≤n , on a :
η̂ x = α̂ + β̂x
³
´
où α̂, β̂ sont les estimateurs des moindres carrés de (α, β).
Nous souhaitons maintenant prédire la valeur ”future” de la réponse y, indépendante des observations précédantes, lorsque x = x0 .
Quel prédicteur ỹx0 , basé seulement sur les observations (xi , yi )1≤i≤n , doit-on alors
utiliser pour prédire la réponse indépendante y qui serait observée en x = x0 ?
Intuitivement, il parait raisonnable de considérer le prédicteur :
ỹx0 = α̂ + β̂x0
On a :
E [ỹx0 | (xi , yi ) , 1 ≤ i ≤ n] = E [y | x0 ] = η x0
donc, tous les prédicteurs, de la réponse indépendante y en x = x0 , ont la même espérance mathématique.
140
A. El Mossadeq
Le Modèle Linéaire
Le choix de ce prédicteur se justifie par le fait que si t̃ est un prédicteur de y, alors :
i
h¡
¢2
E t̃x0 − y | (xi , yi )1≤i≤n
h¡
i
¢2
E t̃x0 − η x0 | (xi , yi )1≤i≤n
h¡
i
¢2
+E y − η x0 | (xi , yi )1≤i≤n
=
le terme représentant la covariance est nulle vue l’hypothèse de l’indépendance.
Lorsqu’on ne considère que les prédicteurs linéaires en y, alors d’après le Corollaire
3 de la Proposition 5, l’espérance :
est minimum lorsque :
h¡
i
¢2
E t̃x0 − η x0 | (xi , yi )1≤i≤n
t̃x0 = ỹx0
Si les yi , 1 ≤ i ≤ n, sont indépendantes et distribuées selon des lois de moyennes
α + βxi et de variances σ 2 , et si y est indépendante des yi , 1 ≤ i ≤ n, est distribuée
selon une loi de moyenne α + βx0 et de variance σ 2 , alors :
"
#
¤
£
1 (x0 − x̄)2
2
2
E (ỹx0 − y) | (xi , yi )1≤i≤n = σ 1 + +
n
S (ẋ2 )
Si en plus la distribution est normale, alors :
Tn−2 = r
SSe
n−2
s
ỹx0 − y
1 (x0 − x̄)2
1+ +
n
S (ẋ2 )
est distribuée selon une loi de student à n − 2 degrés de liberté.
Un intervalle de prédiction de y en x = x0 , à 1 − δ, est donné par :
ỹx0 ∓ tn−2;1−δ/2
r
SSe
n−2
s
141
1 (x0 − x̄)2
1+ +
n
S (ẋ2 )
Le Modèle Linéaire
A. El Mossadeq
10. EXEMPLE
On injecte à trente patients des doses diﬀérentes (x) d’une solution ( mg/ml), et on
observe leur tension arterielle (y).
Les résultats sont résumés dans le tableau suivants, où 15 ≤ x ≤ 70 :
no patient
x
y
no patient
x
y
no patient
x
y
01
02
03
04
05
06
07
08
09
10
39
47
45
47
65
46
67
42
67
56
144
220
138
145
162
142
170
124
158
154
11
12
13
14
15
16
19
18
19
20
64
56
59
34
42
48
45
17
20
19
162
150
140
110
128
130
135
114
116
124
21
22
23
24
25
26
27
28
29
30
36
50
39
21
44
53
63
29
25
69
136
142
120
120
160
158
144
130
125
175
10.1. ESTIMATION DES PARAMÈTRES DU
MODÈLE
La taille de l’échantillon, ici, est :
n = 30
On a :
30
X
30
X
,
xi = 1354
i=1
30
X
yi = 4276
i=1
x2i = 67894
30
X
,
i=1
yi2 = 624260
i=1
30
X
xi yi = 199576
i=1
et :
30
¡ 2¢ X
x2i −
S ẋ =
i=1
µ 30
P
xi
i=1
142
30
¶2
= 6783.47
A. El Mossadeq
Le Modèle Linéaire
30
¡ 2¢ X
yi2 −
S ẏ =
i=1
S (ẋ, ẏ) =
30
X
i=1
xi yi −
µ 30 ¶2
P
yi
i=1
30
µ 30
P
i=1
= 14787.47
¶ µ 30 ¶
P
xi
yi
i=1
30
= 6585.9
On en déduit :
β̂
=
S (ẋ, ẏ)
S (ẋ2 )
.97087
=
=
ȳ − β̂ x̄
98.715
=
et :
α̂
d’où la droite des moindres carrés :
η̂
y
=
=
α̂ + β̂x
98.715 + .97087x
175
162.5
150
137.5
125
112.5
100
0
20
40
60
80
x
La droite des moindres carrés
Le coeﬃcient de corrélation est donné par :
ρ
=
=
S (ẋ, ẏ)
p
S (ẋ2 ) S (ẏ 2 )
.65758
143
Le Modèle Linéaire
A. El Mossadeq
On a :
SSr
=
α̂
n
X
yi + β̂
i=1
=
n
X
i=1
=
xi yi
i=1
615870
=
SSe
n
X
yi2 − SSr
8393.45
D’où la table de l’analyse de la variance :
Source
d.d.l
SS
Régression
2
SSr
Erreur
28
T otal
30
SSe
30
P 2
yi
SS/ddl
SSr
2
SSe
28
¸
∙ E [SS/ddl]
n
P
1
2
30α2 + 2αβ x̄ + β
σ2 +
x2i
2
i=1
σ2
i=1
10.2. VALIDATION DU MODÈLE
Afin de valider le modèle, on prend en compte les six valeurs suivantes de x, pour
lesquelles une deuxième observations a été faite :
x
y
39
120
42
128
45
135
47
220
Pour calculer SSW , il suﬃt de remarquer que :
⎧ nj
P
⎪
⎪
(yij − ȳ.j )2 = 0
⎪
⎪
⎨ i=1
d’où :
⎪
nj
⎪
P
(y1j− y2j )2
⎪
2
⎪
⎩
(yij − ȳ.j ) =
2
i=1
SSW
=
nj
m X
X
j=1 i=1
=
3193
144
56
150
67
158
si
nj = 1
si
nj = 2
(yij − ȳ.j )2
A. El Mossadeq
Le Modèle Linéaire
Comme :
SSr (β)
=
=
2 ¡ ¢
β̂ S ẋ2
6394.02
on en déduit :
=
=
SSL
SST − SSW − SSr (β)
5200.45
d’où la table d’analyse :
Source
d.d.l
Modèle
1
Non linéarité 22
Erreur pure
6
T otal
29
SS
SSr (β) = 6394.02
SSL = 5200.45
SSW = 3193
SST = 14787.47
On en déduit :
FL
=
=
SSL / (m − 2)
SSW / (n − m)
.44
et comme :
F22,6;.95 = 3.85
l’hypothèse de la linéarité du modèle est accepté au seuil δ = 5%.
On peut maintenant examiner l’hypothèse nulle :
H0 : ”β = 0”
c’est à dire, la réponse est une fonction constante.
On a :
SSr (β)
Fβ =
SSe / (n − 2)
= 21.33
et comme :
F1,28;.95 = 4.2
on rejette H0 à 95%.
145
Le Modèle Linéaire
A. El Mossadeq
10.3. INTERVALLES DE CONFIANCE
(1) L’intervalle de confiance de σ 2 , au seuil δ, est défini par :
"
#
SSe
SSe
,
χ2n−2;1−δ/2 χ2n−2;δ/2
Pour δ = 5%, on a :
d’où l’intervalle :
⎧ 2
⎨ χ28;.025 = 15.3
⎩ χ2
28;.975 = 44.5
[188.62, 548.59]
(2) L’intervalle de confiance de β, au seuil δ, est défini par :
s
s
"
#
SSe
SSe
β̂ − tn−2;1−δ/2
, β̂ + tn−2;1−δ/2
(n − 2) S (ẋ2 )
(n − 2) S (ẋ2 )
Pour δ = 5%, on a :
t28;.975 = 2.05
d’où l’intervalle :
[.5405, 1.4015]
(3) L’intervalle de confiance de α, au seuil δ, est défini par :
s
s
"
#
SSe
SSe
α̂ − tn−2;1−δ/2 γ
, α̂ + tn−2;1−δ/2 γ
(n − 2)
(n − 2)
Pour δ = 5%, on a :
t28;.975 = 2.05
d’où l’intervalle :
[78.21, 119.21]
(4) L’intervalle de confiance de η x à 1 − δ est donné par :
s
s
SSe
1 (x − x̄)2
η̂ x ∓ tn−2;1−δ/2
+
(n − 2) n
S (ẋ2 )
Pour δ = 5%, on a :
t28;.975 = 2.05
146
A. El Mossadeq
Le Modèle Linéaire
d’où l’intervalle :
s
(98.71 + .9709x) ± 35.493
1
(x − 45.13)2
+
30
6783.5
y
175
150
125
100
0
20
40
60
80
x
Intervalle de conf iance de η x
(5) Au seuil δ, l’intervalle de confiance d’une prédiction de y en x observée indépendamment, est donné par :
s
s
1 (x − x̄)2
SSe
η̂ x ∓ tn−2;1−δ/2
1+ +
(n − 2)
n
S (ẋ2 )
Pour δ = 5%, on a :
t28;.975 = 2.05
d’où l’intervalle :
s
(98.71 + .9709x) ± 35.493
31 (x − 45.13)2
+
30
6783.5
y
200
175
150
125
100
75
0
20
40
60
80
x
Intervalle de prédiction de y en x
147
Le Modèle Linéaire
A. El Mossadeq
(6) La région de confiance de (α, β) à 1 − δ est donnée par :
¾
½
SSe
F2,n−2;1−δ/2
C (α, β) =
(α, β) | T (α, β) ≤ 2
n−2
= {(α, β) | T (α, β) ≤ 2002.4}
où :
T (α, β) = 30 (α − 98.71)2 + 2708 (α − 98.71) (β − .971) + 67894 (β − .971)2 − 2002.4
148