Polycopié - Espace d`authentification univ

publicité
Notes de cours sur les méthodes de régression
Support du cours pour les M1 EURIA
Année 2015-2016
1
Introduction aux méthodes de régression
L’objectif général de la régression est d’expliquer une variable Y , dite réponse, variable exogène ou
variable à expliquer, en fonction de p variables X1 , ..., Xp , dites variables explicatives ou endogènes. On
dispose d’observations de ces variables sur n individus, c’est à dire d’un tableau de données de la forme :
y1
y2
..
.
x1,1
x2,1
..
.
x1,2
x2,2
..
.
...
...
..
.
x1,p
x2,p
..
.
yn
xn,1
xn,2
...
xn,p
Table 1 – Lignes : individus, Colonnes : variables
La première colonne est la variable à prédire à partir des variables explicatives données dans les p
dernières colonnes.
Les méthodes de régression sont couramment utilisées en actuariat. Deux exemples seront plus
précisément étudiés dans le cadre de ce cours :
– Assurance dommage : les modèles de régression sont couramment utilisés pour prévoir la prime
pure d’un assuré en fonction de son profil. On cherche par exemple à prédire le nombre et les
montants des sinistres d’un assuré au cours d’une année en fonction de son sexe, son âge, son métier
(CSP), la région où il vit, etc afin d’adapter au mieux la tarification au profil de l’assuré...
– Tables de mortalité : les tables de mortalités décrivent la démographie d’une population donnée,
typiquement le nombre Nx,t de survivants qui ont l’âge x l’année t. Les modèles de régression sont
couramment utilisés pour prévoir l’évolution future de la population et réaliser des tables de mortalité
prospectives. Ces tables prospectives sont utilisées pour de nombreux calculs actuariels en assurance
vie.
– Triangles de liquidation des sinistres : en assurance dommages, selon les branches considérées,
les sinistres relatifs à un contrat sont constatés et payés plus ou moins longtemps après leur
survenance (jusqu’à 10 ans). On résume généralement les données disponibles dans un "triangle des
sinistres" qui décrivent les montant des sinistres survenus l’année i et réglés l’année comptable i + j.
La réglementation prudentielle impose aux compagnies d’assurance d’estimer la charge future des
sinistres afin de provisionner de quoi faire face à leurs engagements futurs ; la modélisation des
triangles de sinistre avec des modèles de régression permet de réaliser ces estimations.
Ces différentes variables peuvent être
– quantitatives à valeurs continues (ex : âge, température, montant...)
– quantitatives à valeurs discrètes, par exemple à valeurs binaires (ex : présence/absence d’une
maladie) ou entières (ex : nombre de sinistres)
– qualitatives (ex : CSP, région, sexe).
1
La nature des variables conditionne fortement la méthode de régression utilisée :
– dans le chapitre 4, toutes les variables sont supposées être quantitatives continues et on introduira la
régression linéaire multiple qui est une généralisation de la régression linéaire simple étudiée
en L3
– dans le chapitre 5, on supposera toujours que la variable à expliquer est quantitative continue, mais
on autorisera certaines variables explicatives à être qualitatives ou quantitatives discrètes et on
introduira l’analyse de la variance et l’analyse de la covariance
– enfin, les modèles linéaires généralisés (GLM), abordés dans le chapitre 6, permettent de
généraliser les modèles de régression linéaire lorsque la variable à expliquer est qualitative ou discrète.
Les chapitres 2 et 3 sont des rappels des cours de L3 et sont des pré-requis de ce cours. Le chapitre 2
rappelle certaines notions essentielles du cours de statistique : estimation, intervalle de confiance, test
statistique, méthode du maximum de vraisemblance,... Le chapitre 3 rappelle certaines propriétés des
vecteurs gaussiens et des projections orthogonales. Ce sont les principaux outils mathématiques utilisés
dans les démonstrations des chapitres 4 et 5.
2
Introduction à la statistique inférentielle
Pour plus de détails, on pourra consulter les ouvrages suivants :
Husson F. et Pagès J. (2005), Statistiques générales pour utilisateurs. 2 - Exercices et corrigés, Presses
Universitaires de Rennes.
Knight, K. (1999), Mathematical Statistics, Chapman and Hall.
Pagès J. (2005), Statistiques générales pour utilisateurs. 1 - Méthodologie, Presses Universitaires de
Rennes.
Saporta, G. (2006), Probabilités, analyses des données et statistiques, Editions Technip, 2e édition.
2.1
Introduction
Les exemples ci-dessous serviront à illustrer ce chapitre :
– Exemple 1 : contrôle de qualité. Un client commande à son fournisseur un lot de 10000
thermomètres. Afin de tester la qualité des thermomètres, le client en choisit 20 au hasard et les
plonge dans un liquide à 20 degrés. Il obtient les résultats suivants :
20.2, 20.4, 20.1, 19.9, 19.7, 20, 20.5, 19.9, 19.9, 20.1, 20.4, 20.6, 20, 19.8, 20.3, 19.6, 19.8, 20.1, 20.3, 20
Que peut-on en déduire sur la qualité des thermomètres ? Est-ce qu’ils donnent la bonne température
en moyenne ? Avec quelle précision ?
– Exemple 2 : sondage. Afin d’estimer les intentions de vote lors du deuxième tour d’une élection
présidentielle, un institut réalise un sondage. Sur 1000 personnes interrogées au hasard, 520 pensent
voter pour le candidat A et 480 pour le candidat B. Que peut-on en déduire sur les intentions de vote
dans la population française ? Avec quelle précision le sondage effectué permet t’il d’estimer le
pourcentage d’intention de vote en faveur du candidat A ? Peut on déduire de ce sondage, avec une
certaine confiance, que à la date du sondage le candidat A est en tête ?
– Exemple 3 : efficacité d’un médicament en médecine. Afin d’étudier l’effet d’un nouveau
médicament en vue de réduire la tension artérielle, on a mesuré la tension (en mm de Hg) sur 12
patients avant et après traitement. Les valeurs suivantes ont été obtenues :
Avant
Après
200
191
174
170
198
177
170
167
179
159
182
151
193
176
209
183
Peut-on conclure que ce médicament réduit la tension artérielle ?
2
185
159
155
145
169
146
210
177
2.2
Modélisation
On dispose donc de n observations notées (x1 , ..., xn ) ∈ Rn (cf exemples ci-dessus). On va supposer tout
d’abord que ces observations sont une réalisation d’une expérience aléatoire, c’est à dire qu’il existe des
variables aléatoires réelles (v.a.r.) (X1 , ..., Xn ) définies sur un espace probabilisé (Ω, F , P) telles que
(x1 , ..., xn ) = (X1 (ω), ..., Xn (ω)) avec ω ∈ Ω.
Ceci permet de modéliser l’aléatoire qui est généralement présente dans le recueil des données. Par
exemple, dans les exemples introduits ci-dessus :
– Exemples 1,2 et 3 : dans ces 3 exemples, les individus considérés sont choisis au hasard parmi un
grand nombre d’individus. Si on recommence l’expérience, il y a de fortes chances qu’on choisisse
d’autres individus et qu’on obtienne des résultats différents : le résultat de l’expérience est donc bien
"aléatoire".
– Exemples 1 et 3 : après avoir choisi les individus, on réalise des mesures qui peuvent être sujettes à
des erreurs expérimentales. Ceci rajoute de l’incertitude aux résultats obtenus.
On fait ensuite des hypothèses sur la loi de probabilité du n-uplet (X1 , ..., Xn ). Dans le cadre de ce
chapitre, on supposera que ce sont des variables aléatoires indépendantes et identiquement
distribuées (i.i.d). Il s’agit du cadre le plus simple, mais cette hypothèse n’est pas toujours réaliste :
– Lorsqu’on considère des phénomènes indexés par le temps (cf cours M2 sur les séries temporelles),
l’hypothèse d’indépendance n’est généralement pas vérifiée. Par exemple, si (x1 , x2 , ..., xn ) désigne le
cours d’un produit financier pendant n jours successifs, alors on ne peut généralement pas supposée
que les observations successives xi et xi+1 proviennent de variables aléatoires indépendantes.
– Lorsque l’on cherche à prédire une variable (variable à expliquer) à partir d’autres variables (variables
explicatives), on suppose généralement que la loi de la variable à expliquer dépend des variables
explicatives. L’hypothèse “identiquement distribuée” n’est plus vérifiée. Ce sera la cas dans les
modèles de régression étudiés dans les chapitres suivants.
Définition. On appelle n-échantillon d’une loi de probabilité P une suite (X1 , ..., Xn ) de v.a. i.i.d. qui
suivent le loi de probabilité P. On notera X1 , ..., Xn ∼iid P
On va ensuite supposer, dans ce chapitre, que la loi de probabilité commune de X1 , X2 , ..., Xn est un
loi de probabilité qui dépend d’un paramètre inconnu θ ∈ Θ avec Θ ⊂ Rk (“statistique paramétrique”
par opposition à “statistique non paramétrique”). On notera alors
X1 , ..., Xn ∼iid Pθ
Par exemple, on supposera souvent que
X1 , ..., Xn ∼iid N (µ, σ 2 )
avec N (µ, σ 2 ) la loi normale d’espérance µ et de variance σ 2 . On parle alors d’échantillon gaussien. Le
paramètre inconnu est θ = (µ, σ) ∈ R × R+∗ .
On cherche alors à estimer θ à partir des observations disponibles (x1 , ..., xn ).
Définition. Soit (X1 , ..., Xn ) un n-échantillon d’une loi Pθ . Un estimateur du paramètre inconnu θ
est une variable aléatoire T = g(X1 , ..., Xn ) qui s’exprime en fonction de (X1 , ..., Xn ). Une estimation
de θ est alors la valeur numérique prise par cette statistique sur une réalisation particulière (x1 , ..., xn ),
c’est à dire la quantité t = g(x1 , ..., xn ).
Exemple et définition. Prenons l’exemple 1 sur la qualité des thermomètres. On suppose à nouveau
que (x1 , ..., xn ) est une réalisation d’un échantillon (X1 , ..., Xn ). La qualité des thermomètres est
partiellement décrite par les paramètres inconnus µ = E[Xi ] (si les thermomètres sont de bonne qualité,
alors ils devraient fournir la bonne température en moyenne, c’est à dire qu’on devrait avoir µ = 20) et
3
σ 2 = var[Xi ] (qui renseigne sur la dispersion de mesures autour de la valeur moyenne : si σ = 0 alors
tous les thermomètres donnent la même valeur µ alors que si σ est grand, les thermomètres indiquent
des températures très différentes et sont donc de mauvaise qualité).
– Un estimateur usuel de µ est alors la moyenne empirique définie par
X̄ =
X1 + ... + Xn
n
– Un estimateur usuel de σ 2 est la variance empirique définie par
2
S =
Pn
i=1
n
Xi2
n
1X
(Xi − X̄)2
− X̄ =
n i=1
2
Pn
x2
i
n
Les estimations correspondantes sont notées x̄ = x1 +...+x
et s2 = i=1
− x̄2 . Ici on obtient
n
n
o
o
x̄ = 20.08 et s = 0.2657 . Les thermomètres semblent donc indiquer une température légèrement
supérieur à 200 , mais on peut se demander si cette différence est significative étant donné la faible taille
de l’échantillon (20 thermomètres seulement) et la forte variabilité entre les thermomètres. Les
intervalles de confiances et les test statistiques vus dans la suite de ce cours permettront de répondre à
cette question.
Exemple et définition. Prenons l’exemple 2 du sondage sur les intentions de vote lors d’une élection
avec deux candidats (notés A et B). Le paramètre inconnu est la proportion π d’intentions de vote en
faveur de B dans la population totale. Pour estimer cette quantité, on sonde 1000 personnes choisies au
hasard, et on code les résultats de la manière suivante :
– xi = 0 si la ième personne sondée pense voter pour A
– xi = 1 si la ième personne sondée pense voter pour B
On suppose que (x1 , ..., xn ) est une réalisation d’un échantillon (X1 , ..., Xn ) d’une loi de Bernoulli et le
paramètre inconnu θ = π = P[Xi = 1] est le paramètre de cette loi de Bernoulli. L’expérience aléatoire
consiste ici à choisir les 1000 personnes au hasard et de manière indépendante dans la "population
totale". Un estimateur "naturel" de π est alors la fréquence empirique F de 1 dans la séquence
(X1 , ..., Xn ), c’est à dire :
Pn
Xi
card{i ∈ {1...n}|Xi = 1}
F =
= i=1
n
n
On retrouve un cas particulier de l’exemple précédent puisque π = E[Xi ] et F est la moyenne empirique
de l’échantillon. Supposons que lors du sondage, on trouve que 480 personnes pensent voter en faveur du
candidat B (i.e. 480 "1" dans la série (x1 , ..., xn )). Une estimation de π est alors
Pn
xi
card{i ∈ {1...n}|xi = 1}
= i=1
= 0.48
f=
n
n
Remarque. Dans la suite du cours, les variables aléatoires (par exemple Xi , F , S) sont notées avec
des lettres majuscules, les observations (xi ) et les estimations (f , s) avec des lettres minuscules. Les
paramètres inconnus sont notés avec des lettres grecques (par exemple π, µ, σ).
2.3
La méthode du maximum de vraisemblance
La fonction de vraisemblance définie ci-dessous joue un rôle fondamental en statistique.
Définition. Si la loi de probabilité du vecteur aléatoire (X1 , ..., Xn ) admet une densité f (x1 , ..., xn ; θ)
par rapport à une mesure dominante, alors on appelle fonction de vraisemblance la fonction de θ
définie par
L(θ; x1 , ..., xn ) = f (x1 , ..., xn ; θ)
4
Dans le cas des échantillons i.i.d., la loi de probabilité jointe de (X1 , ..., Xn ) admet une densité (par
rapport à la mesure produit) dès que la loi marginale de Xi admet une densité f (xi ; θ) et on a alors
L(θ; x1 , ..., xn ) =
n
Y
f (xi ; θ)
i=1
En pratique :
– Lorsque les Xi sont des variables aléatoires discrètes, alors on considère la densité par rapport à la
mesure de comptage et f (xi ; θ) = Pθ [Xi = xi ]. L(θ; x1 , ..., xn ) s’interprète alors directement comme la
probabilité ou "vraisemblance" d’observer (x1 , ..., xn ) lorsque θ est la vraie valeur du paramètre.
– La plupart des lois usuelles pour les variables aléatoires continues (loi normale, loi log-normale, loi
gamma,...) sont définies par leurs densités f (xi ; θ) par-rapport à la mesure de Lebesgue et la fonction
de vraisemblance s’exprime à partir de ces densités.
On appelle fonction de log-vraisemblance la quantité :
l(θ; x1 , ..., xn ) = ln(L(θ; x1 , ..., xn ))
La méthode du maximum de vraisemblance consiste alors, étant donnée une réalisation (x1 , ..., xn ) d’un
échantillon de loi Pθ , à prendre comme estimation t de θ une valeur de θ (si elle existe...) qui rend
maximale la fonction de vraisemblance
θ → L(θ; x1 , ..., xn )
On notera t = h(x1 , ..., xn ) = argmaxθ∈Θ L(θ; x1 , ..., xn ). L’estimateur du maximum de
vraisemblance (EMV) est alors l’estimateur T = h(X1 , ..., Xn ).
Remarque. En pratique, on travaille souvent avec la fonction de log-vraisemblance qui est plus simple
à manipuler (le passage au log permet de transformer le produit en somme). Pour certaines lois usuelles
(loi de Bernoulli, loi de Poisson, loi Exponentielle, loi normale) , une étude de fonction (calcul des
dérivés premières et éventuellement seconde, tableau de variation,...) permet de trouver le maximum de
l. Lorsque ce n’est pas possible, une méthode d’optimisation numérique est utilisée. Avec R, on peut par
exemple utiliser la fonction fitdistr du package MASS.
Exemple. Si (X1 , ..., Xn ) est un échantillon d’une loi de Bernoulli de paramètre θ = π, alors
1 − π si xi = 0
Pπ (Xi = xi ) =
π si xi = 1
Ceci se réécrit sous la forme
Pπ (Xi = xi ) = π xi (1 − π)1−xi pour xi ∈ {0, 1}
Soit (x1 , ..., xn ) ∈ {0, 1}n une réalisation de (X1 , ..., Xn ). La vraisemblance est donnée par
L(π; x1 , ..., xn ) =
=
=
On en déduit que
l(π; x1 , ..., xn ) = ln(π)
n
Y
i=1
n
Y
Pπ (Xi = xi )
π xi (1 − π)1−xi
i=1
Pn
Pn
xi
xi + ln(1 − π)(n −
n
X
π
n
X
i=1
i=1
5
xi
(1 − π)n−
i=1
i=1
xi )
puis que
Pn
∂l(π; x1 , ..., xn )
n
i=1 xi
=
−
∂π
π(1 − π) 1 − π
Donc, en étudiant
Pn le signe de la dérivée, on en
Pndéduit que la fonction de vraisemblance atteint son
xi
i=1 Xi
maximum en i=1
.
L’EMV
est
donc
F
=
. On retrouve l’estimateur usuel défini
n
n
précédemment.
Exemple. On considère les températures journalières (en degré Celsius )à Brest au cours de l’été 2008
données dans le tableau ci-dessous :
16.4 ; 14.25 ; 14.5 ; 11.8 ; 13.65 ; 12.2 ; 11.6 ; 13.2 ; 16.9 ; 17.1 ; 16.75 ; 15.2 ; 12.5 ; 12.45 ; 13.65 ; 12.15 ;
13.45 ; 15.1 ; 16.4 ; 16.5 ; 18.25 ; 17.2 ; 12.95 ; 15.25 ; 16.8 ; 14.35 ; 16.9 ; 18.3 ; 17.75 ; 15.85 ; 16.1 ; 16 ;
14.4 ; 14.35 ; 16 ; 14.65 ; 14.2 ; 15.05 ; 15.75 ; 16.7 ; 16.05 ; 14.9 ; 15.9 ; 14.5 ; 18.9 ; 16.8 ; 15.2 ; 15.55 ;
16.95 ; 15.6 ; 15.05 ; 15.5 ; 19.1 ; 20.8 ; 18.15 ; 17.4 ; 18.45 ; 17.45 ; 17.6 ; 19.25 ; 17.95 ; 17.4 ; 17.95 ;
17.1 ; 16.4 ; 17.95 ; 19.4 ; 17.05 ; 17.35 ; 15.4 ; 17.15 ; 15.8 ; 15.6 ; 15.9 ; 15.5 ; 13.25 ; 15.6 ; 15.2 ; 16.95 ;
16.25 ; 15.35 ; 16.9 ; 16.05 ; 14.55 ; 16.9 ; 16.35 ; 16.95 ; 16.3 ; 16.05 ; 16.35 ; 17.85 ; 16.65
1. Réaliser un histogramme de ces observations (on utilisera des classes de largeur 1 degré et le
logiciel R).
2. On suppose dans la suite de l’exercice que ces observations sont une réalisation de n variables
aléatoires (X1 , ..., Xn ) i.i.d. de loi N (µ, σ 2 ). Cette hypothèse vous semble-t-elle réaliste ?
3. Quel est l’estimateur du maximum de vraisemblance de θ = (µ, σ) ?
4. Application numérique. Calculer les estimations correspondantes sur les données de
température journalière à Brest, puis représenter sur la figure de la question 1. la densité
correspondante (attention à l’échelle !). Commentez.
5. Vérifier que vous retrouvez les résultats précédents avec la fonction fisdistr de R et tester d’autres
lois usuelles (loi gamma, loi log-normale,...).
Solution partielle : 3. Calcul de la fonction de vraisemblance. Soit (X1 , ..., Xn ) un n-échantillon d’une
loi normale de moyenne µ et écart-type σ, alors la densité de la v.a. Xi est donnée, pour xi ∈ R, par :
(xi − µ)2
1
exp −
fθ (xi ) = √
2σ 2
2πσ
avec θ = (µ, σ). Donc, la fonction de vraisemblance est donnée, pour (x1 , ..., xn ) ∈ Rn une réalisation de
(X1 , ..., Xn ), par :
L(θ; x1 , ..., xn ) =
=
=
n
Y
fθ (xi )
i=1
n
Y
1
(xi − µ)2
√
exp −
2σ 2
2πσ
i=1
Pn
2
1
i=1 (xi − µ)
exp
−
2σ 2
(2π)n/2 σ n
L’étude des points critiques montre que cette fonction atteint son maximum pour µ = x̄ et σ = s. Pour
la loi normale, les estimateurs du maximum de vraisemblance de µ et σ 2 coïncident avec les estimateurs
usuels de l’espérance et de la variance.
4. Application numérique : x̄ = 15.9679o et s = 1.7846o.
Graphique : cf Figure 1
2.4
Propriétés des estimateurs
On peut toujours définir une infinité d’estimateurs pour un paramètre inconnu donné, et en pratique on
cherchera à utiliser le "meilleur" de ces estimateurs. Ceci nécessite de définir ce qu’est un bon
estimateur.
6
0.35
0.3
0.25
0.2
0.15
0.1
0.05
0
10
12
14
16
18
20
22
Figure 1 – Histogramme des températures et densité de la loi normale ajustée
2.4.1
Biais d’un estimateur
Définition. On appelle biais de l’estimateur T la quantité
biais(T ) = E(T ) − θ
On dit que l’estimateur T est sans biais lorsque biais(T ) = 0, c’est à dire lorsque E[T ] = θ. Le biais
représente "l’erreur moyenne" qui est faite lorsqu’on utilise T pour estimer θ.
Proposition. Si (X1 , ..., Xn ) est un n-échantillon d’une loi de moyenne E[Xi ] = µ, alors X̄ est un
estimateur sans biais de µ. En particulier, si (X1 , ..., Xn ) est un n-échantillon de Bernoulli de
paramètre π alors F est un estimateur sans biais de π.
2
Si on suppose en outre que σ 2 < ∞ alors E[S 2 ] = n−1
n σ .
2
2
S est donc un estimateur biaisé de σ , et on préfère parfois utilisé l’estimateur corrigé
n
2
Scorr
=
n
1 X
(Xi − X̄)2
S2 =
n−1
n − 1 i=1
qui est un estimateur sans biais de σ 2 .
Remarque. De nombreux logiciels statistiques (Excel, R, ...) calculent par défaut l’estimateur sans
2
biais de la variance Scorr
défini ci-dessus.
Démonstration. Si (X1 , ..., Xn ) est un n-échantillon d’une loi d’espérance µ alors
X1 + ... + Xn
]
n
E[X1 ] + ... + E[Xn ]
=
n
= µ
E[X̄] = E[
On suppose que σ 2 < ∞. Par définition,
n
S2 =
1X
(Xi − X̄)2
n i=1
7
et de la décomposition (Xi − X̄) = (Xi − µ) − (X̄ − µ), on déduit que :
n
S2
=
1X
(Xi − µ)2 − 2(X̄ − µ)(Xi − µ) + (X̄ − µ)2
n i=1
n
=
n
1X
1X
(Xi − µ)2 − 2(X̄ − µ)
(Xi − µ) + (X̄ − µ)2
n i=1
n i=1
n
=
Donc
1X
(Xi − µ)2 − (X̄ − µ)2
n i=1
n
E[S 2 ] =
E[
1X
(Xi − µ)2 − (X̄ − µ)2 ]
n i=1
n
=
=
1X
E[(Xi − µ)2 ] − E[(X̄ − µ)2 ]
n i=1
σ 2 − E[(X̄ − µ)2 ]
Il reste à calculer
E[(X̄ − µ)2 ] =
=
=
=
var(X̄)
n
1X
var(
Xi )
n i=1
n
X
1
Xi )
var(
n2
i=1
n
1 X
var(Xi )
n2 i=1
=
σ2
n
=
n−1 2
σ
n
Finalement,
E[S 2 ]
2.4.2
Erreur quadratique moyenne d’un estimateur
On mesure généralement la précision d’un estimateur par son erreur quadratique moyenne.
Définition. L’erreur quadratique moyenne (EQM) de l’estimateur T définie par
EQM (T ) = E[(T − θ)2 ]
L’EQM représente l’espérance du carré de l’écart entre l’estimateur et le paramètre inconnu : plus
l’EQM est faible, plus l’estimateur est précis.
Remarque. On montre facilement que
E[(T − θ)2 ] = var(T ) + E[(T − θ)]2
c’est à dire que l’erreur quadratique moyenne est égale à la variance de l’estimateur plus le biais de
l’estimateur au carré. Lorsque l’estimateur est non-biaisé, l’EQM coïncide avec la variance : parmi deux
estimateurs sans biais, le plus précis est donc celui de variance minimale (cf Figure 2.4.2 : le meilleur
estimateur est celui de droite). Cette formule est également utile en pratique pour calculer l’EQM des
estimateurs usuels.
8
2
1.5
1.5
1.5
1
0.5
0
β1
2
β1
β1
2
1
0.5
0
1
β0
0
2
1
0.5
0
1
β0
2
0
0
1
β0
2
Figure 2 – Plusieurs réalisations de trois estimateurs différents. La vraie valeur du paramètre est le
“centre” de la cible (point de coordonnés (1, 1)). Le premier estimateur (figure de gauche) est biaisé (on
“vise” systématiquement trop en bas et à gauche), alors que les deuxième (figure du milieu) et troisième
estimateurs (figure de droite) sont non-biaisés. La variance du deuxième estimateur est plus forte que
celle du troisième estimateur.
Proposition. Si (X1 , ..., Xn ) est un n-échantillon d’une loi de moyenne µ et de variance σ 2 < ∞, alors
σ2
n
En particulier, si (X1 , ..., Xn ) est un échantillon de Bernoulli de paramètre π alors
EQM (X̄) = var(X̄) =
EQM (F ) = var(F ) =
Si de plus µ4 = E[(Xi − µ)4 ] < ∞, alors
2
2
EQM (Scorr
) = var(Scorr
)=
π(1 − π)
n
µ4
n−3 4
−
σ
n
n(n − 1)
Démonstration. (partielle)
Soit (X1 , ..., Xn ) un échantillon d’une loi de moyenne µ et de variance σ < ∞. On a vu que X̄ est un
estimateur sans biais de µ et donc
EQM (X̄) =
=
=
=
var(X̄)
X1 + ... + Xn
)
var(
n
var(X1 ) + ... + var(Xn )
n2
2
σ
n
2
Le calcul de var(Scorr
) est plus délicat...
2.4.3
L’information de Fisher
Définition. On appelle quantité d’information de Fisher apportée par un n-échantillon sur le
paramètre θ la quantité suivante (si elle existe)
2
∂l(θ; X1 , ..., Xn )
In (θ) = E[
]
∂θ
9
En pratique, il est souvent plus facile d’utiliser l’une des deux formules données dans la proposition
suivante pour calculer l’information de Fisher.
Proposition. Sous des conditions générales (cf remarque ci-dessous), on a :
∂l(θ; X1 , ..., Xn )
In (θ) = var(
)
∂θ
2
∂ l(θ; X1 , ..., Xn )
]
In (θ) = −E[
∂θ2
Démonstration. On se place dans Rle cas des variables
P continues. La preuve dans le cas discret est
similaire en remplaçant les signes par des signes . On part de la relation :
Z
L(θ; x1 , ..., xn )dx1 ...dxn = 1
(2.1)
Rn
qui vient du fait que L(θ; x1 , ..., xn ) est la loi de probabilité d’un n-échantillon (X1 , ..., Xn ) de la loi Pθ .
Notons que, plus généralement, si g : Rn → R, on a
Z
E[g(X1 , ..., Xn )] =
g(x1 , ..., xn )L(θ; x1 , ..., xn )dx1 ...dxn
Rn
Ensuite, par définition de l, on a
∂L(θ; X1 , ..., Xn )
∂θ
=
L(θ; X1 , ..., Xn )
∂l(θ; X1 , ..., Xn )
∂θ
En dérivant (2.1) par rapport à θ, et en supposant qu’on puisse intervertir les signes
0 =
=
∂
∂θ
Z
Z
Rn
(2.2)
R
et ∂, on obtient
L(θ; x1 , ..., xn )dx1 ...dxn
Rn
∂
L(θ; x1 , ..., xn )dx1 ...dxn
∂θ
En intégrant (2.2), on obtient alors que
Z
L(θ; X1 , ..., Xn )
Rn
∂l(θ; X1 , ..., Xn )
dx1 ...dxn
∂θ
= 0
Par ailleurs, d’après la remarque précédente, on a
Z
∂l(θ; X1 , ..., Xn )
∂l(θ; X1 , ..., Xn )
dx1 ...dxn = E[
]
L(θ; X1 , ..., Xn )
∂θ
∂θ
Rn
1 ,...,Xn )
On a donc E[ ∂l(θ;X∂θ
] = 0 puis
∂l(θ; X1 , ..., Xn )
In (θ) = E[
∂θ
2
]
1 ,...,Xn )
puisque la v.a. ∂l(θ;X∂θ
est centrée.
En dérivant (2.3) par rapport à θ, on obtient
Z
Z
∂ 2 l(θ; X1 , ..., Xn )
∂
∂
L(θ; X1 , ..., Xn )
+
L(θ; X1 , ..., Xn ) l(θ; X1 , ..., Xn ) = 0
2
∂θ
∂θ
∂θ
n
n
R
R
Puis, en utilisant à nouveau l’égalité
deuxième égalité de la proposition.
∂L(θ;X1 ,...,Xn )
∂θ
1 ,...,Xn )
= L(θ; X1 , ..., Xn ) ∂l(θ;X∂θ
, on obtient la
10
(2.3)
Remarque.
1. La proposition précédente s’applique lorsque la vraisemblance estR deux fois dérivable
par rapport à θ (pour tout x) et qu’il est possible d’intervertir les signes ∂ et . Ces hypothèses
sont vérifiées par les lois usuelles dès que le support de la loi, c’est à dire l’ensemble
Aθ = {x|f (x; θ) ≥ 0} , ne dépend pas de θ. Un exemple classique pour lequel le support de la loi
dépend de θ est la cas où les Xi suivent une loi uniforme sur [0, θ]. On vérifie alors que les
formules de la proposition précédente ne sont pas vérifiées (cf Exercice 2.8).
2. En utilisant la définition de la
Pnlog-vraisemblance dans le cas des échantillons i.i.d., il est facile de
vérifier que l(θ; x1 , ..., xn ) = i=1 l(θ; xi ). On en déduit aisément que, si la proposition précédente
s’applique, alors In (θ) = nI1 (θ)
Exemple. Si (X1 , ..., Xn ) est un échantillon d’une loi de Bernoulli de paramètre θ = π, alors
l(π; x1 , ..., xn ) = ln(π)
n
X
i=1
xi + ln(1 − π)(n −
n
X
xi )
i=1
Donc
Pn
Pn
xi − n
1−π
Pn
n
i=1 xi
=
−
π(1 − π) 1 − π
1 ,...,xn )
1 ,...,xn )
1 ,...,xn )
On en déduit que E[ ∂l(π;x∂π
] = 0 et donc que E[ ∂l(π;x∂π
] = var( ∂l(π;x∂π
), puis que
l’information de Fisher est donnée par
Pn
Xi
n
− )
In (π) = var( i=1
π(1 − π) π
n
=
π(1 − π)
∂l(π; x1 , ..., xn )
∂π
i=1
=
xi
v
+
i=1
En dérivant un seconde fois, on obtient
∂2
l(π; x1 , ..., xn ) =
∂p2
puis
E[
On retrouve bien le même résultat.
n
X
i=1
xi
1 − 2p
n
+
π 2 (1 − π)2
(1 − π)2
n
∂2
l(π; x1 , ..., xn )] = −
∂π 2
π(1 − π)
Le théorème suivant est fondamental en statistique inférentielle.
Théorème. (Borne de Fréchet-Darmois-Cramer-Rao (FDCR))
Sous des conditions générales (cf remarque ci-dessous), si T est une estimateur sans biais de θ alors :
var(T ) ≥
1
In (θ)
Plus généralement, si T est un estimateur sans biais de g(θ), alors :
var(T ) ≥
(h′ (θ))2
In (θ)
11
Démonstration. On se place toujours dans le cas des variables continues.
On utilise l’inégalité de Cauchy-Schwartz :
cov(T,
∂
∂
l(θ))2 ≤ var(T )var( l(θ))
∂θ
∂θ
∂
∂
∂
l(θ)) = E[T ∂θ
l(θ)] car ∂θ
l(θ) est centrée. Donc
Ensuite, cov(T, ∂θ
Z
∂
∂
cov(T, l(θ)) =
T (x1 , ..., xn ) l(θ; x1 , ..., xn )L(θ; x1 , ..., xn )dx1 ...dxn
∂θ
∂θ
n
ZR
∂
=
T (x1 , ..., xn ) L(θ; x1 , ..., xn )dx1 ...dxn
∂θ
Rn
Z
∂
=
T (x1 , ..., xn )L(θ; x1 , ..., xn )dx1 ...dxn
∂θ Rn
∂
E[T ]
=
∂θ
= g ′ (θ)
Remarque. A nouveau le théorème précédent s’applique lorsqu’on
peut dériver la vraisemblance deux
R
fois par rapport à θ (pour tout x) et intervertir les signes ∂ et . Ces conditions sont généralement
vérifiées lorsque le support de la loi ne dépend pas de θ.
Le théorème de FDCR donne une borne inférieure pour la variance d’un estimateur sans biais. On dira
qu’un estimateur sans biais est efficace lorsque sa variance est égale à la borne de FDCR. Plus la
quantité d’information apportée par l’échantillon est grande, plus borne de FDCR est petite.
Par ailleurs, si il existe un estimateur efficace, alors il est unique p.s. En effet, soit T1 et T2 deux
estimateurs efficaces de θ. T1 et T2 sont donc sans biais et leurs variances sont égales à la borne de
2
FDCR V . Considérons l’estimateur T3 = T1 +T
. T3 est un estimateur sans biais de θ de variance
2
V
var(T3 ) = 2 (1 + cor(T1 , T2 )). Comme var(T3 ) ≥ V , on en déduit que cor(T1 , T2 ) = 1 puis que
T1 = T2 p.s.
Exemple. Si (X1 , ..., Xn ) est un échantillon d’une loi de Bernoulli de paramètre θ = π, alors
l’information de Fisher est donnée par
n
In (π) =
π(1 − π)
Le théorème de FDCR nous dit tout estimateur sans biais aura une variance supérieure à π(1−π)
. Or,
n
nous avons vu que F = n1 (X1 + ... + Xn ) est un estimateur sans biais de π et que sa variance est égale
In (π)−1 . On en déduit qu’il s’agit de l’unique estimateur efficace de π, et donc le meilleur (en un
certain sens...)
2.4.4
Propriétés asymptotiques
On notera dans ce paragraphe Tn un estimateur de θ basé sur un échantillon de taille n (X1 , ..., Xn ). Un
bon estimateur doit avoir de bonnes "propriétés asymptotiques", c’est à dire des propriétés de
convergence lorsque n → ∞. En particulier, on préférera des estimateurs qui sont convergents (ou
“consistants”).
Définition. Tn est un estimateur convergent de θ lorsque Tn converge p.s. vers θ lorsque n → ∞.
Proposition. Si (X1 , ..., Xn ) est un n-échantillon d’une loi d’espérance µ et de variance σ 2 < ∞ alors
X̄n =
X1 + ... + Xn
n
12
est un estimateur convergent de µ. En particulier, si (X1 , ..., Xn ) est un échantillon de Bernoulli de
paramètre π alors
X1 + ... + Xn
Fn =
n
est un estimateur convergent de π.
Si de plus µ4 = E[(Xi − µ)4 ] < ∞ alors
Sn2 =
X12 + ... + Xn2
− X̄ 2
n
et
n
2
Sn,corr
=
sont des estimateurs convergents de σ 2 .
1 X
n
(Xi − X̄)2
S2 =
n−1
n − 1 i=1
Démonstration. Applications directes de la loi des grands nombres (LGN).
De nombreux estimateurs vérifient un TCL, c’est à dire sont tels que
√
L
n(Tn − θ) → N (0, σ 2 (θ))
lorsque n → ∞. Ce type de comportement asymptotique est couramment utilisé pour construire des
intervalles de confiance ou réaliser des tests (cf paragraphes suivants) et est donc particulièrement
souhaitable. On parlera de "normalité asymptotique".
Proposition. Soit (X1 , ..., Xn ) est un échantillon d’une loi de moyenne µ et de variance σ 2 < ∞ alors
√
L
n(X̄n − µ) → N (0, σ 2 )
lorsque n → ∞. En particulier, si (X1 , ..., Xn ) est un échantillon de Bernoulli de paramètre π et
n
Fn = X1 +...+X
, alors
n
√
L
n(Fn − π) → N (0, π(1 − π))
lorsque n → ∞.
Démonstration. utilisation directe du théorème central limite (TCL).
La proposition suivante établit que sous des conditions générales, l’EMV a de bonnes propriétés
asymptotiques.
Proposition. Sous des hypothèses générales (cf rq ci-dessous), l’EMV est convergent et
asymptotiquement gaussien et la variance asymptotique est donnée par l’inverse de l’information de
Fisher
√
1
L
n(Tn − θ) → N (0,
)
I1 (θ)
Remarque.
1. On peut donc en déduire, sous certaines réserves, que pour n grand E[Tn ] ≈ θ et
var(Tn ) ≈ In1(θ) . Un tel estimateur est dit "asymptotiquement efficace". Toutes ces bonnes
propriétés (convergence, normalité asympotitque avec variance asymptotique connue, efficacité
asymptotique) justifient l’utilisation de la méthode du maximum de vraisemblance comme méthode
d’estimation par défaut en statistique.
2. Pour que le théorème précédent s’applique, il faut pouvoir dériver
la vraisemblance trois fois par
R
rapport à θ (pour tout x), pouvoir intervertir les signes ∂ et et que Θ soit un ensemble ouvert.
Ces conditions sont généralement vérifiées lorsque le support de la loi ne dépend pas de θ.
13
2.5
Estimation par intervalle de confiance
Dans les paragraphes précédents, des méthodes permettant d’estimer la valeur d’un paramètre inconnu θ
à partir d’observations ont été proposées. Ces méthodes fournissent seulement une valeur ("estimation
ponctuelle"), mais ne permettent pas de quantifier la précision de cette estimation. Pour cela, on
utilise généralement des intervalles de confiance qui peuvent s’interpréter comme des marges d’erreur.
2.5.1
Construction d’intervalles de confiance pour la moyenne d’un échantillon Gaussien
lorsque la variance est connue
On suppose dans ce paragraphe que X1 , ..., Xn est un n-échantillon d’une loi N (µ, σ 2 ). On cherche à
estimer µ, supposé inconnu, mais on suppose que l’écart-type σ est connu. Ceci est rarement le cas en
pratique, et ce cas particulier a donc principalement un objectif pédagogique. Nous reviendrons sur la
construction d’intervalles de confiance la moyenne d’un échantillon sous des hypothèses plus réalistes
dans la suite de ce cours.
√
2
Avec les hypothèses ci-dessus, on peut montrer que X̄ ∼ N (µ, σn ) puis que n X̄−µ
∼ N (0, 1) et donc
σ
P [uα/2 ≤
√ X̄ − µ
≤ u1−α/2 ] = 1 − α
n
σ
avec uα le quantile d’ordre α de la loi N (0, 1), ce qui se récrit
σ
σ
P [X̄ + uα/2 √ ≤ µ ≤ X̄ + u1−α/2 √ ] = 1 − α
n
n
L’intervalle [X̄ + uα/2 √σn ; X̄ + u1−α/2 √σn ] est un intervalle aléatoire (puisque les bornes dépendent des
variables aléatoires X1 , ..., Xn ) qui contient la vraie valeur du paramètre µ avec une probabilité 1 − α.
Un tel intervalle est appelé intervalle de confiance au niveau de confiance 1 − α pour µ.
En pratique les quantiles de la loi N (0, 1) peuvent être obtenus en utilisant des tables statistiques ou
des logiciels adaptés (R, Matlab, SAS, Excel...)
Définition : l’intervalle aléatoire [a(X1 , ..., Xn ); b(X1 , ..., Xn )] est appelé intervalle de confiance au
niveau de confiance 1 − α pour θ si P [a(X1 , ..., Xn ) ≤ θ ≤ b(X1 , ..., Xn )]] = 1 − α.
2.5.2
Construction d’intervalles de confiance pour un échantillon quelconque
Lorsque la taille de l’échantillon n est suffisamment grande, on peut construire des intervalles de
confiance pour la moyenne µ en utilisant les propriétés asymptotiques de X̄ et S 2 données ci-dessus.
Plus précisément, soit (X1 , ..., Xn ) un n-échantillon d’une loi vérifiant var(Xi ) = σ 2 < +∞. Pour "n
grand", d’après le TCL, on a :
√ X̄ − µ
≈ N (0, 1)
n
σ
Cette approximation est valable même si l’échantillon n’est pas gaussien et permet de faire des
intervalles de confiance lorsque σ est connu. Lorsque σ est inconnu, on peut utiliser le fait que S 2 est un
estimateur convergent de σ 2 , et donc pour "n grand", on a
S≈σ
Finalement, on en déduit que pour "n grand" :
√ X̄ − µ
≈ N (0, 1)
n
S
Une démonstration rigoureuse de ce résultat peut être obtenue en utilisant le lemme de Slutsky : on peut
√
montrer que, sous les conditions d’application du TCL, n X̄−µ
converge en loi vers une loi N (0, 1).
S
En pratique, on suppose généralement que cette approximation est valide dès que n ≥ 30 ( !). On a
alors :
14
P [uα/2 ≤
√ X̄ − µ
≤ u1−α/2 ] ≈ 1 − α
n
S
puis
S
S
P [X̄ + uα/2 √ ≤ µ ≤ X̄ + u1−α/2 √ ] ≈ 1 − α
n
n
L’intervalle [X̄ + uα/2 √Sn ; X̄ + u1−α/2 √Sn ] est appelé "intervalle de confiance asymptotique" au
niveau de confiance 1 − α pour µ.
Exemple. On reprend les données de température à Brest (cf paragraphe 2.3).
1. Donner un intervalle de confiance à 95% pour la température moyenne, discuter la validité des
hypothèses sur lesquelles repose la construction de cet intervalle.
2. Une agence de voyage prétend que la température moyenne à Brest en été est de 19o . Qu’en
pensez-vous ?
2.5.3
Construction d’intervalles de confiance pour une proportion
Il est également possible de construire des intervalles de confiance pour une proportion lorsque n est
grand. Soit X1 , ..., Xn un n-échantillon d’une loi de Bernoulli de paramètre π. D’après le TCL, on sait
que pour n “grand” :
√
F −π
≈ N (0, 1)
np
π(1 − π)
Comme F est un estimateur consistent de π, pour n “grand”, on peut remplacer le dénominateur par
F (1 − F ) (de manière plus formelle, on peut utiliser le lemme de Studsky), et on a alors :
√
F −π
≈ N (0, 1)
np
F (1 − F )
puis
P [uα/2 ≤
et enfin
(2.4)
√
F −π
np
≤ u1−α/2 ] ≈ 1 − α
F (1 − F )
p
p
F (1 − F )
F (1 − F )
√
√
≤ π ≤ F + u1−α/2
]≈1−α
P [F + uα/2
n
n
√
√
F (1−F )
F (1−F )
Donc [F + uα/2 √n ; F + u1−α/2 √n ] est un intervalle de confiance asymptotique au niveau de
confiance 1 − α pour π.
Remarque. En pratique, on suppose généralement que l’approximation (2.4) est valable dès que
nπ ≥ 5 et n(1 − π) ≥ 5. Comme π est inconnu en pratique, on vérifie a posteriori
si les conditions sont
√
F (1−F )
vérifiées pour les bornes de l’intervalle de confiance, c’est à dire n(F − uα/2 √n ) ≥ 5 et
√
F (1−F )
n(1 − F − u1−α/2 √n ) ≥ 5. Si ces conditions ne sont pas vérifiées, il est possible de construire des
intervalles de confiance en utilisant la loi exacte de F (on sait que nF suit une loi Binomiale).
Exemple. On reprend l’exemple du sondage.
1. Donner un intervalle de confiance à 95% pour les intentions de vote.
2. Combien de personne faudrait-il sonder pour être certain d’obtenir un intervalle de confiance à
95% dont la largeur est inférieur à 0.1% ?
15
2.6
Tests statistiques
2.6.1
Généralité sur les tests
Un test statistique permet de vérifier si certaines hypothèses faites sur la valeur des paramètres sont
réalistes ou non. Plus précisément, dans le cadre de ce cours, nous nous intéresserons à tester des
hypothèses de la forme
H0 : θ ∈ Θ0 contre l’hypothèse alternative H1 : θ ∈
/ Θ0
avec Θ0 ⊂ Θ un sous ensemble de Θ.
On distingue usuellement deux types d’erreurs :
– L’erreur de première espèce qui consiste à rejeter H0 alors que H0 est vraie. On appelle risque
de première espèce α la probabilité de choisir H1 alors que H0 est vraie.
– L’erreur de deuxième espèce qui consiste à accepter H0 alors que H0 est fausse. On appelle
risque de deuxième espèce β la probabilité de choisir H0 alors que H0 est fausse.
En pratique, on fixe généralement α (valeurs courantes : 5% ou 1%) et H0 joue donc un rôle plus
important que H1 . 1 − β est appelé la puissance du test : pour un risque de première espèce α fixé,
on cherche à construire le test dont la puissance est la plus grande !
2.6.2
Tests pour une moyenne
On dispose d’un n-échantillon (X1 , ..., Xn ) d’une loi d’espérance inconnue µ = E[Xi ] et on veut tester
l’hypothèse simple :
H0 : µ = µ0 contre l’hypothèse alternative H1 : µ 6= µ0
avec µ0 une valeur fixée.
– Premier cas : supposons que (X1 , ..., Xn ) ∼iid N (µ, σ 2 ) avec σ connue (cf paragraphe sur les
intervalles de confiance). On a alors :
√ X̄ − µ
n
∼ N (0, 1)
σ
Donc, si H0 est vraie, on a µ = µ0 et
PH0 [uα/2 ≤
√ X̄ − µ0
n
≤ u1−α /2] = 1 − α
σ
On adopte alors la règle de décision suivante :
√
0
∈ [uα/2 , u1−α/2 ].
– On accepte H0 si n X̄−µ
σ
– On refuse H0 sinon.
Remarque. 1. On accepte donc H0 lorsque ,
σ
σ
X̄ ∈ [µ0 + uα/2 √ , µ0 + u1−α/2 √ ]
n
n
c’est à dire lorsque X̄ est “suffisamment proche” de µ0 . La règle de décision est construite pour
que le risque de première espèce soit bien égal à α.
2. Lorsqu’on fait un test avec un logiciel de statistique (R, SAS, Excel,...), le résultat est donné
sous la forme d’une "p-value" (ou "degré de signification"). Pour le test précédent, cette
p-value est définie par
√ x̄ − µ0
|]
pv = P[|Z| > | n
σ
avec Z une variable gaussienne centrée-réduite et x̄ la moyenne observée sur l’échantillon. On
vérifie aisément qu’on accepte H0 avec un risque de première espèce α si et seulement si
pv > alpha. La p-value est souvent interprétée comme une "mesure" de la vraisemblance de
l’hypothèse H0 : une p-value faible indique que l’hypothèse H0 est peu vraisemblable.
16
– Deuxième cas : on ne suppose plus que l’échantillon est gaussien ni que la variance σ 2 est connue.
Par contre, on suppose que n est suffisamment grand (n ≥ 30 ?) pour que l’approximation
√ X̄ − µ
n
≈ N (0, 1)
S
soit valable. Alors, si H0 est vraie, on a µ = µ0 et
PH0 [uα/2 ≤
√ X̄ − µ0
≤ u1−α/2 ] = 1 − α
n
S
On adopte alors la règle de décision suivante :
√
0
∈ [uα/2 , u1−α/2 ].
– On accepte H0 si n X̄−µ
S
– On refuse H0 sinon.
Remarque. Ici la p-value du test est donnée par
√ x̄ − µ0
pv = P[|Z| > | n
|]
s
avec Z une variable gaussienne centrée-réduite et x̄ (resp. s) la moyenne (resp. l’écart-type) empirique
calculée sur l’échantillon
Exemple. Une agence de voyage prétend que la température moyenne à Brest en été est de 22o . Cette
affirmation est-elle en accord avec les températures observés pendant l’été 2008 (cf chapitre 2.3) ?
Quelle est la p-value du test ?
2.6.3
Test pour une proportion
On dispose d’un n-échantillon (X1 , ..., Xn ) d’une loi de Bernoulli de paramètre π inconnu, et on veut
tester l’hypothèse simple
H0 : π = π0 contre l’hypothèse alternative H1 : π 6= π0
On a vu que pour n "grand" (cf paragraphe sur les intervalles de confiance, on suppose généralement
que cette approximation est valable lorsque nπ ≥ 5 et n(1 − π) ≥ 5), on a
Donc, si H0 est vraie, on a π = π0 et
√
F −π
np
≈ N (0, 1)
π(1 − π)
PH0 [uα/2 ≤
√
F − π0
≤ u1−α/2 ] ≈ 1 − α
np
π0 (1 − π0 )
On adopte alors la règle
√ de décision suivante :
– On accepte H0 si n √ F −π0 ∈ [uα/2 , u1−α/2 ].
π0 (1−π0 )
– On refuse H0 sinon.
Exemple. Afin d’estimer les intentions de vote lors du deuxième tour d’une élection présidentielle, un
institut réalise un sondage. Sur 1000 personnes interrogées au hasard, 520 pensent voter pour le
candidat A et 480 pour le candidat B. Etant donnés les résultats de ce sondage, peut-on en déduire quel
candidat va gagner l’élection ?
2.7
Exercices sur le chapitre 2
Exercice 2.1. Lors du contrôle d’un chaîne de médicaments, on s’intéresse au nombre de comprimés
défectueux dans un lot. Les tests effectués sur 20 lots choisis au hasard ont donné les résultats suivants :
1,0,0,3,2,0,5,2,0,0,1,2,1,3,0,1,0,0,2,7
17
On supposera que ces observations proviennent d’un échantillon d’une loi de probabilité inconnue,
d’espérance mathématique µ et de variance σ 2 .
a. On considère les quatre estimateurs suivants pour µ :
– T 1 = X1
2
– T2 = X1 +X
2
X1 +X2
– T3 =
3
– X̄ = X1 +X2n+...+Xn
Que représentent Xi et n dans la définition des estimateurs ? Quelles hypothèses sont faites sur
X1 , X2 , ..., Xn ?
Calculer le biais, la variance et l’erreur quadratique moyenne de ces 4 estimateurs. Quel est le meilleur
estimateur ? Quelle est l’estimation correspondante ?
b. Proposer un estimateur de σ 2 et calculer l’estimation correspondante.
c. Proposer un estimateur de la proportion de lots qui contiennent au moins un comprimé défectueux et
calculer l’estimation correspondante.
Exercice 2.2. Existe-t-il un estimateur sans biais du paramètre θ =
d’une loi de Bernoulli de paramètre π ?
1
π
pour un échantillon de taille 1
2
Exercice 2.3. Soit (X1 , ..., Xn ) n variables aléatoires i.i.d. d’une loi de moyenne µ et de variance
Pn σ .
a. Donner une condition nécessaire et suffisante sur les constantes réelles a1 , ..., an pour que i=1 ai Xi
soit un estimateur sans biais de µ.
P
b. Parmi tous les estimateurs de µ de la forme ni=1 ai Xi , quel est celui de variance minimale ? Quel
est le biais de cet estimateur ?
Pn
c. Parmi tous les estimateurs de µ de la forme i=1 ai Xi , quel est celui dont l’erreur quadratique
moyenne est minimale ?
Pn
d. Parmi les estimateurs sans biais de µ de la forme i=1 ai Xi , quel est celui de variance minimale ?
Exercice 2.4. Soit (X1 , ..., Xn ) n variables aléatoires i.i.d. qui suivent
P une loi normale d’espérance 0 et
de variance σ 2 . On considère l’estimateur suivant pour σ 2 : T = n1 ni=1 Xi2
a. Calculer le biais, la variance et l’erreur quadratique moyenne de cet estimateur.
b. Etudier les propriétés asymptotiques de l’estimateur (convergence, normalité asymptotique).
Exercice 2.5. On a observé les durées de vie (en heure) de 30 composants électroniques. Les résultats
suivants ont été obtenus : 0.1 ; 7.4 ; 1.0 ; 7.9 ; 2.1 ; 1.8 ; 17.9 ; 9.3 ; 6.5 ; 3.3 ; 5.6 ; 7.7 ; 0.1 ; 24.3 ; 8.1 ;
10.0 ; 11.9 ; 1.6 ; 2.7
5.1 ; 2.0 ; 0.2 ; 15.0 ; 3.5 ; 6.4 ; 0.6 ; 3.3
P ; 0.5 ; 5.8 ; 42.5 ;P
30
2
On admettra que 30
x
=
223.5
et
i
i=1
i=1 xi = 3826.8.
Première partie. On suppose dans cette première partie que la durée de vie des composants
électroniques suit une loi exponentielle de paramètre inconnu θ > 0. On rappelle que la densité de cette
loi est donnée par :
1
x
exp(− )
θ
θ
a. Construire un estimateur de θ en utilisant la méthode des moments et donner l’estimation
correspondante.
b. Calculer l’estimateur du maximum de vraisemblance Tn de θ ainsi que l’estimation correspondante.
c. Calculer le biais et l’erreur quadratique moyenne de Tn . Cet estimateur est-il efficace ?
d. Etudier les propriétés asymptotiques de Tn (convergence, normalité asymptotique). En déduire un
intervalle de confiance asymptotique à 95% pour θ.
e. Calculer la fonction de répartition de la loi exponentielle, puis en déduire un estimateur de la
probabilité que la durée de vie d’un composant soit supérieure à une durée quelconque t ≥ 0. En déduire
une estimation de la probabilité que la durée de vie d’un composant soit supérieure à 20h, 30h et 40h et
comparer ces résultats avec les fréquences empiriques calculées à partir des données. Quel est le meilleur
estimateur ?
f. Tracer sur un même graphique la densité de la loi exponentielle ajustée et un histogramme décrivant
la répartition des durées de vie observées (on utilisera un découpage en classes de largeur 3). Discuter la
qualité de l’ajustement.
fθ (x) =
18
Deuxième partie. On suppose maintenant que la durée de vie des composants électroniques suit une
loi dont la densité de probabilité est donnée par :
x
x
θ 2 exp(− θ ) si x ≥ 0
fθ (x) =
(2.5)
0
sinon
avec θ > 0 un paramètre inconnu.
a. Calculs préliminaires. On pose, pour n ≥ 0,
Jn (θ) =
Z
+∞
0
x
xn exp(− )
θ
1. Montrer, à l’aide d’une intégration par partie, que pour n ≥ 0 Jn+1 (θ) = (n + 1)θJn (θ). En
déduire que Jn (θ) = θn+1 n!
2. En déduire que fθ définit bien une densité, puis que si que est une variable aléatoire dont la loi
admet la densité fθ alors E[X] = 2θ et var(X) = 2θ2
3. Construire un estimateur de θ en utilisant la méthode des moments.
b. Calculer l’estimateur du maximum de vraisemblance Tn de θ, ainsi que l’estimation correspondante.
c. Calculer le biais et l’erreur quadratique moyenne de Tn . Cet estimateur est-il efficace ?
d. Etudier les propriétés asymptotiques de Tn . En déduire un intervalle de confiance asymptotique à
95% pour θ.
Exercice 2.6. Il y a en France 17800 passages à niveau, et on a relevé le nombre d’accidents mortels
(hors suicide) sur ces passages entre 1985 et 1997. Les nombres observés sont les suivants :
– 1985 : 3
– 1988 : 2
– 1991,1993,1995,1997 : 1
On suppose que le nombre d’accidents X au cours d’une année suit une loi de poisson de paramètre
θ > 0 inconnu. On a alors, pour k ≥ 0,
P [X = k; θ] =
θk exp(−θ)
k!
On admettra que E[X] = θ et var(X) = θ.
a. Calculer l’estimateur du maximum de vraisemblance de θ, puis une estimation de θ basée sur les
observations.
b. Calculer le biais et l’erreur quadratique moyenne de l’estimateur de la question a., puis étudier ses
propriétés asymptotiques. Cet estimateur est-il efficace ?
c. Donner un intervalle de confiance asymptotique à 95% pour θ.
Exercice 2.7. Soit (X1 , ..., Xn ) un n-échantillon d’une variable aléatoire normale de moyenne µ et
d’écart type σ. On rappelle que la densité de Xi est donnée par
(x − µ)2
1
fθ (x) = √ exp(−
)
2σ 2
σ 2π
avec θ = (µ, σ).
Première partie. On suppose dans cette partie que σ est connu et µ inconnu.
a. Calculer l’estimateur du maximum de vraisemblance de µ ainsi que la quantité d’information de
Fisher apportée par l’échantillon sur ce paramètre. Comment varie cette quantité avec σ ? Commenter.
b. L’estimateur de la question précédente est-il efficace ?
Deuxième partie. On suppose dans cette partie que µ est connu et σ inconnu.
a. Calculer l’estimateur du maximum de vraisemblance de σ ainsi que la quantité d’information de
Fisher apportée par l’échantillon sur ce paramètre.
b. L’estimateur de la question précédente est-il efficace ?
Troisième partie. On suppose dorénavant que µ et σ sont inconnus. Calculer l’estimateur du
maximum de vraisemblance correspondant.
19
Exercice 2.8. Soit (X1 , ..., Xn ) des variables aléatoires indépendantes et identiquement distribuées de
loi uniforme sur l’intervalle [0, θ]. La densité de Xi est alors donnée par
1
si x ∈ [0, θ]
θ
f (x; θ) =
0 sinon
a. Vérifier que f (.; θ) est bien une densité et montrer que l’espérance et la variance de cette loi sont
données par E[X] = θ/2 et var(X) = θ2 /12.
b. Donner un estimateur Tn de θ par la méthode des moments.
1. Calculer le biais et la variance de cet estimateur.
2. Etudier les propriétés asymptotiques de θ (convergence, normalité asymptotique).
3. En déduire un intervalle de confiance asymptotique à 95% pour θ.
c. Montrer que Mn = max(X1 , ..., Xn ) est l’estimateur du maximum de vraisemblance de θ.
1. Montrer que FMn , la fonction de répartition de Mn , est
m n
1l[0,θ] (m) + 1l]θ,+∞[ (m)
FMn (m) =
θ
2. En déduire le biais et la variance de Mn ainsi qu’un estimateur sans biais de θ.
3. Montrer que pour tout ǫ > 0, P [Mn ≤ θ − ǫ] → 0 lorsque n → +∞ . En déduire que
P [|Mn − θ| ≥ ǫ] → 0 lorsque n → +∞.
4. Montrer que pour x ≥ 0, P [n(θ − Mn ) ≤ x] → 1 − exp − xθ lorsque n → +∞. En déduire que
n(θ − Mn ) converge en loi lorsque n → +∞ et donner la loi limite. Comparer avec la théorie
classique sur les propriétés asymptotiques de l’estimateur du maximum de vraisemblance vue en
cours.
5. Déduire de la question précédente un intervalle de confiance asymptotique à 95% pour θ
d. Quel est le meilleur estimateur de θ : Tn ou Mn ?
e. On suppose maintenant que (X1 , ..., Xn ) sont des variables aléatoires indépendantes et identiquement
distribuées de loi uniforme sur l’intervalle [a, b] avec θ = (a, b) ∈ R2 un paramètre inconnu. Quel est
l’estimateur du maximum de vraisemblance de θ ? Donner également un estimateur de θ en utilisant la
méthode des moments.
Exercice 2.9. Une entreprise envisage de s’implanter sur le marché espagnol pour vendre un nouvel
apéritif de sa fabrication. Ce marché n’est intéressant que si la consommation moyenne par an et par
habitant est supérieure à 0.20 litre. Si cette consommation moyenne est comprise entre 0.20 litre et 0.40
litre, elle exportera à partir de la France. Si la consommation moyenne dépasse 0.40 litre, elle envisage
la création d’une unité de production en Espagne. Un enquête auprès de 400 personnes montre que, sur
cet échantillon, la consommation moyenne est de 0.23 litre pour un écart type de 0.2 litre. Quelle
décision faut-il prendre ?
Exercice 2.10. Afin d’évaluer le nombre N d’individus d’une espèce animale vivant sur une île, on
propose d’adopter la méthode de capture-recapture. Pour cela, on capture 800 individus. Ces individus,
qui correspondent à la proportion p du nombre total des individus vivant sur l’ile, sont marqués puis
relâchés. On recapture ultérieurement 1000 animaux parmi lesquels on dénombre 250 animaux marqués
lors de la première capture.
a. En utilisant les résultats obtenus lors de la deuxième capture, proposer une estimation de p ainsi
qu’un intervalle de confiance à 95%.
b. Ecrire la relation qui existe entre N et p et en déduire une estimation de N ainsi qu’un intervalle de
confiance à 95%
Exercice 2.11. Un fabricant de conserves de petits pois produit des boîtes dont l’étiquette annonce un
poids net égoutté de 560g. Il prélève un lot de 200 boites pour s’assurer qu’il n’aura pas d’ennui à l’issue
d’un contrôle éventuel. Il obtient une moyenne empirique de 555.7 et un écart type de 9.47 Réaliser un
test afin de vérifier si les observations sont en accord avec le poids indiqué sur l’étiquette.
20
Exercice 2.12. Un laboratoire pharmaceutique affirme que son médicament est efficace à 90%. Sur 200
personnes traitées, 160 sont guéries. L’affirmation du laboratoire vous semble t’elle justifiée ?
Exercice 2.13. Le pourcentage de grossesses multiples (jumeaux, triplés,...) en France en 1950, donc
avant l’introduction des contraceptifs oraux était de 1.25%. En 1991, dans un échantillon de 1000
grossesses de femmes ayant pris par le passé des contraceptifs oraux, 21 ont été multiples. La proportion
observée dans cet échantillon est-elle significativement supérieur à celle de 1950 ?
Exercice 2.14. Dans une usine, on cherche à savoir si un changement de l’environnement (musique
dans les ateliers) peut modifier le rendement. Ce dernier est mesuré ici par le nombre moyen de pièces
produites à l’heure par chaque ouvrier. On note, pour chacun des 30 ouvriers, le rendement avant et
après l’introduction du changement. Les résultats sont donnés ci-dessous. Peut-on conclure que le
changement introduit apporte une augmentation sensible du rendement ?
Avant 45 36 47 40 45 35 36 50 50 40 40 30 45 30 45 40 50 40 50 40 55 30 40 40 28 35 40 35 38 50
Après 48 40 53 40 46 30 40 60 60 40 40 35 50 40 50 45 50 40 45 35 50 35 45 35 35 40 45 37 35 50
Exercice 2.15. Sur 429 440 naissances, on a dénombré 221023 garçons. La proportion de garçons
est-elle compatible avec l’hypothèse d’équiprobabilité de naissance des garçons et des filles ?
Exercice 2.16. Soit (X1 , ..., Xn ) n variables aléatoires indépendantes et identiquement distribuées
d’une loi N (µ, σ 2 ) avec σ = 10. On veut tester
H0 : µ = 2 contre H1 : µ = 3
a. On adopte la règle de décision suivante : on accepte H0 si X̄ ≤ 2.5 et sinon on refuse H0 . Calculer
les risques de première et de seconde espèces, ainsi que la puissance du test lorsque n = 100.
b. On adopte la règle de décision suivante : on accepte H0 si X̄ ≤ k et sinon on refuse H0 .
1. Calculer k de telle manière que le risque de premier espèce soit α = 5%.
2. Calculer le risque de seconde espèce et la puissance du test dans le cas n = 100.
3. Quelle devrait être la taille de l’échantillon pour que cette puissance soit supérieure à 0.95 ? 0.99 ?
Exercice 2.17. Télécharger des données historiques décrivant l’évolution du cours du CAC 40 sur une
période relativement longue (au moins 5 ans), par exemple à l’adresse :
http ://fr.finance.yahoo.com/
1. Importer les données sous R. On notera (xt )t∈{1...,T } cette série temporelle.
2. Réaliser une histogramme des données. Quelle loi usuelle pourrait permettre de décrire cette
distribution ? Ajuster cette loi à l’aide de la fonction fitdistr du package MASS et comparer la
densité correspondante à l’histogramme. Discuter.
3. Une hypothèse usuelle en finance est que la série temporelle définie par yt = log(xt ) − log(xt−1 )
est une réalisation d’un échantillon i.i.d. gaussien. Discuter.
3
3.1
Vecteurs gaussiens
Définition et premières propriétés
Rappel sur les vecteurs aléatoires :
– Un vecteur aléatoire de dimension n est un n-uplet X = (X1 , ..., Xn )′ de variables aléatoires réelles
définies sur un même espace probabilisé (la notation X ′ désigne la transposée de la matrice X).
– On supposera dans la suite du cours que les vecteurs aléatoires admettent une densité
f : Rn → [0, +∞[ par rapport à la mesure de Lebesgue c’est à dire que pour toutes fonctions
mesurables bornées g : Rn → R, on a
Z
g(x1 , ..., xn )f (x1 , ..., xn )dx1 ...dxn
E[g(X1 , ..., Xn )] =
Rn
21
On peut alors montrer que la loi marginale de Xi admet aussi densité fXi par rapport à la mesure
de Lebesgue sur R :
Z
f (x1 , ..., xn )dx1 ...dxi−1 dxi+1 ...dxn
fXi (xi ) =
Rn−1
et que les variables aléatoires X1 , ..., Xn sont indépendantes si et seulement si
f (x1 , ..., xn ) =
n
Y
fXi (xi ) p.s.
i=1
– La fonction caractéristique de X est la fonction φX : Rn → R définie par
φX (t) = E[exp(i < t, X >)]
pour t ∈ Rn avec < .|. > le produit scalaire euclidien. Si X admet la densité f , alors
Z
exp(i < t, x >)f (x1 , ..., xn )dx1 ...dxn
φX (t) =
Rn
– On notera E[X] = (E[X1 ], ..., E[Xn ])′ l’espérance du vecteur aléatoire X (ou plus généralement
pour les matrices à coefficients aléatoires) et
var(X) = E[XX ′ ] − E[X]E[X]′ = E[(X − E[X])(X − E[X])′ ]
la matrice de variance-covariance de X. On a

var(X1 )
cov(X1 , X2 )
 cov(X1 , X2 )
var(X2 )

var(X) = 
..
..

.
.
···
···
···
cov(X1 , Xn ) cov(X2 , Xn ) · · ·
cov(X1 , Xn )
cov(X2 , Xn )
..
.
var(Xn )





,avec cov(Xi , Xj ) = E[Xi Xj ] − E[Xi ]E[Xj ] la covariance entre Xi et Xj , et la règle de calcul
suivante, pour A ∈ Mp,n (R),
var(AX) = Avar(X)A′
Définition. On dit que le vecteur aléatoire X = (X1 , ..., Xn )′ est gaussien si sa densité est donnée par
f (x1 , ..., xn ) =
(2π)n/2
1
1
p
exp(− (x − µ)′ Σ−1 (x − µ))
2
det(Σ)
avec x = (x1 , ..., xn )′ , Σ ∈ Mn (R) une matrice symétrique définie positive et µ ∈ Rn . On notera
X ∼ N (µ, Σ).
Quelques cas particuliers
– n = 1. Posons µ = (µ1 ) et Σ = (σ12 ). On obtient :
f (x1 ) =
1
√
σ1 2π
exp(−
(x1 − µ1 )2
)
2σ12
On retrouve donc la densité de la loi normale univariée de moyenne µ1 et variance σ12 .
– n = 2. Posons µ = (µ1 , µ2 )′ . On peut écrire Σ sous la forme
σ12
ρ1,2 σ1 σ2
Σ=
ρ1,2 σ1 σ2
σ22
22
avec σ1 > 0 et σ2 > 0. On a alors det(Σ) = σ12 σ22 (1 − ρ21,2 ) et Σ est une matrice définie positive si et
seulement si |ρ1,2 | < 1. De plus,
1
σ22
−ρ1,2 σ1 σ2
−1
Σ =
−ρ1,2 σ1 σ2
σ12
det(Σ)
On obtient donc
f (x1 , x2 ) =
1
q
2πσ1 σ2 (1 − ρ21,2 )
"
2
2 #!
x1 − µ1
(x1 − µ1 )(x2 − µ2 )
x2 − µ2
1
+
− 2ρ1,2
exp −
2(1 − ρ21,2 )
σ1
σ1 σ2
σ2
Les lignes de niveau de f sont des ellipses.
– Σ matrice diagonale. On suppose Σ = diag(σ12 , ..., σn2 ). La densité se récrit alors
f (x1 , ..., xn ) =
n
Y
i=1
(xi − µi )2
1
√ exp(−
)
2σi2
σi 2π
On en déduit que les variables aléatoires X1 , ..., Xn sont indépendantes et que Xi ∼ N (µi , σi2 ) En
particulier, on a
(X1 , ..., Xn ) ∼iid N (µ, σ 2 ) ssi X = (X1 , ..., Xn )′ ∼ N (µ1n , σ 2 In )
Cette remarque est importante pour la suite du cours : elle permet de faire le lien entre les vecteurs
gaussiens et les échantillons gaussiens.
Proposition. X ∼ N (µ, Σ) si et seulement si sa fonction caractéristique est donnée par
φX (t) = exp(i < µ, t >)exp(−1/2t′ Σt)
Remarque. Cette proposition aboutit à une définition plus générale des vecteurs gaussiens puisqu’est
également valable lorsque Σ n’est pas inversible.
Proposition. Soit X ∼ N (µX , ΣX ) et C ∈ Rp×n , une matrice telle que le produit Y = CX soit bien
défini, alors Y ∼ N (µY , ΣY ) avec µY = CµY et ΣY = CΣX C ′
Démonstration. Utilisons les fonctions caractéristiques
φY (t)
= E[exp(i < t, Y >)]
= E[exp(i < t, CX >)]
= E[exp(i < C ′ t, X >)]
= φX (C ′ t)
= exp(i < µX , C ′ t >)exp(−1/2(C ′ t)′ ΣX (C ′ t))
= exp(i < µY , t >)exp(−1/2t′ ΣY t)
avec µY = CµY et ΣY = CΣX C ′ .



Corollaire. Soit X ∼ N (µ, Σ) avec Σ = 

σ12
σ1,2
..
.
σ1,2
σ22
..
.
...
...
..
.
σ1,n
σ2,n
..
.
σ1,n
...
...
σn2
marginales sont des lois normales :
Xi ∼ N (µi , σi2 )
et on a µ = E[X] et Σ = var(X).
23



 et µ = (µ1 , ..., µn )′ . Les lois

Démonstration. – Prenons C = ei avec ei = (0, ..., 0, 1, 0, ..., 0) le ime vecteur ligne de la base canonique.
En utilisant la proposition précédente, on obtient que Xi = CX ∼ N (µi , σi2 ).
– Prenons C = ei + ej . En utilisant la proposition précédente, on obtient que
Xi + Xj = CX ∼ N (µi + µj , σi2 + σj2 + 2σi,j ). En particulier, on a
var(Xi + Xj ) = σi2 + σj2 + 2σi,j
On en déduit que σi,j = cov(Xi , Xj ) à l’aide de la formule
var(Xi + Xj ) = var(Xi ) + var(Xj ) + 2cov(Xi , Xj )
puis on conclut aisément.
Corollaire. Si X = (X1 , ..., Xn )′ est un vecteur gaussien, alors les variables aléatoires Xi et Xj sont
indépendantes si et seulement si cov(Xi , Xj ) = 0.
Remarque. Si Xi et Xj sont des variables aléatoires indépendantes, alors on a toujours
cov(Xi , Xj ) = E[Xi Xj ] − E[Xi ]E[Xj ] = 0 même si X n’est pas un vecteur gaussien. Par contre la
réciproque est fausse en général. Un contre-exemple classique : prendre X ∼ N (0, σ 2 ) et Y = X 2 . On
montre facielement que cov(X, Y ) = 0 mais X et Y ne sont pas indépendantes !
ei
. La proposition précédente implique que
Démonstration. X ∼ N (µ, Σ) et C =
ej
2
σi σi,j
µi
Xi
,
∼N
CX =
σi,j σj2
µj
Xj
Si on suppose que σi,j = cov(Xi , Xj ) = 0, alors la densité fX1 ,X2 du couple (X1 , X2 ) s’écrit sous la forme
fX1 ,X2 (x1 , x2 ) = fX1 (x1 )fX2 (x2 )
et les v.a. X1 et X2 sont indépendantes.
Corollaire. Si X = (X1 , ..., Xn )′ est un vecteur gaussien, alors les assertions suivantes sont
équivalentes :
– (X1 , ..., Xp ) est indépendant de (Xp+1 , ..., Xn )
– cov(Xi , Xj ) = 0 pour tout i ∈ {1, ..., p} et j ∈ {p + 1, ..., n} Σ1 0
– La matrice de variance-covariance est de la forme var(X) =
0 Σ2
avec Σ1 = var((X1 , ..., Xp )′ ) et Σ2 = var((Xp+1 , ..., Xn )′ ).
Démonstration. Soit X ∼ N (µ, Σ) un vecteur gaussien.
– Si (X1 , ..., Xp ) est indépendant de (Xp+1 , ..., Xn ), alors Σi,j =
j ) = 0 si i ∈ {1, ..., p} et
cov(Xi , X
Σ1 0
j ∈ {p + 1, ..., n} et on a bien var(X) de la forme var(X) =
0 Σ2
Σ1 0
′
Notons u = (x1 , ..., xp ) , v = (xp+1 , ..., xn )′ , µu = (µ1 , ..., µp )′ ,
– Supposons que var(X) =
0 Σ2
µv = (µp+1 , ..., µn )′ . En utilisant la proposition précédente, on obtient que
fX1 ,...,Xp (u) =
fXp+1 ,...,Xn (v) =
(2π)p/2
1
1
p
exp(− (u − µu )′ Σ−1
1 (u − µu ))
2
(det(Σ1 ))
1
1
p
exp(− (v − µv )′ Σ−1
2 (u − µv ))
2
(det(Σ2 ))
(2π)(n−p)/2
24
On vérifie ensuite aisément que
fX1 ,...,Xn (x1 , ..., xn ) = fX1 ,...,Xp (x1 , ..., xp )fXp+1 ,...,Xn (xp+1 , ..., xn )
ce qui implique que les vecteurs aléatoires (X1 , ..., Xp ) et (Xp+1 , ..., Xn ) sont indépendants.
Le corollaire ci-dessous est l’équivalent de la technique de centrage-réduction couramment utilisée pour
la loi normale univariée : si X ∼ N (0, 1), alors µ + σX ∼ N (µ, σ 2 ). Cette transformation permet de
ramener l’étude de la loi normale N (µ, σ 2 ) à celle de la loi normale centrée-réduite N (0, 1).
Corollaire. Soit X ∼ N (0, In ), µ ∈ Rn et H ∈ Mn (R). Alors Y = µ + HX ∼ N (µ, Σ) avec Σ = HH ′ .
Démonstration. D’après la proposition précédente, on a HX ∼ N (0, Σ). Il reste à montrer que si
Y ∼ N (0, Σ), alors Z = Y + µ ∼ N (µ, Σ).
φZ (t)
= E[exp(i < t, Z >)]
= E[exp(i < t, Y + µ >)]
= exp(i < t, µ > E[exp(i < t, Y >)]
= exp(i < t, µ > φY (t)
= exp(i < µ, t >)exp(−1/2t′Σt)
Remarque. Le corollaire précédent est en particulier utilisé pour simuler des vecteurs gaussiens
puisqu’il permet de simuler n’importe quel vecteur gaussien à partir d’un échantillon i.i.d. de la loi
normale.
Corollaire. X est un vecteur gaussien si et seulement si pour tout vecteur a ∈ Rn la variable aléatoire
réelle a′ X suit une loi normale.
Démonstration. Exercice
3.2
Lois du χ2 , de Student et de Fisher
Les lois du χ2 , de Student et de Fisher sont très couramment utilisées en statistique, en particulier
lorsque l’inférence statistique porte sur des échantillons gaussiens. Comme pour la loi normale univariée,
il n’existe pas d’expressions analytiques simples pour les fonctions de répartition et des tables
statistiques ou des logiciels de statistique (R, SAS, Matlab, Excel,...) sont alors utilisés pour obtenir les
quantiles (qui seront utilisés dans la suite pour réaliser des tests ou calculer des intervalles de confiance).
Définition. On appelle loi du χ2 à n degrès de liberté la loi de X = U12 + U22 + ... + Un2 avec
(U1 , U2 , ..., Un ) ∼iid N (0, 1). On notera X ∼ χ2n et χn,α le quantile d’ordre α d’une loi χ2n .
Proposition. Si X ∼ χ2n alors E[X] = n et var(X) = 2n.
Démonstration. exercice
Définition. On appelle loi de Student à n degrés de liberté la loi de
T =
√ U
n√
X
avec U ∼ N (0, 1) et X ∼ χ2n une v.a. indépendante de U . On notera T ∼ T (n) et tn,α le quantile
d’ordre α de la loi Tn .
Proposition. Si T ∼ Tn , avec n > 2, alors E[T ] = 0 et var(T ) =
25
n
n−2 .
Démonstration. Admis
Définition. On appelle loi de Fisher à p et q degrés de liberté la loi de
F =
X
p
Y
q
avec X ∼ χ2p et Y ∼ χ2q deux v.a. indépendantes. On notera F ∼ Fp,q et fp,q,α le quantile d’ordre α de
la loi Fp,q .
Proposition. fp,q,α = 1/fq,p,1−α
Démonstration. Si F ∼ Fp,q alors 1/F ∼ Fq,p .
3.3
Vecteurs gaussiens et projections orthogonales
Définition. Dans la suite du cours, si E désigne un sous-espace vectoriel (s.e.v.) de Rn , on notera πE
la projection orthogonale sur ce s.e.v. pour le produit scalaire euclidien noté < .|. >. Le norme
euclidienne sera notée k.k.
Proposition. Soit (x1 , ..., xp ) une base de E (on confond les vecteurs et leurs coordonnées dans la base
canonique) et L la matrice définie par L = (x1 |x2 |...|xp ) (L est la matrice à n lignes et p colonnes dont
la ième colonne est le vecteur xi ). Alors la matrice L′ L est symétrique définie positive et L(L′ L)−1 L′
est la matrice de l’application linéaire πE dans la base canonique.
Démonstration. – On vérifie aisément que L′ L est symétrique. Montrons qu’elle est définie positive.
Soit y = (y1 , ..., yp )′ . On a < y|(L′ L)y >=< Ly|Ly >= kLyk2 ≥ 0. De plus, si < y|(L′ L)y >= 0 alors
Ly = 0 et donc y = (0, ..., 0) puisque (x1 , ..., xp ) est une base de E (et donc en particulier les vecteurs
sont libres).
– Pour montrer que A = L(L′ L)−1 L′ est la matrice de la projection orthogonale sur E, il suffit de
montrer que, pour tout x ∈ Rn , on a Ax ∈ E et x − Ax ∈ E ⊥ . Par définition de A, on a
immédiatement Ax ∈ E. Pour montrer que x − Ax ∈ E ⊥ , il suffit de montrer que pour tout
i ∈ {1...p}, on a
< x − L(L′ L)−1 L′ x/xi >= 0
ou, de manière équivalente
< L(L′ L)−1 L′ x/xi >=< x/xi >
Or < L(L′ L)−1 L′ x/xi >=< x/L(L′ L)−1 L′ xi >. Il suffit ensuite de remarquer que xi = Lei , et on a
donc < x/L(L′ L)−1 L′ xi >=< x/L(L′ L)−1 L′ Lei >=< x/Lei >=< x/xi > ⋄
Corollaire. A est la matrice d’une projection orthogonale sur un s.e.v. E si et seulement si A2 = A
(matrice idempotente) et A′ = A (matrice symétrique). On a alors dim(E) = tr(A) = rang(A).
Démonstration. Soit A une matrice d’une projection orthogonale sur un s.e.v. E et (x1 , ..., xp ) une base
de E. D’après la proposition précédente, on a alors A = L(L′ L)−1 L′ et on en déduit que A2 = A et
A′ = A.
Réciproquement, soit A une matrice symétrique et idempotente. Notons E = {x ∈ Rn |Ax = x} le sous
espace propre associé à la valeur propre 1. Montrons que A est la matrice de la projection orthogonale
sur E, c’est à dire qu’elle satisfait les deux propriétés ci-dessous :
– ∀x ∈ Rn , Ax ∈ E . C’est une onséquence directe de A2 = A.
– ∀x ∈ Rn , x − Ax ∈ E ⊥ . Soit y ∈ E, montrons que < y|A(x − Ax) >= 0. On a Ay = y et donc
< y|x − Ax >=< Ay|x − Ax >=< y|A(x − Ax) >= 0
.
26
Par définition, rang(A) = dim(Im(A)) = dim(E). De plus, A est symétrique donc diagonalisable dans
une base orthonormée : A = P ′ DP avec D une matrice diagonale et P ′ P = I. D est aussi idempotente
et les valeurs propres sont donc égales à 0 ou 1. On a donc bien tr(D) = rang(D) puis
tr(A) = rang(A) = dim(Im(A)) = dim(E). ⋄
Le théorème de Cochran ci-dessous est fondamental pour la suite du cours.
Théorème. Soit E et F deux espaces orthogonaux de Rn et X ∼ N (µ, σ 2 In ). Alors :
1. πE (X) et πF (X) sont des vecteurs gaussiens indépendants.
2. De plus
kπE (X) − πE (µ)k2
∝ χ2dim(E)
σ2
Démonstration. 1. Soit A [resp. B] la matrice de πE [resp. πF ] dans la base canonique. Comme E et F
n
′ ′
′
sont orthogonaux,
onobtient que pour tout
x,y ∈ R , < πE (x), πF (y) >= x A By = 0, et donc A B = 0
AX
A
Notons Y =
= CX avec C =
BX
B
Y est un vecteur
dont
de variance-covariance
est donnée par
gaussien
la matrice
′
′
A
0
AA
AB
= σ2
σ 2 CIn C ′ = σ 2
On en déduit que AX = πE (X) et BX = πF (X) sont
0 B
BA′ BB ′
indépendants.
2. On peut se ramener au cas µ = 0 et σ = 1 puisque
2
2
kπE (X) − πE (µ)k
πE ( X − µ )
=
2
σ
σ
et
X−µ
σ
∼ N (0, In ). . Soit (u1 , ..., up ) une base orthonormée de E et L = (u1 |u2 |...|up ). On a alors
πE (X) = L(L′ L)−1 L′ X =
et
2
kπE (X)k =
X
X
< X, ui > ui
< X, ui >2
Notons alors Y = L′ X de telle manière que Yi =< X, ui >. On a Y ∼ N (0, L′ L) avec L′ L = Ip , et donc
2
Y1 , ..., Yp ∼iid N (0, 1). Par définition de la loi du χ2 , on en déduit que kπE (X)k = kY k2 ∼ χ2p
Corollaire. Soit X ∼ N (µ, σ 2 In ). Si A est une matrice symétrique et idempotente de rang p, alors A
est la matrice associée à une projection orthogonale sur un s.e.v. de dimension p. On a donc
kAX−Aµk2
∼ χ2p
σ2
3.4
Tests et intervalles de confiance pour les échantillons gaussiens
La proposition suivante est couramment utilisée pour faire des tests et des intervalles de confiance pour
l’espérance et la variance d’échantillons gaussiens.
Proposition. Soit (X1 , ..., Xn ) ∼iid N (µ, σ 2 ). Alors
1. X̄ ∼ N (µ,
σ2
n )
2. X̄ et S 2 sont indépendantes
2
3. n Sσ2 ∼ χ2n−1
√
4. n − 1 X̄−µ
∼ Tn−1
S
Démonstration.
1. Il suffit de remarquer que X̄ = CX avec C =
X = (X1 , ..., Xn )′ ∼iid N (µu, σ 2 In ) avec u = (1, ..., 1)′ .
27
1
n (1, ..., 1)
et
2. Soit E le sous espace engendré par u. La matrice du projecteur πE est donnée par


1 ... 1
1

A = u(u′ u)−1 u′ =  ... . . . ... 
n
1 ... 1
Donc πE (X) = (X̄, ..., X̄)′ . On en déduit que
πE ⊥ (X) = X − πE (X) = (X1 − X̄, ..., Xn − X̄)′
D’après le théorème de Cochran, πE (X) et πE ⊥ (X) sont indépendants, et donc X̄ est indépendant
2
kπ ⊥ (X)k
.
de S 2 = E n
3. Toujours d’après le théorème de Cochran, on a
2
kπE ⊥ (X) − πE ⊥ (µu)k
∝ χ2dim(E ⊥ )
σ2
2
avec πE ⊥ (µu) = 0, kπE ⊥ (X)k = nS 2 , et dim(E ⊥ ) = n − dim(E) = n − 1
√
2
∼ N (0, 1). D’après 2. et 3., n Sσ2 ∼ χ2n−1 et est indépendant de U .
4. D’après 1., on a U = n X̄−µ
σ
On conclut en utilisant la définition de la loi de Student.⋄
La proposition précédente permet de construire des intervalles de confiance pour l’espérance et la
variance d’un échantillon gaussien de taille quelconque et de variance inconnue. Supposons que
(X1 , ..., Xn ) ∼iid N (µ, σ 2 ).
– Intervalle de confiance pour l’espérance d’un échantillon gaussien. D’après la proposition
précédente, on a
√
X̄ − µ
n−1
∼ Tn−1
S
On en déduit que
√
X̄ − µ
P tn−1,α/2 ≤ n − 1
≤ tn−1,1−α/2 = 1 − α
S
puis que
S
S
=1−α
≤ µ ≤ X̄ + tn−1,1−α/2 √
X̄ + tn−1,α/2 √
n−1
n−1
h
i
S
S
Finalement, X̄ + tn−1,α/2 √n−1
; X̄ + tn−1,1−α/2 √n−1
est un intervalle de confiance au niveau de
confiance 1 − α pour µ.
P
– Intervalle de confiance pour la variance d’un échantillon gaussien. D’après la proposition
précédente, on a
S2
n 2 ∼ χ2n−1
σ
On en déduit que
S2
P χn−1,α/2 ≤ n 2 ≤ χn−1,1−α/2 = 1 − α
σ
puis que
n
S2
≤ σ2 ≤ n
S2
=1−α
χn−1,1−α/2
χn−1,α/2
i
h
S2
S2
est un intervalle de confiance au niveau de confiance 1 − α pour
; n χn−1,α/2
Finalement, n χn−1,1−α/2
µ.
P
28
De la même manière, on peut faire des tests sur la moyenne et la variance des échantillons gaussiens.
– Test sur l’espérance d’un échantillon gaussien. On veut tester l’hypothèse simple
H0 : µ = µ0 contre l’hypothèse alternative H1 : µ 6= µ0
On fixe ensuite un risque de première espèce α (risque de rejeter H0 alors que H0 est vraie). On
utilise la statistique de test :
√
X̄ − µ0
T = n−1
S
Si H0 est vraie, alors T ∼ Tn−1 et
PH0 [tn−1,α/2 ≤ T ≤ tn−1,1−α/2 ] = 1 − α
On adopte alors la règle de décision suivante :
√
0
∈ [tn−1,α/2 , tn−1,1−α/2 ].
– On accepte H0 si T = n − 1 X̄−µ
S
– On refuse H0 sinon.
– Test sur la variance d’un échantillon gaussien. On veut tester l’hypothèse simple
H0 : σ = σ0 contre l’hypothèse alternative H1 : σ 6= σ0
On utilise la statistique de test :
S2
X=n 2
σ0
Si H0 est vraie, alors X ∼ χ2n−1 et
PH0 χn−1,α/2 ≤ X ≤ χn−1,1−α/2 = 1 − α
On adopte alors la règle de décision suivante :
2
– On accepte H0 si X = n Sσ2 ∈ [χn−1,α/2 , χn−1,1−α/2 ].
0
– On refuse H0 sinon.
Exemple. On reprend l’exemple 1 du chapitre 2.
1. Donner un intervalle de confiance à 95% pour la moyenne et la variance des températures.
2. Le fabricant prétend que ses thermomètres fournissent la bonne température en moyenne avec un
écart-type de 0.1o . Est-ce que ces affirmations sont justifiées ?
Exemple. On reprend l’exemple 3 du chapitre 2.
1. Donner un intervalle de confiance à 95% pour la tension artérielle moyenne avant puis après
traitement. Discuter.
2. Réaliser un test pour vérifier si le médicament a un effet sur la tension artérielle (on pourra
considérer la série de données obtenue en calculant la différence entre la tension après et la
tension avant).
3.5
Exercices sur le chapitre 3
Pour certains des exercices ci-dessous, on pourra soit utiliser des tables statistiques soit des logiciels
adaptés.
Exercice 3.1. On suppose que X suit une loi normale de moyenne m = 1 et d’écart type σ = 3.
a. Calculer P [X ≤ 2], P [X ≤ 0] et P [−1 ≤ X ≤ 3].
b. Trouver k tel que P [m − k ≤ X ≤ m + k] = 0.95.
c. Trouver k1 et k2 tels que P [k1 ≤ X ≤ k2 ] = 0.99.
d. Trouver k tel que P [k ≤ X] = 0.99.
Exercice 3.2. La taille moyenne des pygmées d’une tribu est de 1m40. On suppose en outre que la
taille des pygmées de cette tribu suit une loi normale et que 10% des pygmés de cette tribu ont une taille
supérieure à 1m50. Quelle est l’écart type de la population ?
29
Exercice 3.3. Soit X une variable aléatoire qui suit une loi normale de moyenne 0 et d’écart type σ.
Calculer E[X n ] pour n ≥ 1.
Exercice 3.4. Soit X une variable aléatoire de loi N (0, 1) et U une variable aléatoire de loi uniforme
sur {−1, +1}, indépendante de X. On pose Y = U X.
a. Déterminer la loi de Y .
b. Calculer P [X + Y = 0].
c. La variable aléatoire X + Y est-elle gaussienne ?
d. Le couple (X, Y )′ est-il gaussien ?
0
X1
un couple gaussien de moyenne
Exercice 3.5. Soit
et matrice de variance-covariance
0
X2
2
σ1
ρσ1 σ2
V =
ρσ1 σ2
σ22
a. A quelle condition la matrice V est-elle symétrique et définie-positive ?
b. Quelle est la loi de la variable aléatoire X1 ?
c. Calculer cov(X1 , X2 ) et cor(X1 , X2 ).
d. Soit (a, b) ∈ R2 et Y = aX1 + bX2 . Quelle est la loi de Y ?
e. Calculer cov(X1 , Y ) et cor(X1 , Y ) X1
?
f. Quelle est la loi du vecteur aléatoire
Y
g. A quelle condition les variables aléatoires X1 et Y sont indépendantes ?
Exercice 3.6. Soient X et Y deux v.a. indépendantes de même loi N (0, 1) et (R, Θ) les coordonnées
polaire associées au couple (X, Y ). Montrer que les variables aléatoires R et Θ sont indépendantes et
déterminer leurs lois respectives.
Exercice 3.7. Soit E un sous-espace de Rn engendré par les vecteurs u1 , . . . , ur linéairement
indépendants. Soit y un vecteur de Rn et πE (y) sa projection orthogonale sur E.
a. Donner la matrice des projecteurs orthogonaux sur E et sur son complémentaire dans Rn .
b. Donner la matrice des projecteurs orthogonaux sur le sous-espace engendré par un vecteur unitaire u
et sur son complémentaire.
c. Soit dans R3 le sous-espace E engendré par u1 = e1 + e3 et u2 = e2 + e3 , où e1 , e2 et e3 sont les
vecteurs de base canonique de R3 . Soit X = (X1 , X2 , X3 )′ un vecteur gaussien de loi N (0, σ 2 I).
Déterminer les lois du projeté πE (X) et de || πE (X) ||2 .
Exercice 3.8. a. Soit X ∼ χ2p . Trouver a et b tels que P (a ≤ X ≤ b) = 0.95
b. Soit X ∼ χ21 . Montrer, en utilisant la table de la loi N (0, 1), que P (X < 1.962 ) = 0.95
c. Soit X ∼ F20,15 . Trouver a et b tels que P (a ≤ X ≤ b) = 0.95
d. Soit X ∼ F1,500 . Trouver a tel que P (X ≤ a) = 0.95. Vérifier que a ≈ 1.962 . Justifier.
e. Soit X ∼ T20 . Trouver a et b tels que P (a ≤ X ≤ b) = 0.95
f. Soit X ∼ T200 . Trouver a tel que P (|X| ≤ a) = 0.95. Vérifier que a ≈ 1.962. Justifier.
Exercice 3.9. (Examen 2013-2014).
Dans cet exercice, X, Y et Z sont trois variables aléatoires indépendantes qui suivent la loi N (0, 1).
1. Quelle est la loi de X 2 + Y 2 ?
√
2. Quelle est la loi de 2 √X 2Z+Y 2 ?
2
3. Quelle est la loi de 2 X 2Z+Y 2 ?
4. Quelle est la loi de X + Y ? Quelle est la loi de
5. Quelle est la loi de
X−Y
q
(X+Y )2
2
+Z 2
(X+Y )2
2
+ Z2 ?
?
Exercice 3.10. (Examen 2014-2015).
Dans cet exercice, X = (X1 , X2 , X3 , X4 )′ désigné un vecteur Gaussien de moyenne (0, 0, 0, 0)′ et de
matrice de variance-covariance identité. On justifiera chaque réponse précisément.
30
1. Quelle est la loi de (X1 − X2 )2 /2 + (X1 + X2 )2 /2 ?
2. Quelle est la loi de
(X1 −X2 )2
(X1 +X2 )2
?
3. Quel est le projeté orthogonal πE (X) de X sur l’espace vectoriel engendré par les vecteurs
(1, 1, 0, 0)′ et (0, 0, 1, 1)′ .
2
4. Quelle est la loi de kπE (X)k ? Quelle est la loi de
kπE (X)k2
kX−πE (X)k2
?
Exercice 3.11. (sujet d’examen) Les données ci-dessous décrivent les températures annuelles
moyennes (en degré Celsius) à Brest au cours des 30 dernières années :
Année (xi )
Température (yi )
Année (xi )
Température (yi )
Année (xi )
Température (yi )
Année (xi )
Température (yi )
Valeurs numériques :
P
n
i=1 xi yi = 669179.3
Pn
i=1
1976
11.08
1984
11.06
1992
11.14
2000
11.38
1977
10.73
1985
10.56
1993
10.90
2001
11.31
xi = 59715,
Pn
i=1
1978
10.71
1986
10.00
1994
11.71
2002
11.74
1979
10.51
1987
10.40
1995
11.95
2003
11.83
yi = 336.146,
1980
10.54
1988
11.24
1996
10.84
2004
11.38
Pn
i=1
1981
11.01
1989
11.69
1997
11.97
2005
11.59
1982
11.25
1990
12.27
1998
11.46
x2i = 118864955,
1983
11.31
1991
10.67
1999
11.91
Pn
i=1
yi2 = 3775.185,
Première partie.
a. Réaliser un histogramme des observations à l’aide du logiciel R. On suppose dans la suite de cet
exercice que ces observations proviennent d’un n-échantillon d’un loi N (m, σ 2 ). Cette hypothèse vous
paraît-elle être justifiée ?
b. Calculer les températures moyennes à Brest sur les périodes 1976-1990 et 1991-2005. On donnera
pour chaque estimation un intervalle de confiance à 95% et on commentera les résultats obtenus.
Deuxième partie. Soit (X1 , ..., Xn ) (resp. (Y1 , ..., Yn )) n variables aléatoires indépendantes
et
Pn
identiquement distribuées de loi N (m1 , σ 2 ) (resp. N (m2 , σ 2 )). On note X̄ = n1 i=1 Xi et
q P
q P
Pn
n
n
SX = n1 i=1 (Xi − X̄)2 (resp. Ȳ = n1 i=1 Yi et SY = n1 i=1 (Yi − Ȳ )2 ). On supposera également
que les n-uplets (X1 , ..., Xn ) et (Y1 , ..., Yn ) sont indépendants.
a. Montrer que X̄ et Ȳ suivent des lois normales dont on précisera les paramètres.
b. Montrer que X̄ − Ȳ suit une loi normale dont on précisera les paramètres.
S2
S2
c. Montrer que n σX2 et n σY2 suivent des lois du χ2 dont on précisera le degré de liberté. Justifier
pourquoi ces deux variables aléatoires sont indépendantes entre elles et sont indépendantes de X̄ et Ȳ .
S 2 +S 2
d. Montrer que n Xσ2 Y est indépendante de X̄ − Ȳ et suit une loi du χ2 dont on précisera le degré de
liberté.
e. Montrer que
√
X̄ − Ȳ − (m1 − m2 )
p
T = n−1
2 + S2
SX
Y
suit un loi de Student dont on précisera le degré de liberté.
d. Utiliser ce résultat de la question pour construire un test permettant de tester l’hypothèse
H0 : m 1 = m 2
e. Application numérique. Existe-t-il une différence significative entre les températures moyennes à
Brest sur les périodes 1976-1990 et 1991-2005 ?
Exercice 3.12. (sujet d’examen)
On s’intéresse aux résultats d’une expérience en chimie pour laquelle la qualité de chaque observation
est différente mais connue. On choisit alors de modéliser les résultats de cette expérience en supposant
31
que les observations proviennent de n variables aléatoires indépendantes (X1 , ..., Xn ) telles que
Xi ∼ N (µ, σi2 ) avec µ ∈ R et σi > 0. On supposera que les écart-types (σ1 , ..., σn ) sont connus (ils
modélisent la qualité des différentes mesures) et on veut estimer le paramètre inconnu µ.
a. Dans cette question, on cherche à construire le meilleur estimateur possible de µ qui s’écrit sous la
forme d’une somme pondérée
n
X
pi Xi
(3.1)
T =
i=1
avec des poids fixés pi > 0.
1. Calculer E[T ]. A quelle condition sur les poids (p1 , ..., pn ) l’estimateur T est-il un estimateur sans
biais de µ ?
2. Calculer var(T ). Montrer que l’estimateur de µ de la forme
sans biais et de variance
Pn (3.1)
1
1
minimale est obtenu avec les poids pi = Kσ
2 avec K =
i=1 σ2 .
i
3. Dans la suite, on prendra pi =
moyenne de T ?
1
.
Kσi2
i
Quelles sont alors la variance et l’erreur quadratique
b.Calculer l’estimateur du maximum de vraisemblance de µ. Cet estimateur est-il efficace ?
t
i
c. On note Yi = X
σi . Montrer que Y = (Y1 , ..., Yn ) est un vecteur gaussien dont on précisera les
paramètres.
Pn
)2
d. Déduire de la question précédente et du théorème de Cochran la loi de SC = i=1 (Xiσ−T
puis celle
2
i
p
T −µ
√
de K(n − 1) SC . Quel résultat du cours retrouve-t-on lorsque σ1 = ... = σn = σ ?
f. Déduire de la question précédente un intervalle de confiance à 95% pour µ.
32
12.5
12
11.5
11
10.5
10
1975
1980
1985
1990
1995
2000
2005
Figure 3 – Températures annuelles moyennes à Brest
4
Régression linéaire
Pour plus de détails, on pourra consulter les ouvrages suivants :
Cornillon P.A. et Matzner-Lober E. (2007), Régression : théorie et applications, Springer.
Dodge Y., Rousson V. (2004), Analyse de régression appliquée, Dunod.
Azaïs J.M., Bardet, J.M. (2005), Le modèle linéaire par l’exemple, Dunod.
4.1
4.1.1
Modèle de régression linéaire
Régression linéaire simple
Pour introduire les modèles de régression, nous allons nous placer dans le cas où il y a une seule variable
explicative (p = 1) et considérer les données du Tableau 2 qui décrivent les températures annuelles
moyennes à Brest au cours des 30 dernières années.
Année (xi )
Température (yi )
Année (xi )
Température (yi )
Année (xi )
Température (yi )
Année (xi )
Température (yi )
1976
11.08
1984
11.06
1992
11.14
2000
11.38
1977
10.73
1985
10.56
1993
10.90
2001
11.31
1978
10.71
1986
10.00
1994
11.71
2002
11.74
1979
10.51
1987
10.40
1995
11.95
2003
11.83
1980
10.54
1988
11.24
1996
10.84
2004
11.38
1981
11.01
1989
11.69
1997
11.97
2005
11.59
1982
11.25
1990
12.27
1998
11.46
1983
11.31
1991
10.67
1999
11.91
Table 2 – Températures annuelles moyennes à Brest
Ces données sont également représentées sur la Figure 3. Ce graphique suggère de faire l’hypothèse
suivante :
yi = β0 + β1 xi + wi
où β0 + β1 xi décrit la tendance (supposée linéaire) et wi représente "l’erreur" ou le "résidu". La
tendance linéaire et les résidus (estimés avec les méthodes qui seront étudiées dans la suite du cours)
sont représentées sur la Figure 4. Les résidus permettent de modéliser les fluctuations "aléatoires" des
températures autour de la tendance linéaire. Dans la suite, on supposera que les résidus w1 , ..., wn et
donc les observations (y1 , ..., yn ) sont des réalisations de variables aléatoires notées (W1 , ..., Wn )
(respectivement (Y1 , ..., Yn )).
33
12.0
11.5
11.0
10.0
10.5
temp
1975
1980
1985
1990
1995
2000
2005
an
Figure 4 – Températures annuelles moyennes à Brest, droite des moindres carrés et résidu
Définition. Le modèle de régression linéaire simple s’écrit :
Yi = β0 + β1 xi + Wi
avec
– (W1 , ..., Wn ) des v.a. i.i.d. vérifiant E[Wi ] = 0 et var(Wi ) = σ 2 < ∞
– (x1 , ..., xn ) les valeurs prises par la variable explicative (supposée déterministe)
4.1.2
Régression linéaire multiple
Le modèle précédent se généralise simplement lorsque p > 1 : on suppose que la variable à expliquer se
décompose comme la somme d’une fonction linéaire des prédicteurs et d’un résidu aléatoire.
Définition. Le modèle de régression linéaire multiple s’écrit
Yi = β0 + β1 xi,1 + β2 xi,2 + . . . βp xi,p + Wi
avec (W1 , ..., Wn ) des variables aléatoires i.i.d. vérifiant E[Wi ] = 0 et var(Wi ) = σ 2 < ∞.
Remarque. Les variables explicatives sont supposées déterministes alors que la réponse est la
réalisation d’une variable aléatoire. Dans certains cas, les valeurs prises par les variables explicatives
pourront provenir d’une expérience aléatoire (ex : poids et taille d’individus pris au hasard). Ce cas se
traite de manière similaire en interprétant le modèle précédent en terme d’espérance conditionnelle :
E[Y |X1 , ..., Xp ] = β0 + β1 X1 + β2 X2 + . . . βp Xp
Sous les hypothèses du modèle linéaire, on obtient que (Y1 , ..., Yn ) est une échantillon de variables
indépendantes vérifiant
– E[Yi ] = β0 + β1 xi,1 + β2 xi,2 + . . . βp xi,p
– var(Yi ) = σ 2
Le modèle se récrit sous la forme matricielle
Y = Xβ + W
34
avec Y = (Y1 , ..., Yn )′ , β = (β0 , β1 , ..., βp )′ , W = (W1 , ..., Wn )′ et

1 x1,1 x1,2 . . . x1,p
 1 x2,1 x2,2 . . . x2,p

X = .
..
..
..
..
 ..
.
.
.
.
1 xn,1 xn,2 . . . xn,p
En particulier, on obtient que E[Y ] = Xβ et var(Y ) = σ 2 In .





Attention : dans la suite du cours, X (lettre majuscule) est une matrice et pas une variable aléatoire !
Afin de pouvoir construire des IC ou réaliser des tests d’hypothèse, on suppose généralement que les
résidus suivent une loi normale, c’est à dire que Wi ∼ N (0, σ 2 ). On parle alors de modèle de
régression linéaire multiple gaussien.
Définition. Le modèle de régression linéaire multiple gaussien s’écrit
Yi = β0 + β1 xi,1 + β2 xi,2 + . . . βp xi,p + Wi
avec(W1 , ..., Wn ) ∼iid N (0, σ 2 ).
Sous les hypothèses du modèle linéaire gaussien, on a W ∼ N (0, σ 2 In ) et donc
Y = Xβ + W ∼ N (Xβ, σ 2 In )
Objectifs :
– Estimation. Comment estimer les paramètres inconnus (β0 , ..., βp ) et σ à partir des observations ?
Quelle est la qualité des estimateurs ?
– Tests-choix de modèle. Quelles variables explicatives ont un effet significatif sur la variable Y ?
– Prédiction. Quelle est la valeur prise par la réponse pour de nouvelles valeurs des variables
explicatives ? Par exemple, quelle sera la température moyenne à Brest en 2100 ?
– Validation de modèle. Les hypothèses du modèle sont-elles réalistes ? Peut-on supposer que la
relation entre les variables est linéaire ? Peut-on supposer que les résidus sont i.i.d. et suivent une loi
normale ?
4.2
4.2.1
Estimation des paramètres (résidus quelconque)
Méthode des moindres carrés (Gauss (1795), Legendre (1805))
Les paramètres (β0 , ..., βp ) sont généralement estimés par la méthode des moindres carrés. On
cherche alors l’hyperplan d’équation
y = b0 + b1 x1 ..., bp xp
qui passe le plus près des données.
Plus précisément, notons
F (b) =
n
X
i=1
(yi − b0 − b1 xi,1 − . . . − bp xi,p )2
On estime alors β par la valeur des paramètres b̂ qui réalise le minimum de la fonction F
(b̂ = argmin(F ))
Différentes méthodes permettent d’obtenir les coefficients b̂ :
– Etude des points critiques de F . On peut facilement montrer que grad(F ) = (X ′ X)b − X ′ y, et
donc que b̂ = (X ′ X)−1 X ′ y.
35
2
– Interprétation en terme de projection orthogonale. Par définition, on a F (b) = ky − Xbk et
donc
2
2
y − X b̂ = infb∈Rp ky − Xbk
ŷ = X b̂ est la combinaison linéaire des colonnes de X qui minimise la distance avec y : ŷ est donc la
projection orthogonale de y sur l’e.v. E engendré par les colonnes de la matrice X. La matrice de la
projection est donnée par A = X(X ′ X)−1 X ′ (cf chapitre 3) en a donc
ŷ = X b̂ = X(X ′ X)−1 X ′ y
La matrice (X ′ X) est inversible dès que les vecteurs colonnes de la matrice X sont libres. On fera
cette hypothèse dans la suite de ce chapitre (interprétation : il n’y a pas d’information redondante
dans les prédicteurs). On en déduit alors que b̂ = (X ′ X)−1 X ′ y.
Définition. On appelle estimateurs des moindres carrés de β le vecteur aléatoire
B̂ = (X ′ X)−1 X ′ Y
Proposition. Sous les hypothèses du modèle linéaire on a E[B̂] = β (estimateur sans biais) et
var(B̂) = σ 2 (X ′ X)−1
Démonstration. On a B̂ = (X ′ X)−1 X ′ Y avec E[Y ] = Xβ, var(Y ) = σ 2 In
Théorème. (Gauss-Markov) B̂ est, parmi les estimateurs de β sans biais qui s’écrivent comme des
fonctions linéaires des Yi , l’estimateur de variance minimale.
Démonstration. Admis
Exemple. On considère le cas p = 1 qui correspond au modèle de régression linéaire simple étudié dans
le cours de L3. On a
P
n
xi
′
P
P
XX=
x2i
xi
P 2
P 2
P
1
1
x
/n
−x̄
x
−
x
i
′
−1
i
i
P
P
(X X) = P 2
=P
−x̄
1
− xi
n
(xi − x̄)2
n xi − ( xi )2
P
P yi
X ′y =
xi yi
On retrouve donc l’équation de la droite des moindres carrés :
Pn
(y − ȳ)(xi − x̄)
sy
cx,y
Pn i
b̂1 = i=1
= 2 =r
2
sx
sx
i=1 (xi − x̄)
b̂0 = ȳ − bˆ1 x̄
avec r le coefficient de corrélation entre (xi ) et (yi ), cx,y la covariance empirique, x̄ et sx respectivement
la moyenne et l’écart-type empirique de (xi ), ȳ et sy respectivement la moyenne et l’écart-type empirique
de (yi ). L’équation de la droite des moindres carrés s’écrit aussi
y − ȳ
x − x̄
=r
.
sy
sx
Avec cette équation on voit que la droite des moindres carrés passe par le centre de gravité (x̄, ȳ) du
nuage de points et que le coefficient de corrélation s’interprète directement comme la pente de la droite
après centrage-réduction des données.
De plus, ces estimateurs ont les propriétés suivantes :
– E[B̂0 ] = β0
– E[B̂1 ] = β1
36
Y
Wchap
W
Ychap
Xβ
E
Figure 5 – Représentation des vecteurs Y , Ŷ , Ŵ , Xβ et W
– var(B̂1 ) = σ 2 (B̂1 ) avec σ 2 (B̂1 ) =
σ2
2
i=1 (xi −x̄)
Pn
– var(B̂0 ) = σ 2 (B̂0 ) avec σ 2 (B̂0 ) = σ 2
2
1
n
+
x̄2
2
i=1 (xi −x̄)
Pn
Pn
x2
i
= σ 2 n Pn i=1
(xi −x̄)2
i=1
– cov(B̂0 , B̂1 ) = Pn −x̄σ
2
i=1 (xi −x̄)
Pour les données de température à Brest, on obtient x̄ = 1990.5, ȳ = 11.20, s2x = 74.91, sx = 8.65,
s2y = 0.29, sy = 0.54, cx,y = 2.69, ρx,y = 0.58, b̂1 = 0.036 et b̂0 = −60.3. Le modèle prédit donc une
augmentation de 3.6 degrés par siècle. On peut retrouver ces résultats sous R à l’aide des commandes
suivantes :
>
>
>
>
>
x=1976 :2005
y=c(11.08,10.73,...,11.59) #saisir toutes les données !
plot(x,y) #nuage de point
fit=lm(y∼x) #ajustement du modèle linéaire
summary(fit) #résultat de l’ajustement
4.2.2
Estimation de la variance des résidus
Notons Ŷ = X B̂ et Ŵ = Y − Ŷ . Ŷi représente l’ordonnée du ième individu sur l’hyperplan de
régression obtenu par la méthode des moindres carrés et Ŵi = Yi − Ŷi l’écart résiduel généralement. Ŵ
est généralement appelé le vecteur des résidus empiriques.
Par définition, σ 2 = var(Wi ) et il semble P
donc naturel d’estimer
σ 2 par la variance empirique des
Pn
n
1
1
2
Ŵ1 , ..., Ŵn , c’est à dire par la quantité n i=1 Ŵi − ( n i=1 Ŵi )2 . Cependant, cet estimateur est
biaisé et on préfère utiliser l’estimateur sans biais de la proposition suivante.
Pn
Proposition. Sous les hypothèses du modèle linéaire, on a n1 i=1 Ŵi = 0 et
S2 =
1
n−p−1
n
X
(Ŵi )2 =
i=1
2
Y − Ŷ n−p−1
est un estimateur sans biais de σ 2 .
Démonstration. Montrons que Ŵ = πE ⊥ (W ). On a (cf Figure 5),
W = Y − Xβ = (Y − Ŷ ) + (Ŷ − Xβ)
avec Y − Ŷ = (id − πE )(Y ) = πE ⊥ (Y ) ∈ E ⊥ et Ŷ − Xβ ∈ E. Donc on a bien
Y − Ŷ = Ŵ = πE ⊥ (W ) = (I − A)W
37
En particulier, u = (1, ..., 1)′ ∈ E et donc Ŵ ⊥u. On en déduit que
(n − p − 1)S 2
2
Y − Ŷ =
Pn
i=1
Ŵi =< u|W >= 0. De plus
W ′ (I − A)′ (I − A)W
=
W ′ (I − A)W
=
Notons (I − A) = (αi,j )(i,j)∈{1,...,p+1}2 .
′
E[W (I − A)W ] =
E[
n
X
αi,j Wi Wj ]
i=1
n
X
=
αi,j E[Wi Wj ]
i=1
D’après les hypothèses faites sur (W1 , ..., Wn ), on a
E[Wi Wj ] =
σ2
0
si i = j
sinon
et donc
E[W ′ (I − A)W ] =
=
σ2
n
X
αi,i
i=1
σ 2 tr(I − A)
Or tr(I − A) = dim(E ⊥ ) = n − dim(E) = n − (p + 1).
Proposition. Sous les hypothèses du modèle linéaire, on a E[Ŷ ] = Xβ et var(Ŷ ) = σ 2 X(X ′ X)−1 X ′
Démonstration. Conséquence immédiate de Ŷ = X B̂, E[B̂] = β et var(B̂) = σ 2 (X ′ X)−1
4.3
Propriétés supplémentaires dans le cas où le résidu suit une loi normale
Dans la suite du cours, sauf mention contraire, on fait l’hypothèse supplémentaire que Wi ∼ N (0, σ 2 )
(modèle linéaire gaussien). On rappelle qu’on a alors W ∼ N (0, σ 2 In ) et Y ∼ N (Xβ, σ 2 In ).
4.3.1
Fonction de vraisemblance
Avec les hypothèses du modèle linéaire gaussien, Y est un vecteur gaussien avec une matrice de
covariance diagonale dont on peut facilement écrire la densité de probabilité par rapport à la mesure de
Lebesgue (cf chapitre 3). La fonction de vraisemblance est alors donnée par
L(θ) =
=
=
p(y1 , ..., yn ; θ)
Pn
2
1
i=1 (yi − β0 − β1 xi,1 − ... − βp xi,p )
exp −
2σ 2
(2π)n/2 σ n
1
F (β)
exp −
2σ 2
(2π)n/2 σ n
avec θ = (β0 , β1 , ..., βp , σ) l’ensemble des paramètres inconnus et F définie en 4.2.1. On vérifie aisément
2
que l’EMV de β coïncide
Pn avec l’estimateur des moindres carrés. Par contre, l’EMV de σ est
l’estimateur biaisé n1 i=1 Ŵi2 .
38
4.3.2
Inférence sur les paramètres du modèle
Proposition. Sous les hypothèses du modèle linéaire gaussien, on a les propriétés suivantes :
– B̂ ∼ N (β, σ 2 (X ′ X)−1 )
– Ŷ ∼ N (Xβ, σ 2 X(X ′ X)−1 X ′ )
2
– (n − p − 1) Sσ2 suit une loi χ2n−p−1 indépendante de B̂ et Ŷ .
Démonstration. Par hypothèse, Y est un vecteur gaussien et on a B̂ = (X ′ X)−1 X ′ Y et
Ŷ = X(X ′ X)−1 X ′ Y . On en déduit que B̂ et Ŷ sont également des vecteurs gaussiens. En utilisant les
calculs d’espérance et de variance faits dans le paragraphe précédent, on en déduit aisément les 2
premiers points de la proposition.
De plus (cf Figure 5), on a Ŷ − Xβ = πE (W ) et Y − Ŷ = πE ⊥ (W ). D’après le théorème de Cochran, on
a donc :
– Ŷ − Xβ et Y − Ŷ sont indépendants
2
2
2
kY −Ŷ k
kπE⊥ (W )k
– (n − p − 1) Sσ2 =
=
∼ χ2n−p−1 (en effet, πE est un projecteur de rang p + 1 et donc
2
2
σ
σ
πE ⊥ projecteur de rang n − p − 1)
On déduit du premier point que Ŷ est indépendant de Y − Ŷ et donc de S 2 . Puis la relation
Ŷ = X(X ′ X)−1 X ′ Y = X B̂ implique que B̂ = (X ′ X)−1 X ′ Ŷ . Finalement, on obtient que B̂ est
indépendant de S 2 .
Corollaire. Notons H = (X ′ X)−1 , diag(H) = (h0,0 , ..., hp,p ) les éléments de la diagonale de la matrice
H, σ 2 (B̂i ) = σ 2 hi,i et S 2 (B̂i ) = S 2 hi,i . Sous les hypothèses su modèle linéaire gaussien, on a les
propriétés suivantes :
– B̂i ∼ N (βi , σ 2 (B̂i ))
i
– B̂S(i −β
∼ Tn−p−1
B̂ )
i
Démonstration. Exercice
On peut utiliser ces résultats pour calculer des intervalles de confiance et faire des tests sur les
paramètres inconnus.
– Intervalle de confiance au niveau 1 − α pour βi :
[B̂i − tn−p−1,1−α/2 ∗ S(B̂i ), B̂i + tn−p−1,1−α/2 ∗ S(B̂i )]
– Intervalle de confiance au niveau 1 − α pour σ 2 :
[(n − p − 1)
Ŝ 2
, (n
χ2n−p−1,1−α/2
− p − 1)
Ŝ 2
]
χ2n−p−1,α/2
– Test de l’hypothèse :
H0 : βi = βi (0) contre H1 : βi =
6 βi (0)
avec βi (0) ∈ R fixé (en général, βi (0) = 0 : si H0 est acceptée, alors la ieme variable explicative n’a
−βi (0)
pas d’effet sur la réponse). On considère la statistique de test Tc = B̂iS(
. Sous H0 , Tc ∼ Tn−p−1 et
B̂i )
on accepte H0 , avec un risque de première espèce α fixé, si et seulement si |Tc | < tn−p−1,1−α/2 (i.e.
l’estimateur B̂i est "suffisamment" proche" de βi (0)).
– Test de l’hypothèse :
H0 : σ = σ0 contre H1 : σ 6= σ0
2
avec σ > 0 fixé. On considère la statistique de test X = (n − p − 1) Sσ2 . Sous H0 , X ∼ χ2n−p−1 et on
0
accepte H0 , avec un risque de première espèce α fixé, si et seulement si
χ2n−p−1,α/2 < X < χ2n−p−1,1−α/2 ((i.e. l’estimateur S 2 est "suffisamment" proche" de σ 2 ).
2
x̄2
Exemple. Si p = 1, alors σ 2 (B̂1 ) = Pn σ(xi −x̄)2 et σ 2 (B̂0 ) = σ 2 n1 + Pn (x
.
2
i −x̄)
i=1
i=1
Pour les données de températures à Brest, on peut obtenir les résultats avec R avec les commandes
suivantes (suite des commandes données précédemment) :
39
> summary(fit) #donne l’estimation des paramètres et les résultats des tests H0 : βi = 0 (stat de
test+p-values)
> confint(fit) #IC à 95% pour les paramètres du modèle
En exercice, on pourra retrouver ces résultats en utilisant les formules données dans le cours ci-dessus
(on pourra créer une fonction lm_perso qui rend des résultats similaires à la fonction lm).
On obtient s = 0.45 (estimation correspondant à S), puis les intervalles de confiance à 95% suivants
pour les différents paramètres :
– [0.016, 0.056] pour β1
– [−99.5, −21.1] pour β0
– [0.361, 0.616] pour σ
Ces résultats indiquent une augmentation comprise entre 1.6o et 6.16o par siècle. Pour vérifier qu’il
existe bien une tendance dans les températures observées, on peut également tester
H0 : β1 = 0 contre H1 : β1 6= 0
La statistique de test prend la valeur tc = 3.73. Pour un risque de première espèce α = 5%, on obtient le
quantile t28,97.5 = 2.05. On refuse donc H0 !
4.4
Prévision
Une application usuelle des modèles de régression est de prévoir la valeur prise par la réponse pour un
nouvel individu pour lequel on connaît les valeurs prises par les variables explicatives
X0 = (1, x0,1 , ...x0,p ). On suppose alors que la valeur prise par la réponse est une réalisation de la
variable aléatoire
Y0 = X0 β + W0
avec W0 ∝ N (0, σ 2 ) indépendante de (W1 , ..., Wn ).
La prévision naturelle est alors X0 β = β0 + β1 x0,1 + ... + βp x0,p que l’on estime par
Ŷ0 = B̂0 + B̂1 x0,1 + ... + B̂p x0,p = X0 B̂. Selon l’application considérée, on peut construire soit des
intervalles de confiance soit des intervalles de prédiction en utilisant la proposition suivante.
Proposition. Notons σ 2 (Ŷ0 ) = σ 2 X0 (X ′ X)−1 X0′ et S(Ŷ0 )2 = S 2 X0 (X ′ X)−1 X0′ . Sous les hypothèses
du modèle linéaire gaussien,
on a :
2
– Ŷ0 ∼ N X0 β, σ (Ŷ0 )
–
Ŷ0 −X0 β
S(Ŷ0 )
∼ Tn−p−1
Démonstration. Le premier point se déduit aisément de la relation Ŷ0 = X0 B̂ et des formules des
paragraphes précédents pour E[B̂] et var(B̂). On utilise ensuite l’indépendance entre B̂ et S.
Conséquences
– Intervalle de confiance pour E[Y0 ] = X0 β :
P [Ŷ0 + tn−p−1,α/2 S(Ŷ0 ) ≤ X0 β ≤ Ŷ0 + tn−p−1,1−α/2 S(Ŷ0 )] = 1 − α
– Intervalle de prédiction pour la valeur observée Y0 = X0 β + W0 avec W0 ∝ N (0, σ 2 ) indépendante
de (W1 , ..., Wn ). On peut montrer que (le faire en exercice) :
Ŷ0 − Y0
∼ Tn−p−1
S(Y0 )
avec S(Y0 )2 = S 2 + S(Ŷ0 )2 = S 2 (1 + X0 (X ′ X)−1 X0′ ). On en déduit (intervalle de prédiction au
niveau 1 − α) :
P [Ŷ0 + tn−p−1,α/2 S(Y0 ) ≤ Y0 ≤ Ŷ0 + tn−p−1,α/2 S(Y0 )] = 1 − α
40
16
14
10
12
predicted y
1980
2000
2020
2040
2060
2080
2100
new$x
Figure 6 – Températures annuelles moyennes à Brest, droite des moindres carrés (noir), intervalle de
confiance à 95% (–rouge) et intervalle de prédiction à 95% (...vert)
Exemple. Si p = 1, on obtient
2
S(Ŷ0 ) = S
2
1
(x0 − x̄)2
+ Pn
2
n
j=1 (xj − x̄)
!
On remarque donc que la largeur de l’intervalle de confiance est minimale pour x0 = x̄ puis croit avec la
distance entre x0 et x̄ : la prévision obtenue pour un individu "éloigné" de l’"individu moyen" est moins
précise que celle obtenue pour un individu "proche" de l’"individu moyen".
La figure 6 montre les résultats obtenus pour les données de température à Brest. L’intervalle de
confiance montre l’incertitude sur les coefficients de la droite des moindres carrés : avec une probabilité
de 95%, la "vraie" droite de régression se trouve dans l’intervalle de confiance à 95%. L’intervalle de
prédiction prend en compte en plus la variance des résidus : avec une probabilité de 95%, une nouvelle
réalisation du modèle se trouve dans l’intervalle de prédiction à 95%. Ces résultats ont été obtenus avec
les commandes ci-dessous (suite des commandes données précédemment) :
> new= data.frame(x = 1975 :2100) #horizon pour la prévision
> pred.w.plim <- predict(fit, new, interval="prediction") #intervalle de prédiction
> pred.w.plim
> pred.w.clim <- predict(fit, new, interval="confidence") #intervalle de confiance
> x2=new$x
> matplot(x2,cbind(pred.w.clim, pred.w.plim[,-1]),lty=c(1,2,2,3,3), type="l", ylab="predicted
y",col=c(’black’,’red’,’red’,’green’,’green’)) #representation graphique
> points(x,y,pch=23)
On en déduit par exemple les intervalles suivants pour la prévision en 2100 :
– IC à 95% : [12.97,17.30]
– IP à 95% : [12.65,17.49]
4.5
Analyse de la variance de la régression
On a vu précédemment comment tester l’hypothèse
41
Y
W0chapW Wchap
Ychap
Xβ
Y0chap
E
Figure 7 – Représentation des vecteurs Y , Ŷ , Ŷ0 , Ŵ , Ŵ0 = Y − Ŷ0 , Xβ et W
H0 : βi = 0 contre H1 : βi 6= 0
pour un coefficient quelconque i ∈ {0, ..., p}.
Plus généralement, l’analyse de la variance permet de tester une hypothèse de la forme
H0 : β1 = 0, β2 = 0, ..., βq = 0 contre H1 : ∃i ∈ {1...q}, βi 6= 0
ou encore plus généralement
H0 : Hβ = 0 contre H1 : Hβ 6= 0
avec H ∈ Mq,p+1 (R) une matrice de rang q ≤ p + 1 (on teste l’existence de q contraintes linéaires sur
les coefficients du modèle).
Notons alors E0 = {Xβ|β ∈ Rp+1 , Hβ = 0}. E0 est un sev de E = Im(X) = {Xβ|β ∈ Rp+1 } de
dimension p + 1 − q. On a vu que Ŷ = X B̂ est la projection orthogonale de Y sur E. Notons de même
Ŷ0 la projection orthogonale de Y sur E0 (attention : on utilise la même notation que dans le
paragraphe précédent pour une quantité différente). On a la proposition suivante :
Proposition. Si l’hypothèse H0 : Hβ = 0 est vraie, alors
2
Ŷ
−
Ŷ
0
n−p−1
Fc =
2 ∼ Fq,n−p−1
q
Y − Ŷ Démonstration. Supposons que H0 est vraie. Alors Xβ ∈ E0 , puis (cf Figure 7) :
– Y − Ŷ = πE ⊥ (W ). En effet,
W = Y − Xβ = (Y − Ŷ ) + (Ŷ − Xβ)
avec (Y − Ŷ ) = πE ⊥ (Y ) ∈ E ⊥ et (Ŷ − Xβ) ∈ E.
– Y − Ŷ0 = πE0⊥ (W ). En effet,
W = Y − Xβ = (Y − Ŷ0 ) + (Ŷ0 − Xβ)
avec (Y − Ŷ0 ) = πE0⊥ (Y ) ∈ E0⊥ et (Ŷ0 − Xβ) ∈ E0 puisque Ŷ0 = πE0 (Y ) ∈ E0 et Xβ ∈ E0 .
– Ŷ0 − Ŷ = πE˜0 (W ) avec Ẽ0 = E ∩ E0⊥ . En effet, on a
Rn = E ⊕⊥ E ⊥ = E0 ⊕⊥ E˜0 ⊕⊥ E ⊥
Soit x ∈ Rn , on a x = e0 + ẽ0 + f avec e0 = πE0 (x), ẽ0 = πE˜0 (x) et f = πE ⊥ (x). On en déduit
aisément que πE0⊥ (x) − πE ⊥ (x) = ẽ0 = πE˜0 (x).
42
D’après le théorème de Cochran, on a alors
– Ŷ0 −
Ŷ et Y2− Ŷ indépendants
1 – σ2 Ŷ − Ŷ0 ∼ χ2dim(Ẽ ) avec dim(Ẽ0 ) = q
0
2
– σ12 Y − Ŷ ∼ χ2dim(E ⊥ ) avec dim(E ⊥ ) = n − p − 1
On déduit aisément le résultat.
Application à la construction du test : on accepte H0 si et seulement si F ≤ f1−α,q,n−p−1 .
2
Intuitivement, on accepte H0 ssi Ŷ − Ŷ0 est suffisamment petit, c’est à dire si les projetés
orthogonaux de Y sur E et E0 sont proches (on perd peu d’information en projetant sur E0 au lieu de
projeter sur E).
Remarque.
1. On a Ŷ = Ŷ − Ŷ + Ŷ0 et Ŷ − Ŷ0 ⊥Ŷ0 (cf preuve précédente). Donc
2 2 2 0
Ŷ − Ŷ0 = Ŷ − Ŷ0 puis, d’après le théorème de Pythagore :
2 2
n − p − 1 Ŷ − Ŷ0 Fc =
2
q
Y − Ŷ 2. De même, la relation Y − Ŷ0 = (Y − Ŷ ) + (Ŷ − Ŷ0 ) et le théorème de Pythagore implique que
2 2
−
−
Ŷ
−
Ŷ
Y
Y
0
n−p−1
Fc =
2
q
Y − Ŷ Si on note 2
– SCres = Y − Ŷ la somme des carrés résiduels pour le modèle complet
2
– SCres0 = Y − Ŷ0 la somme des carrés résiduels le modèle réduit avec la contrainte Hβ = 0
alors on obtient
n − p − 1 SCres0 − SCres
Fc =
q
SCres
En général, on teste une hypothèse de la forme
H0 : β1 = 0, β2 = 0, ..., βq = 0
L’hypothèse H0 signifie que les q premières variables explicatives n’ont pas d’effet significatif sur la
réponse Y . Sous H0 , le modèle réduit se récrit :
Y = X0 β̃ + W
avec



X0 = 

1
1
..
.
x1,q+1
x2,q+1
..
.
...
...
..
.
x1,p
x2,p
..
.
1
xn,q+1
. . . xn,p





et β̃ = (β0 , βq+1 , ..., βp )′ . E0 est le sev engendré par les colonnes de la matrice X0 et la projection de Y
sur E0 est donnée par Ŷ0 = X0 (X0′ X0 )−1 X0′ Y . La statistique de test s’écrit
2
n − p − 1 Ŷ − Ŷ0 Fc =
2
q
Y − Ŷ 43
et sous H0 on a Fc ∼ Fq,n−p−1
Cas particulier 1. Test de l’hypothèse
H0 : β 1 = 0
On peut montrer qu’on retrouve le test de Student du paragraphe 4.3.2 (exercice).
Cas particulier 2. Test de l’hypothèse
H0 : β1 = 0, β2 = 0, ..., βp = 0
L’hypothèse H0 signifie qu’aucune variable explicative n’a d’effet sur la réponse. Sous H0 , on a
Yi = β0 + Wi , c’est à dire
(Y1 , ..., Yn ) ∼iid N (β0 , σ 2 )
Sous H0 , les observations proviennent d’un échantillon i.i.d d’une loi normale et ce cas particulier a été
étudié au paragraphe 3.4.
On a alors B̂0 = Ȳ , Ŷ0 = Ȳ e avec e = (1, ..., 1)′ puis
2
Ŷ
−
Ȳ
e
n−p−1
Fc =
2
p
Y − Ŷ Si H0 est vraie, alors Fc ∼ Fp,n−p−1 . Notons alors
2 Pn
– SCtot = Y − Ȳ e = i=1 (Yi − Ȳ )2 la somme des carrés totale.
2 P
n
– SCreg = Ŷ − Ȳ e = i=1 (Ŷi − Ȳ )2 la somme des carrés expliquée par la régression.
2 P
– SCres = Y − Ŷ = ni=1 (Yi − Ŷi )2 la somme des carrés résiduelle.
SC
reg
On a alors Fc = n−p−1
p
SCres .
Afin de mesurer la qualité du modèle, on utilise généralement le coefficient de détermination (ou
"coefficient de corrélation multiple")
R2 =
SCreg
SCtot
R2 représente la proportion de variation totale expliquée par le modèle et vérifie R2 = cos(θ)2 , avec θ
l’angle entre les vecteurs Y − Ȳ e et Ŷ − Ȳ e (cf figure 8). Si R2 est proche de 1, l’ajustement est bon
(Ŷ ≈ Y ). Par contre, si il est proche de 0, les variables explicatives apportent peu d’information sur la
réponse. Par ailleurs, d’après le théorème de Pythagore, on a la formule d’analyse de la variance :
SCtot = SCres + SCreg
2
R
et donc Fc = n−p−1
p
1−R2 .
On présente généralement le résultat du test d’analyse de la variance de la régression sous la forme d’un
tableau (cf Tab 3).
Source de
variation
Régression
Résiduelle
Totale
ddl
p
n-p-1
n-1
Somme des
carrés
P
screg = (ŷi − ȳ)2
P
scres = (yi − ŷi )2
P
sctot = (yi − ȳ)2
Moyenne des
carrés
sc
mcreg = preg
screg
mcreg = n−p−1
tot
mctot = sc
n−1
Table 3 – Tableau d’analyse de la variance
44
Fc
mcreg
mcres
Y
θ
Ybar*e
Ychap
E
Figure 8 – Représentation des vecteurs Y , Ŷ et Ȳ e
Exemple. Si p = 1, on peut montrer que R2 = r2 avec r le coefficient de corrélation usuel. Le test
ci-dessus peut alors être utilisé pour tester si la corrélation entre deux variables est significative (sous
les hypothèses du modèle linéaire gaussien !). Pour les données de température à Brest, la commande R
> summary(fit)
donne la valeur r2 = 0.3328 et la p-value du test d’analyse de la variance 0.0008462. On retrouve bien la
même p-value qu’avec le test de Student. Plus généralement, la commande anova permet de réaliser le
test d’analyse de la variance dans le cas général.
4.6
Sélection de modèle
On cherche à éliminer les variables explicatives qui n’apporte pas d’information sur la réponse. Ceci
permet de :
– diminuer le nombre de paramètres inconnus à estimer et donc "l’incertitude" dans le modèle. En
particulier, un modèle ajuster un modèle avec des variables "inutiles" conduit à des prévisions de
moins bonne qualité que celles obtenus avec un modèle contenant seulement les variables "utiles"
– obtenir un modèle plus facilement interprétable (cf exercice 4.4).
Deux grands types de méthodes sont couramment utilisées
– Méthodes exhaustives
– Méthodes pas à pas
4.6.1
Méthodes exhaustives
Le principe est simple : on choisit un critère permettant de mesurer la qualité d’un modèle, on calcule
ce critère pour tous les 2p modèles réduits possibles (i.e. les modèles obtenus en faisant l’hypothèse que
certains coefficients sont égaux à 0) et on sélectionne le "meilleur modèle". Différents critères existent
dans la littérature pour mesurer la qualité d’un modèle :
SC
qui mesure la proportion de variation totale expliquée par le modèle.
– Coefficient R2 = SCreg
tot
Problème : si le modèle 1 est un sous modèle du modèle 2, alors R22 ≥ R12 (car on projette sur un
espace plus grand) et ce critère sélectionne donc systématiquement le modèle complet.
SCres /n
res
– Coefficient du R2 ajusté : on peut réécrire R2 = 1 − SC
SCtot = 1 − SCtot /n avec
P
– SCnres = n1 (Yi − Ŷi )2 un estimateur biaisé de σ 2 la variance du résidu
P
– SCntot = (Yi − Ȳ )2 un estimateur biaisé de var(Y ).
On remplace alors ces estimateurs par les estimateurs non biaisés, et on définit le coefficient du R2
(n−1)R2 −p
res /(n−p−1)
2
2
ajusté par Raj
= 1 − SC
SCtot /(n−1) =
n−p−1 . Raj s’interprète comme la proportion de variance
expliquée par le modèle.
45
– Critère de log-vraisemblance pénalisée. Il semble naturel de sélectionner le modèle le plus
“vraisemblable”, la vraisemblance d’un modèle étant définie par L(θ̂) = p(y1 , ..., yn |θ̂) où L désigne la
fonction de vraisemblance et θ̂ l’estimateur du maximum de vraisemblance (cf paragraphe 4.3.1). A
nouveau, si le modèle 1 est un sous modèle du modèle 2 alors la vraisemblance du modèle 2 est
toujours plus grande que celle du modèle 1 (car on cherche le maximum sur un plus grand domaine).
On “pénalise” alors la vraisemblance par le nombre de paramètres. Deux critères sont couramment
utilisés :
– AIC = −2log(L(θ̂)) + 2npar avec npar le nombre de paramètres inconnus
– BIC = −2log(L(θ̂)) + log(n) ∗ npar avec n le nombre d’individus
Et on choisit le modèle pour lequel la valeur du AIC ou BIC est la plus faible. Lorsque log(n) > 2, la
pénalisation associée à BIC est plus importante que celle associée à AIC : BIC conduit donc à
sélectionner des modèles avec moins de paramètres.
– Mesure de la qualité prédictive d’un modèle. Pour de nombreuses applications, on cherche à
sélectionner le modèle qui donne les meilleurs prévisions. Différentes techniques peuvent être utilisées
pour mesurer la qualité prédictive d’un modèle :
– On coupe le jeu de données en 2 sous-échantillons, on estime les paramètres du modèle sur le
premier échantillon (phase d’apprentissage) puis on utilise le deuxième échantillon pour calculer
une erreur de prévision (généralement on calcule l’erreur quadratique moyenne de l’écart entre les
valeurs prédites par le modèle et les valeurs observées).
– La méthode précédente nécessite d’avoir de nombreux individus. Lorsque ce n’est pas le cas, on
peut utiliser la méthode de validation croisée. On réalise successivement les étapes ci-dessous
pour chaque individu :
– On enlève l’individu du jeu de données puis on estime les paramètres du modèles en utilisant
uniquement les autres individus
– On prévoit la valeur de l’individu enlevé à l’aide du modèle ajusté
On peut alors calculer une erreur de prévision.
2
sont spécifiques au modèle linéaire alors que les critères de
Remarque. Les critères du R2 et du Raj
log-vraisemblance pénalisée et ceux basés sur le calcul d’une erreur de prévision sont plus généraux et
sont couramment utilisés pour de nombreux modèles (modèles de régression, séries temporelles,...).
4.6.2
Méthodes pas à pas
Lorsque le nombre de variables p est important, on ne peut pas étudier tous les 2p sous modèles
possibles, et on peut utiliser une méthode pas à pas afin d’éviter une recherche exhaustive. Ces méthodes
permettent généralement de trouver un "bon" modèle mais pas forcément le "meilleur" modèle.
– Elimination en arrière (backward). La méthode est la suivante :
1. On ajuste le modèle complet, et on réalise les p tests de Student correspondant aux hypothèses
Hi : βi = 0 pour i ∈ {1...p}.
2. On vérifie si toutes les variables sont significatives (ie Hi refusée pour i ∈ {1...p}). Si c’est le cas,
on conserve le modèle complet.
3. Sinon, on enlève la variable la moins significative et on recommence avec le modèle réduit
jusqu’à ce que tous les tests soient significatifs. La "significativité" d’un variable est mesurée à
travers le niveau de signification (“p-value”) du test de Student.
– Sélection en avant (forward)
On fait la même chose en partant du modèle réduit avec tous les coeff nuls (sauf β0 ) et on ajoute
successivement les variables les plus significatives une à une.
La méthode d’élimination en avant est souvent plus économique puisqu’elle permet d’éviter de
travailler avec plus de variables que nécessaire. Un inconvénient est qu’une fois qu’une variable est
introduite, elle ne peut plus être éliminée et qu’on obtient donc parfois des modèles avec des variables
non significatives.
Ce problème est résolu avec la méthode stepwise.
46
– Méthode mixte (stepwise) C’est la méthode la plus couramment utilisée dans les logiciels. A
chaque itération de la méthode de sélection en avant, on effectue une étape d’élimination en arrière :
on vérifie si toutes les variables sont significatives, et le cas échéant on enlève celles qui ne le sont
successivement comme dans la méthode d’élimination en arrière.
4.7
Validation de modèle
On doit vérifier que les différentes hypothèses du modèle linéaire sont vérifiées. Pour cela, on regarde
principalement les résidus. En pratique, deux types de résidu sont généralement considérés :
– les résidus estimés : Ŵi = Yi − Ŷi
– les résidus standardisés : on a vu que Ŵ = (I − A)W avec A = X(X ′ X)−1 X ′ la matrice de
projection sur E. On a donc var(Ŵ ) = σ 2 (I − A) . Afin d’éliminer la non-homogénéité de la variance
des résidus estimés (var(Ŵi ) dépend de i), on considère souvent les résidus normalisés définis par
R̂i = √Ŵi .
S
1−ai,i
Différents graphiques peuvent être ensuite utilisés pour vérifier les différentes hypothèses du modèle
linéaire. Par exemple, avec le logiciel R :
– Graphique des résidus estimés (’Residuals’) Ŵi en fonction de la valeur prédite (’Fitted
values’) Ŷi : permet de vérifier la linéarité de la relation entre les variables.
Exercice 4.1. On considère le modèle quadratique
Yi = x2i + Wi
(W1 , ..., Wn ) ∼iid N (0, σ 2 ).
Simuler (x1 , ..., xn ) selon une loi N (0, 1). On prendra n = 100.
Simuler une réalisation (y1 , ..., yn ) du modèle et tracer le nuage de points. On prendra σ = 0.1.
Ajuster un modèle de régression linéaire simple puis représenter les résidus estimés Ŵi en
fonction de la valeur prédite Ŷi . Qu’observe t’on ?
– Droite de henry pour les résidus standardisés (’Standardized residuals’) R̂i : permet de
vérifier que les résidus sont approximativement gaussiens. Le principe de la droite de Henry est le
suivant : soit (Z1 , ..., Zn ) ∼iid N (µ, σ 2 ) et (z1 , ..., zn ) une réalisation de (Z1 , ..., Zn ). Notons F̂ la
fonction de répartition empirique de l’échantillon. D’après le théorème de Glivenko-Cantelli, on a
avec
1.
2.
3.
F̂ (Zi ) ≈ FZ (Zi ) = Φ(
Zi − µ
)
σ
avec Φ la fonction de répartition de la loi N (0, 1). On en déduit que Zi ≈ µ + σΦ−1 (F̂ (Zi )). On trace
alors le nuage de points (Φ−1 (F̂ (zi )), zi ). Si l’échantillon est gaussien, alors les points doivent être
proches de la droite d’équation y = µ + σx .
On peut également réaliser des tests de normalité (test de Kolmogorov-Smirnov , test Shapiro-Wilks
ou test du chi2 mais l’utilisation de ces tests n’est pas justifiée d’un point de vue théorique (les
résidus standardisés ne sont pas i.i.d. gaussiens sous les hypothèses du modèle.
Exercice 4.2. Simuler des échantillons iid de taille 1000 des lois suivantes
1. Loi N (0, 1).
2. Loi exponentielle de paramètre 1.
3. Loi de Student à 5 puis 100 degrés de liberté.
4. Loi du χ2 à 10 degrés de liberté.
Tracer la droite de
q Henry avec la fonction qqnorm et interpréter les résultats obtenus.
– Graphique de |R̂i | en fonction de la valeur prédite Ŷi : permet de vérifier
“l’homoscédasticité” des résidus.
Exercice 4.3. on considère le modèle hétéroscédastique (classique en économétrie : l’écart type du
résidu croit linéairement avec la variable explicative x) :
avec (W1 , ..., Wn ) ∼iid N (0, σ 2 )
Yi = β0 + β1 xi + |xi | × Wi
47
(4.1)
1. Simuler des réalisations de modèle et tracer le nuage de points. On simulera xi selon une loi
uniforme sur [0, 1] et on prendra σ = 0.1.
q
2. Ajuster un modèle de régression linéaire simple puis tracer tracer |R̂i | en fonction de la valeur
prédite Ŷi . Qu’observe t’on ?
3. Montrer que
β0
Wi
Yi
=
+ β1 +
xi
xi
xi
et en déduire une méthode pour ajuster le modèle (4.1)
Une transformation simple (ex y := log(y), y = y 2 permet parfois de rendre la relation entre les
variables plus conformes aux hypothèses du modèle linéaire.
4.8
Exercices sur le chapitre 4
Exercice 4.4. On considère dans cet exercice des données qui proviennent du Groupe d’Etude et de
Réflexion Inter-régional (GERI). Elles décrivent quatre grands thèmes : la démographie, l’emploi, la
fiscalité directe locale et la criminalité. Les indicateurs sont mesurés sur l’ensemble des départements
français métropolitains et la Corse (regroupée) pendant l’année 1990. Ils sont, pour la plupart, des taux
calculés relativement à la population totale du département concerné. Voici la liste des paramètres :
– identificateur : numéro du département
– identificateur : code du département
– identificateur : code de la région
– TXCR : taux de croissance de la population sur la période intercensitaire 1982-1990
– ETRA : part des étrangers dans la population totale
– JEUN : part des 0-19 ans dans la population totale
– AGE : part des plus de 65 ans dans la population totale
– CHOM : taux de chômage
– Parts de chaque profession et catégorie socio-professionnelle (PCS) dans la population active occupée
du département :
– AGRI : agriculteurs
– ARTI : artisans
– CADR : cadres supérieurs
– EMPL : employés
– OUVR : ouvriers
– PROF : professions intermédiaire
– FISC : produit, en francs constants 1990 et par habitant, des quatre taxes directes locales
(professionnelle, habitation, foncier bâti, foncier non bâti)
– CRIM : taux de criminalité : nombre de délits par habitant
– FE90 : taux de fécondité (pour 1000), égal au nombre de naissances rapporté au nombre de femmes
fécondes (15 à 49 ans) en moyenne triennale
Les données sont disponibles sur la page web du cours :
http ://pagesperso.univ-brest.fr/∼ailliot/M1EURIA.html
L’objectif de cet exercice est d’étudier la variable CRIM en fonction des autres variables.
1. Importer les données sous R et calculer la matrice de corrélation. Quelles sont les trois variables
les plus corrélées avec la variable CRIM ?
2. Réaliser une analyse en composantes principales (on pourra utiliser la fonction PCA du package
FactoMineR). Discuter les résultats obtenus en portant une attention spécifique à la variable
CRIM.
3. Ajuster un modèle de régression linéaire simple permettant d’expliquer la variable CRIM à partir
de la variable qui est la plus corrélée avec CRIM (on pourra utiliser la commande lm).
(a) Donner des estimations ponctuelles de la valeur des paramètres ainsi que des intervalles de
confiance à 95% (on pourra utiliser les commandes summary et confint).
48
(b) La variable considérée a t’elle un effet significatif sur le taux de criminalité ? On répondra à
l’aide d’un test statistique.
(c) Les hypothèses du modèle linéaire sont-elles réalistes pour le couple de variables considéré ?
4. Ajuster un modèle de régression linéaire multiple permettant d’expliquer la variable CRIM à partir
des autres variables. Le modèle est-il meilleur que le modèle de la question précédente ?
5. Sélection de modèle.
(a) Sélectionner le meilleur sous-modèle du modèle précédent "à la main" en déroulant
l’algorithme d’élimination en arrière.
(b) Sélectionner le meilleur sous-modèle du modèle précédent en utilisant la fonction regsubsets
du package leaps. Quel algorithme utilise cette fonction ? On comparera les résultats obtenus
avec différents critères vus en cours (bic, aic, R2 ajusté,...).
(c) Interpréter le modèle sélectionné.
Exercice 4.5. (examen 2012-2013) On considère dans cet exercice le jeu de données trees disponible
sous R. La commande R
? trees
permet d’obtenir un descriptif des données : la première colonne donne le diamètre des arbres, la
seconde colonne la hauteur et la troisième le volume. Ces variables sont notées respectivement Diam,
Hauteur et Vol dans la suite. Un forestier veut utiliser ces données pour établir une relation empirique
permettant d’estimer le volume d’un arbre (variable à expliquer) en fonction de son diamètre et de sa
hauteur (variables explicatives) qui sont des quantités plus faciles à mesurer en pratique. Le forestier
utilisait précédemment une formule de la forme
V ol = c ∗ Diama ∗ Hauteurb
(4.2)
avec c une constante numérique qui dépend du type d’arbre et les valeurs numériques a = 2 et b = 1.
REPRODUIRE SUR LA COPIE TOUTES LES COMMANDES R UTILISEES
1. (5 points) Exécuter sous R la commande
fit=lm( log(Volume) ∼ log(Height)+ log(Girth),data=trees)
(a) Décrire précisément le modèle ajusté par cette commande.
(b) Quel est le lien avec le modèle avec le modèle (4.2) ? Quelle estimation obtient-on pour les
coefficients c, a et b ?
(c) Dans la suite, on suppose que les hypothèses du modèle linéaire gaussien sont vérifiées.
Pourquoi fait-on ces hypothèses ? Est-ce qu’elles vous paraissent justifiées ?
(d) Donner des intervalles de confiance à 95% pour les paramètres c, a et b.
(e) Peut-on supposer que a = 2 ? On répondra à l’aide d’un test statistique en détaillant le
raisonnement. Peut-on supposer que b = 1 ? On répondra à l’aide d’un test statistique.
(f ) Le forestier vend son bois au prix de 3 euros par unité de volume (cubic ft). Combien
d’argent peut-il espérer gagner si il abat un arbre de longueur 85 f t et diamètre 20 inches ?
Exprimer le résultat sous la forme d’un intervalle de prédiction à 95%.
2. (2 points) Afin de simplifier la procédure, le forestier souhaiterait pouvoir estimer le volume et
donc le prix d’un arbre à partir de son diamètre uniquement (la hauteur est plus difficile à
mesurer). Proposer un modèle de régression permettant de répondre à cette attente du forestier et
comparer au modèle de la question précédente. Que conseillez-vous au forestier : doit-il continuer
à mesurer la hauteur des arbres pour en estimer le volume ?
3. (5 points) On considère dans cette question le modèle de régression linéaire gaussien (avec les
notations du cours)
Y = Xβ + W
avec p = 2 variables explicatives. On veut tester l’hypothèse suivante :
H0 : β1 = 2 ∗ β2 contre H1 : H0 n’est pas vérifiée.
49
(a) Montrer que l’hypothèse H0 est vraie si et seulement si Hβ = 0 avec H une matrice qu’on
explicitera.
(b) Quel est le rang de la matrice H ?
(c) On note E0 = {Xβ|Hβ = 0}. Montrer que E0 est un espace vectoriel dont on donnera la
dimension et on explicitera une base.
(d) On revient au modèle (4.2). Peut-on supposer que a = 2b ? On répondra à l’aide d’un test
statistique.
Exercice 4.6. (examen 2008)
Soit le modèle de régression linéaire :
Y = Xβ + ε avec ε ∼ N (0, σ 2 In ) , Y ∈ Rn , β ∈ Rp X ∈ Rn,p .
On considère les estimateurs linéaires pour β de la forme t = β̂ + v ′ Y , v ∈ Rn,p étant une matrice
(n × p) et β̂ ∈ Rp est l’estimateur des moindres carrés de β.
1. Rappeler la définition de β̂ et donner son expression. Quelle est le biais de cet estimateur ? Quelle
est la matrice de variance-covariance V ar(β̂) de cet estimateur ?
2. Montrer que t est un estimateur sans biais de β si et seulement si v ′ X = 0.
3. Montrer que Cov(β̂, v ′ Y ) = 0.
4. Calculer V ar(t). Quel résultat général peut-on alors énoncer sur la variance des estimateurs
linéaires sans biais de β ? Comparer avec le théorème de Gauss-Markov.
Exercice 4.7. (examen 2008) Les données utilisées dans cet exercice présentent le taux de décès par
attaque cardiaque chez les hommes de 55 à 59 ans dans différents pays. Les variables sont les suivantes :
– Y : 100*log(nombre de décès par crise cardiaque pour 100000 hommes de 55 à 59 ans).
– X1 : nombre de téléphones pour 1000 habitants.
– X2 : calories grasses en pourcentage du total de calories.
– X3 : calories protéines animales en pourcentage du total de calories.
Les données sont disponibles dans le tableau ci-dessous et également sur la page web du cours.
1. On cherche tout d’abord à expliquer la variable Y à partir de la variable X1 .
(a) Ecrire le modèle de régression linéaire correspondant en explicitant les différentes hypothèses
qui sont faîtes dans ce modèle.
(b) Représentez, à l’aide d’une graphe adapté, la relation entre les variables X1 et Y . Les
différentes hypothèses du modèle du régression linéaire vous semble-t-elle être vérifiée ?
(c) Donner une estimation des différents paramètres du modèle.
(d) La variable X1 a-t-elle un effet significatif sur la variable Y ? On répondra à l’aide d’un test
statistique.
(e) Discuter.
2. On cherche maintenant à expliquer la variable Y à partir des variables X1 et X2 .
(a) Ecrire le modèle de régression linéaire correspondant.
(b) Donner une estimation des différents paramètres du modèle.
(c) La variable X1 a-t-elle un effet significatif sur la variable Y dans ce modèle ? On répondra à
l’aide d’un test statistique.
(d) Discuter.
3. On cherche maintenant à expliquer la variable Y à partir des variables X1 , X2 et X3 .
(a) Ecrire le modèle de régression linéaire correspondant.
(b) Donner une estimation des différents paramètres du modèle.
(c) Ce modèle est-il meilleur que celui de la question précédente ?
(d) Discuter.
50
Pays
Australie
Autriche
Canada
Ceylan
Chili
Danemark
Finlande
France
Allemagne
Irlande
Israël
Italie
Japon
Mexique
Pays-Bas
Nouvelle-Zélande
Norvège
Portugal
Suède
Suisse
Grande Bretagne
Etats-Unis
Y
124
49
181
4
22
152
75
54
43
41
17
22
16
10
63
170
125
15
221
171
97
254
X1
33
31
38
17
20
39
30
29
35
31
23
21
8
23
37
40
38
25
39
33
38
39
X2
8
6
8
2
4
6
7
7
6
5
4
3
3
3
6
8
6
4
7
7
6
8
X3
81
55
80
24
78
52
52
45
50
69
66
45
24
43
38
72
41
38
52
52
66
89
Table 4 – Données relatives aux attaques cardiaques
5
Régression sur variables qualitatives
Pour de nombreuses applications, certaines variables explicatives sont qualitatives ou discrètes et on
doit alors adapter le modèle de régression linéaire. Le principe général consiste à recoder les variables
qualitatives via des indicatrices.
5.1
Une seule variable qualitative : analyse de la variance à un facteur
L’analyse de la variance (ANOVA) à un facteur permet d’étudier l’effet d’une variable qualitative
x = (x1 , ..., xn )′ sur une variable quantitative y = (y1 , ..., yn ). Exemples :
– L’engrais utilisé a t’il un effet sur la productivité d’un plant ?
– La sinistralité dépend t’elle de la catégorie socio-professionnelle de l’assuré ?
5.1.1
Le modèle
Pour simplifier les notations, on recode les modalités de la variable explicative de telle manière que
xi ∈ {1...p} avec p le nombre de modalités de la variable qualitative. La variable explicative segmente
alors les individus en p classes. Plus précisément, soit j ∈ {1, ..., p}. Notons
Pp
nj = card(k ∈ {1...n}|xk = j) le nombre d’observations dans le groupe j (on a alors n = j=1 nj ) et
re-numérotons les individus de telle manière que yi,j désigne la ième observation dans le groupe j et Yi,j
la variable aléatoire associée. On a alors un tableau de données de la forme :


Groupe 1 Groupe 2 . . . Groupe p


y1,1
y1,2
...
y1,p




y
y
.
.
.
y
2,1
2,2
2,p




..
..
..
..


.
.
.
.




yn1 ,1
yn2 ,2
...
ynp ,p
ȳ1
ȳ2
...
ȳp
51
Le modèle d’analyse de la variance à un facteur s’écrit alors
(5.1)
Yi,j = µj + Wi,j
avec µj l’espérance mathématique de la réponse dans le groupe j et Wi,j des résidus i.i.d. vérifiant
E[Wi,j ] = 0 et var(Wi,j ) = σ 2 (interprétation : µj = E[Y |X = j]).
Le modèle (5.1) peut se récrire, en posant µj = µ + αj , sous la forme :
(5.2)
Yi,j = µ + αj + Wi,j
avec µ l’effet “commun” aux différentes classes et αj “l’effet différentiel” du groupe j. Avec cette nouvelle
écriture, on a une infinité de manière d’écrire le modèle (5.1) (toute combinaison de (µ, α1 , ..., αp ) qui
vérifie µj = µ + αj pour j ∈ {1...p} convient), et afin que les paramètres (et donc les estimateurs) soient
définis de manière unique, on doit imposer des contraintes d’“identifiabilité” sur les coefficients .
Différents types de contraintes sont couramment considérées :
– µ = 0 : on obtient alors αj = µj et on retrouve donc le modèle (5.1).
– Contraintes
de type somme : P
Pp
p
–
α
=
0.
On a alors µ = 1p j=1 µj (moyenne des espérances) et αj = µj − µ (effet différentiel).
j
Pj=1
Pp
p
1
–
j=1 nj αj = 0. On a alors µ = n
j=1 nj µj (moyenne pondérée par le nombre d’individus) et
αj = µj − µ.
– Contraintes de type “cellule de référence” : α1 = 0. On a alors µ = µ1 et αj = µj − µ (différence
entre l’espérance de la classes j et la modalité de référence). Cette contrainte est couramment utilisée
par défaut par les logiciels (R, SAS). Elle choisit une modalité de référence, et rompt donc la symétrie
du modèle. Plus généralement, on peut supposer que αi = 0 pour i ∈ {1...p} fixé.
Si on reprend la numérotation simple des individus, on peut récrire le modèle d’analyse de la variance à
un facteur sous la forme d’un modèle linéaire
Yi = µ +
p
X
j=1
αj 1l{j} (xi ) + Wi
dans lequel intervient la variable qualitative est codée par p indicatrices. Sous forme matricielle on
obtient
Y = Xβ + W
avec β = (µ, α1 , ..., αp ),



X=

1
1
..
.
1l{1} (x1 )
1l{1} (x2 )
..
.
1l{2} (x1 )
1l{2} (x2 )
..
.
...
...
..
.
1l{p} (x1 )
1l{p} (x2 )
..
.
1 1l{1} (xn ) 1l{2} (xn ) . . . 1l{p} (xn )





La matrice correspondant aux p dernières colonnes de X est généralement appelé tableau disjonctif
associé à la variable x.
Le modèle de l’ANOVA à un facteur est donc un modèle de régression linéaire multiple particulier et on
peut utiliser les méthodes étudiées dans les chapitres précédents pour réaliser l’inférence statistique.
Cependant, la matrice X n’est pas de rang plein (elle est de rang p !), et la contrainte d’identifiabilité
permet de résoudre ce problème. En particulier :
– La contrainte µ = 0 (on a alors αj = µj ) revient à supprimer la première colonne de la matrice X.
– La contrainte αj = 0 revient à supprimer la colonne j + 1 de la matrice X.
Pp−1
Pp
– La contrainte j=1 αj = 0 revient à supposer que αp = − j=1 αj . On a alors
Yi = µ +
p−1
X
j=1
αj (1lj (xi ) − 1lp (xi ))
52
puis l’écriture matricielle
Y = X̃ β̃ + W
avec β̃ = (µ, α1 , ...αp−1 ),

1 1l{1} (x1 ) − 1l{p} (x1 )
 1 1l{1} (x2 ) − 1l{p} (x2 )

X̃ =  .
..
 ..
.
1
1l{2} (x1 ) − 1l{p} (x1 )
1l{2} (x2 ) − 1l{p} (x2 )
..
.
...
...
..
.
1l{p−1} (x1 ) − 1l{p} (x1 )
1l{p−1} (x2 ) − 1l{p} (x2 )
..
.
1l{1} (xn ) − 1l{p} (xn ) 1l{2} (xn ) − 1l{p} (xn ) . . . 1l{p−1} (xn ) − 1l{p} (xn )





avec X̃ de rang plein. P
– Idem pour la contrainte pj=1 nj αj = 0
5.1.2
Estimateur des moindres carrés
Pnj
Yi,j la moyenne empirique du groupe j.
Proposition. Notons Ȳj = n1j i=1
1. Sous la contrainte µ = 0, l’ estimateur des moindres carrés de αj = µj est α̂j = Ȳj
2. Sous la contrainte α1 = 0, l’ estimateur des moindres carrés de µ est µ̂ = Ȳ1 (moyenne de la
classe de référence) et l’ estimateur des moindres carrés de αj pour j > 1 est α̂j = Ȳj − Ȳ1
(différence entre la moyenne de la classe j et la moyenne de la classe de référence)
Pp
Pp
3. Sous la contrainte j=1 αj = 0, les estimateurs des moindres carrés sont µ̂ = p1 j=1 Ȳj et
α̂j = Ȳj − µ̂.
Pp
4. Sous la contrainte j=1 nj αj = 0, les estimateurs des moindres carrés sont
Pp
P
µ̂ = 1p j=1 nj Ȳj = n1
Yi = Ȳ et α̂j = Ȳj − µ̂.
Un estimateur sans biais de la variance du résidu est S 2 =
Pp
j=1
Pn j
i=1 (Yi,j −Ȳj )
2
n−p
Démonstration. Exercice
5.1.3
Test
On suppose en outre dans ce paragraphe que (W1 , ..., Wn ) ∼iid N (0, σ 2 ). On a alors
Yi,j ∼indep N (µj , σ 2 ) et donc en particulier (à vérifier en pratique !) que
– la variance est identique dans toutes les groupes
– les échantillons proviennent d’une loi normale dans chaque groupe
On peut alors tester l’hypothèse
H0 : µ1 = ... = µp = 0 contre H1 ∃i 6= j tel que µi 6= µj
L’hypothèse H0 signifie que l’espérance de la variable à expliquer est la même dans toutes les classes
(test de comparaison de plusieurs espérances), c’est à dire que la variable explicative n’a pas d’effet (en
moyenne) sur la variable à expliquer.
Sous H0 , le modèle s’écrit Yi = µ + Wi avec (W1 , ..., Wn ) ∼iid N (0, σ 2 ), et l’estimateur des moindres
carrés de µ est Ȳ . La statistique de test s’écrit donc
F =
(n − p)||Ŷ − Ŷ0 ||2
(p − 1)||Y − Ŷ ||2
avec (cf proposition précédente) :
– Ŷ = (Ŷ1 , ..., Ŷn )′ avec Ŷi = Ȳxi
– Ŷ0 = (Ȳ , ..., Ȳ )′
53
Finalement
F =
P
(n − p) pj=1 nj (Ȳi − Ȳ )2
Pp Pnj
(p − 1) j=1 i=1 (Yi,j − Ȳi )2
et si H0 est vérifiée, alors F ∼ Fp−1,n−p . On accepte donc H0 ssi F < fp−1,n−p,1−α .
Interprétation : le théorème de pythagore implique que
||Y − Ȳ ||2 = ||Y − Ŷ ||2 + ||Ŷ − Ŷ0 ||2
ce qui se récrit (formule “d’analyse de variance”)
p
nj
p
p
nj
1 XX
1X
1 XX
(Yi,j − Ȳ )2 =
(Yi,j − Ȳj )2
nj (Ȳi − Ȳ )2 +
n j=1 i=1
n j=1
n j=1 i=1
avecP
Pnj
(Yi,j − Ȳ )2 la variance totale
– n1 pj=1 i=1
P
p
1
– n j=1 nj (Ȳj − Ȳ )2 la variance inter-classe (variance expliquée par le facteur)
Pp Pnj
(Yi,j − Ȳj )2 la variance intra-classe (somme des variances résiduelles à l’intérieur des
– n1 j=1 i=1
groupes)
La statistique de test de l’ANOVA est donc basée sur le rapport entre la variance résiduelle et la
variance expliquée par le facteur : si ce rapport est petit, on accepte H0 , sinon on refuse H0 .
On présente généralement le résultat du test d’analyse de la variance à un facteur sous la forme du
tableau 5.
Source de
variation
Inter
Intra
Totale
ddl
p-1
n-p
n-1
Somme des
carrés
P
p
scinter = j=1 nj (ȳj − ȳ)2
Pp Pnj
scintra = j=1 i=1 (yi,j − ȳj )2
Pp Pnj
sctot = j=1 i=1
(yi,j − ȳ)2
Moyenne des
carrés
inter
mcinter = scp−1
scintra
mcintra = n−p
tot
mctot = sc
n−1
F
mcinter
mcintra
Table 5 – Tableau d’analyse de la variance à un facteur
5.2
Deux variables qualitatives : analyse de la variance à deux facteurs
L’analyse de la variance à 2 facteurs permet d’étudier l’impact de deux variables qualitatives
x1 = (x1,1 , ..., xn,1 )′ et x2 = (x1,2 , ..., xn,2 )′ sur une variable quantitative y = (y1 , ..., yn )′ .
5.2.1
Le modèle
Notons p [resp. q] le nombre de modalités de la variable qualitative x1 [resp x2 ]. On recode ces variables
de telle manière que xk,1 ∈ {1...p} et xk,2 ∈ {1...q}. Les variables qualitatives segmentent les
observations en p ∗ q classes. Notons alors ni,j = card (k ∈ {1...n}|xk,1 = i, xk,2 = j) le nombre
d’observations dans la classe (i, j). Renumérotons ensuite les individus de telle manière que yk,i,j
désigne la kième observation dans la classe (i, j) et Yk,i,j la variable aléatoire associée.
Le modèle d’analyse de la variance à deux facteurs s’écrit alors
Yk,i,j = µi,j + Wk,i,j
avec µi,j l’espérance mathématique de la réponse Y dans la classe (i, j) et
(Wi,j,k )i∈{1...p},j∈{1...q},k∈{1...ni,j } des résidus i.i.d. vérifiant E[Wi,j,k ] = 0 et var(Wi,j,k ) = σ 2 .
On peut récrire ce modèle sous la forme plus général :
Yk,i,j = µ + αi + βj + γi,j + Wk,i,j
54
avec un effet moyen µ, des effets différentiels αi selon la première variable, des effets différentiels βj
selon la deuxième variable et des termes d’interaction γi,j . On a alors
µi,j = µ + αi + βj + γi,j
et on doit imposer p + q + 1 contraintes pour que les paramètres soient identifiables. Les contraintes
classiques sont
– µ = 0, αi = 0 ∀i ∈ {1...p} et βj = 0 ∀j ∈ {1...q} (on a alors γi,j = µi,j et on retrouve le premier
modèle).
– Contrainte de type “cellule de référence” : α1 = 0, β1 = 0, γi,1 = 0 ∀i ∈ {1...p} et
γ1,j = 0 ∀j ∈ {1...q}. Cette contrainte
par défaut sous
Pq R.
Pp est utiliséeP
q
– Contrainte de type “somme” : i=1 αi = 0, j=1 βj = 0, j=1 γi,j = 0 ∀i ∈ {1...p} et
Pp
i=1 γi,j = 0 ∀j ∈ {1...q}
On peut récrire ce modèle sous la forme d’un modèle de régression linéaire multiple (avec la simple
numérotation initale) :
Yk = µ +
p
X
i=1
αi 1l{i} (xk,1 ) +
q
X
j=1
βj 1l{j} (xk,2 ) +
q
p X
X
i=1 j=1
γi,j 1l{i} (xk,1 )1l{j} (xk,2 ) + Wk
et donc utiliser les techniques des chapitres précédents pour l’inférence statistique.
Le modèle s’écrit sous la forme matricielle suivante :
Y = µe + X1 α + X2 β + X1,2 γ
avec e = (1, ..., 1)′ , X1 le tableau disjonctif associé à la variable x1 , α = (α1 , ..., αp )′ , X2 le tableau
disjonctif associé à la variable x2 , β = (β1 , ..., βq )′ , X1,2 la matrice de taille (n, p × q) de terme général
ak,(j−1)∗p+i = 1l{i} (xk,1 )1l{j} (xk,2 ) pour i ∈ {1...p} et j ∈ {1...q}, et γ = (γ1,1 , γ2,1 , ..., γp,1 , γ1,2 , ..., γp,q )′ .
On a également une écriture de la forme
Y = Xθ + W
′
′
′ ′
avec θ = (µ, α , β , γ ) et X = (e, X1 , X2 , X1,2 ) ∈ Mn,(p+1)(q+1) . Comme pour l’ANOVA à un facteur,
on peut facilement vérifier que la matrice X n’est pas de rang plein (elle est de rang p × q), mais elle le
devient avec les contraintes d’identifiabilité.
5.2.2
Test
On suppose en outre dans ce paragraphe que (W1 , ..., Wn ) ∼iid N (0, σ 2 ) (à vérifier en pratique !).
On peut utiliser le test de l’analyse de la variance (test de Fisher) pour tester des modèles réduits. On
commence généralement par tester la significativité de l’interaction, c’est à dire :
H0 : γi,j = 0 ∀i ∈ {1...p}, j ∈ {1...q} contre H1 : ∃i, j γi,j 6= 0
Sous H0 , le modèle réduit s’écrit donc
Yk,i,j = µ + αi + βj + Wk,i,j
On suppose donc que les effets des 2 variables sont additifs, et qu’il n’y a pas d’effet supplémentaire
induit par l’interaction entre les deux variables.
Si H0 est refusée, alors les deux variables ont un effet, et on peut pas supposer que les effets s’ajoutent.
Si H0 est acceptée, on teste si chacune des deux variables a un effet. Par exemple, pour la première
variable, on teste :
H0 : α1 = ... = αp = 0 contre H1 ∃i tel que αi 6= 0
55
Sous H0 , le modèle réduit s’écrit donc
Yk,i,j = µ + βj + Wk,i,j
On peut également tester la significativité de l’effet simultané des deux variables, c’est à dire
l’hypothèse :
H0 : α1 = ... = αp = β1 = ... = βq = 0 contre H1 ∃i tel que αi 6= 0 ou βi 6= 0
Remarques :
– On peut expliciter la statistique de test lorsque le plan d’expérience est "équilibrée" : ni,j = r pour
i ∈ {1...p} et j ∈ {1...q}.
– Généralisation : anova à plusieurs facteurs. Le principe est le même : on recode les variables
explicatives par des indicatrices, on rajoute éventuellement les interactions à 2, 3, ... facteurs et les
contraintes adaptées.
5.3
Mélange de variables quantitatives et qualitatives : analyse de la
covariance
On suppose dans ce paragraphe qu’on cherche à analyser l’effet simultané de 2 variables explicatives x
et z sur la réponse Y avec :
– x = (x1 , ..., xn ) une variable quantitative continue.
– z = (z1 , ..., zn ) une variable qualitative à p modalités.
5.3.1
Le modèle
Une démarche naturelle consiste alors à ajuster p modèles de régression, un pour chaque modalité de z.
Comme dans les paragraphes précédents, on suppose que zk ∈ {1, ..., p} et on note
P
nj = card (k ∈ {1...n}|zk = i) le nombre d’observations dans le groupe j (on a alors n = pj=1 nj ). On
re-numérote ensuite les individus de telle manière que yi,j désigne la ième observation dans le groupe j,
Yi,j la variable aléatoire associée et xi,j la valeur prise par la variable explicative. Le modèle d’analyse
de covariance s’écrit alors :
Yi,j = αj + γj xi,j + Wi,j
avec (αj , γj ) les paramètres du modèle de régression dans le groupe associé à la modalité j.
On peut aussi récrire le modèle en faisant apparaître une ordonnée à l’origine et une pente commune et
des effets différentiels, comme en analyse de la variance :
Yi,j = (α̃ + α̃j ) + (γ̃ + γ̃j )xi,j + Wi,j
Dans ce cas, il faut rajouter 2 contraintes d’identifiabilité (sous R, contrainte de type “cellule de
référence” : α̃1 = γ̃1 = 0).
Le modèle peut également se récrire sous la forme d’un modèle de régression linéaire multiple (en
revenant à la simple numérotation initiale) :
Yi =
p
X
j=1
(αj + γj xi )1l{j} (zi ) + Wi
et on peut donc utiliser les méthodes d’inférence statistique étudiées dans les chapitres précédents.
5.3.2
Test
En particulier, on peut utiliser l’analyse de la variance pour tester des modèles réduits. Ces tests sont
valides si (W1 , ..., Wn ) ∼iid N (0, σ 2 ) (à vérifier !).
Classiquement, on teste (selon l’application considérée) :
56
1. L’égalité des pentes .
H0 : γ1 = ... = γp = γ contre H1 : ∃i, j γi 6= γj
Sous H0 , le modèle sécrit donc
Yi,j = αj + γxi,j + Wi,j
Il n’y a alors plus d’"interaction" entre x et z.
2. L’égalité des ordonnées à l’origine
H0 : α1 = ... = αp = α contre H1 : ∃i, j αi 6= αj
Sous H0 , le modèle sécrit donc
Yi,j = α + γj xi,j + Wi,j
3. L’égalité des pentes et des ordonnées à l’origine :
H0 : α1 = ... = αp = α et γ1 = ... = γp = γ contre H1 : ∃i, j αi 6== αj ouγi 6== γj
Sous H0 , le modèle sécrit donc
Yi,j = α + γxi,j + Wi,j
Seule la variable x a alors un effet sur la réponse Y
5.4
Exercices sur le chapitre 5
Exercice 5.1. (examen 2007-2008)
On s’intéresse dans cet exercice à l’analyse de la variance à un facteur. On reprend les notations du
cours, et on cherche à démontrer certains résultats qui ont été admis dans le cours (il est donc interdit
d’utiliser les résultats du cours sur l’analyse de la variance à un facteur dans cet exercice).
On considère donc un ensemble de n observations réparties en p groupes. On note nj le nombre
d’observations
Pnj dans le groupe j, (y1,j , y2,j , ..., ynj ,j ) les observations dans le groupe j et
ȳj = n1j i=1
yi,j la moyenne empirique correspondante. On a alors n = n1 + n2 + ... + np .
A titre d’exemple, on considérera les données du tableau 6 qui décrivent la productivité de trois variétés
de blé (mesurée en tonnes par hectare) dans des conditions climatiques identiques. Pour chaque variété,
cinq observations ont été effectuées sur des lots de terre différents.
Variété
1
3
6
5
6
5
5
Moyenne
2
6
8
7
8
6
7
3
3
3
2
2
5
3
Table 6 – Productivité de trois variétés de blé
On suppose que les observations (y1,j , y2,j , ..., ynj ,j ) du groupe j sont des réalisations de variables
aléatoires (Y1,j , Y2,j , ..., Ynj ,j ) indépendantes qui suivent une même loi N (µj , σ 2 ). On supposera
également l’indépendance entre les différents groupes. L’objectif de l’analyse de la variance à un facteur
est de tester l’hypothèse :
H0 : µ1 = µ2 = ... = µp
contre l’hypothèse alternative :
H1 : ∃i 6= j tel que µi 6= µj
57
1
nj
Pnj
Yi,j . Montrer, en utilisant le théorème de Cochran, que Ȳj est une variable
2
Pnj
Yi,j − Ȳj
aléatoire gaussienne, dont on précisera les paramètres, indépendante de SCj = i=1
SC
et que σ2j suit une loi du χ2 dont on précisera le degré de liberté.
P
Pnj
2. On note Ȳ = n1 pj=1 i=1
Yi,j .
Pp
(a) Que représente Ȳ ? Montrer que Ȳ = n1 j=1 nj Ȳj .
Pp
Pp
(b) Montrer que SCent = j=1 nj (Ȳj − Ȳ )2 est indépendant de SCint = j=1 SCj .
1. On note Ȳj =
i=1
(c) Montrer que SCint suit une loi du χ2 dont on précisera le degré de liberté.
Pp Pnj
3. Montrer que SCent + SCint = SCtot avec SCtot = j=1 i=1
(Yi,j − Ȳ )2 . Comment peut-on
interpréter les quantités SCent , SCint et SCtot ?
√
4. On note Zj = nj Ȳj pour j ∈ {1...p}. Quelle est la loi de Zj ? Montrer que Z =t (Z1 , ..., Zp ) est
un vecteur gaussien dont on précisera les paramètres.
5. On suppose dans cette question que l’hypothèse H0 est vérifiée.
(a) Montrer, en utilisant le théorème de Cochran, que
le degré de liberté.
(b) En déduire que Fc =
n−p SCent
p−1 SCint
SCent
σ2
suit une loi du χ2 dont on précisera
suit une loi de Fisher à p − 1 et n − p degrés de liberté.
6. En déduire un test de l’hypothèse H0 basé sur la statistique de test Fc .
7. Application numérique : peut on supposer que les trois variétés de blé ont le même
rendement ? On fera l’application numérique avec R et on donnera les commandes utilisées.
Exercice 5.2. (examen 2010) Les données utilisées dans cet exercice concernent 237 enfants, décrits
par leur sexe, leur âge en mois, leur taille en inch (1 inch = 2.54 cm), et leur poids en livres (1 livre =
0.45 kg). Les données sont disponibles dans le fichier "enfants.dat" sur la page web du cours
1. On cherche tout d’abord à expliquer la variable "poids" à partir de la variable "âge" à l’aide d’un
modèle de régression linéaire simple.
(a) Ecrire le modèle de régression linéaire correspondant en explicitant les différentes hypothèses.
Ces différentes hypothèses vous semblent-elles être vérifiées pour les données considérées ici ?
(b) Donner une estimation des différents paramètres du modèle. La variable "âge" a-t-elle un
effet significatif sur la variable "poids" ? On répondra à l’aide d’un test statistique.
2. On cherche maintenant à expliquer la variable "poids" à partir de la variable "taille" à l’aide d’un
modèle de régression linéaire simple.
(a) Donner une estimation des différents paramètres du modèle.
(b) La variable "taille" a-t-elle un effet significatif sur la variable "poids" ? Ce modèle est-il
meilleur que celui de la question précédente ?
3. On cherche maintenant à expliquer la variable "poids" à partir des variables "âge" et "taille" à
l’aide d’un modèle de régression linéaire multiple.
(a) Décrire le modèle et donner une estimation des différents paramètres.
(b) Ce modèle est-il meilleur que celui des questions précédentes ?
4. La variable "sexe" a t’elle un effet sur la variable "poids" ? On décrira une méthode permettant de
répondre à cette question et on la mettra en oeuvre à l’aide de R.
5. Les variables "âge" et "sexe" ont-elles un effet simultané sur la variable "poids" ? On décrira une
méthode permettant de répondre à cette question et on la mettra en oeuvre à l’aide de R.
58
Exercice 5.3. On considère dans cet exercice des données qui décrivent les frais de santé d’un groupe
de salariés. Nous disposons, pour n = 17301 actes médicaux, des 6 variables suivantes :
– "MontantFraisReel" : montant des frais de santé en euros de l’acte médical
– "tranche_âge" : âge du patient
– "Sexe" : sexe du patient
– "Zone" : zone géographique de résidence
– "CSP" : catégorie socio-professionelle
– "NbEnfant" : nombre d’enfants de l’assuré
L’objectif de ce TD est d’analyser l’effet éventuel des différentes variables ("tranche_âge", “NbEnfant”,
"Zone", "Sexe", "CSP") sur le montant des frais de santé.
Les données sont disponibles sur la page web du cours.
1. Importation/nettoyage des données
(a) Importer les données à l’aide de la commande
>z=read.table("nonfichier.txt",header=TRUE) (l’option header=TRUE signale que la
première ligne du fichier contient le nom des variables)
(b) Taper la commande
>summary(z)
Avant de continuer l’analyse, on propose de “nettoyer” les données. Par exemple, on pourra
retirer les individus pour lesquels
– les frais de santé sont négatifs (on pourra par exemple utiliser les commandes
>ext=(z$MontantFraisReel>=0);
>z=z[ext,])
– le sexe prend la valeur ’0’
– la zone géographique est ’Etranger+Outre-Mer’ (faible effectif )
– l’âge est inférieur à 20 ans (faible effectif )
2. (a) Taper les commandes suivantes :
>attach(z)
>boxplot(MontantFraisReel∼Zone)
>fit=lm(MontantFraisReel∼Zone)
>summary(fit)
>plot(fit)
>anova(fit)
Quel est le modèle ajusté par ces commandes ? Est-ce que la zone géographique a un effet
significatif sur les frais de santé (on remplira un tableau d’analyse de la variance à 1
facteur) ? Dans quelle région les frais sont-ils les plus élevés/faibles ? Est-ce que les
différentes hypothèses du modèle de l’analyse de la variance à un facteur sont vérifiées ?
(b) Taper les commandes suivantes :
>fit=lm(MontantFraisReel∼Zone-1)
>summary(fit)
Quel est le modèle ajusté par ces commandes ? Comparer avec la question précédente (on
regardera en particulier la valeur du R2 ) et discuter les résultats obtenus.
(c) Taper les commandes suivantes :
>fit=lm(MontantFraisReel Zone,contrasts=list(Zone="contr.sum")) >summary(fit)
Quel est le modèle ajusté par ces commandes ? Comparer avec les question précédentes et
discuter les résultats obtenus.
(d) Taper les commandes suivantes :
>Zone3=relevel(Zone,ref="Nord-Ouest")
>fit=lm(MontantFraisReel∼Zone3)
>summary(fit)
Quel est le modèle ajusté par ces commandes ? Comparer avec les question précédentes et
discuter les résultats obtenus.
59
(e) Faire successivement des analyses de la variance à un facteur avec les autres variables
disponibles et discuter les résultats obtenus. Avec quel variable obtient-on le “meilleur”
modèle ?
3. Taper les commandes suivantes :
>fit=lm(MontantFraisReel∼tranche_âge+Sexe+Zone+CSP+NbEnfant)
>summary(fit)
>plot(fit)
Quel est le modèle ajusté par ces commandes ? Quelles variables ont un effet significatif sur les
frais de santé ? Est-ce que les différentes hypothèses permettant de réaliser l’inférence statistique
dans le modèle ajusté sont vérifiées ?
4. (a) Taper les commandes suivantes :
>fit1=lm(MontantFraisReel∼Zone+CSP+Zone*CSP)
>summary(fit1)
>fit2=lm(MontantFraisReel∼Zone+CSP)
>summary(fit2)
>fit3=lm(MontantFraisReel∼Zone:CSP)
>summary(fit3) >fit4=lm(MontantFraisReel∼Zone + Zone:CSP)
>summary(fit4)
Quel sont les modèles ajustés par ces commandes ? Quel est le meilleur modèle ?
(b) Taper les commandes suivantes :
>anova(fit2,fit1)
Quel test réalise cette commande ? On écrira les hypothèses correspondantes, la statistiqus de
test et la règles de décision. Quelle est la conclusion du test ? Interprétez les résultats obtenus.
(c) Reprendre les questions précédentes en remplaçant la variable "CSP" par la variable "SEXE"
5. Calculer, pour chaque adhérent, le montant total des frais ainsi que le nombre d’actes consommés.
Refaire les analyses précédentes en remplacant la variable “MontantFraisReel” par le montant total
des frais. On discutera également l’intérêt éventuel de remplacer le montant total des frais par son
logarithme.
6. Créer une variable numérique “age” qui prend les valeurs
– 25 si la variable “tranche_âge” prend la valeur ’[20,30[’
– 35 si la variable “tranche_âge” prend la valeur ’[30,40[’
– ...
(a) Taper les commandes :
> fit1=lm(MontantFraisReel∼tranche_âge)
> summary(fit1)
> fit2=lm(MontantFraisReel∼age)
> summary(fit2)
Quels sont les modèles ajustés par ces commandes ? Quel est le “meilleur” modèle ? Discuter.
(b) Taper les commandes :
> fit=lm(MontantFraisReel∼age*Zone)
> summary(fit)
> fit2=lm(MontantFraisReel∼age+Zone)
> summary(fit2)
> fit3=lm(MontantFraisReel∼age*Zone-Zone)
> summary(fit3)
> fit4=lm(MontantFraisReel∼age*Zone-Zone-1)
> summary(fit4)
> fit5=lm(MontantFraisReel∼age+age:Zone)
> summary(fit5)
Quels sont les modèles ajustés par ces commandes ? Quel est le “meilleur” modèle ? Discuter.
(c) Taper les commandes :
> anova(fit2,fit)
60
> anova(fit3,fit)
Quels sont les tests réalisés par ces commandes ? On écrira les hypothèses correspondantes,
les statistiques de test et les règles de décision. Interprétez les résultats obtenus.
7. Finalement, quelles sont les variables qui influent le plus sur les frais de santé ? Quel serait le
modèle que vous choisiriez afin d’expliquer/prévoir au mieux les frais de santé ? On pourra
répondre en s’appuyant sur les fonctions de sélection de modèle vues dans le TD précédent.
6
Introduction au modèle linéaire généralisé
Les modèles linéaires avec résidus gaussiens supposent en particulier que la variable à prédire est à
valeurs continues dans R tout entier. Ils ne sont donc pas adaptés pour modéliser des variables
qualitatives (par exemple à valeurs dans {Malade, Pas malade}), des variables à valeurs discrètes (par
exemple le nombre de sinistres à valeurs N) ou à valeurs dans un sous ensemble de R (par exemple le
montant des sinistres à valeurs dans R+ ). Voici quelques exemples d’utilisation des modèles GLM
(Generalized Linear Model) en actuariat :
– Tarification : les modèles GLM sont couramment utilisés pour analyser le nombre annuel (variable
discrète) et le montant (variable positive) des sinistres en fonction du profil de l’assuré (âge de
l’assuré, sexe, puissance du véhicule, âge du véhicule, taille du logement, métier...). Ceci peut
permettre d’adapter le tarif au profil de l’assuré, de mettre en place des systèmes de bonus-malus
adaptés (cf mémoire de A. Souleau en 2010),...
– Provisionnement : les GLM sont couramment utilisés pour modéliser les triangles de liquidation (cf
mémoires A. Goichon et C. Guillou en 2011)
– ...
Pour plus de détails sur les modèles GLM, on pourra consulter les livres suivants :
Dobson, A.J., Barnett, A.G., (2008), An Introduction to Generalized Linear Models, Chapman and
Hall/CRC ; 3nd edition.
de Jong, P., Heller G. Z., (2008), Generalized Linear Models for Insurance Data, Cambridge University
Press.
6.1
6.1.1
Modèles de régression pour variables qualitatives
Variables binaires : la régression logistique
L’objectif de la régression logistique est d’expliquer une variable binaire (par exemple réponse oui/non à
une question, achat ou non d’un produit donné, malade ou non, solvable ou non) à partir de variables
explicatives.
On supposera dans la suite que les p variables explicatives sont quantitatives. Le cas des variables
qualitatives se traite de la même manière que pour la régression linéaire (“recodage” via les
indicatrices). On note yi ∈ {0, 1} la valeur prise par la variable à expliquer pour le ième individu et Yi la
variable aléatoire associée.
Dans le modèle de régression logistique, on suppose que (Y1 , ..., Yn ) est un n-uplet de variables
aléatoires indépendantes et que Yi suit une loi de Bernoulli dont le paramètre dépend des variables
explicatives :
P [Yi = 1] = π(xi,1 , ..., xi,p )
Il faut ensuite choisir une forme paramétrique simple pour la fonction π(xi,1 , ..., xi,p ). En s’inspirant du
modèle de régression linéaire, on suppose alors que
g(π(xi,1 , ..., xi,p )) = β0 + β1 xi,1 + ... + βp xi,p
On appelle g : [0, 1] → R la fonction lien du modèle : elle permet de transformer le paramètre de la loi
de Bernoulli (qui est entre 0 et 1) en un paramètre variant entre −∞ et +∞. Généralement, on utilise
comme fonction lien la fonction logit définie ci-dessous (cf graphique 9) :
logit(u) = ln(
61
u
)
1−u
1.0
0.8
10
−10
0.6
0.0
−5
0.2
0.4
inverse logit
5
0
logit
0.0
0.2
0.4
0.6
0.8
1.0
−10
−5
0
5
10
Figure 9 – Fonction logit (à gauche) et inverse de la fonction logit (à droite)
La fonction logit est une bijection ]0, 1[→ R. C’est la fonction lien par défaut sous R mais d’autres
fonctions liens peuvent être considérées en utilisant l’argument family de la fonction glm. Dans le
modèle logistique, on a donc
P [Yi = 1]
= β0 + β1 xi,1 + ... + βp xi,p
ln
P [Yi = 0]
[Yi =1]
avec P
P [Yi =0] le rapport entre la probabilité de réussite et la probabilité d’échec (cote lors d’un pari,
“odds” en Anglais). On vérifie facilement que
P [Yi = 1] = π(xi,1 , ..., xi,p ) =
exp(β0 + β1 xi,1 + ... + βp xi,p )
1 + exp(β0 + β1 xi,1 + ... + βp xi,p )
Exercice 6.1. Tracer le graphe de π(x) avec R pour différentes valeurs de β0 et β1 dans le cas p = 1 et
proposer une interprétation de ces paramètres.
6.1.2
Une généralisation : la régression logistique multinomiale
Le modèle de régression logistique se généralise naturellement au modèle de régression logistique
multinomiale décrit ci-dessous. On s’intéresse au cas où la variable à prédire est à valeurs dans
{1...K}. La première étape consiste à choisir une modalité de référence (ici K), puis on suppose que
(1)
(1)
(1)
[Yi =1]
– log( PP[Y
) = β0 + β1 xi,1 + ... + βp xi,p
i =K]
(2)
(2)
(2)
[Yi =2]
) = β0 + β1 xi,2 + ... + βp xi,p
– log( PP[Y
i =K]
– ...
(K−1)
(K−1)
(K−1)
i =K−1]
– log( PP[Y[Y
) = β0
+ β1
xi,1 + ... + βp
xi,p
i =K]
(k)
avec {βj }j{0,...,p},k∈{1,...,K−1} des paramètres inconnus. De manière équivalente, on a
– P [Yi = 1] =
– ...
– P [Yi =
– P [Yi =
(1)
(1)
exp β0 +β1 xi,1 +...+βp(1) xi,p
(1)
(1)
(1)
(K−1)
(K−1)
(K−1)
1+exp β0 +β1 xi,1 +...+βp xi,p +...+exp β0
+β1
xi,1 +...+βp
xi,p
(K−1)
(K−1)
exp β0
+β1
xi,1 +...+βp(K−1) xi,p
K − 1] =
(1)
(1)
(1)
(K−1)
(K−1)
(K−1)
1+exp β0 +β1 xi,1 +...+βp xi,p +...+exp β0
+β1
xi,1 +...+βp
xi,p
1 K] =
(1)
(1)
(1)
(K−1)
(K−1)
(K−1)
1+exp β0 +β1 xi,1 +...+βp xi,p +...+exp β0
+β1
xi,1 +...+βp
xi,p
Il existe également des modèles spécifiques pour les variables qualitatives ordinales, c’est à dire lorsqu’il
existe un ordre naturel sur les modalités (par exemple la catégorie d’un sinistre {tué, blessé, pas blessé}
62
ou l’état de santé d’une personne {excellent, bon, moyen, pas bon}) : modèle probit, modèle
logistique cumulatif,...
6.2
Autres modèles linéaires généralisés
La structure générale d’un modèle GLM est shématisée ci-dessous :
1. Les réponses (y1 , ..., yn ) sont supposées être des réalisations de variables aléatoires (Y1 , ..., Yn )
indépendantes.
2. La loi de Yi est supposée appartenir à une famille de distribution dont les paramètres dépendent
des variables explicatives à travers une fonction lien. En actuariat les modèles les plus classiques
sont :
– Modèle GLM gaussien : on suppose que
Yi ∼ N µ(xi,1 , ..., xi,p ), σ 2
Ce modèle est couramment utilisé pour décrire les variables à valeurs réels et généralise le
modèle de régression linéaire gaussien vu dans les chapitres précédents.
– Modèle GLM Poisson : on suppose que
Yi ∼ P ois(λ(xi,1 , ..., xi,p ))
Ce modèle est couramment utilisé en actuariat pour décrire les variables à valeurs entières (par
exemple le nombre de sinistres ou l’âge de décès). On rappelle qu’une variable aléatoire Y à
valeurs dans N suit une loi de Poisson de paramètre λ si
P [Y = k] = exp(−λ)
λk
k!
On a alors E[Y ] = var(Y ) = λ : l’espérance et la variance d’une loi de Poisson sont égales, ce
qui peut être limitation de ces modèles (la dispersion est directement liée à la moyenne).
– Modèle GLM gamma : on suppose que
Yi ∼ γ(α, s(xi,1 , ..., xi,p ))
Ce modèle est couramment utilisé en actuariat pour décrire des variables à valeurs positives (par
exemple le montant des sinistres). On rappelle qu’une variable aléatoire Y à valeurs dans R+
suit une loi gamma de paramètres (α, s) si sa densité par rapport à la mesure de Lebesgue est
f (x; α, s) =
1
sα Γ(α)
x
xα−1 exp(− )1l]0,+∞[ (x)
s
Si X ∼ γ(α, s), alors E[X] = αs et var(X) = αs2 =
E[X]2
α
3. On choisit enfin une fonction lien g qui permet de lier les paramètres de la loi à une combinaison
linéaire des prédicteurs et on suppose que
g(E[Yi ]) = β0 + β1 xi,1 + ... + βp xi,p
A chaque famille de loi, un lien par défaut (lien "canonique") est proposé par R (taper la
commande ? family) :
– Modèle GLM gaussien. Le lien par défaut est la fonction identité (g(x) = x) et on retrouve
alors le modèle linéaire gaussien.
– Modèle GLM Poisson. La fonction lien canonique est la fonction log (modèle log-poisson).
On suppose alors que
log(E[Yi ]) = log(λ(xi,1 , ..., xi,p )) = β0 + β1 xi,1 + ... + βp xi,p
Comme var(Yi ) = E[Yi ], on obtient un modèle hétéroscédastique (la variance croit avec
l’espérance).
63
– Modèle GLM gamma. Le lien canonique est la fonction inverse g(x) = x1 . On suppose donc
que
1
1
=
= β0 + β1 xi,1 + ... + βp xi,p
E[Yi ]
αs(xi,1 , ..., xi,p )
(β +β x
+...+β x
)2
p i,p
et le modèle est hétéroscédastique. Un autre lien
On a alors var(Yi ) = 0 1 i,1 α
usuel est la fonction log qui donne des résultats généralement plus faciles à interpréter.
Exercice 6.2. Montrer que le modèle de régression logistique introduit au paragraphe précédent est un
modèle GLM dont on précisera les caractéristiques (fonction lien notamment).
Exercice 6.3. Vérifier que les fonctions lm et glm de R donnent des résultats équivalents lorsqu’on
ajuste un modèle GLM gaussien avec le lien canonique.
6.3
Inférence statistique
6.3.1
Estimation des paramètres
On estime généralement les paramètres inconnus θ en utilisant la méthode du maximum de
vraisemblance. D’après l’hypothèse d’indépendance, on a
L(θ) = p(y1 , ..., yn ; θ) =
n
Y
p(yi ; θ)
i=1
avec p(yi ; θ) la densité de la loi de Yi qui dépend de la famille paramétrique choisie (Bernoulli, Gamma,
Gaussien, Poisson, etc) ainsi que de la fonction lien. Par exemple, pour la régression logistique on a
p[yi ] = π(xi,1 , ..., xi,p )yi (1 − π(xi,1 , ..., xi,p ))1−yi
et la fonction de vraisemblance est donc donnée par
yi 1−yi
n Y
exp(β0 + β1 xi,1 + ... + βp xi,p )
exp(β0 + β1 xi,1 + ... + βp xi,p )
L(θ) =
1−
1 + exp(β0 + β1 xi,1 + ... + βp xi,p )
1 + exp(β0 + β1 xi,1 + ... + βp xi,p )
i=1
En général, il n’existe pas d’expression analytique pour la valeur de θ qui réalise le maximum de cette
fonction (estimateur du maximum de vraisemblance), mais des algorithmes d’optimisation standards
peuvent être utilisés. Comme c’est le cas pour de très nombreux modèles, les estimateurs du maximum
de vraisemblance ont de bonnes propriétés asymptotiques. Si on note θ̂n l’EMV de θ, on a
– Consistance : θ̂n →θ p.s. lorsque n → +∞
– Normalité asymptotique : (θ̂n − θ) ≈ N (0, Σ) lorsque n est "grand" avec Σ = I(θ)−1 et
I(θ) = − n1 E[l′′ (θ)] la matrice d’information de Fisher (l′′ désigne la matrice Hessienne de la
log-vraisemblance l(θ) = ln(L(θ)).
Cette dernière propriété fournit une approximation de la loi des estimateurs pour n grand ce qui permet
de :
1. Construire des intervalles de confiance pour la valeur des paramètres. On suppose alors que pour
n "grand" l’approximation suivante est valable
√
2
n(θ̂n (i) − θ(i)) ≈ N (0, σi,i
)
2
avec σi,i
le ième terme diagonal de la matrice Σ, puis on utilise les quantiles de la loi normale. La
fonction R confint permet de faire aisément les applications numériques.
2. Faire des tests sur la valeur des paramètres. On utilise la même approximation que ci-dessus et le
formalisme des tests. La fonction R summary donne les p-values des tests de l’hypothèse
H0 : βi = 0 pour i ∈ {0, ..., p}.
64
3. Plus généralement, on peut tester des hypothèses de la forme H0 : Hβ = r avec H ∈ Mq,p+1 (R)
une matrice de rang, q ≤ p + 1 et r ∈ Rq à l’aide du test du rapport de maximum vraisemblance
ou du test de Wald. La statistique du test du rapport de maximum vraisemblance est
X = 2(l̂ − l̃)
avec l̂ le maximum de la fonction de log-vraisemblance pour le modèle complet (i.e. sans contrainte
sur la valeur des coefficients) et l̃ le maximum de la fonction de log-vraisemblance pour le modèle
restreint (i.e. en imposant la contrainte Hβ = 0). Sous H0 , X suit une loi du χ2 à q degrés de
liberté et on accepte H0 avec un risque de première espèce α si et seulement si X ≤ χ2q,1−α .
Exercice 6.4. Ecrire une fonction R
testmlr =function(fit1,fit2)
qui prend en entrée le résultat de l’ajustement de deux modèles GLM emboités ( fit1 correspond au
plus petit modèle et fit2 au plus grand modèle) et rend la p-value du test du rapport du maximum
de vraisemblance.
4. Justifier l’utilisation des critères de log-vraisemblance pénalisée de type AIC/BIC pour faire de la
sélection de modèle. La fonction step permet de réaliser une sélection de modèle avec la méthode
stepwise et le critère AIC (cf exercice 6.5).
5. Construire des intervalles de prédiction lorsqu’on utilise le modèle pour faire de la prédiction. La
fonction predict de R permet de faire les calculs en pratique.
Quelques remarques pour ceux qui veulent aller plus loin :
– Le coefficient R2 permet de mesurer la qualité globale d’un modèle linéaire. L’utilisation de ce critère
n’est en général pas justifiée pour les modèles GLM. Dans ce cas, on utilise généralement la déviance
(cf sortie de R) qui est une mesure de la distance entre le modèle ajusté et le modèle "saturé". On
pourra consulter les ouvrages mentionnés en introduction de ce paragraphe pour une définition plus
précise de la déviance.
– La validation d’un modèle de régression linéaire gaussien repose principalement sur l’étude des
résidus empiriques (éventuellement standardisés) qui doivent ressembler à la réalisation d’un
échantillon gaussien i.i.d. Cette approche n’est plus valable pour les modèles GLM puisque ces
modèles ne sont pas basés sur des hypothèses de normalité des résidus. Plusieurs types de résidus
peuvent alors être définis pour les modèles GLM (taper ? residuals.glm dans la console de R) et des
graphiques spécifiques à chaque GLM/type de résidus peuvent être utilisés pour valider les
hypothèses (c’est à dire la loi paramétrique et le fonction lien choisie). Ceci nécessite d’avoir bien
compris la structure du modèle à valider.
6.4
Exercices sur le chapitre 6
Exercice 6.5. Cet exercice est la suite de l’exercice 5.3 du chapitre précédent sur les frais de santé. z2
dénote le jeu de données obtenu en cumulant les actes pour chaque adhérent (cf question 5 de l’exercice
5.3). Taper les commandes :
> fit=glm(Sexe∼age,family=binomial)
> summary(fit)
> fit=glm(Sexe∼CSP,family=binomial)
> summary(fit)
> fit=glm(CSP∼Sexe,family=binomial)
> summary(fit)
> fit=glm(NbEnfant∼Zone,family=poisson)
> summary(fit)
> fit=glm(NbEnfant∼Zone,family=gaussian)
> summary(fit)
> fit=glm(CSP∼Zone,family=gaussian)
> summary(fit)
> summary(fit <- glm(nbactes
., data = z2))
> selec <- step(fit)
65
> summary(selec)
> summary(fit <- glm(nbactes
.2̂, data = z2))
> selec <- step(fit)
> summary(selec)
Décrire précisément les modèles qui sont ajustés par ces commandes, donner la fonction de
vraisemblance, et interprétez les résultats obtenus.
Exercice 6.6. (examen 2008-2009) On rappelle qu’une variable aléatoire Y à valeurs dans N suit une
loi de Poisson de paramètre λ si elle vérifie, pour y ∈ N,
P [Y = y] = exp(−λ)
λy
y!
On a alors E[Y ] = var(Y ) = λ
1. On dispose de n observations (y1 , ..., yn ) qu’on suppose être une réalisation de n variables aléatoires
(Y1 , ..., Yn ) indépendantes et identiquement distribuées qui suivent une loi de Poisson de paramètre λ.
a. Donner les fonctions de vraisemblance et de log-vraisemblance associées à ce
modèle.
b. Quel est l’estimateur du maximum de vraisemblance ?
c. Calculer le biais et la variance de cet estimateur.
2. On se place maintenant de le cadre de la régression de Poisson : on suppose toujours que les
variables aléatoires (Y1 , ..., Yn ) sont indépendantes mais avec le paramètre de la loi de poisson qui
dépend de variables explicatives (x1 , ..., xp ). Plus précisément, on suppose que, pour i ∈ {1...n}, Yi suit
une loi de Poisson de paramètre
λ(xi,1 , ..., xi,p ) = exp(β0 + β1 xi,1 + ... + βp xi,p )
avec (xi,1 , ..., xi,p ) ∈ Rp les valeurs prises par les variables explicatives pour l’individu i et (β0 , ...βp ) des
paramètres inconnus.
a. Donner les fonctions de vraisemblance et de log-vraisemblance associées à ce
modèle.
b. Montrer que les estimateurs du maximum de vraisemblance vérifient un système
d’équations non-linéaires qu’on précisera.
Exercice 6.7.
1. Ecrire une fonction
simul_logit=function(X,beta)
qui permet de simuler des réalisations d’un modèle de régression logistique avec X la matrice
contenant les variables explicatives et beta les paramètres du modèle.
2. Simuler des réalisations du modèle dans le cas où il y a seulement un variable explicative (on
pourra simuler les valeurs prises par la variable explicative à l’aide d’une loi normale). Comment
peut-on interpréter les deux paramètres du modèle ?
3. Estimer les paramètres du modèle sur l’échantillon simulé à l’aide de la fonction glm.
Recommencer l’opération (simulation de la variable à expliquer puis estimation des paramètres)
plusieurs fois et en déduire une estimation du biais et de la variance des estimateurs (méthode de
Monte-Carlo). Les résultats obtenus sont-ils conformes à la théorie lorsque la taille de
l’échantillon est "grand" ?
4. Simuler une deuxième variable explicative (à l’aide d’une loi normale) et ajuster le modèle de
régression logistique avec les deux variables explicatives sur l’échantillon simulé en utilisant
seulement une variable explicative. Vérifier que les p-values des tests réalisés par la fonction glm
permettent bien de retrouver (dans la "plupart" des cas) que la deuxième variable n’a pas d’effet
sur la réponse.
66
5. Simuler une troisième variable explicative (à l’aide d’une loi normale) et ajuster le modèle de
régression logistique avec les trois variables explicatives sur l’échantillon simulé en utilisant
seulement une variable explicative. Vérifier qu’un test du rapport de vraisemblance (cf exercice
6.4) permet bien de retrouver (dans la "plupart" des cas) que deux des trois variables n’a pas
d’effet sur la réponse.
Exercice 6.8. (examen 2011-2012) On s’intéresse dans cet exercice aux données "car" disponibles à
l’adresse :
http ://www.afas.mq.edu.au/research/books/GLMsforInsuranceData/data_sets
1. Décrire rapidement le jeu de données : nombre de variables, nombre d’individus, nature des
variables. Pour quel type de calcul actuariel peut-on être amené à considérer ce type de données ?
Dans la suite, on note z le jeu de données importé sous R.
2. Que contient la variable nommée claimcst0 ? Pourquoi cette variable prend souvent la valeur 0 ?
Créer un nouveau jeu de données, nommé z2 dans la suite, qui contient uniquement les individus
pour lesquels la variable claimcst0 est strictement positive. On donnera les commandes R utilisées.
3. Les questions suivantes sont relatives au jeu de données z2.
(a) Combien d’individus contient le jeu de données z2 ?
(b) On note logclaimcst0 la variable obtenue en prenant le logarithme de la variable claimcst0.
Faire un histogramme des variables claimcst0 et logclaimcst0. Pourquoi peut-il être plus
intéressant de modéliser la variable logclaimcst0 que la variable claimcst0 dans le cadre d’un
modèle linéaire gaussien ?
(c) La variable gender a-t-elle un effet significatif sur la variable logclaimcst0 ? On répondra à
cette question en ajustant un modèle linéaire. On décrira précisément le modèle ajusté, les
commandes R utilisées et on discutera en détail les résultats numériques obtenus.
(d) La variable agecat a-t-elle un effet significatif sur la variable logclaimcst0 ? On répondra à
cette question en ajustant un modèle linéaire. On comparera les résultats obtenus en
considérant la variable agecat comme un variable quantitative puis une variable qualitative.
On décrira précisément les modèles ajustés, les commandes R utilisées et on discutera en
détail les résultats numériques obtenus.
(e) Ajuster un modèle de régression linéaire multiple avec interaction permettant d’expliquer la
variable logclaimcst0 en fonction des variables gender et agecat (considérée comme une
variable qualitative). Le modèle avec interaction est-il meilleur que le modèle sans
interaction ? On décrira précisément les modèles ajustés, les commandes R utilisées et on
discutera en détail les résultats numériques obtenus.
(f ) Ajuster un modèle de régression linéaire multiple permettant d’expliquer la variable
logclaimcst0 en fonction des variables veh_value, exposure,veh_body, veh_age, gender,
area et agecat. On décrira précisément le modèle ajusté, les commandes R utilisées et on
discutera en détail les résultats numériques obtenus. Est-ce que toutes les variables
explicatives ont un effet significatif sur la variable logclaimcst0 ?
(g) Proposer un sous-modèle du modèle ajusté dans la question précédente dans lequel toutes les
variables ont un effet significatif sur la variable logclaimcst0 et qui est "meilleur" que le
modèle complet. On décrira précisément les commandes R utilisées et on discutera en détail
les résultats numériques obtenus.
4. Les questions suivantes sont relatives au jeu de données initial z.
(a) Que contient la variable nommée clm ?
(b) La variable veh_value a-t-elle un effet significatif sur la variable clm ? On répondra à cette
question en ajustant un modèle linéaire généralisé approprié. On décrira précisément le
modèle ajusté, les commandes R utilisées et on discutera en détail les résultats numériques
obtenus.
(c) Ajuster un modèle de régression linéaire généralisé permettant d’expliquer la variable clm en
fonction des variables veh_value, exposure, veh_body, veh_age, gender, area et agecat. On
67
décrira précisément le modèle ajusté, les commandes R utilisées et on discutera en détail les
résultats numériques obtenus. Est-ce que toutes les variables explicatives ont un effet
significatif sur la variable clm ? Sinon, quelles variables proposez-vous de conserver dans le
modèle ?
Exercice 6.9. (examen 2015-2016)
On considère le modèle GLM poisson à une variable explicative x = (x1 , ..., xn ) avec la fonction lien ln.
On suppose dans cet exercice (avec les notations du cours) que β0 = 0 et β1 = 1. On supposera aussi
que n = 100 et que xi = 1/i pour i ∈ {1, ..., n}. On donnera toutes commandes R utilisées.
1. Ecrire un code R qui permet de simuler une réalisation (y1 , ..., yn ) du modèle.
2. En déduire une procédure permettant d’estimer le biais et la variance des estimateurs de β0 et β1 .
Discuter les résultats obtenus.
68
Téléchargement