Notes de cours sur les méthodes de régression
Support du cours pour les M1 EURIA
Année 2015-2016
1 Introduction aux méthodes de régression
L’objectif général de la régression est d’expliquer une variable Y, dite réponse, variable exogène ou
variable à expliquer, en fonction de pvariables X1, ..., Xp, dites variables explicatives ou endogènes. On
dispose d’observations de ces variables sur nindividus, c’est à dire d’un tableau de données de la forme :
y1x1,1x1,2... x1,p
y2x2,1x2,2... x2,p
.
.
..
.
..
.
..
.
..
.
.
ynxn,1xn,2... xn,p
Table 1 – Lignes : individus, Colonnes : variables
La première colonne est la variable à prédire à partir des variables explicatives données dans les p
dernières colonnes.
Les méthodes de régression sont couramment utilisées en actuariat. Deux exemples seront plus
précisément étudiés dans le cadre de ce cours :
Assurance dommage : les modèles de régression sont couramment utilisés pour prévoir la prime
pure d’un assuré en fonction de son profil. On cherche par exemple à prédire le nombre et les
montants des sinistres d’un assuré au cours d’une année en fonction de son sexe, son âge, son métier
(CSP), la région où il vit, etc afin d’adapter au mieux la tarification au profil de l’assuré...
Tables de mortalité : les tables de mortalités décrivent la démographie d’une population donnée,
typiquement le nombre Nx,t de survivants qui ont l’âge xl’année t. Les modèles de régression sont
couramment utilisés pour prévoir l’évolution future de la population et réaliser des tables de mortalité
prospectives. Ces tables prospectives sont utilisées pour de nombreux calculs actuariels en assurance
vie.
Triangles de liquidation des sinistres : en assurance dommages, selon les branches considérées,
les sinistres relatifs à un contrat sont constatés et payés plus ou moins longtemps après leur
survenance (jusqu’à 10 ans). On résume généralement les données disponibles dans un "triangle des
sinistres" qui décrivent les montant des sinistres survenus l’année iet réglés l’année comptable i+j.
La réglementation prudentielle impose aux compagnies d’assurance d’estimer la charge future des
sinistres afin de provisionner de quoi faire face à leurs engagements futurs ; la modélisation des
triangles de sinistre avec des modèles de régression permet de réaliser ces estimations.
Ces différentes variables peuvent être
quantitatives à valeurs continues (ex : âge, température, montant...)
quantitatives à valeurs discrètes, par exemple à valeurs binaires (ex : présence/absence d’une
maladie) ou entières (ex : nombre de sinistres)
qualitatives (ex : CSP, région, sexe).
1
La nature des variables conditionne fortement la méthode de régression utilisée :
dans le chapitre 4, toutes les variables sont supposées être quantitatives continues et on introduira la
régression linéaire multiple qui est une généralisation de la régression linéaire simple étudiée
en L3
dans le chapitre 5, on supposera toujours que la variable à expliquer est quantitative continue, mais
on autorisera certaines variables explicatives à être qualitatives ou quantitatives discrètes et on
introduira l’analyse de la variance et l’analyse de la covariance
enfin, les modèles linéaires généralisés (GLM), abordés dans le chapitre 6, permettent de
généraliser les modèles de régression linéaire lorsque la variable à expliquer est qualitative ou discrète.
Les chapitres 2 et 3 sont des rappels des cours de L3 et sont des pré-requis de ce cours. Le chapitre 2
rappelle certaines notions essentielles du cours de statistique : estimation, intervalle de confiance, test
statistique, méthode du maximum de vraisemblance,... Le chapitre 3 rappelle certaines propriétés des
vecteurs gaussiens et des projections orthogonales. Ce sont les principaux outils mathématiques utilisés
dans les démonstrations des chapitres 4 et 5.
2 Introduction à la statistique inférentielle
Pour plus de détails, on pourra consulter les ouvrages suivants :
Husson F. et Pagès J. (2005), Statistiques générales pour utilisateurs. 2 - Exercices et corrigés, Presses
Universitaires de Rennes.
Knight, K. (1999), Mathematical Statistics, Chapman and Hall.
Pagès J. (2005), Statistiques générales pour utilisateurs. 1 - Méthodologie, Presses Universitaires de
Rennes.
Saporta, G. (2006), Probabilités, analyses des données et statistiques, Editions Technip, 2e édition.
2.1 Introduction
Les exemples ci-dessous serviront à illustrer ce chapitre :
Exemple 1 : contrôle de qualité. Un client commande à son fournisseur un lot de 10000
thermomètres. Afin de tester la qualité des thermomètres, le client en choisit 20 au hasard et les
plonge dans un liquide à 20 degrés. Il obtient les résultats suivants :
20.2, 20.4, 20.1, 19.9, 19.7, 20, 20.5, 19.9, 19.9, 20.1, 20.4, 20.6, 20, 19.8, 20.3, 19.6, 19.8, 20.1, 20.3, 20
Que peut-on en déduire sur la qualité des thermomètres ? Est-ce qu’ils donnent la bonne température
en moyenne ? Avec quelle précision ?
Exemple 2 : sondage. Afin d’estimer les intentions de vote lors du deuxième tour d’une élection
présidentielle, un institut réalise un sondage. Sur 1000 personnes interrogées au hasard, 520 pensent
voter pour le candidat A et 480 pour le candidat B. Que peut-on en déduire sur les intentions de vote
dans la population française ? Avec quelle précision le sondage effectué permet t’il d’estimer le
pourcentage d’intention de vote en faveur du candidat A ? Peut on déduire de ce sondage, avec une
certaine confiance, que à la date du sondage le candidat A est en tête ?
Exemple 3 : efficacité d’un médicament en médecine. Afin d’étudier l’effet d’un nouveau
médicament en vue de réduire la tension artérielle, on a mesuré la tension (en mm de Hg) sur 12
patients avant et après traitement. Les valeurs suivantes ont été obtenues :
Avant 200 174 198 170 179 182 193 209 185 155 169 210
Après 191 170 177 167 159 151 176 183 159 145 146 177
Peut-on conclure que ce médicament réduit la tension artérielle ?
2
2.2 Modélisation
On dispose donc de nobservations notées (x1, ..., xn)Rn(cf exemples ci-dessus). On va supposer tout
d’abord que ces observations sont une réalisation d’une expérience aléatoire, c’est à dire qu’il existe des
variables aléatoires réelles (v.a.r.) (X1, ..., Xn)définies sur un espace probabilisé (Ω,F,P)telles que
(x1, ..., xn) = (X1(ω), ..., Xn(ω)) avec ω.
Ceci permet de modéliser l’aléatoire qui est généralement présente dans le recueil des données. Par
exemple, dans les exemples introduits ci-dessus :
Exemples 1,2 et 3 : dans ces 3 exemples, les individus considérés sont choisis au hasard parmi un
grand nombre d’individus. Si on recommence l’expérience, il y a de fortes chances qu’on choisisse
d’autres individus et qu’on obtienne des résultats différents : le résultat de l’expérience est donc bien
"aléatoire".
Exemples 1 et 3 : après avoir choisi les individus, on réalise des mesures qui peuvent être sujettes à
des erreurs expérimentales. Ceci rajoute de l’incertitude aux résultats obtenus.
On fait ensuite des hypothèses sur la loi de probabilité du n-uplet (X1, ..., Xn).Dans le cadre de ce
chapitre, on supposera que ce sont des variables aléatoires indépendantes et identiquement
distribuées (i.i.d). Il s’agit du cadre le plus simple, mais cette hypothèse n’est pas toujours réaliste :
Lorsqu’on considère des phénomènes indexés par le temps (cf cours M2 sur les séries temporelles),
l’hypothèse d’indépendance n’est généralement pas vérifiée. Par exemple, si (x1, x2, ..., xn)désigne le
cours d’un produit financier pendant njours successifs, alors on ne peut généralement pas supposée
que les observations successives xiet xi+1 proviennent de variables aléatoires indépendantes.
Lorsque l’on cherche à prédire une variable (variable à expliquer) à partir d’autres variables (variables
explicatives), on suppose généralement que la loi de la variable à expliquer dépend des variables
explicatives. L’hypothèse “identiquement distribuée” n’est plus vérifiée. Ce sera la cas dans les
modèles de régression étudiés dans les chapitres suivants.
Définition. On appelle n-échantillon d’une loi de probabilité Pune suite (X1, ..., Xn)de v.a. i.i.d. qui
suivent le loi de probabilité P. On notera X1, ..., Xniid P
On va ensuite supposer, dans ce chapitre, que la loi de probabilité commune de X1,X2, ..., Xnest un
loi de probabilité qui dépend d’un paramètre inconnu θΘavec ΘRk(“statistique paramétrique”
par opposition à “statistique non paramétrique”). On notera alors
X1, ..., Xniid Pθ
Par exemple, on supposera souvent que
X1, ..., Xniid N(µ, σ2)
avec N(µ, σ2)la loi normale d’espérance µet de variance σ2. On parle alors d’échantillon gaussien. Le
paramètre inconnu est θ= (µ, σ)R×R+.
On cherche alors à estimer θà partir des observations disponibles (x1, ..., xn).
Définition. Soit (X1, ..., Xn)un n-échantillon d’une loi Pθ. Un estimateur du paramètre inconnu θ
est une variable aléatoire T=g(X1, ..., Xn)qui s’exprime en fonction de (X1, ..., Xn). Une estimation
de θest alors la valeur numérique prise par cette statistique sur une réalisation particulière (x1, ..., xn),
c’est à dire la quantité t=g(x1, ..., xn).
Exemple et définition. Prenons l’exemple 1 sur la qualité des thermomètres. On suppose à nouveau
que (x1, ..., xn)est une réalisation d’un échantillon (X1, ..., Xn). La qualité des thermomètres est
partiellement crite par les paramètres inconnus µ=E[Xi](si les thermomètres sont de bonne qualité,
alors ils devraient fournir la bonne température en moyenne, c’est à dire qu’on devrait avoir µ= 20) et
3
σ2=var[Xi](qui renseigne sur la dispersion de mesures autour de la valeur moyenne : si σ= 0 alors
tous les thermomètres donnent la même valeur µalors que si σest grand, les thermomètres indiquent
des températures très différentes et sont donc de mauvaise qualité).
Un estimateur usuel de µest alors la moyenne empirique définie par
¯
X=X1+... +Xn
n
Un estimateur usuel de σ2est la variance empirique définie par
S2=Pn
i=1 X2
i
n¯
X2=1
n
n
X
i=1
(Xi¯
X)2
Les estimations correspondantes sont notées ¯x=x1+...+xn
net s2=Pn
i=1 x2
i
n¯x2. Ici on obtient
¯x= 20.08oet s= 0.2657o. Les thermomètres semblent donc indiquer une température légèrement
supérieur à 200, mais on peut se demander si cette différence est significative étant donné la faible taille
de l’échantillon (20 thermomètres seulement) et la forte variabili entre les thermomètres. Les
intervalles de confiances et les test statistiques vus dans la suite de ce cours permettront de répondre à
cette question.
Exemple et définition. Prenons l’exemple 2 du sondage sur les intentions de vote lors d’une élection
avec deux candidats (notés A et B). Le paramètre inconnu est la proportion πd’intentions de vote en
faveur de B dans la population totale. Pour estimer cette quantité, on sonde 1000 personnes choisies au
hasard, et on code les résultats de la manière suivante :
xi= 0 si la ième personne sondée pense voter pour A
xi= 1 si la ième personne sondée pense voter pour B
On suppose que (x1, ..., xn)est une réalisation d’un échantillon (X1, ..., Xn)d’une loi de Bernoulli et le
paramètre inconnu θ=π=P[Xi= 1] est le paramètre de cette loi de Bernoulli. L’expérience aléatoire
consiste ici à choisir les 1000 personnes au hasard et de manière indépendante dans la "population
totale". Un estimateur "naturel" de πest alors la fréquence empirique Fde 1dans la séquence
(X1, ..., Xn), c’est à dire :
F=card{i∈ {1...n}|Xi= 1}
n=Pn
i=1 Xi
n
On retrouve un cas particulier de l’exemple précédent puisque π=E[Xi]et Fest la moyenne empirique
de l’échantillon. Supposons que lors du sondage, on trouve que 480 personnes pensent voter en faveur du
candidat B (i.e. 480 "1" dans la série (x1, ..., xn)). Une estimation de πest alors
f=card{i∈ {1...n}|xi= 1}
n=Pn
i=1 xi
n= 0.48
Remarque. Dans la suite du cours, les variables aléatoires (par exemple Xi,F,S) sont notées avec
des lettres majuscules, les observations (xi) et les estimations (f,s) avec des lettres minuscules. Les
paramètres inconnus sont notés avec des lettres grecques (par exemple π,µ,σ).
2.3 La méthode du maximum de vraisemblance
La fonction de vraisemblance définie ci-dessous joue un le fondamental en statistique.
Définition. Si la loi de probabilité du vecteur aléatoire (X1, ..., Xn)admet une densité f(x1, ..., xn;θ)
par rapport à une mesure dominante, alors on appelle fonction de vraisemblance la fonction de θ
définie par
L(θ;x1, ..., xn) = f(x1, ..., xn;θ)
4
Dans le cas des échantillons i.i.d., la loi de probabilité jointe de (X1, ..., Xn)admet une densité (par
rapport à la mesure produit) dès que la loi marginale de Xiadmet une densité f(xi;θ)et on a alors
L(θ;x1, ..., xn) =
n
Y
i=1
f(xi;θ)
En pratique :
Lorsque les Xisont des variables aléatoires discrètes, alors on considère la densité par rapport à la
mesure de comptage et f(xi;θ) = Pθ[Xi=xi].L(θ;x1, ..., xn)s’interprète alors directement comme la
probabilité ou "vraisemblance" d’observer (x1, ..., xn)lorsque θest la vraie valeur du paramètre.
La plupart des lois usuelles pour les variables aléatoires continues (loi normale, loi log-normale, loi
gamma,...) sont définies par leurs densités f(xi;θ)par-rapport à la mesure de Lebesgue et la fonction
de vraisemblance s’exprime à partir de ces densités.
On appelle fonction de log-vraisemblance la quantité :
l(θ;x1, ..., xn) = ln(L(θ;x1, ..., xn))
La méthode du maximum de vraisemblance consiste alors, étant donnée une réalisation (x1, ..., xn)d’un
échantillon de loi Pθ, à prendre comme estimation tde θune valeur de θ(si elle existe...) qui rend
maximale la fonction de vraisemblance
θL(θ;x1, ..., xn)
On notera t=h(x1, ..., xn) = argmaxθΘL(θ;x1, ..., xn). L’estimateur du maximum de
vraisemblance (EMV) est alors l’estimateur T=h(X1, ..., Xn).
Remarque. En pratique, on travaille souvent avec la fonction de log-vraisemblance qui est plus simple
à manipuler (le passage au log permet de transformer le produit en somme). Pour certaines lois usuelles
(loi de Bernoulli, loi de Poisson, loi Exponentielle, loi normale) , une étude de fonction (calcul des
dérivés premières et éventuellement seconde, tableau de variation,...) permet de trouver le maximum de
l. Lorsque ce n’est pas possible, une méthode d’optimisation numérique est utilisée. Avec R, on peut par
exemple utiliser la fonction fitdistr du package MASS.
Exemple. Si (X1, ..., Xn)est un échantillon d’une loi de Bernoulli de paramètre θ=π, alors
1π si xi= 0
Pπ(Xi=xi) =
π si xi= 1
Ceci se réécrit sous la forme
Pπ(Xi=xi) = πxi(1 π)1xipour xi∈ {0,1}
Soit (x1, ..., xn)∈ {0,1}nune réalisation de (X1, ..., Xn). La vraisemblance est donnée par
L(π;x1, ..., xn) =
n
Y
i=1
Pπ(Xi=xi)
=
n
Y
i=1
πxi(1 π)1xi
=πPn
i=1 xi(1 π)nPn
i=1 xi
On en déduit que
l(π;x1, ..., xn) = ln(π)
n
X
i=1
xi+ln(1 π)(n
n
X
i=1
xi)
5
1 / 68 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !