Principes généraux : ajustement, maximum de

publicité
Principes généraux : ajustement, maximum de
vraisemblance, inférence, sélection de modèles
Vincent Calcagno, [email protected]
12 février 2013
0.1 Vraisemblance d'un modèle
Toute hypothèse biologique peut se formuler par un modèle mathématique,
plus ou moins compliqué. Pour expliquer un jeu de données observé, on a besoin
d'un modèle qui fabrique ce type de jeu de données. A partir de la valeur d'un
paramètres, il pourra donc fournir la probabilité d'observer un
jeu de données particulier. C'est en ça que va consister la base de l'ajustement
certain nombre de
d'un modèle à nos données : il va falloir calculer la probabilité d'observer le
jeu de données que l'on a, avec le modèle que l'on utilise. Cette probabilité est
appelée la
vraisemblance
du modèle.
Pour qu'un modèle puisse produire des probabilités, il faut qu'il soit
tique
stochas-
: pour une combinaison de paramètres donnés, l'issue du modèle est aléa-
toire, reètant la variabilité du processus. Or, souvent, les modèles que l'on
utilise dans nos raisonnements ne sont pas stochastiques, mais déterministes :
ils retournent une seule valeur non aléatoire (par exemple
y = ax + b).
Pour
attacher une probabilité aux jeux de données, on doit donc rajouter une description de la variabilité, en spéciant une distribution qui décrit le bruit autour de la valeur prédite par le modèle. On appelle souvent cette distribution la
fonction d'erreur. Ce type de modèle (déterministe dans une enveloppe
stochastique) est courant car il permet de décrire des eets biologiques par de
simples relations déterministes, tout en autorisant une variabilité du processus.
La plupart du temps, lorsque l'on a pas d'idée particulière sur cette fonction
d'erreur, on supposera qu'elle suit une distribution normale, avec un certain
écart type (que l'on doit alors estimer aussi : c'est un
paramètre de nuisance ) 1 .
Parfois, on choisira plutôt une distribution log-normale, ou encore de Poisson.
En résumé, un modèle statistique est un modèle qui, quelle que soit sa structure, peut générer une probabilité d'observer notre jeu de données particulier.
On appelle vraisemblance du modèle cette probabilité.
Si
D est notre jeu de données et M
M pour les données D est :
notre modèle, alors la vraisemblance du
modèle
L(M ) ≡ p (D|M )
(1)
1. Ceci justie au passage la méthode des moindres carrés dans le cadre de la théorie du
maximum de vraisemblance.
1
Jeux de données
Fréquence
...ATGGCATAC...
...ATGCCATAC...
Paramètres
...ATGGAATAC...
Modèle
...ATTGTCTAC...
...ATGGTXTAC...
Mon jeu de données
...
Figure 1 Un modèle fournit, à partir de paramètres, des jeux de données. Tous
les jeux de données possibles sont générés avec une certaines probabilité, et la
probabilité de notre jeu de données (réel) est sa
vraisemblance. La vraisemblance
est donc une probabilité, pour un modèle donné, sur l'ensemble des jeux de
données possibles (la somme des vraisemblances fait 1). En revanche, ce n'est
PAS
une probabilité, pour un jeu de données particulier, sur l'ensemble des
modèles possibles.
0.2 Ajuster un modèle
Disposant d'un jeu de données et d'un modèle, on va pouvoir
modèle aux données. Pour être clair, je noterai
M
ajuster
le modèle et
notre
M (i)
une
paramétrisation de ce modèle (càd des valeurs particulières pour ses paramètres).
Ajuster un modèle
sation
M (i)
M
à un jeu de données
D va consister à choisir une paramétri-
parmi toutes celles qui sont possibles. On dit alors que l'on
estime
les paramètres à partir du jeu de données.
L'approche la plus générale pour faire ce choix est celle dite du maximum de
vraisemblance. En clair, on va retenir la les paramètres î qui maximisent L(M (i))
sur notre jeu de données. Cette approche, introduite par R. A. Fisher, propose
donc de retenir le modèle qui a le plus de chances de produire le jeu de données.
Notez que ce critère est tout à fait défendable et compréhensible, mais que rien
2
ne garantit qu'il soit le "`meilleur"' . Les valeurs de paramètres qui maximisent
la vraisemblance sont appelés
estimateurs de maximum de vraisemblance.
La
représentation de la vraisemblance sur toutes les paramétrisations possibles est
souvent appelée
surface de vraisemblance.
Cette "`surface"' a évidemment un
nombre de dimensions égal au nombre de paramètres du modèle biologique que
l'on considère. Il se peut que la vraisemblance soit maximisée par plusieurs
paramétrisations distinctes, ce qui signie que les données sont ambigues et
surparamétré, ou que certains paramètres sont non identiables : certaines paramétri-
ne permettent pas de trancher. Cela signie souvent que le modèle est
sations ne peuvent pas être discriminées sur le critère de vraisemblance.
Trouver ainsi la meilleure combinaison de paramètres est appelé faire de
2. De fait, les estimateurs de maximum de vraisemblance sont biaisés dans certains cas (un
exemple célèbre est celui de l'estimation d'une variance) et d'autres estimateurs peuvent avoir
de meilleures propriétés.
2
inférence ponctuelle.
l'
En pratique, maximiser la vraisemblance n'est pas tou-
jours simple. De fait, la plupart des méthodes stats classiques (parfois compliquées) que vous avez pu apprendre sont des ruses qui ont été élaborées pour
simplier la tâche dans certains cas particuliers.
0.3 Incertitude quant à l'ajustement
L'étape suivante de l'ajustement consiste à dénir notre certitude quant à
la valeur de nos paramètres. Autour du maximum de vraisemblance, la surface
de vraisemblance va s'aaisser plus ou moins rapidement. Plus l'aaissement
est rapide, plus les estimateurs de maximum de vraisemblance sont
précis
(plus
petite est notre incertitude quant à la valeur réelle des paramètres). De façon
très générale, plus la taille d'échantillon est grande, plus brutale est la chute de
la vraisemblance quand on s'éloigne du maximum.
Il est important de quantier ce degré de certitude. C'est ce que visent à faire
les
intervalles de conance.
A l'inverse de la paramétrisation la plus vraisem-
blable, on peut exclure l'ensemble de celles qui ne sont PAS vraisemblables,
c'est à dire qui produiraient le jeu de données observé (ou plus extrême) moins
de
α%
du temps (typiquement 95%). Une méthode générale pour délimiter ces
intervalles de conance est celle du
prol de vraisemblance. Elle peut être lourde
à mettre en oeuvre, et les méthodes classiques de construction des intervalles de
conance en sont des approximations plus simples.
Attention, les diverses méthodes ne donneront pas exactement les mêmes
intervalles... sauf dans les cas simples et quand la taille d'échantillon devient très
grande ! Elles peuvent aussi diérer par leur performance, et cette performance
elle même peut dépendre de la valeur des paramètres ! En général, on souhaite
construire des intervalles qui ont une bonne
couverture
(c'est à dire que le
3
α
réalisé est proche de la valeur requise) et qui sont le plus court possible .
0.4 Goodness-of-t : mon modèle est-il acceptable ?
tester l'hypothèse que notre
test d'ajustement ). Concrètement, l'hypothèse
Un autre usage de la vraisemblance consiste à
modèle décrit bien les données (
"`nulle"' est constituée par notre modèle statistique, et l'on cherchera à savoir si
les données s'écartent
signicativement des prédictions du modèle. Cela s'énonce :
"`quelle est la probabilité d'observer des jeux de données qui soient au moins
aussi éloignés de la prédiction que celui que l'on observe ?"'. Et, mathématiquement, cela revient à faire la somme des probabilités d'observer tous les jeux de
données dont la probabilité d'être observés est inférieure ou égale à notre jeu
de données. En plus court, si cette dernière probabilité est
P, i
est notre jeu de
3. Elles supposent souvent que la surface de vraisemblance a une forme gaussienne. Elles
peuvent aussi faire appel au bootstrap ou jacknife, des méthodes qui perturbent le jeu de
données. Au passage, notons que la plupart des calculs mentionnés dans cette section sont
dans les faits conduits sur la log-vraisemblance, égale à −log(L(M (i)))
3
données et
Li (M )
la probabilité qu'il soit observé sous notre modèle, alors :
P =
X
Lj (M )
pour les
j tq Lj (M ) ≤ Li (M )
(2)
j
Cette probabilité est la "`p-value"', et son interprétation passe par des critères
dénis par l'usage collectif, comme le "`seuil de signicativité"' à 0.05.
appelé
P
est aussi
risque de première espèce. Notons que dans ce genre de test, l'hypothèse
alternative n'est pas spéciée : elle représente l'ensemble de tous les autres
modèles. Le risque de seconde espèce ne peut donc être déni...
0.5 Théorème de Bayes
Une autre façon d'utiliser la vraisemblance exploite le théorème de Bayes. La
dénition des probabilités conditionnelles nous conduit facilement à la relation
(entraînez-vous à la trouver) :
L(M (i))
p(M
(k))L(M (k))
k
p (M (i)|D) = p (M (i)) P
(3)
On reconnaît dans cette équation les vraisemblances des diérents modèles, dont
on vient de discuter. On y trouve aussi
M (i),
D.
et
p (M (i)|D),
p(M (i)), qui est la probabilité du modèle
M (i) sachant les données
qui est la probabilité du modèle
probabilité postérieure (posterior/inverse
Bayésiennes,
qui connaissent une popularité croissante. p (M (i)) est alors appelée prior probability. Dans ce contexte on interprète les probabilités comme des "`niveaux de
Cette dernière probabilité est appelée
probability). Elle est le fondement des méthodes statistiques dites
conance"', c'est à dire que la probabilité d'un modèle est conçue comme sa
"`plausibilité"' aux yeux du scientique. Le prior représente donc le jugement a
priori du scientique, fondé sur son intuition et sur les données préalablement
accumulées. Et le posterior représente son jugement a posteriori, tel qu'il est
modié par les données qu'il vient d'analyser. C'est la probabilité postérieure
que l'on cherche alors à maximiser, et c'est la largeur de sa distribution qui sert
à quantier notre incertitude. Comme ceci donne quelque chose d'assez diérent
intervalle crédible.
d'un intervalle de conance, on parle alors d'
L'avantage de cette méthode est qu'elle semble plus intuitive et plus proche
du fonctionnement de la pensée scientique. En revanche, elle s'écarte de la
dénition fréquentiste d'une probabilité (à savoir le nombre d'occurrences d'un
évènement sur un grand nombre d'essais), alors que la vraisemblance, bien que
moins intuitive, s'inscrit directement dans ce cadre. Remarquons que dans bien
des cas, approches de maximum de vraisemblance et Bayésiennes donnent des
résultats équivalents.
0.6 Confronter plusieurs modèles et choisir
Finalement, lorsque l'on dispose de
plusieurs
modèles biologiques, et que
l'on veut choisir celui qui décrit le mieux notre jeu de données, comment faire ?
4
Figure 2 La complexité d'un modèle et le compromis entre biais et incertitude.
On commence bien sûr par ajuster chacun des modèles, comme indiqué dans
la sous-section précédente. Pour chacun d'entre eux, on pourra ainsi obtenir sa
vraisemblance maximale.
La façon la plus directe de comparer les modèles biologiques est alors de
comparer leurs vraisemblances maximales. Le meilleur modèle sera celui dont la
vraisemblance est la plus grande. Cette méthode fonctionne parfaitement si les
modèles ont le même nombre de paramètres. En revanche, si les modèles ont des
nombres de paramètres diérents, alors les modèles ayant le plus grand nombre
de paramètres seront systématiquement avantagés. En eet, au plus il y a de
paramètres, au mieux on pourra décrire les données.
Il faut donc trouver un moyen de pénaliser les modèles les plus paramétrés
pour compenser l'augmentation "`inévitable"' de leur vraisemblance. Ceci répond
à un principe de parcimonie, et vise à optimiser le compromis entre biais et incertitude (Fig. 2) : plus un modèle a de paramètres, moins les estimateurs sont
biaisés, mais plus ils sont imprécis (car on a moins de données par paramètre). Il
y a donc des dangers à la fois à prendre un modèle trop simple (sous-paramètré)
ou trop compliqué (sur-paramètré). . .
Il y a deux grandes approches. La première ne peut s'appliquer qu'aux modèles dits
emboîtés. Un modèle est emboîté dans un autre si il peut s'écrire comme
un cas particulier de ce dernier. En d'autres termes si son espace de paramètres
est un sous-espace de l'espace de paramètres de l'autre modèle. Dans ce cas, on
peut utiliser le
Si
Mi
test du rapport de vraisemblance.
est emboîté dans
Mj ,
et que
Mi
a
n
paramètres de moins que
Mj ,
alors :
L̂(Mj )
L̂(Mi )
On dira que
Mj
,→ χ2n
ddl
Mi si la probabilité qu'une
n degrés de liberté prenne une valeur supérieure
vraisemblances est inférieure à α, notre seuil de
est signicativement meilleur que
variable suivant une loi du
χ2
à
ou égale à celle du rapport des
(4)
5
signicativité.
Lorsque les modèles à comparer ne sont pas emboîtés, et de manière générale
quand on a un grand nombre de modèles à confronter, on préfèrera une approche
de sélection de modèle basée sur la
critère d'Akaike
sur le
théorie de l'information, comme celles basées
(AIC). Sans entrer dans les détails (voir la lecture con-
seillée), on associera à chaque modèle
Mi
la quantité :
AICi = −2log(L̂(Mi )) + 2Ki
où
Ki
est le nombre de paramètres du modèle
Mi .
alors de retenir le modèle ayant la valeur d'AIC
(5)
La règle de décision sera
la plus faible.
Concluons en
disant qu'il existe divers ranements de l'AIC, et que le même type de critère a
été développé en utilisant la probabilité postérieure au lieu de la vraisemblance
(BIC. . .).
0.7 Incertitude quant au choix du modèle...
Parfois, plusieurs modèles statistiques (par exemple un qui inclut seulement
un eet linéaire pour une variable, et un autre qui inclut aussi un eet quadratique) présentent un ajustement satisfaisant aux données, sans que l'un d'eux
soit clairement meilleur. Dans ce cas, de la même façon que l'on rapporte un
intervalle de conance pour un paramètre (et pas seulement son estimation
ponctuelle), il peut être souhaitable de rapporter cette
modèle.
incertitude de choix du
On présente alors un ensemble de modèles (avec par exemple leurs
valeurs d'AIC respectives).
Au lieu d'utiliser seulement le meilleur modèle, il est possible de tous les
utiliser, en les combinant, de façon à obtenir un consensus, une moyenne, des
diérents modèles. C'est ce que l'on appelle la technique du
model-averaging,
qui peut notamment améliorer la qualité des prédictions et la couverture des
intervalles de conance.
Lectures conseillées
The lady tasting tea. 2001
Model Selection and Multi-Model Inference: A
Practical Information-Theoretic. 2004
D. Salsburg.
Burnham & Anderson
6
Téléchargement