Principes généraux : ajustement, maximum de vraisemblance, inférence, sélection de modèles Vincent Calcagno, [email protected] 12 février 2013 0.1 Vraisemblance d'un modèle Toute hypothèse biologique peut se formuler par un modèle mathématique, plus ou moins compliqué. Pour expliquer un jeu de données observé, on a besoin d'un modèle qui fabrique ce type de jeu de données. A partir de la valeur d'un paramètres, il pourra donc fournir la probabilité d'observer un jeu de données particulier. C'est en ça que va consister la base de l'ajustement certain nombre de d'un modèle à nos données : il va falloir calculer la probabilité d'observer le jeu de données que l'on a, avec le modèle que l'on utilise. Cette probabilité est appelée la vraisemblance du modèle. Pour qu'un modèle puisse produire des probabilités, il faut qu'il soit tique stochas- : pour une combinaison de paramètres donnés, l'issue du modèle est aléa- toire, reètant la variabilité du processus. Or, souvent, les modèles que l'on utilise dans nos raisonnements ne sont pas stochastiques, mais déterministes : ils retournent une seule valeur non aléatoire (par exemple y = ax + b). Pour attacher une probabilité aux jeux de données, on doit donc rajouter une description de la variabilité, en spéciant une distribution qui décrit le bruit autour de la valeur prédite par le modèle. On appelle souvent cette distribution la fonction d'erreur. Ce type de modèle (déterministe dans une enveloppe stochastique) est courant car il permet de décrire des eets biologiques par de simples relations déterministes, tout en autorisant une variabilité du processus. La plupart du temps, lorsque l'on a pas d'idée particulière sur cette fonction d'erreur, on supposera qu'elle suit une distribution normale, avec un certain écart type (que l'on doit alors estimer aussi : c'est un paramètre de nuisance ) 1 . Parfois, on choisira plutôt une distribution log-normale, ou encore de Poisson. En résumé, un modèle statistique est un modèle qui, quelle que soit sa structure, peut générer une probabilité d'observer notre jeu de données particulier. On appelle vraisemblance du modèle cette probabilité. Si D est notre jeu de données et M M pour les données D est : notre modèle, alors la vraisemblance du modèle L(M ) ≡ p (D|M ) (1) 1. Ceci justie au passage la méthode des moindres carrés dans le cadre de la théorie du maximum de vraisemblance. 1 Jeux de données Fréquence ...ATGGCATAC... ...ATGCCATAC... Paramètres ...ATGGAATAC... Modèle ...ATTGTCTAC... ...ATGGTXTAC... Mon jeu de données ... Figure 1 Un modèle fournit, à partir de paramètres, des jeux de données. Tous les jeux de données possibles sont générés avec une certaines probabilité, et la probabilité de notre jeu de données (réel) est sa vraisemblance. La vraisemblance est donc une probabilité, pour un modèle donné, sur l'ensemble des jeux de données possibles (la somme des vraisemblances fait 1). En revanche, ce n'est PAS une probabilité, pour un jeu de données particulier, sur l'ensemble des modèles possibles. 0.2 Ajuster un modèle Disposant d'un jeu de données et d'un modèle, on va pouvoir modèle aux données. Pour être clair, je noterai M ajuster le modèle et notre M (i) une paramétrisation de ce modèle (càd des valeurs particulières pour ses paramètres). Ajuster un modèle sation M (i) M à un jeu de données D va consister à choisir une paramétri- parmi toutes celles qui sont possibles. On dit alors que l'on estime les paramètres à partir du jeu de données. L'approche la plus générale pour faire ce choix est celle dite du maximum de vraisemblance. En clair, on va retenir la les paramètres î qui maximisent L(M (i)) sur notre jeu de données. Cette approche, introduite par R. A. Fisher, propose donc de retenir le modèle qui a le plus de chances de produire le jeu de données. Notez que ce critère est tout à fait défendable et compréhensible, mais que rien 2 ne garantit qu'il soit le "`meilleur"' . Les valeurs de paramètres qui maximisent la vraisemblance sont appelés estimateurs de maximum de vraisemblance. La représentation de la vraisemblance sur toutes les paramétrisations possibles est souvent appelée surface de vraisemblance. Cette "`surface"' a évidemment un nombre de dimensions égal au nombre de paramètres du modèle biologique que l'on considère. Il se peut que la vraisemblance soit maximisée par plusieurs paramétrisations distinctes, ce qui signie que les données sont ambigues et surparamétré, ou que certains paramètres sont non identiables : certaines paramétri- ne permettent pas de trancher. Cela signie souvent que le modèle est sations ne peuvent pas être discriminées sur le critère de vraisemblance. Trouver ainsi la meilleure combinaison de paramètres est appelé faire de 2. De fait, les estimateurs de maximum de vraisemblance sont biaisés dans certains cas (un exemple célèbre est celui de l'estimation d'une variance) et d'autres estimateurs peuvent avoir de meilleures propriétés. 2 inférence ponctuelle. l' En pratique, maximiser la vraisemblance n'est pas tou- jours simple. De fait, la plupart des méthodes stats classiques (parfois compliquées) que vous avez pu apprendre sont des ruses qui ont été élaborées pour simplier la tâche dans certains cas particuliers. 0.3 Incertitude quant à l'ajustement L'étape suivante de l'ajustement consiste à dénir notre certitude quant à la valeur de nos paramètres. Autour du maximum de vraisemblance, la surface de vraisemblance va s'aaisser plus ou moins rapidement. Plus l'aaissement est rapide, plus les estimateurs de maximum de vraisemblance sont précis (plus petite est notre incertitude quant à la valeur réelle des paramètres). De façon très générale, plus la taille d'échantillon est grande, plus brutale est la chute de la vraisemblance quand on s'éloigne du maximum. Il est important de quantier ce degré de certitude. C'est ce que visent à faire les intervalles de conance. A l'inverse de la paramétrisation la plus vraisem- blable, on peut exclure l'ensemble de celles qui ne sont PAS vraisemblables, c'est à dire qui produiraient le jeu de données observé (ou plus extrême) moins de α% du temps (typiquement 95%). Une méthode générale pour délimiter ces intervalles de conance est celle du prol de vraisemblance. Elle peut être lourde à mettre en oeuvre, et les méthodes classiques de construction des intervalles de conance en sont des approximations plus simples. Attention, les diverses méthodes ne donneront pas exactement les mêmes intervalles... sauf dans les cas simples et quand la taille d'échantillon devient très grande ! Elles peuvent aussi diérer par leur performance, et cette performance elle même peut dépendre de la valeur des paramètres ! En général, on souhaite construire des intervalles qui ont une bonne couverture (c'est à dire que le 3 α réalisé est proche de la valeur requise) et qui sont le plus court possible . 0.4 Goodness-of-t : mon modèle est-il acceptable ? tester l'hypothèse que notre test d'ajustement ). Concrètement, l'hypothèse Un autre usage de la vraisemblance consiste à modèle décrit bien les données ( "`nulle"' est constituée par notre modèle statistique, et l'on cherchera à savoir si les données s'écartent signicativement des prédictions du modèle. Cela s'énonce : "`quelle est la probabilité d'observer des jeux de données qui soient au moins aussi éloignés de la prédiction que celui que l'on observe ?"'. Et, mathématiquement, cela revient à faire la somme des probabilités d'observer tous les jeux de données dont la probabilité d'être observés est inférieure ou égale à notre jeu de données. En plus court, si cette dernière probabilité est P, i est notre jeu de 3. Elles supposent souvent que la surface de vraisemblance a une forme gaussienne. Elles peuvent aussi faire appel au bootstrap ou jacknife, des méthodes qui perturbent le jeu de données. Au passage, notons que la plupart des calculs mentionnés dans cette section sont dans les faits conduits sur la log-vraisemblance, égale à −log(L(M (i))) 3 données et Li (M ) la probabilité qu'il soit observé sous notre modèle, alors : P = X Lj (M ) pour les j tq Lj (M ) ≤ Li (M ) (2) j Cette probabilité est la "`p-value"', et son interprétation passe par des critères dénis par l'usage collectif, comme le "`seuil de signicativité"' à 0.05. appelé P est aussi risque de première espèce. Notons que dans ce genre de test, l'hypothèse alternative n'est pas spéciée : elle représente l'ensemble de tous les autres modèles. Le risque de seconde espèce ne peut donc être déni... 0.5 Théorème de Bayes Une autre façon d'utiliser la vraisemblance exploite le théorème de Bayes. La dénition des probabilités conditionnelles nous conduit facilement à la relation (entraînez-vous à la trouver) : L(M (i)) p(M (k))L(M (k)) k p (M (i)|D) = p (M (i)) P (3) On reconnaît dans cette équation les vraisemblances des diérents modèles, dont on vient de discuter. On y trouve aussi M (i), D. et p (M (i)|D), p(M (i)), qui est la probabilité du modèle M (i) sachant les données qui est la probabilité du modèle probabilité postérieure (posterior/inverse Bayésiennes, qui connaissent une popularité croissante. p (M (i)) est alors appelée prior probability. Dans ce contexte on interprète les probabilités comme des "`niveaux de Cette dernière probabilité est appelée probability). Elle est le fondement des méthodes statistiques dites conance"', c'est à dire que la probabilité d'un modèle est conçue comme sa "`plausibilité"' aux yeux du scientique. Le prior représente donc le jugement a priori du scientique, fondé sur son intuition et sur les données préalablement accumulées. Et le posterior représente son jugement a posteriori, tel qu'il est modié par les données qu'il vient d'analyser. C'est la probabilité postérieure que l'on cherche alors à maximiser, et c'est la largeur de sa distribution qui sert à quantier notre incertitude. Comme ceci donne quelque chose d'assez diérent intervalle crédible. d'un intervalle de conance, on parle alors d' L'avantage de cette méthode est qu'elle semble plus intuitive et plus proche du fonctionnement de la pensée scientique. En revanche, elle s'écarte de la dénition fréquentiste d'une probabilité (à savoir le nombre d'occurrences d'un évènement sur un grand nombre d'essais), alors que la vraisemblance, bien que moins intuitive, s'inscrit directement dans ce cadre. Remarquons que dans bien des cas, approches de maximum de vraisemblance et Bayésiennes donnent des résultats équivalents. 0.6 Confronter plusieurs modèles et choisir Finalement, lorsque l'on dispose de plusieurs modèles biologiques, et que l'on veut choisir celui qui décrit le mieux notre jeu de données, comment faire ? 4 Figure 2 La complexité d'un modèle et le compromis entre biais et incertitude. On commence bien sûr par ajuster chacun des modèles, comme indiqué dans la sous-section précédente. Pour chacun d'entre eux, on pourra ainsi obtenir sa vraisemblance maximale. La façon la plus directe de comparer les modèles biologiques est alors de comparer leurs vraisemblances maximales. Le meilleur modèle sera celui dont la vraisemblance est la plus grande. Cette méthode fonctionne parfaitement si les modèles ont le même nombre de paramètres. En revanche, si les modèles ont des nombres de paramètres diérents, alors les modèles ayant le plus grand nombre de paramètres seront systématiquement avantagés. En eet, au plus il y a de paramètres, au mieux on pourra décrire les données. Il faut donc trouver un moyen de pénaliser les modèles les plus paramétrés pour compenser l'augmentation "`inévitable"' de leur vraisemblance. Ceci répond à un principe de parcimonie, et vise à optimiser le compromis entre biais et incertitude (Fig. 2) : plus un modèle a de paramètres, moins les estimateurs sont biaisés, mais plus ils sont imprécis (car on a moins de données par paramètre). Il y a donc des dangers à la fois à prendre un modèle trop simple (sous-paramètré) ou trop compliqué (sur-paramètré). . . Il y a deux grandes approches. La première ne peut s'appliquer qu'aux modèles dits emboîtés. Un modèle est emboîté dans un autre si il peut s'écrire comme un cas particulier de ce dernier. En d'autres termes si son espace de paramètres est un sous-espace de l'espace de paramètres de l'autre modèle. Dans ce cas, on peut utiliser le Si Mi test du rapport de vraisemblance. est emboîté dans Mj , et que Mi a n paramètres de moins que Mj , alors : L̂(Mj ) L̂(Mi ) On dira que Mj ,→ χ2n ddl Mi si la probabilité qu'une n degrés de liberté prenne une valeur supérieure vraisemblances est inférieure à α, notre seuil de est signicativement meilleur que variable suivant une loi du χ2 à ou égale à celle du rapport des (4) 5 signicativité. Lorsque les modèles à comparer ne sont pas emboîtés, et de manière générale quand on a un grand nombre de modèles à confronter, on préfèrera une approche de sélection de modèle basée sur la critère d'Akaike sur le théorie de l'information, comme celles basées (AIC). Sans entrer dans les détails (voir la lecture con- seillée), on associera à chaque modèle Mi la quantité : AICi = −2log(L̂(Mi )) + 2Ki où Ki est le nombre de paramètres du modèle Mi . alors de retenir le modèle ayant la valeur d'AIC (5) La règle de décision sera la plus faible. Concluons en disant qu'il existe divers ranements de l'AIC, et que le même type de critère a été développé en utilisant la probabilité postérieure au lieu de la vraisemblance (BIC. . .). 0.7 Incertitude quant au choix du modèle... Parfois, plusieurs modèles statistiques (par exemple un qui inclut seulement un eet linéaire pour une variable, et un autre qui inclut aussi un eet quadratique) présentent un ajustement satisfaisant aux données, sans que l'un d'eux soit clairement meilleur. Dans ce cas, de la même façon que l'on rapporte un intervalle de conance pour un paramètre (et pas seulement son estimation ponctuelle), il peut être souhaitable de rapporter cette modèle. incertitude de choix du On présente alors un ensemble de modèles (avec par exemple leurs valeurs d'AIC respectives). Au lieu d'utiliser seulement le meilleur modèle, il est possible de tous les utiliser, en les combinant, de façon à obtenir un consensus, une moyenne, des diérents modèles. C'est ce que l'on appelle la technique du model-averaging, qui peut notamment améliorer la qualité des prédictions et la couverture des intervalles de conance. Lectures conseillées The lady tasting tea. 2001 Model Selection and Multi-Model Inference: A Practical Information-Theoretic. 2004 D. Salsburg. Burnham & Anderson 6