Biostatistiques et statistiques appliquées aux sciences expérimentales Introduction aux statistiques Bayésiennes Jérémie Mattout Cogmaster A4 2006-2007 Programme de la séance • Introduction • Rappels sur la théorie des probabilités • Principes de l’inférence Bayésienne • Application en Neuroimagerie • Conclusion INTRODUCTION Introduction Statistiques: domaine cousin mais distinct des Mathématiques Statistiques appliquées Statistiques théoriques/mathématiques Statistiques descriptives présentation, description et résumé des données Statistiques inférentielles Modélisation et prise en compte du caractère aléatoire et de l’incertitude Pour le test d’hypothèse et/ou l’inférence de variables cachées ou inconnues Introduction Statistiques: ont connu leur véritable essor au XXème siècle Etymologie Mot d’abord allemand, issu du latin moderne et de l’italien (‘relatif à l’Etat’) Définitions A la fois le domaine scientifique et les données collectées Domaines d’application Démographie, Santé, Economie, Psychologie, Education, Finances … S’appuient sur une théorie plus ancienne, celle des probabilités… Introduction Probabilité: notion apparue fin XVIème , début XVIIème B. Pascal (1623-1662) A-M. Legendre (1752-1833) AC-F. Gauss (1777-1855) C. Huygens (1629-1695) A. de Moivre (1667-1754) P-S. Laplace (1749-1827) J. Bernouilli (1654-1705) P. de Fermat (1601-1665) Notion bien comprise universellement, pourtant pas d’interprétation unique Interprétation fréquentiste Interprétation bayésienne RAPPELS SUR LA THEORIE DES PROBILITES Rappels sur la théorie des probabilités Qu’est-ce qu’une probabilité ? Définition classique (Laplace) Si une expérience aléatoire peut résulter en N événements équiprobables et mutuellement exclusifs. Si un nombre Nt de ces événements est de type t, alors la probabilité d’un résultat de type t est: P(t ) = - Uniquement pour un nombre fini de résultats possibles - Uniquement pour des événements équiprobables Nt N Définition fréquentiste La probabilité d’un événement est sa fréquence relative d’occurrence, après avoir répété l’expérience un grand nombre de fois (idéalement un nombre infini de fois). Si Nt est le nombre d’occurrence d’événements de type t parmi N essais: P(t ) = lim N "! Nt N - Approche objective - Il est généralement impossible de répéter une même expérience un très grand nombre de fois Rappels sur la théorie des probabilités Qu’est-ce qu’une probabilité ? Définition bayésienne T. Bayes (1702-1761) Mesure du degré de croyance ou de l’incertitude qu’un individu assigne à un événement ou une situation - S’applique à tout type d’événements ou phénomènes - Approche subjective - Nécessite de définir un a priori qui pourra varier selon les individus - Peut bien entendu prendre en compte un avis objectif e.g.1: les cotes sont fixées en fonction des paris (subjectifs) e.g.4: quelle est la probabilité qu’ils diront la vérité ? e.g.2: quelle est la probabilité d’une chute ? e.g.3: probabilité d’être contrôlé au prochain coin de rue ? Rappels sur la théorie des probabilités Controverse dans la définition/l’interprétation d’une probabilité - Résumé Approche fréquentiste Approche bayésienne - Probabilité = limite de la fréquence relative de l’événement, pour un grand nombre d’essais - Probabilité = degré de croyance, mesure de l’incertitude - N’est défini que dans le cadre d’expériences aléatoires bien définies - S’applique à tout type d’événements ou de situations - Recherche de l’objectivité - Approche subjective T. Bayes (1702-1761) J. Neyman (1894-1981) R.A. Fisher (1880-1962) E.S. Pearson (1895-1980) P-S. Laplace (1749-1827) H. Jeffreys (1891-1889) Statistiques inférentielles classiques Statistiques inférentielles bayésiennes Rappels sur la théorie des probabilités Approche Mathématique…: Probabilité = vraisemblance qu’une ‘chose’ soit, ait été, existe ou advienne Indépendamment des débats parfois philosophiques concernant l’interprétation d’une probabilité, la théorie mathématique des probabilités s’est construite sur un certain nombre d’axiomes concernant les phénomènes aléatoires. Chances Théorie moderne des probabilités A.N. Kolmogorov (1903-1987) Rappels sur la théorie des probabilités Théorie unifiée des probabilités: Espace des résultats Cas discret Cas continu ! = {x1 , x2 ,...} !=R F ( x) = p( X ! x) f ( x) ! [0,1] #x " ! Propriétés ! f ( x) = 1 x#" f F: fonction monotone, continue, non décroissante lim F ( x) = 0 x # !" lim F ( x) = 1 x "! : fonction de masse f = dF dx : fonction de densité Exemple Pile ou Face ? Température ici, à midi, le 15 Août 2007 ? Rappels sur la théorie des probabilités Théorie unifiée des probabilités: Cas discret Exemple Cas continu Température ici, à midi, le 15 Août 2007 ? 10 tirages à Pile ou Face ? Loi Binomiale: p ( X = x) = f ( x) = C xn p x (1 ! p )1! x Loi Normale: p( X ) ~ N ( µ , ! ) f ( x) = 1 ! 2" x p( X " x) = ! f ( x) 0 20 p (10 " X " 20) = ! f ( x)dx x =10 e # ( x#µ )2 2! 2 Rappels sur la théorie des probabilités La Loi des grands nombres: Si un événement de probabilité p est observé de façon répétée, lors d’expériences identiques mais indépendantes, la fréquence d’occurrence de cet événement par rapport au nombre d’expériences, converge en probabilité vers p. X i est une réalisation indépendante d’une variable aléatoire pouvant être égale à 1 avec une probabilité p et à 0 avec une probabilité 1-p Alors, n indiquant le nombre d’essais & $ lim P$ $n(' $ % n )X i =1 n i # ! = p! =1 ! ! " Fréquence relative # essais Pile (0) ou Face (1) ? Rappels sur la théorie des probabilités Le théorème central limite: Soit une suite de variables aléatoires indépendantes, de même loi, d’espérance et de variance finies. Alors leur moyenne centrée, réduite, suit une loi normale de moyenne 0 et de variance 1. Suite (X n ) d’espérance µ et de variance ! 2, alors Zn = Xn " µ !2 n suit une loi normale N (0,1) n avec Xn = !X i =1 n i Rappels sur la théorie des probabilités L’espérance mathématique: Valeur attendue, somme des gains (et pertes) pondérés par leur probabilité. Cas discret Cas continu +" Formule E (X ) = ! X i p(X i ) E (X ) = i ! xf ( x)dx #" Exemple 2 tirages à Pile (1) ou Face (0) ? Température ici, à midi, le 15 Août 2007 ? +$ E (X ) = 1. + 2. + 0. = 1 1 2 1 4 1 4 x E (X ) = % # $" 2! e # ( x#µ )2 2" 2 =µ Rappels sur la théorie des probabilités L’entropie de Shannon: Mesure de l’incertitude liée à une variable aléatoire, ou encore la quantité moyenne d’information Manquante lorsqu’on ne connaît pas la valeur de cette variable. H (X ) = E (I (X )) = "! p(X i )ln (p(X i )) Formule i Analogie en physique ordre/structure Manque d’information/entropie/incertitude Rappels sur la théorie des probabilités L’entropie de Shannon: Exemple Pile ou Face H (X ) P(X =' Face') Rappels sur la théorie des probabilités Axiomes des probabilités (de Kolmogorov): A : événement quelconque lié a la même expérience aléatoire ! : ensemble/univers des résultats possibles (1) 0 ! P(A)! 1 (2) P(! ) = 1 k (3) P(A1 " A2 L " Ak ) = ! P(Ai ) i =1 P(A ! B ) ou P(A, B ) : probabilité jointe pour des événements deux a deux incompatibles Rappels sur la théorie des probabilités Propriétés essentielles, découlant des axiomes de Kolmogorov: - P(' rien') = 0 - P (A )= 1 ! P(A) - P(A # B ) = P(A)+ P(B )" P(A ! B ) - P(A ! B ) = 0 - P(A ! B ) = P(A).P(B ) - Si A si A et : complémentaire de B A dans ! quels que soient les événements sont mutuellement exclusifs si A ! B alors P(A)! P(B ) A et B sont indépendants A et B REGLE DE BAYES Règle de Bayes Probabilités conditionnelles: P(A B ) : Probabilité de A sachant / connaissant / étant donné P(A ! B ) P(A B )= P(B ) Si A et B sont indépendants, alors P(A B )= P(A) B Règle de Bayes Probabilités conditionnelles: Exemple Considérons le test de dépistage d’une grave maladie. Plus tôt la maladie est détectée, meilleur est le pronostic de survie. Nous savons que dans la population Nous savons également que P(malade ) = 0.01 P(positif sain )= 0.01 et P(malade positif )? P(négatif malade )= 0.01 Règle de Bayes Probabilités conditionnelles: Exemple Considérons le test de dépistage d’une grave maladie. Plus tôt la maladie est détectée, meilleur est le pronostic de survie. Nous savons que dans la population Nous savons également que On en déduit que P(malade ) = 0.01 P(positif sain )= 0.01 et P(négatif malade )= 0.01 P(positif malade )= 1 ! P(négatif malade )= 0.99 P(positif , malade ) = P(positif malade )P(malade ) = 0.0099 P ( positif ) = P ( positif ,sain ) + P ( positif ,malade) = 0.0198 et ! P(malade positif )= P(malade, positif ) = 0.50 P(positif ) Règle de Bayes Probabilités totales ou marginales: Cas discret P(A) = ! P(A, Bk ) = ! P(A Bk )P(Bk ) k k Cas continu P(X ) = ! P(X , Y )dY = ! P(X Y )P(Y )dY Règle de Bayes Probabilités totales ou marginales: Exemple Cas discret Sur deux essais indépendants, quelle est la probabilité d’obtenir ‘Face’ au deuxième essai ? Pile ou Face (résultats équiprobables) P (T2 = Face) = P (T2 = Face T1 = Face) P (T1 = Face) +P (T2 = Face T1 = Pile) P (T1 = Pile) = 0.5 * 0.5 + 0.5 * 0.5 = 0.5 ! Règle de Bayes Théorème/Règle de Bayes Cas discret P(Bk A)= P(Bk A)= Cas continu P(A Bk )P(Bk ) P(A) P(A Bk )P(Bk ) ! P(A B )P(B ) k k k P(X Y )= P(X Y )= P(Y X )P(X ) P(Y ) P(Y X )P(X ) ! P(Y X )P(X )dX PRINCIPES DE L’INFERENCE BAYESIENNE Principes de l’inférence Bayésienne Notion de modélisation: - Formalisation mathématique d’un processus ou système réel/physique (repose sur un ensemble d’hypothèses et d’approximations) entrée observations modèle Importance de la modélisation: - Permet de simuler des données - Permet l’estimation de paramètres non observés - Permet de prédire de futures observations - Permet de tester des hypothèses Principes de l’inférence Bayésienne Analyse/inférence Bayésienne: - Appliquer un modèle probabiliste des observations comme des quantités à estimer - Les quantités à estimer sont non observées ge e pr sa tis n ap u nna o co re sa is Paramètres du modèles e nc pr éd ic tio n Futures observations - Une caractéristique essentielle de l’inférence Bayésienne réside dans l’utilisation explicite de distributions de probabilités pour quantifier l’incertitude de l’inférence Principes de l’inférence Bayésienne Notations: Y : observations ! : paramètres du modèle ~ Y : données manquantes ou encore non observées Principes de l’inférence Bayésienne Trois étapes de l’inférence Bayésienne: (1) Définition du modèle probabiliste complet, pour l’ensemble des quantités observables et non observables: spécification de la probabilité jointe P Y , ! ( ) (2) Calculer et interpréter les distributions de probabilités a posteriori (conditionnellement aux observations) des quantités non observées d’intérêt (3) Evaluer la qualité des interprétations et du modèle, ainsi que la sensibilité des résultats aux hypothèses du modèle Principes de l’inférence Bayésienne Modèle général: Apprentissage/Reconnaissance Probabilité jointe P(Y , ! ) = P(Y ! )P(! ) vraisemblance des données Distribution a posteriori S’écrit parfois P(! Y )= P(Y ! )P(! ) P(Y ) P(! Y )" P(Y ! )P(! ) car dist. a priori loi marginale ou évidence P(Y ) ne dépend pas de ! Principes de l’inférence Bayésienne Modèle général: Prédiction Distribution prédictive a priori P(Y ) Distribution prédictive a posteriori ~ ~ P Y Y = " P Y ! P(! Y )d! ( ) ( ) Mise à jour de l’a priori dans le cadre d’une analyse séquentielle: à l’arrivée de nouvelles données, la distribution a posteriori devient la nouvelle distribution a priori MISE EN PRATIQUE Mise en pratique Exercice n°1: exemple de démarche Bayésienne Exercice n°2: exemple de modèle Bayésien Exercice n°3: illustration des limites de l’approche classique DISTRIBUTIONS A PRIORI Distributions a priori Un aspect central et critique de l’approche Bayésienne est la formulation d’une distribution de probabilité a priori sur les quantités non observées que l’on souhaite estimer. Différentes stratégies possibles: - A priori informatif permettant de guider au mieux l’estimation - A priori non informatif afin de ne pas biaiser l’estimation et de ‘laisser s’exprimer’ les données - Un compromis entre les deux… Distributions a priori Construction d’un a priori - Approche ‘pragmatique’: considérer les différentes valeurs possibles de θ et leur assigner une probabilité telle que leur somme sera égale à 1. ATTENTION: le support de la distribution a posteriori sera un sous-espace de celui de l’a priori. Autrement dit, l’estimée a posteriori ne pourra pas prendre de valeurs non prévues par l’a priori. - Approche paramétrique: on attribue une distribution de forme connue à notre a priori sur θ. Alors l’a priori se résume à un petit nombre de paramètres (e.g. moyenne et variance) et le support n’est plus fini. ATTENTION: pas toujours applicable. Certaines distributions peuvent avoir des propriétés très similaires mais conduire à des estimations a posteriori très différentes. Que choisir ? Distributions a priori A priori conjugué - Etant donnée une loi de vraisemblance, un a priori conjugué est un a priori dont la distribution est telle que la distribution a posteriori appartiendra à la même famille de loi. - Approche très utile et très employée, notamment dans le cadre d’un apprentissage séquentiel. Cas discret Cas continu Vraisemblance A priori conjugué Vraisemblance A priori conjugué Binomiale Beta Exponentielle Gamma Multinomiale Dirichlet Normal Normal Poisson Gamma Gamma Gamma Exemples Distributions a priori A priori non-informatif Se dit d’une distribution qui ne favorise aucune valeur de θ par rapport aux autres. Ainsi toute l’information nécessaire à l’estimation est fournie par les données. On se rapproche alors de l’inférence classique, s’appuyant uniquement sur le terme de vraisemblance (approche objective). Cas discret Cas continu ! = [a, b] " = {!1 , K , ! n } P(! i ) = 1 / n P(" ) = 1 / (b ! a ) ‘’propre’’ # = [" !,+!] P(! ) = 1 / c ‘’impropre’’ L’a priori non-informatif est parfois aussi appelé a priori de référence (voir plus loin, évaluation de modèle) ATTENTION: un a priori informatif est parfois nécessaire, lorsque les données ne suffisent pas pour estimer les paramètres du modèles (cf. exemple en Neuroimagerie) EXEMPLES D’INFERENCE BAYESIENNE Exemples d’inférences Bayésienne - Ayant défini un a priori, le théorème de Bayes nous permet de combiner cette information avec des observations afin de calculer la distribution a posteriori des paramètres ou prédictions. - L’inférence Bayésienne permet d’obtenir une information complète sur les quantités à estimer: leur entière distribution de probabilité. - Toutefois, il nous faudra le plus souvent résumer/interpréter cette information, notamment pour permettre un choix ou une réponse quantitative. Typiquement et de manière analogue à l’approche classique: une estimation ponctuelle, d’un intervalle ou le test d’une hypothèse. Exemples d’inférences Bayésienne Estimation ponctuelle ^θ « Comment résumer le résultat par une valeur statistique a posteriori ? » moyenne - Estimateur ponctuel de variance a posteriori minimale - Sensible aux valeurs extrêmes - Peu représentatif si distribution multimodale médiane - Insensible aux valeurs extrêmes - Identique à la moyenne si la distribution est symétrique - Sensible aux valeurs extrêmes - Peu représentatif si distribution multimodale mode - Facile à calculer - Equivalent au maximum de vraisemblance lors de l’utilisation d’un a priori uniforme - Reflète seulement la valeur la plus probable - Aussi appelé Maximum A posteriori (MAP) Exemples d’inférences Bayésienne Estimation d’intervalle C « Intervalle C de confiance Bayésien » Définition fréquentiste Si on recalculait C pour un grand nombre de jeux de données obtenus de manière indépendante et selon le même protocole expérimental, (1-α).100% d’entre eux contiendrait la valeur de θ. Définition Bayésienne La probabilité que la valeur θ appartienne à l’intervalle C, étant donné les observations Y, est supérieure ou égale à (1-α). 1 # % " P(C Y )= ! P($ Y )d$ C Exemples d’inférences Bayésienne Test d’hypothèse Définition fréquentiste - H0 versus H1 - p = Probabilité que la statistique de test T(Y) soit plus extrême (vers H1) que T(Y|θ,H0) Définition Bayésienne - Autant d’hypothèses concurrentes que de modèles possibles, notés M1, M2, …, Mk - Pour chaque hypothèse, on peut calculer - Ne permet pas d’accepter H0 - La valeur p ne peut pas être interprétée comme un degré de significativité P(Y M i )= ! P(Y " , M i )P(" )d" EVALUATION DE MODELE Evaluation de modéle Sélection/comparaison de modèles Bayes Factor (BF): comparaison de deux modèles/hypothèses M1 et M2 P(M 1 Y ) P(M 2 Y ) P(Y M 1 ) BF = = P(M 1 ) P(M 2 ) P(Y M 2 ) Si les modèles sont a priori équiprobables alors BF = P(M 1 ) = P(M 2 ) P(M 1 Y ) P(M 2 Y ) y = f(x) Principe de parsimonie évidence du modèle p(Y|M) Evaluation de modéle trop simple ‘juste bien’ trop complexe Espace des données x Bayesian Information Criterion (BIC) y=f(x) ' sup P(Y ) , M 1 )$ (BIC = !2 log % " ! (n 2 ! n1)log N &% sup P(Y ) , M 2 )#" Akaike Information Criterion (AIC) n1: # paramètres du modèle M1 n2: # paramètres du modèle M2 N: taille de l’échantillon ' sup P(Y ) , M 1 )$ (AIC = !2 log % " ! 2(n 2 ! n1) &% sup P(Y ) , M 2 )#" Evaluation de modéle Moyenne de modèles Plutôt que d’estimer θ à partir d’une seule hypothèse, il se peut que plusieurs hypothèses conduisent à différentes solution tout aussi plausibles. Alors il peut être intéressant de moyenner sur plusieurs modèles. P(" Y )= ! P(" M i , Y )P(M i Y ) i Evaluation de modéle Modèles hiérarchiques Représentation sous la forme de graphe (Réseau Bayésien) APPLICATION EN NEUROIMAGRIE Application en neuroimagerie Segmentation des images d’IRM anatomiques Histogramme des données Vraisemblance: l’intensité dans chaque voxel de l’image est modélisé par un mélange de lois normales. Chaque loi normale correspond à un type de tissu: matière grise (MG), matière blanche (MB), liquide céphalo-rachidien (LCR) A priori: Une distribution a priori pour chaque type de tissu a été obtenue à partir de la segmentation manuelle de 150 images de sujets différents. MG MB LCR Pour chaque nouveau sujet, on obtient une carte/image de probabilité a posteriori d’appartenance à chaque type de tissu. CONCLUSION Conclusion Résumé: - décision en termes probabilistes - choix conditionnels (éventuellement par rapport à des covariables ou paramètres connus x) Inconvénients: - approche subjective - nécessité de définir une distribution a priori - calculs couteux en mémoire et en temps (approximations asymptotiques, méthodes d’échantillonnage, algorithme EM, approches variationelles) Avantages: - peut poser toutes les questions - interprétations plus intuitives - permet d’accepter l’hypothèse nulle (freq: évaluation rétrospective de la procédure utilisée pour estimer θ, étant donné p(y|θ,H0)) - permet l’application de modèles de plus en plus complexes Conclusion Références Numéro spécial, modèles probabilistes en sciences cognitives (2006)