Introduction à la statistique bayésienne Vincent Cottet - ENSAE October 4, 2016 Objectif I Grands principes I I I I Mais: l’inférence bayésienne moderne, c’est aussi une collection de techniques très utiles et qui marchent bien I I I L’objectif général est de pouvoir formuler notre incertitude de manière probabiliste On veut combiner différentes sources d’information de manière cohérente Faire du mieux qu’on peut avec les données qu’on a Modèles hiérarchiques, données manquantes Processus gaussiens Pour commencer: les grands principes Exemple 1: estimer la taille d’une population I Combien y-a-t’il de chamois dans les Alpes ou de pingouins au Maroc? I Source d’information: méthode capture-marquage-recapture I On capture des animaux, on les marque, on retourne plus tard, on recapture des animaux, et on voit combien sont marqués Incertitude sur la taille de la population I Idéalement: à la première étape, on a marqué 500 animaux, soit une proportion f = 500 N (mais on ne connait pas N). I A la 2e étape, si on capture 1,000 et que 100 portent une 1 = 500 marque, on sait que f = 10%, d’où 10 N et N = 5000. I Evidemment, ce scenario idéal est faux: la proportion d’animaux marqués recapturés n’est jamais exactement égale à f , donc on ne connait pas N exactement. Sources d’information I On a potentiellement plusieurs sources d’information: I I I “Carrying capacity”: les souris mangent du fromage, donc pas beaucoup de fromage implique pas beaucoup de souris Prédateurs: à l’inverse, s’il y a beaucoup de chats c’est qu’il y a beaucoup de souris donc compter les uns nous renseigne sur les autres On voudrait donc fusionner toutes ces sources d’information et pouvoir dire: I “D’après nos informations, la population de souris est entre 100,000 et un million, avec probabilité 95%” Exemple 2: localisation On a 3 stations qui mesurent l’amplitude d’un signal I On voudrait connaître la position de l’émetteur I Cas idéal: 0.8 1.0 I 0.2 0.4 y 0.6 ● ● 0.0 ● 0.0 0.2 0.4 0.6 x 0.8 1.0 0.8 1.0 Localisation sous incertitude 0.2 0.4 y 0.6 ● ● 0.0 ● 0.0 0.2 0.4 0.6 0.8 1.0 x Les mesures sont bruitées. Comment décrire l’incertitude restante sur la position de l’émetteur? La distribution des observations : Vraisemblance Outil central de la statistique inférentielle - commun à la statistique “fréquentiste” et à la statistique “bayésienne”. I Processus de génération des données I densité de la loi de probabilité (discret ou continu) I vu du point de vue du paramètre Une observation: fθ (x) = p(x|θ) = L(x; θ) Plusieur observations indépendantes: p(x1 , . . . , xn |θ) = n Y i=1 p(xi |θ) La distribution a posteriori Outil central de la statistique bayésienne: la distribution a posteriori 0.8 0.6 0.4 0.2 0.0 Densité a posteriori 1.0 1.2 I 0 5000 10000 15000 20000 N (Population totale) I Ex. de conclusions à tirer: I N est compris entre 2,000 et 10,000 avec une forte probabilité (intervalle de confiance) Interprétation de la distribution a posteriori I “Le nombre de chamois dans les Alpes est de X” désigne un événement unique I Pas de notion de tirage aléatoire I Interprétation dite “subjective” des probabilités distincte de l’interprétation dite “fréquentiste” I On peut attribuer une probabilité fréquentiste pour un évenement de type: “le lancer de dé donnera un 1”, pas à “BNP-Paribas fera des pertes cette année” Probabilités vs fréquences I Les probabilités “subjectives” sont plus générales que les probabilités “fréquentistes” I Lois de la probabilité comme extension de la logique au domaine de l’incertain, voir le livre de E.T. Jaynes Probability: The Logic of Science I Théorème de Cox: les lois de la probabilité sont les seuls qui combinent des informations de manière raisonnable (vérifient certains axiomes) D’où vient la distribution a posteriori? Du Théorème de Bayes: p(θ|y) = p (y|θ) p (θ) p(y) I θ est la variable à estimer, y les données I p(θ|y) probabilité de θ étant donné y (loi a posteriori; posterior distribution) I p(y|θ) probabilité des données étant donné θ (vraisemblance; likelihood) I p(θ) probabilité a priori de θ (loi a priori; prior distribution) I p(y) vraisemblance marginale Example détaillé I On fait passer un questionnaire de 10 questions à une personne. I Hypothèse: elle a une probabilité θ de répondre correctement à chaque question. I y = [0, 1, 0, 0, 1, 1, 0, 0, 1, 1] soit 6 réponses correctes sur 10. I Comment calculer une distribution a posteriori sur θ? La vraisemblance I Ici, on procède comme en stat. classique et on postule un modèle I Par exemple: toutes les réponses sont IID, donc p (y|θ) = 10 Y i=1 P = θ p(yi |θ) = yi Y (1 − θ)1− P θyi (1 − θ)1−yi yi La loi a priori Principe d’indifférence de Laplace: en l’absence de toute information, toutes les valeurs sont également probables. p (θ) = 1 (Mais on a souvent de l’information, voir plus loin) Loi a posteriori La loi a posteriori s’écrit donc: p(θ|y) = = p (y|θ) p (θ) p(y) p (y|θ) p(y) ∝ θ P yi P (1 − θ)1− yi où l’on a utilisé la notation ∝ pour “est proportionnel à”. 1.5 1.0 0.5 Intervalle de confiance 0.0 Densité a posteriori 2.0 2.5 Loi a posteriori 0.0 0.2 0.4 0.6 θ 0.8 1.0 Changer la loi a priori I On peut très souvent faire mieux que la loi uniforme I Exemple pour un QCM: si les gens ne savent rien, il répondront au hasard I I I Pour un QCM à quatre choix, taux de hasard 25% On peut imaginer quelqu’un qui répond intentionnellement de travers (prob. correct < 25%), mais c’est a priori peu probable On peut donc ajuster la loi a priori pour réfléter ce fait. Comment choisir une loi a priori? I Deux cas: I I Vous analysez un jeu de données particulier (analyse “one-shot”) Vous produisez une méthode qui sera utilisée de manière répétée Analyse “one-shot” I Exemple: vous travaillez pour un institut de sondage, et on vous demande d’estimer le positionnement politique des gendarmes mobiles I Cas réel de l’IFOP: http://t.co/Tmv9hPFx8G I Paramètre à estimer: proportion de gendarmes mobiles ayant voté pour le candidat XYZ à la dernière présidentielle I Données: résultats des bureaux de vote situés à proximité des casernes (données relativement parcellaires) I Objectif de la loi a priori: combiner un maximum d’informations pertinentes pour ce cas particulier (ex., votes des militaires en général) Analyses répétées (développer une méthode) I Objectif: produire un logiciel/une méthode à destination d’utilisateurs non-statisticiens, qui permet d’estimer une quantité θ à partir de données y. I Exemple réel: mesures de seuil (perceptifs, toxicologie) I Seuil perceptif = intensité à partir de laquelle un certain stimulus devient détectable I On va essayer de déterminer une loi a priori qui garantit une bonne performance moyenne I On est proche d’un raisonnement fréquentiste, et on peut s’aider de mesures réelles de la variabilité de θ dans la population. Jeffrey’s prior, G-prior, etc. I Il existe certaines classes de lois a priori qui sont définies de manière à vérifier certaines propriétés théoriques I Par exemple: Jeffreys priors (invariance à la paramétrisation), G-priors (parfois utiles en régression) I Je n’en parlerai pas dans ce cours, consultez par exemple les livres de Christian Robert si le thème vous intéresse Autres considérations I Tactique: I I Quand il s’agit de produire une analyse pour convaincre quelqu’un, évitez de mettre quoi que ce soit dans l’a-priori qui pourrait favoriser vos conclusions (même si c’est parfaitement raisonnable) Calculatoire: I En pratique les gens adoptent souvent des lois a priori simples parce qu’elles facilitent les calculs, même si elles ne sont pas forcément optimales Résumé I En stat. bayésienne, pour estimer un paramètre θ à partir de données y, on se base sur la distribution a posteriori p(θ|y) ∝ p(y|θ)p(θ) I Contrairement aux stats classiques, l’analyse bayésienne fait intervenir une loi a priori I La loi a priori est censé intégré les éléments d’information sur θ qu’on avait avant de récolter les données y I Le choix de la loi a priori va dépendre principalement du contexte: analyse unique ou cas répété. Le cas Gaussien I Exemple artificiel mais très utile à la fois pour la théorie et la pratique I Soit le modèle suivant: 1. θ ∼ N µ, τp−1 (prior) 2. y |θ ∼ N θ, τl−1 (observation) I Notation: τp−1 = σp2 est une précision (une variance inverse) I On cherche à estimer θ Le cas Gaussien Modèle: 1. θ ∼ N µ, τp−1 (prior) 2. y |θ ∼ N θ, τl−1 (observation) Résultat: la loi a posteriori est Gaussienne −1 θ|y ∼ N µpost , τpost avec µpost = τp τl µ+ y τp + τl τp + τl et τpost = τp + τl 0.3 0.2 0.1 0.0 Density 0.4 0.5 0.6 Le cas Gaussien en images −4 −2 0 x 2 4 Résumé du cas Gaussien I Prior gaussien + vraisemblance gaussienne = posterior gaussien I La moyenne est une somme pondérée des données et de la valeur a priori, avec une pondération donnée par les précisions relatives des deux distributions I Deux limites I I I Quand les données sont suffisamment précise le prior n’a pas d’influence Plus les données sont vagues, moins elles ont d’influence Les précisions s’additionnent Estimer plusieurs paramètres I On a souvent plus d’un paramètre à estimer I Exemple, régression linéaire yi = θ1 xi + θ2 + I On veut obtenir une distribution a posteriori sur la pente (θ1 ) et l’intercept (θ2 ) p(θ1 , θ2 |y) Régression linéaire bayésienne 1. θ1 ∼ N µ1 , τ1−1 Prior sur la pente 2. θ2 ∼ N µ2 , τ2−1 Prior sur l’intercept 3. Pour i de 1 à n: yi |θ1 , θ2 ∼ N θ1 xi + θ2 , σ 2 On suppose pour l’instant que σ 2 , la variance du bruit est connue. (démo en live) Régression linéaire bayésienne I p(θ1 , θ2 |y, σ 2 ) est de nouveau une distribution Gaussienne, ce qui simplifie beaucoup les calculs. I Attention: n’est vrai que si p(θ1 ) et p(θ2 ) sont Gaussiens (ou uniformes), et σ 2 est connu I Example de prior “pratique” plutôt que réaliste I Les calculs sont dans tous les manuels Distribution prédictive I Un des avantages du cadre bayésien est que l’on dispose d’une façon très naturelle de prédire ou d’interpoler I Par example, en régression, pour prédire la valeur de y à un nouveau point x ∗ , on utilise ˆ p(y ∗ |y) = p(y ∗ |θ1 , θ2 )p(θ1 , θ2 |y)dy I Lire: si on savait parfaitement θ1 et θ2 , alors on prédirait y ∗ |θ1 , θ2 ∼ N θ1 x ∗ + θ2 , σ 2 I Or on a de l’incertitude sur θ1 , θ2 , représentée par la distribution a posteriori, donc on intègre cette incertitude (on moyenne sur toutes les possibilités) I Notez la différence avec la prédiction classique, qui utilisera juste un estimateur unique de θ1 , θ2 pour la prédiction Effets du prior I Si on suppose θ ∼ N 0, τ 2 , le prior viendra tirer la distribution a posteriori vers 0. I Effet dit de “shrinkage”, très utile en grande dimension (on y reviendra) I Plus les données sont faibles (σ 2 grand), plus l’effet du prior est prononcé Variables parasites (nuisance variables) I En régression, le cas le plus fréquent est celui ou la variance du bruit de mesure σ 2 est inconnue I Cependant, cette valeur est rarement intéressante en soi: on s’intéresse plutôt aux coefficients I σ 2 est une variable “parasite” on s’intéresse juste à p(θ1 , θ2 |y), pas à p(θ1 , θ2 , σ 2 |y) Variables parasites I Solution bayésienne pour les variables parasites: on “marginalise” (en intégrant)! ˆ p(θ1 , θ2 |y) = p(θ1 , θ2 , σ 2 |y)dσ 2 ˆ = p(σ 2 |y)p(θ1 , θ2 |y, σ 2 )dσ 2 I La loi marginale correspond à une moyenne sur toutes les lois a posteriori conditionelles p(θ1 , θ2 |y, σ 2 ) I Si on dispose d’échantillons de p(θ1 , θ2 , σ 2 |y), on peut simplement ignorer σ 2 Résumé I But de l’inférence bayésienne: combiner des informations de manière optimale, évaluer l’incertitude I Tout ce dont a besoin est dans la loi a posteriori p(θ|y), qui représente ce qu’on sait sur θ étant donné y I La loi a posteriori combine la vraisemblance (info. issue des données) avec les infos a priori I Construction de la loi a priori p(θ) dépend du contexte I I I On peut éventuellement choisir des lois par défaut “faiblement informatives” Si on a de l’information et qu’on ne l’utilise pas, on perd en puissance prédictive et on éxagère l’incertitude Dans la loi a posteriori, si une dimension n’est pas pertinente (variable parasite), on peut l’ignorer en marginalisant Si on a le temps I Théorie de la décision: I I Comment faire la bonne décision dans un contexte d’incertitude Estimateurs bayésiens optimaux I Bayes vs. Maximum de Vraisemblance I “Posterior predictive checks”