Introduction à la statistique bayésienne

Introduction à la statistique bayésienne
Vincent Cottet - ENSAE
October 4, 2016
Objectif
I
Grands principes
I
I
I
I
Mais: l’inférence bayésienne moderne, c’est aussi une
collection de techniques très utiles et qui marchent bien
I
I
I
L’objectif général est de pouvoir formuler notre incertitude de
manière probabiliste
On veut combiner différentes sources d’information de manière
cohérente
Faire du mieux qu’on peut avec les données qu’on a
Modèles hiérarchiques, données manquantes
Processus gaussiens
Pour commencer: les grands principes
Exemple 1: estimer la taille d’une population
I
Combien y-a-t’il de chamois dans les Alpes ou de pingouins au
Maroc?
I
Source d’information: méthode capture-marquage-recapture
I
On capture des animaux, on les marque, on retourne plus tard,
on recapture des animaux, et on voit combien sont marqués
Incertitude sur la taille de la population
I
Idéalement: à la première étape, on a marqué 500 animaux,
soit une proportion f = 500
N (mais on ne connait pas N).
I
A la 2e étape, si on capture 1,000 et que 100 portent une
1
= 500
marque, on sait que f = 10%, d’où 10
N et N = 5000.
I
Evidemment, ce scenario idéal est faux: la proportion
d’animaux marqués recapturés n’est jamais exactement égale à
f , donc on ne connait pas N exactement.
Sources d’information
I
On a potentiellement plusieurs sources d’information:
I
I
I
“Carrying capacity”: les souris mangent du fromage, donc pas
beaucoup de fromage implique pas beaucoup de souris
Prédateurs: à l’inverse, s’il y a beaucoup de chats c’est qu’il y
a beaucoup de souris donc compter les uns nous renseigne sur
les autres
On voudrait donc fusionner toutes ces sources d’information et
pouvoir dire:
I
“D’après nos informations, la population de souris est entre
100,000 et un million, avec probabilité 95%”
Exemple 2: localisation
On a 3 stations qui mesurent l’amplitude d’un signal
I
On voudrait connaître la position de l’émetteur
I
Cas idéal:
0.8
1.0
I
0.2
0.4
y
0.6
●
●
0.0
●
0.0
0.2
0.4
0.6
x
0.8
1.0
0.8
1.0
Localisation sous incertitude
0.2
0.4
y
0.6
●
●
0.0
●
0.0
0.2
0.4
0.6
0.8
1.0
x
Les mesures sont bruitées. Comment décrire l’incertitude restante
sur la position de l’émetteur?
La distribution des observations : Vraisemblance
Outil central de la statistique inférentielle - commun à la statistique
“fréquentiste” et à la statistique “bayésienne”.
I
Processus de génération des données
I
densité de la loi de probabilité (discret ou continu)
I
vu du point de vue du paramètre
Une observation:
fθ (x) = p(x|θ) = L(x; θ)
Plusieur observations indépendantes:
p(x1 , . . . , xn |θ) =
n
Y
i=1
p(xi |θ)
La distribution a posteriori
Outil central de la statistique bayésienne: la distribution a
posteriori
0.8
0.6
0.4
0.2
0.0
Densité a posteriori
1.0
1.2
I
0
5000
10000
15000
20000
N (Population totale)
I
Ex. de conclusions à tirer:
I
N est compris entre 2,000 et 10,000 avec une forte probabilité
(intervalle de confiance)
Interprétation de la distribution a posteriori
I
“Le nombre de chamois dans les Alpes est de X” désigne un
événement unique
I
Pas de notion de tirage aléatoire
I
Interprétation dite “subjective” des probabilités distincte de
l’interprétation dite “fréquentiste”
I
On peut attribuer une probabilité fréquentiste pour un
évenement de type: “le lancer de dé donnera un 1”, pas à
“BNP-Paribas fera des pertes cette année”
Probabilités vs fréquences
I
Les probabilités “subjectives” sont plus générales que les
probabilités “fréquentistes”
I
Lois de la probabilité comme extension de la logique au
domaine de l’incertain, voir le livre de E.T. Jaynes Probability:
The Logic of Science
I
Théorème de Cox: les lois de la probabilité sont les seuls qui
combinent des informations de manière raisonnable (vérifient
certains axiomes)
D’où vient la distribution a posteriori?
Du Théorème de Bayes:
p(θ|y) =
p (y|θ) p (θ)
p(y)
I
θ est la variable à estimer, y les données
I
p(θ|y) probabilité de θ étant donné y (loi a posteriori;
posterior distribution)
I
p(y|θ) probabilité des données étant donné θ (vraisemblance;
likelihood)
I
p(θ) probabilité a priori de θ (loi a priori; prior distribution)
I
p(y) vraisemblance marginale
Example détaillé
I
On fait passer un questionnaire de 10 questions à une
personne.
I
Hypothèse: elle a une probabilité θ de répondre correctement à
chaque question.
I
y = [0, 1, 0, 0, 1, 1, 0, 0, 1, 1] soit 6 réponses correctes sur 10.
I
Comment calculer une distribution a posteriori sur θ?
La vraisemblance
I
Ici, on procède comme en stat. classique et on postule un
modèle
I
Par exemple: toutes les réponses sont IID, donc
p (y|θ) =
10
Y
i=1
P
= θ
p(yi |θ) =
yi
Y
(1 − θ)1−
P
θyi (1 − θ)1−yi
yi
La loi a priori
Principe d’indifférence de Laplace: en l’absence de toute
information, toutes les valeurs sont également probables.
p (θ) = 1
(Mais on a souvent de l’information, voir plus loin)
Loi a posteriori
La loi a posteriori s’écrit donc:
p(θ|y) =
=
p (y|θ) p (θ)
p(y)
p (y|θ)
p(y)
∝ θ
P
yi
P
(1 − θ)1−
yi
où l’on a utilisé la notation ∝ pour “est proportionnel à”.
1.5
1.0
0.5
Intervalle de confiance
0.0
Densité a posteriori
2.0
2.5
Loi a posteriori
0.0
0.2
0.4
0.6
θ
0.8
1.0
Changer la loi a priori
I
On peut très souvent faire mieux que la loi uniforme
I
Exemple pour un QCM: si les gens ne savent rien, il
répondront au hasard
I
I
I
Pour un QCM à quatre choix, taux de hasard 25%
On peut imaginer quelqu’un qui répond intentionnellement de
travers (prob. correct < 25%), mais c’est a priori peu probable
On peut donc ajuster la loi a priori pour réfléter ce fait.
Comment choisir une loi a priori?
I
Deux cas:
I
I
Vous analysez un jeu de données particulier (analyse
“one-shot”)
Vous produisez une méthode qui sera utilisée de manière
répétée
Analyse “one-shot”
I
Exemple: vous travaillez pour un institut de sondage, et on
vous demande d’estimer le positionnement politique des
gendarmes mobiles
I
Cas réel de l’IFOP: http://t.co/Tmv9hPFx8G
I
Paramètre à estimer: proportion de gendarmes mobiles ayant
voté pour le candidat XYZ à la dernière présidentielle
I
Données: résultats des bureaux de vote situés à proximité des
casernes (données relativement parcellaires)
I
Objectif de la loi a priori: combiner un maximum
d’informations pertinentes pour ce cas particulier (ex., votes
des militaires en général)
Analyses répétées (développer une méthode)
I
Objectif: produire un logiciel/une méthode à destination
d’utilisateurs non-statisticiens, qui permet d’estimer une
quantité θ à partir de données y.
I
Exemple réel: mesures de seuil (perceptifs, toxicologie)
I
Seuil perceptif = intensité à partir de laquelle un certain
stimulus devient détectable
I
On va essayer de déterminer une loi a priori qui garantit une
bonne performance moyenne
I
On est proche d’un raisonnement fréquentiste, et on peut
s’aider de mesures réelles de la variabilité de θ dans la
population.
Jeffrey’s prior, G-prior, etc.
I
Il existe certaines classes de lois a priori qui sont définies de
manière à vérifier certaines propriétés théoriques
I
Par exemple: Jeffreys priors (invariance à la paramétrisation),
G-priors (parfois utiles en régression)
I
Je n’en parlerai pas dans ce cours, consultez par exemple les
livres de Christian Robert si le thème vous intéresse
Autres considérations
I
Tactique:
I
I
Quand il s’agit de produire une analyse pour convaincre
quelqu’un, évitez de mettre quoi que ce soit dans l’a-priori qui
pourrait favoriser vos conclusions (même si c’est parfaitement
raisonnable)
Calculatoire:
I
En pratique les gens adoptent souvent des lois a priori simples
parce qu’elles facilitent les calculs, même si elles ne sont pas
forcément optimales
Résumé
I
En stat. bayésienne, pour estimer un paramètre θ à partir de
données y, on se base sur la distribution a posteriori
p(θ|y) ∝ p(y|θ)p(θ)
I
Contrairement aux stats classiques, l’analyse bayésienne fait
intervenir une loi a priori
I
La loi a priori est censé intégré les éléments d’information sur
θ qu’on avait avant de récolter les données y
I
Le choix de la loi a priori va dépendre principalement du
contexte: analyse unique ou cas répété.
Le cas Gaussien
I
Exemple artificiel mais très utile à la fois pour la théorie et la
pratique
I
Soit le modèle suivant:
1. θ ∼ N µ, τp−1 (prior)
2. y |θ ∼ N θ, τl−1 (observation)
I
Notation: τp−1 = σp2 est une précision (une variance inverse)
I
On cherche à estimer θ
Le cas Gaussien
Modèle:
1. θ ∼ N µ, τp−1 (prior)
2. y |θ ∼ N θ, τl−1 (observation)
Résultat: la loi a posteriori
est Gaussienne
−1
θ|y ∼ N µpost , τpost
avec
µpost =
τp
τl
µ+
y
τp + τl
τp + τl
et
τpost = τp + τl
0.3
0.2
0.1
0.0
Density
0.4
0.5
0.6
Le cas Gaussien en images
−4
−2
0
x
2
4
Résumé du cas Gaussien
I
Prior gaussien + vraisemblance gaussienne = posterior
gaussien
I
La moyenne est une somme pondérée des données et de la
valeur a priori, avec une pondération donnée par les précisions
relatives des deux distributions
I
Deux limites
I
I
I
Quand les données sont suffisamment précise le prior n’a pas
d’influence
Plus les données sont vagues, moins elles ont d’influence
Les précisions s’additionnent
Estimer plusieurs paramètres
I
On a souvent plus d’un paramètre à estimer
I
Exemple, régression linéaire
yi = θ1 xi + θ2 + I
On veut obtenir une distribution a posteriori sur la pente (θ1 )
et l’intercept (θ2 )
p(θ1 , θ2 |y)
Régression linéaire bayésienne
1. θ1 ∼ N µ1 , τ1−1 Prior sur la pente
2. θ2 ∼ N µ2 , τ2−1 Prior sur l’intercept
3. Pour i de 1 à n: yi |θ1 , θ2 ∼ N θ1 xi + θ2 , σ 2
On suppose pour l’instant que σ 2 , la variance du bruit est connue.
(démo en live)
Régression linéaire bayésienne
I
p(θ1 , θ2 |y, σ 2 ) est de nouveau une distribution Gaussienne, ce
qui simplifie beaucoup les calculs.
I
Attention: n’est vrai que si p(θ1 ) et p(θ2 ) sont Gaussiens (ou
uniformes), et σ 2 est connu
I
Example de prior “pratique” plutôt que réaliste
I
Les calculs sont dans tous les manuels
Distribution prédictive
I
Un des avantages du cadre bayésien est que l’on dispose d’une
façon très naturelle de prédire ou d’interpoler
I
Par example, en régression, pour prédire la valeur de y à un
nouveau point x ∗ , on utilise
ˆ
p(y ∗ |y) = p(y ∗ |θ1 , θ2 )p(θ1 , θ2 |y)dy
I
Lire: si on savait parfaitement
θ1 et θ2 , alors on prédirait
y ∗ |θ1 , θ2 ∼ N θ1 x ∗ + θ2 , σ 2
I
Or on a de l’incertitude sur θ1 , θ2 , représentée par la
distribution a posteriori, donc on intègre cette incertitude (on
moyenne sur toutes les possibilités)
I
Notez la différence avec la prédiction classique, qui utilisera
juste un estimateur unique de θ1 , θ2 pour la prédiction
Effets du prior
I
Si on suppose θ ∼ N 0, τ 2 , le prior viendra tirer la
distribution a posteriori vers 0.
I
Effet dit de “shrinkage”, très utile en grande dimension (on y
reviendra)
I
Plus les données sont faibles (σ 2 grand), plus l’effet du prior
est prononcé
Variables parasites (nuisance variables)
I
En régression, le cas le plus fréquent est celui ou la variance du
bruit de mesure σ 2 est inconnue
I
Cependant, cette valeur est rarement intéressante en soi: on
s’intéresse plutôt aux coefficients
I
σ 2 est une variable “parasite” on s’intéresse juste à p(θ1 , θ2 |y),
pas à p(θ1 , θ2 , σ 2 |y)
Variables parasites
I
Solution bayésienne pour les variables parasites: on
“marginalise” (en intégrant)!
ˆ
p(θ1 , θ2 |y) =
p(θ1 , θ2 , σ 2 |y)dσ 2
ˆ
=
p(σ 2 |y)p(θ1 , θ2 |y, σ 2 )dσ 2
I
La loi marginale correspond à une moyenne sur toutes les lois a
posteriori conditionelles p(θ1 , θ2 |y, σ 2 )
I
Si on dispose d’échantillons de p(θ1 , θ2 , σ 2 |y), on peut
simplement ignorer σ 2
Résumé
I
But de l’inférence bayésienne: combiner des informations de
manière optimale, évaluer l’incertitude
I
Tout ce dont a besoin est dans la loi a posteriori p(θ|y), qui
représente ce qu’on sait sur θ étant donné y
I
La loi a posteriori combine la vraisemblance (info. issue des
données) avec les infos a priori
I
Construction de la loi a priori p(θ) dépend du contexte
I
I
I
On peut éventuellement choisir des lois par défaut “faiblement
informatives”
Si on a de l’information et qu’on ne l’utilise pas, on perd en
puissance prédictive et on éxagère l’incertitude
Dans la loi a posteriori, si une dimension n’est pas pertinente
(variable parasite), on peut l’ignorer en marginalisant
Si on a le temps
I
Théorie de la décision:
I
I
Comment faire la bonne décision dans un contexte
d’incertitude
Estimateurs bayésiens optimaux
I
Bayes vs. Maximum de Vraisemblance
I
“Posterior predictive checks”