M1 ISD Statistique Bayésienne
Cours 6
5.4 Echantillonnage de Gibbs
Introduit par Geman et Geman (1984) dans le cadre de la restauration d’images, cet algo-
rithme peut être vu comme une extension de l’algorithme de Tanner et Wong décrit précédem-
ment. Le principe repose encore sur une décomposition du problème générale (simuler suivant
une certaine loi) en une série de problèmes élémentaires (simuler suivant des lois conditionnelles).
Considérons la densité f(x, y1,· · · , yp). On s’intéresse à la loi marginale :
f(x) = Z···Zf(x, y1,· · · , yp)dy1· · · dyp.
En particulier, on souhaite obtenir son espérance mathématique et sa variance. On se place ici
dans le cas où les intégrations impliquées dans le calcul de la marginale sont compliquées et diffi-
ciles à effectuer même numériquement. On supposera cependant que les densités conditionnelles
sont disponibles.
L’échantillonneur de Gibbs va nous permettre de générer xsuivant f(x)sans utiliser directement
son expression supposée difficile à manipuler, mais en utilisant les densités conditionnelles.
Ainsi fabriquant un échantillon (x1,··· , xm)assez grand on pourra approximer la moyenne, la
variance et autre caractéristique en utilisant une loi des grands nombres :
lim
m+
1
m
m
X
i=1
g(xi) = E[g(x)].
Principe de l’algorithme : Considérons le cas élémentaire : f(x, y). On suppose f(x|y)
et f(y|x)disponibles. On peut alors générer ce qu’on appellera une séquence de Gibbs de la
manière suivante : partant d’une valeur x0, on génère y0avec π(.|x0), puis x1avec π(.|y0),
puis y1avec π(.|x1)et ainsi de suite.
Après Mitérations de ce schéma, il vient une séquence : (x0, y0, x1, y1,· · · , xM, yM).
Pour Massez grand, xMest une réalisation de X.
Exemple : Considèrons une loi jointe de la forme :
f(x, y)Cx
nyx+α1(1 y)nx+β1, x = 0,· · · , n, 0y1.
On remarque que l’on peut proposer une loi binomiale de paramètres (n, y)pour f(x|y)et une
loi bêta de paramètres (x+α, n x+β)pour f(y|x).
On peut donc appliquer un algorithme de Gibbs pour obtenir des réalisations de f(x), la loi
marginale de xen simulant alternativement une réalisation xd’une binomiale de paramètres
(n, y)yest la valeur courante de yobtenu à l’étape précédente, puis une nouvelle réalisation
2011-2012 27
M1 ISD Statistique Bayésienne
xd’une bêta de paramètre (x+α, n x)(Voir TD 4, Exercice 4).
Il se trouve qu’ici la loi marginale est accessible. En effet,
f(x)Z1
0
f(x, y)dy Z1
0
Cx
nyx+α1(1 y)nx+β1dy Cx
n
Γ(x+α)Γ(nx+β)
Γ(α+β+n).
La figure (1) donne une représentation de l’histogramme d’un échantillon de taille 2000 simulé
par l’algorithme de Gibbs et de la “vraie” densité f(x)qui est une bêta-binomiale pour n= 16,
α= 2 et β= 4.
Figure 1 – Représentations de l’exacte bêta-binomiale et de l’histogramme d’un échantillon de
taille 2000 obtenu par l’algorithme de Gibbs (séquences de 10 itérations) pour n= 16,α= 2 et
β= 4.
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
0.00 0.02 0.04 0.06 0.08 0.10 0.12
Dans le cadre bayésien, l’algorithme de Gibbs va permettre d’obtenir une réalisation du paramètre
θ= (θ1,· · · , θm)suivant la loi a posteriori π(θ|x)dès que l’on est capable d’exprimer les lois
conditionnelles : π(θi|θj;x),j6=i.
L’échantillonnage de Gibbs consiste à :
2011-2012 28
M1 ISD Statistique Bayésienne
Partant d’un vecteur initial θ(0) = (θ(0)
1,· · · , θ(0)
m)
A la (p+ 1)i`eme étape, disposant du vecteur θ(p)= (θ(p)
1,· · · , θ(p)
m),
simuler
θ(p+1)
1=π(θ1|θ(p)
2, θ(p)
2,· · · , θ(p)
m;x)
θ(p+1)
2=π(θ2|θ(p+1)
1, θ(p)
3,··· , θ(p)
m;x)
· · ·
θ(p+1)
m=π(θm|θ(p+1)
1, θ(p)
2,··· , θ(p)
m1;x)
Les itérations successives de cet algorithme génèrent successivement les états d’une chaîne de
Markov {θ(p), p > 0}à valeurs Nm.
La probabilité de transition de θ0vers θa pour expression :
K(θ0, θ) = π(θ1|θ0
2,· · · , θ0
m)×π(θ2|θ1, θ0
3,· · · , θ0
m)
×π(θ3|θ1, θ2, θ0
4, ..., θ0
m)× · · · × π(θm|θ1,· · · , θm1).
On montre que cette chaîne admet une mesure invariante qui est la loi a posteriori. Pour un
nombre d’itérations suffisamment grand, le vecteur θobtenu peut donc être considéré comme
étant une réalisation de la loi a posteriori.
5.5 L’algorithme de Metropolis
Initialement développé en 1953 pour le traitement de problèmes de physique par Metropolis,
Rosenbluth, Rosenbluth et Teller, cet algorithme a ensuite été beaucoup utilisé en physique
statistique pour simuler des systèmes complexes. Actuellement, dans la littérature statistique,
cet algorithme est présenté comme une méthode permettant de fabriquer une chaîne de Markov
dont on s’est donné la loi stationnaire π. Sa mise en oeuvre présente l’avantage de ne nécessiter
la définition de πqu’à une constante près.
5.5.1 Cas discret
Considérons une chaîne de Markov à valeurs dans un espace d’états discrets {ei}i=1,2,···.
Supposons cette chaîne récurrente, irréductible et de matrice de transition Q={qi,j }, symétrique
de sorte qu’elle admet une loi stationnaire que l’on note π.πi, composante de π, est la probabilité
que la chaîne se trouve en l’état ei.
Pour aller de l’état eivers l’état ej,iétant différent de j, imposons le mouvement suivant à la
chaîne :
1. aller de eivers ej,
2. rester en ejavec une probabilité fixée αij ,
sinon retourner en ei
2011-2012 29
M1 ISD Statistique Bayésienne
On a le graphe suivant :
ei
qi,j
ej
1αi,j
bb
αi,j
gg
Cette construction constitue une nouvelle chaîne de Markov dont la matrice de transition a pour
terme (i, j),pi,j =αi,j qi,j si i6=j. Pour que la nouvelle chaîne reste en ei, il faut, ou bien que
cette transition se produise sur la chaîne initiale, la probabilité est alors égale à qii ou bien que
l’on retourne en eiaprès avoir transité par un des états ej(j6=i)et la probabilité est alors
égale à : Pj6=iqi,j (1 αi,j ).
On en déduit donc :
pi,i =qii +X
j6=i
qij (1 αi,j ) = 1 X
j6=i
qi,j αi,j = 1 X
j6=i
pi,j .
La mesure stationnaire de la nouvelle chaîne sera πsi l’on choisit comme l’ont suggéré Metropolis
et al. :
αi,j =
1 si πji>1
πjisi πji1
En effet, avec ce choix, la chaîne est réversible i.e. : i, j , πipi,j =πij πj,i.
πipi,j =πiαi,j qij =πimin{1, πji}qi,j
= min{πi, πj}qi,j
= min{πj, πj}qj,i
=πjmin{1, πji}qi,j
=πjαi,j qi,j =πjpi,j
On en déduit donc que πest invariante et la chaîne initiale étant récurrente et irréductible, π
est unique. (Ripley 87). Si l’espace des états est fini, l’hypothèse irréductible suffit, puisque cette
hypothèse entraîne la récurrence. D’autres choix sont possibles pour αij :
αij =πj
πi+πj
(Berker 1965).
2011-2012 30
1 / 4 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !