INTRODUCTION A LA STATISTIQUE BAYÉSIENNE NON PARAMÉTRIQUE
Jean-Pierre Florens
Université Toulouse 1 (IDEI, GREMAQ)
Manufacture des Tabacs – Bât F
21, allée de Brienne – 31000 Toulouse
Résumé
L’objectif principal de cet expo est de rappeler le modèle de base de la statistique bayésienne non
paramétrique constitué d’un échantillonnage i.i.d. et d’une probabilité a priori sur sa distribution
appartenant à la classe des processus de Dirichlet. Cette lois de probabilité a priori est « naturelle
conjuguée » à l’échantillonnage i.i.d. On s’intéressera aux propriétés de représentation des
processus de Dirichlet qui permettent d’analyser par simulation la distribution a priori et a
posteriori de fonctionnelles de la loi de probabilité inconnue. L’application la plus pertinente
consiste à étudier par simulation la distribution de paramètres caractérisés par une équation de
moment.
Le processus de Dirichlet n’engendre que des lois de probabilité discrètes. Cette caractéristique,
intimement associée à sa nature « naturelle conjuguée », rend évidemment impossible l’estimation
de fonctionnelles définies à partir de lois lisses. On évoquera les extensions du processus de
Dirichlet permettant de traiter ce problème.
Abstract
This lecture presents the basic nonparametric bayesian model constructed by an i.i.d. sampling
process and a Dirichlet prior process. This prior is a natural conjugate prior distribution. We focus
our presentation on representations of Dirichlet processes. An analysis by simulation of functional
transformations of prior and posterior Dirichlet processes follows from the representations. An
important application is given by inference of a parameter characterized by a moment equation.
Dirichlet processes only generate discrete probability measures and functional transformations
defined for smouth probabilities only are then undefined. We consider at the end of the presentation
some extensions of Dirichlet processes which cover some of these cases.
1. Introduction
L’objectif de cet exposé est de présenter brièvement les principales caractéristiques du modèle
bayésien non paramétrique élémentaire et d’envisager quelques uns de ses prolongements. Par
modèle élémentaire nous entendons un échantillonnage i.i.d. d’une distribution inconnue munie
d’une probabilité a priori de la famille des processus de Dirichlet. On montre alors que la probabilité
a posteriori de cette distribution est encore un processus de Dirichlet. Les processus de Dirichlet sont
des mesures aléatoires engendrant presque sûrement des probabilités discrètes a support au plus
dénombrable et l’on rappellera la caractérisation des trajectoires engendrées par ces processus ainsi
qu’une technique simple de simulation de processus de Dirichlet approchés. Ce mode de simulation
donne une interprétation bayésienne au bootstrap et permet d’analyser la distribution de certaines
fonctionnelles associées à la distribution inconnue. On donnera ainsi une version bayésienne de la
méthode des moments généralisée.
1
Nous envisagerons un prolongement de ce modèle élémentaire qui consiste en une modification de la
probabilité a priori permettant d’obtenir une mesure aléatoire a posteriori génératrice de distributions
lisses.
2. Le modèle bayésien non paramétrique élémentaire
Le modèle bayésien non paramétrique généralise le modèle de l’échantillonnage multinomial avec
probabilité a priori de Dirichlet. Considérons un élement aléatoire X à valeur dans l’ensemble fini
 
1,..., K
vérifiant
 
k
P X k p 
. Le paramètre inconnu de ce modèle est le vecteur
 
1,..., K
p p p
du simplexe
1K
S
de dimension
1K
. Le vecteur p est muni d’une a priori de
Dirichlet de densi
   
   
010
0 1
1
0
1
| 1
k
K
Dir k K
K
k
k
k
f p p p S
G
 Î
GÕ
Õ
 
01 0 0
,..., 0
K k
  >
et
0 0
1
.
K
k
k
 
å
On vérifie alors que si l’on dispose d’un échantillonnage i.i.d. de taille n, les nombres
 
1,...,
k
n k K
de réalisations de chaque modalité k forment une statistique exhaustive. La loi de
probabilité a posteriori de p est encore une loi de Dirichlet de paramètre
avec
* 0 1,..., .
k k k
n k K + " 
Dans le modèle non paramétrique non discret l’élément aléatoire
Xm
Î  m
RX
et est engendré par la
probabilité P. L’élément inconnu P est lui-même muni d’une loi de probabilité nommée processus de
Dirichlet et caractérisé par une probabilité donnée
0
P
et un réel positif
0
n
. On notera cette hypothèse
 
0 0
,P P n:D
et cette mesure aléatoire est définie par la propriété :
1,... L
B B"
partition de
 
 
1
, ,..., L
P B P BX
suit une loi de Dirichlet de
1L
S
de paramètres
 
 
0 0 1 0 0
,..., L
n P B n P B
.
Considérons un échantillon i.i.d. de la loi P noté
 
1,..., n
x x
et
n
P
est la loi de probabilité empirique
associée à cet échantillon :
1
1
i
n
n x
i
Pn
å
i
x
est la mesure de Dirac en
i
x
. On montre alors que la probabilité a posteriori de P est encore
un processus de Dirichlet de paramètres :
0
* 0 * 0
0 0
.
n
n n
n n n P P P
n n n n
 + +
+ +
Si
 
,P Q :D
et si B est un ensemble mesurable on a
2
 
 
 
E P B Q B
et
 
 
 
 
1.
1
Q B Q B
Var P B
+
En appliquant ces résultats aux processus a priori et a posteriori on voit en particulier que
x
P
est
l’espérance a posteriori de P qui a le même comportement asymptotique que la probabilité empirique
n
P
.
Choisir
0
n
très petit implique que P a posteriori suit un processus de Dirichlet
 
,
n
P nD
. On
appellera ce processus le processus de Dirichlet d’échantillonnage. On considère que ce processus a
posteriori est obtenu en l’absence d’informations a priori bien que le processus
 
0 0
,P nD
possède
un comportement ne correspondant pas à l’intuition quand
00n
.
Il est enfin intéressant d’examiner la loi marginale (ou prédictive) de l’échantillon
 
1,..., n
x x
après
intégration de P par rapport au processus a priori. Nous examinons ici le cas
0
n
est quelconque.
Une description de cette loi consiste à remarquer que
1
0
1 0 2 1 0
0 0
1
, | ,
1 1 x
n
x P x x P
n n +
+ +
: :
0
1 1 0
0 0
..., | ,...,
i i i
n i
x x x P P
n i n i
++
+ +
:
i
P
est la loi empirique associée à
1,..., i
x x
. Cette loi de probabilité sur
mn
R
engendre avec une
probabilité positive des ex aequo.
3. Représentation des processus de Dirichlet
Le modèle non paramétrique précédemment décrit a été présenté par Fergurons (1973 et 1974). Il est
apparu dans ces travaux que les processus de Dirichlet n’engendrent que des probabilités discrètes a
support au plus dénombrable ce qui pose la question de l’adéquation du modèle au cas la loi
génératrice des données est supposée continue ainsi que la question de l’estimation de fonctionnelles
de P n’étant définies que pour des lois lisses (densité). Les travaux de Rolin (92 a et b) et Sethuraman
(92) permettent une description des trajectoires du processus de Dirichlet plus simple que celle des
travaux originaux de Ferguson. A partir d’un résultat général présenté dans Florens et Rolin (1994)
on montre les résultats suivants :
- Si P suit le processus de Dirichlet d’échantillonnage
 
 
,
n
P P n:D
on a alors la représentation
presque sûre:
1j
n
j x
j
P 
å
%
%
 
1,...,
jj n
x%
%
représente les valeurs distinctes de l’échantillon et le
vecteur aléatoire
 
1,..., n
 %
suit une loi de Dirichlet de paramètres
 
1,..., n
J J %
si
j
J
est l’ordre de
multiplicité dans l’échantillon de
j
x
%
. En particulier si l’échantillon ne possède que des valeurs
distinctes, le vecteur
 
1,..., n
 
sont une loi uniforme sur le simplexe. Un tel vecteur est engendré en
normalisant n exponentielles indépendantes de paramètre 1.
- Si P suit le processus de Dirichlet a priori
 
 
0 0
,P P n:D
et si
0
P
n’a pas de point de masse on a
1k
k
k
P
a 
¥
å
 
kk
est un tirage i.i.d. de
0
P
et
 
1
1
1
k
k k j
j
a 
 
Õ
. Les
k
sont indépendants des
k
et sont i.i.d. de loi Beta de paramètres 1 et
0
n
.
On pourra simuler P en tronquant la somme infinie à K. L’erreur d’approximation a une loi connue
3
fonction de
0
n
.
Enfin si P suit un processus de Dirichlet a posteriori
 
 
* *
,P P n:D
on vérifie que
 
1 1
1k j
n
k j x
k j
P
g a  g  
¥
 
  +
å å
%
%
où les
,
k k
a 
et
j
sont engendrés indépendamment comme précédemment et où
g
, indépendant des
grandeurs aléatoires précédentes, sont une loi Beta de paramètre n et
0
n
.
4. Estimation d’une fonctionnelle de P et bootstrap bayésien
La simplicité apparente du processus de Dirichlet ne doit pas cacher la difficulté réelle de déduire de
sa distribution celle de fonctionnelles vectorielles de P. Le problème le plus simple est celui de la
distribution de
 
,m x P dx P Q ò:D
qui n’a en général pas de solution sous forme d’une distribution connue (voir Yamato (1984)). On
trouvera dans Florens et Rolin (1994) les conditions d’existence de cette intégrale. Un moyen simple
pour connaître sa distribution est de procéder à des simulations à l’aide des représentations
précédentes.
Si
 
* *
,P P n:D
on a par exemple :
 
 
1 1
1
n
k k j j
k j
m m x g a g 
¥
 
  +
å å
%
%
et il suffit d’engendrer les
, ,
k k j
 a
et
g
pour obtenir des tirages de
. Cette procédure généralise
le bootstrap bayésien au cas d’une distribution a priori informative.
De façon plus générale on s’intéressera à des paramètres
d
 ÎR
fonctions de P et définis
implicitement par une relation
 
, 0.A P  
Si P est un tirage d’un processus de Dirichlet, P est une loi discrète et donc l’opérateur A doit être
défini pour les lois discrètes. C’est en particulier le cas quand
est défini par une équation de
moment, aussi appelée équation estimante :
 
 
 
, , 0 , .
P d
A P E h X h X  ÎR
La loi de probabilité de
n’a pas d’expression analytique en général mais on peut
simuler P et résoudre en
pour obtenir une simulation de
. Dans le cas de la méthode des
moments généralisée
dim h d>
. Le problème de suridentification ainsi posé est resolu par un
changement de définition de
. Dans la ligne des travaux d’échantillonnage, on définira
comme la
solution des conditions de premier ordre de la minimisation de
 
 
 
 
 
 
1
, , , .
p p P
E h X Var h X E h X  
¢
4
On remplacera P dans ces trois composantes par ses simulations et on déduit par minimisation des
simulations de
.
Le modèle de régression linéaire fournit un exemple d’application de cette démarche.
Considérons le cas de deux variables
 
,X Y Z
et supposons que le paramètre d’intérêt est
 
 
2.
E YZ
E Z
 
Si P est la loi de X et si P a priori est
 
0 0
,P nD
on obtiendra un tirage des
par la loi a
priori en calculant
1
2
1
K
k k k
k
K
k k
k
a  
a 
å
å
ou
 
,
k k
 
est un tirage i.i.d. de
0
P
et
k
a
vecteur de poids aléatoires
précédemment défini. Un tirage a posteriori sera obtenu, dans le cas d’observations distinctes, en
engendrant
1 1
2 2
1 1
K n
k k k i i i
k i
K n
k k i i
k i
y z
z
a  
a 
 
 
+
+
å å
å å
avec là encore
 
1,..., n
 
uniforme sur le simplexe
1n
S
.
5. Mélange de Dirichlet a priori et estimation de la densi
Plusieurs approches ont été développées afin de contourner le fait que le processus de
Dirichlet n’engendre que des lois à support au plus dénombrable. Parmi ces méthodes citons les
mélanges de Dirichlet dont l’intérêt est la similitude avec les méthodes de lissage par noyau. (voir
Escobar et West (1995), Florens et al (1992) et (1999)). Soit
m
XÎR
de loi P. On se limitera pour
simplifier au mélange par convolution suivant. Soit
 
,D Q
un processus de Dirichlet et R une
probabilité a densité sur
m
R
. On supposera que la loi a priori de P est telle que
*P K Q
ou Q est
tiré par le processus de Dirichlet et * le produit de convolution :
   
P B Q B R d R B Q d 
ò ò
La seconde expression permet de vérifier que P admet une densité a priori
 
est la dérivée de .p x r x Q d r R  
ò
Cette expression permet de montrer que la densité a posteriori de P peut être simulée par
1
( ) ( ).
k k
k
p x r xa 
¥
 
å
Malheureusement le calcul a posteriori est plus difficile. Soit
n
C
une partition de
 
1,...,n
en
,...,
i p
A A
de nombre d’éléments
,...,
s p
n n
et considérons les modèles auxiliaires
5
1 / 6 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !