probabilité probabilité a -lesquelles -"calculer la"

publicité
INTRODUCTION A LA STATISTIQUE BAYÉSIENNE NON PARAMÉTRIQUE
Jean-Pierre Florens
Université Toulouse 1 (IDEI, GREMAQ)
Manufacture des Tabacs – Bât F
21, allée de Brienne – 31000 Toulouse
Résumé
L’objectif principal de cet exposé est de rappeler le modèle de base de la statistique bayésienne non
paramétrique constitué d’un échantillonnage i.i.d. et d’une probabilité a priori sur sa distribution
appartenant à la classe des processus de Dirichlet. Cette lois de probabilité a priori est « naturelle
conjuguée » à l’échantillonnage i.i.d. On s’intéressera aux propriétés de représentation des
processus de Dirichlet qui permettent d’analyser par simulation la distribution a priori et a
posteriori de fonctionnelles de la loi de probabilité inconnue. L’application la plus pertinente
consiste à étudier par simulation la distribution de paramètres caractérisés par une équation de
moment.
Le processus de Dirichlet n’engendre que des lois de probabilité discrètes. Cette caractéristique,
intimement associée à sa nature « naturelle conjuguée », rend évidemment impossible l’estimation
de fonctionnelles définies à partir de lois lisses. On évoquera les extensions du processus de
Dirichlet permettant de traiter ce problème.
Abstract
This lecture presents the basic nonparametric bayesian model constructed by an i.i.d. sampling
process and a Dirichlet prior process. This prior is a natural conjugate prior distribution. We focus
our presentation on representations of Dirichlet processes. An analysis by simulation of functional
transformations of prior and posterior Dirichlet processes follows from the representations. An
important application is given by inference of a parameter characterized by a moment equation.
Dirichlet processes only generate discrete probability measures and functional transformations
defined for smouth probabilities only are then undefined. We consider at the end of the presentation
some extensions of Dirichlet processes which cover some of these cases.
1. Introduction
L’objectif de cet exposé est de présenter brièvement les principales caractéristiques du modèle
bayésien non paramétrique élémentaire et d’envisager quelques uns de ses prolongements. Par
modèle élémentaire nous entendons un échantillonnage i.i.d. d’une distribution inconnue munie
d’une probabilité a priori de la famille des processus de Dirichlet. On montre alors que la probabilité
a posteriori de cette distribution est encore un processus de Dirichlet. Les processus de Dirichlet sont
des mesures aléatoires engendrant presque sûrement des probabilités discrètes a support au plus
dénombrable et l’on rappellera la caractérisation des trajectoires engendrées par ces processus ainsi
qu’une technique simple de simulation de processus de Dirichlet approchés. Ce mode de simulation
donne une interprétation bayésienne au bootstrap et permet d’analyser la distribution de certaines
fonctionnelles associées à la distribution inconnue. On donnera ainsi une version bayésienne de la
méthode des moments généralisée.
1
Nous envisagerons un prolongement de ce modèle élémentaire qui consiste en une modification de la
probabilité a priori permettant d’obtenir une mesure aléatoire a posteriori génératrice de distributions
lisses.
2. Le modèle bayésien non paramétrique élémentaire
Le modèle bayésien non paramétrique généralise le modèle de l’échantillonnage multinomial avec
probabilité a priori de Dirichlet. Considérons un élement aléatoire X à valeur dans l’ensemble fini
 1,..., K  vérifiant P  X  k   pk . Le paramètre inconnu de ce modèle est le vecteur
p   p1 ,..., pK  du simplexe S K 1 de dimension K  1 . Le vecteur p est muni d’une a priori de
Dirichlet de densité
f Dir  p | 0  
G  0 
K
ÕG  
k 1
K
Õp
k 1
1 p Î S K 1 
0 k  1
k
0k
K
où     01 ,...,  0 K  0 k > 0 et  0  å  0 k .
k 1
On vérifie alors que si l’on dispose d’un échantillonnage i.i.d. de taille n, les nombres
nk  k  1,..., K  de réalisations de chaque modalité k forment une statistique exhaustive. La loi de
probabilité a posteriori de p est encore une loi de Dirichlet de paramètre *   *1 ,..., *K  avec
*k   0 k + nk
"k  1,..., K .
Dans le modèle non paramétrique non discret l’élément aléatoire X Î X  R m met est engendré par la
probabilité P. L’élément inconnu P est lui-même muni d’une loi de probabilité nommée processus de
Dirichlet et caractérisé par une probabilité donnée P0 et un réel positif n0 . On notera cette hypothèse
P : D  P0 , n0  et cette mesure aléatoire est définie par la propriété : "B1 ,...BL partition de
X ,  P  B1  ,..., P  BL   suit une loi de Dirichlet de S L 1 de paramètres  n0 P0  B1  ,..., n0 P0  BL   .
Considérons un échantillon i.i.d. de la loi P noté  x1 ,..., xn  et Pn est la loi de probabilité empirique
associée à cet échantillon :
Pn 
1 n
å x
n i 1
i
où  xi est la mesure de Dirac en xi . On montre alors que la probabilité a posteriori de P est encore
un processus de Dirichlet de paramètres :
n*  n0 + n P* 
n0
n
P0 +
P.
n0 + n
n0 + n n
Si P : D  Q,  et si B est un ensemble mesurable on a
2
E  P  B    Q  B  et Var  P  B   
Q  B   1  Q  B 
.
 +1
En appliquant ces résultats aux processus a priori et a posteriori on voit en particulier que Px est
l’espérance a posteriori de P qui a le même comportement asymptotique que la probabilité empirique
Pn .
Choisir n0 très petit implique que P a posteriori suit un processus de Dirichlet D  Pn , n  . On
appellera ce processus le processus de Dirichlet d’échantillonnage. On considère que ce processus a
posteriori est obtenu en l’absence d’informations a priori bien que le processus D  P0 , n0  possède
un comportement ne correspondant pas à l’intuition quand n0  0 .
Il est enfin intéressant d’examiner la loi marginale (ou prédictive) de l’échantillon  x1 ,..., xn  après
intégration de P par rapport au processus a priori. Nous examinons ici le cas où n0 est quelconque.
Une description de cette loi consiste à remarquer que
n0
1
n0
i
x1 : P0 , x2 | x1 :
P0 +
 x , ..., xi +1 | x1,..., x i :
P0 +
P
n0 + 1
n0 + 1
n0 + i
n0 + i i
où Pi est la loi empirique associée à x1 ,..., xi . Cette loi de probabilité sur R nm engendre avec une
probabilité positive des ex aequo.
1
3. Représentation des processus de Dirichlet
Le modèle non paramétrique précédemment décrit a été présenté par Fergurons (1973 et 1974). Il est
apparu dans ces travaux que les processus de Dirichlet n’engendrent que des probabilités discrètes a
support au plus dénombrable ce qui pose la question de l’adéquation du modèle au cas où la loi
génératrice des données est supposée continue ainsi que la question de l’estimation de fonctionnelles
de P n’étant définies que pour des lois lisses (densité). Les travaux de Rolin (92 a et b) et Sethuraman
(92) permettent une description des trajectoires du processus de Dirichlet plus simple que celle des
travaux originaux de Ferguson. A partir d’un résultat général présenté dans Florens et Rolin (1994)
on montre les résultats suivants :
- Si P suit le processus de Dirichlet d’échantillonnage  P : D  Pn , n   on a alors la représentation
n%
presque sûre: P  å  j %x où  x%j  j 1,...,n% représente les valeurs distinctes de l’échantillon et où le
j 1
j
vecteur aléatoire  1 ,...,  n% suit une loi de Dirichlet de paramètres  J1 ,..., J n% si J j est l’ordre de
multiplicité dans l’échantillon de x%j . En particulier si l’échantillon ne possède que des valeurs
distinctes, le vecteur  1 ,...,  n  sont une loi uniforme sur le simplexe. Un tel vecteur est engendré en
normalisant n exponentielles indépendantes de paramètre 1.
- Si P suit le processus de Dirichlet a priori  P : D  P0 , n0   et si P0 n’a pas de point de masse on a
k 1
¥
P  å a k  où   k  k est un tirage i.i.d. de P0 et a k   k Õ  1   j  . Les k sont indépendants des
k 1
k
j 1
 k et sont i.i.d. de loi Beta de paramètres 1 et n0 .
On pourra simuler P en tronquant la somme infinie à K. L’erreur d’approximation a une loi connue
3
fonction de n0 .
Enfin si P suit un processus de Dirichlet a posteriori  P : D  P* , n*   on vérifie que
n%
¥
P   1  g  å a k  + g å  j  x%
k 1
k
j
j1
où les a k ,k et  j sont engendrés indépendamment comme précédemment et où g , indépendant des
grandeurs aléatoires précédentes, sont une loi Beta de paramètre n et n0 .
4. Estimation d’une fonctionnelle de P et bootstrap bayésien
La simplicité apparente du processus de Dirichlet ne doit pas cacher la difficulté réelle de déduire de
sa distribution celle de fonctionnelles vectorielles de P. Le problème le plus simple est celui de la
distribution de
  ò m  x  P  dx  où P : D  Q, 
qui n’a en général pas de solution sous forme d’une distribution connue (voir Yamato (1984)). On
trouvera dans Florens et Rolin (1994) les conditions d’existence de cette intégrale. Un moyen simple
pour connaître sa distribution est de procéder à des simulations à l’aide des représentations
précédentes.
Si P : D  P* , n*  on a par exemple :
¥
n%
k 1
j 1
   1  g  å a k m  k  + g å  j m  x%j 
et il suffit d’engendrer les  k , a k ,  j et g pour obtenir des tirages de  . Cette procédure généralise
le bootstrap bayésien au cas d’une distribution a priori informative.
De façon plus générale on s’intéressera à des paramètres  Î R d fonctions de P et définis
implicitement par une relation
A  P,    0.
Si P est un tirage d’un processus de Dirichlet, P est une loi discrète et donc l’opérateur A doit être
défini pour les lois discrètes. C’est en particulier le cas quand  est défini par une équation de
moment, aussi appelée équation estimante :
A  P,    E P  h  X ,     0 h  X ,   Î R d .
La loi de probabilité de  n’a pas d’expression analytique en général mais on peut
simuler P et résoudre en  pour obtenir une simulation de  . Dans le cas de la méthode des
moments généralisée dim h > d . Le problème de suridentification ainsi posé est resolu par un
changement de définition de  . Dans la ligne des travaux d’échantillonnage, on définira  comme la
solution des conditions de premier ordre de la minimisation de
E p  h  X ,   ¢ Var p  h  X ,    E P  h  X ,   .
1
4
On remplacera P dans ces trois composantes par ses simulations et on déduit par minimisation des
simulations de  .
Le modèle de régression linéaire fournit un exemple d’application de cette démarche.
Considérons le cas de deux variables X   Y , Z  et supposons que le paramètre d’intérêt est

E  YZ 
E Z2 
.
Si P est la loi de X et si P a priori est D  P0 , n0  on obtiendra un tirage des  par la loi a
K
åa  
k
priori en calculant
k
k 1
K
k
åa 
k 1
k
2
k
ou   k , k  est un tirage i.i.d. de P0 et a k vecteur de poids aléatoires
précédemment défini. Un tirage a posteriori sera obtenu, dans le cas d’observations distinctes, en
engendrant
K
n
åak  kk + å i yi zi
k 1
K
åa 
k 1
k
2
k
i1
n
+ å i zi2
i 1
avec là encore  1 ,...,  n  uniforme sur le simplexe S n1 .
5. Mélange de Dirichlet a priori et estimation de la densité
Plusieurs approches ont été développées afin de contourner le fait que le processus de
Dirichlet n’engendre que des lois à support au plus dénombrable. Parmi ces méthodes citons les
mélanges de Dirichlet dont l’intérêt est la similitude avec les méthodes de lissage par noyau. (voir
Escobar et West (1995), Florens et al (1992) et (1999)). Soit X Î R m de loi P. On se limitera pour
simplifier au mélange par convolution suivant. Soit D  Q,  un processus de Dirichlet et R une
probabilité a densité sur R m . On supposera que la loi a priori de P est telle que P  K * Q ou Q est
tiré par le processus de Dirichlet et * le produit de convolution :
P  B   ò Q  B    R  d    ò R  B    Q  d 
La seconde expression permet de vérifier que P admet une densité a priori
p  x   ò r  x    Q  d   où r est la dérivée de R.
Cette expression permet de montrer que la densité a posteriori de P peut être simulée par
¥
p( x)  å a k r ( x  k ).
k 1
Malheureusement le calcul a posteriori est plus difficile. Soit Cn une partition de  1,..., n
en Ai ,..., Ap de nombre d’éléments ns ,..., n p et considérons les modèles auxiliaires
5
xl j   j +  l j
xl j ,  j ,  l j Î R m m j  1,..., p
l  1,..., n j
où les  l j sont iid de loi R, les paramètres  j est distribué selon Q0 et où les xli sont les observations
correspondantes à l’élément A j de la partition de  j . Par la formule de Bayes, on calcule alors Q j
la probabilité de  j obtenue par ce modèle. On montre alors que la densité a posteriori vérifie :
¥
p
k1
j 1
p  x | x1 ,..., xn , Cn   (1  g ) å a k r  x  k  + g å  j r  x   j 
où les  j sont un tirage iid de Q j .
Cette expression est conditionnelle à Cn , configuration d’exaequo de la predictive déduite
du processus de Dirichlet. On doit aussi effectuer la sommation sur toutes les partitions possibles en
pondérant par leurs probabilités conditionnelles à l’échantillon. La dimension de ce calcul le rend
impossible mais une stratégie par échantillonnage de Gibbs a été proposée dans la littérature
(Escobar et West 1995).
6. Conclusion
Cet exposé ne fait qu’introduire à l’analyse Bayésienne nonparamétrique. Parmi les
multiples domaines non évoqués citons le traitement de données censurées et l’utilisation de
probabilités a priori généralisant le processus de Dirichlet (processus Beta ou “polya tree prior” par
exemple voir Ghosh et Ramamoorthi (2003)).
Bibliographie
[1] Escobar, A. et West, M. (1995) Bayesian density estimation and inference using mixtures,
Journal of the American Statistical Association, 90, 577–588.
[2] Ferguson, T.S. (1973) A Bayesian Analysis of Some Nonparametric Problems, Annals of
Statistics, 1, 209–230.
[3] Ferguson, T.S. (1974) A Prior Distributions on Spaces of Probability Measures, Annals of
Statistics, 2, 615–629.
[4] Florens, J.P., Mouchart, M. et Rolin, J.M. (1992) Bayesian Analysis of Mixtures: Some Results
on Exact Estimability and Identification, in Bayesian Statistics, 4, 127–145, Eds J. M. Bernardo, J.O.
Berger, A.P. Dawid et A.F.M. Smith, Oxford Science Publications.
[5] Florens, J.P. et Rolin, J.M. (1994) Bayes, Bootstrap, Moments, Discussion paper 9413, Institut de
Statistique, Université catholique de Louvain, Louvain-la-Neuve, Belgium.
[6] Florens, J.P., Mouchart, M. et Rolin, J.M. (1999) Semi- and Non-parametric Bayesian Analysis of
Duration Models with Dirichlet Priors: a Survey, International Statistical Review, 67, 187–211.
[7] Ghosh, J.K. et Ramamoorthi, R.V. (2003) Bayesian Nonparametrics, Springer, New York.
[8] Sethuraman, J. (1994) A Constructive Definition of the Dirichlet Prior, Statistica Sinica, 2, 639–
650.
[9] Yamato, H. (1984) Properties of samples from distributions chosen from a Dirichlet process,
Bulletin of Informatics and Cybernetics, 21, 77–83.
6
Téléchargement