INTRODUCTION A LA STATISTIQUE BAYÉSIENNE NON PARAMÉTRIQUE Jean-Pierre Florens Université Toulouse 1 (IDEI, GREMAQ) Manufacture des Tabacs – Bât F 21, allée de Brienne – 31000 Toulouse Résumé L’objectif principal de cet exposé est de rappeler le modèle de base de la statistique bayésienne non paramétrique constitué d’un échantillonnage i.i.d. et d’une probabilité a priori sur sa distribution appartenant à la classe des processus de Dirichlet. Cette lois de probabilité a priori est « naturelle conjuguée » à l’échantillonnage i.i.d. On s’intéressera aux propriétés de représentation des processus de Dirichlet qui permettent d’analyser par simulation la distribution a priori et a posteriori de fonctionnelles de la loi de probabilité inconnue. L’application la plus pertinente consiste à étudier par simulation la distribution de paramètres caractérisés par une équation de moment. Le processus de Dirichlet n’engendre que des lois de probabilité discrètes. Cette caractéristique, intimement associée à sa nature « naturelle conjuguée », rend évidemment impossible l’estimation de fonctionnelles définies à partir de lois lisses. On évoquera les extensions du processus de Dirichlet permettant de traiter ce problème. Abstract This lecture presents the basic nonparametric bayesian model constructed by an i.i.d. sampling process and a Dirichlet prior process. This prior is a natural conjugate prior distribution. We focus our presentation on representations of Dirichlet processes. An analysis by simulation of functional transformations of prior and posterior Dirichlet processes follows from the representations. An important application is given by inference of a parameter characterized by a moment equation. Dirichlet processes only generate discrete probability measures and functional transformations defined for smouth probabilities only are then undefined. We consider at the end of the presentation some extensions of Dirichlet processes which cover some of these cases. 1. Introduction L’objectif de cet exposé est de présenter brièvement les principales caractéristiques du modèle bayésien non paramétrique élémentaire et d’envisager quelques uns de ses prolongements. Par modèle élémentaire nous entendons un échantillonnage i.i.d. d’une distribution inconnue munie d’une probabilité a priori de la famille des processus de Dirichlet. On montre alors que la probabilité a posteriori de cette distribution est encore un processus de Dirichlet. Les processus de Dirichlet sont des mesures aléatoires engendrant presque sûrement des probabilités discrètes a support au plus dénombrable et l’on rappellera la caractérisation des trajectoires engendrées par ces processus ainsi qu’une technique simple de simulation de processus de Dirichlet approchés. Ce mode de simulation donne une interprétation bayésienne au bootstrap et permet d’analyser la distribution de certaines fonctionnelles associées à la distribution inconnue. On donnera ainsi une version bayésienne de la méthode des moments généralisée. 1 Nous envisagerons un prolongement de ce modèle élémentaire qui consiste en une modification de la probabilité a priori permettant d’obtenir une mesure aléatoire a posteriori génératrice de distributions lisses. 2. Le modèle bayésien non paramétrique élémentaire Le modèle bayésien non paramétrique généralise le modèle de l’échantillonnage multinomial avec probabilité a priori de Dirichlet. Considérons un élement aléatoire X à valeur dans l’ensemble fini 1,..., K vérifiant P X k pk . Le paramètre inconnu de ce modèle est le vecteur p p1 ,..., pK du simplexe S K 1 de dimension K 1 . Le vecteur p est muni d’une a priori de Dirichlet de densité f Dir p | 0 G 0 K ÕG k 1 K Õp k 1 1 p Î S K 1 0 k 1 k 0k K où 01 ,..., 0 K 0 k > 0 et 0 å 0 k . k 1 On vérifie alors que si l’on dispose d’un échantillonnage i.i.d. de taille n, les nombres nk k 1,..., K de réalisations de chaque modalité k forment une statistique exhaustive. La loi de probabilité a posteriori de p est encore une loi de Dirichlet de paramètre * *1 ,..., *K avec *k 0 k + nk "k 1,..., K . Dans le modèle non paramétrique non discret l’élément aléatoire X Î X R m met est engendré par la probabilité P. L’élément inconnu P est lui-même muni d’une loi de probabilité nommée processus de Dirichlet et caractérisé par une probabilité donnée P0 et un réel positif n0 . On notera cette hypothèse P : D P0 , n0 et cette mesure aléatoire est définie par la propriété : "B1 ,...BL partition de X , P B1 ,..., P BL suit une loi de Dirichlet de S L 1 de paramètres n0 P0 B1 ,..., n0 P0 BL . Considérons un échantillon i.i.d. de la loi P noté x1 ,..., xn et Pn est la loi de probabilité empirique associée à cet échantillon : Pn 1 n å x n i 1 i où xi est la mesure de Dirac en xi . On montre alors que la probabilité a posteriori de P est encore un processus de Dirichlet de paramètres : n* n0 + n P* n0 n P0 + P. n0 + n n0 + n n Si P : D Q, et si B est un ensemble mesurable on a 2 E P B Q B et Var P B Q B 1 Q B . +1 En appliquant ces résultats aux processus a priori et a posteriori on voit en particulier que Px est l’espérance a posteriori de P qui a le même comportement asymptotique que la probabilité empirique Pn . Choisir n0 très petit implique que P a posteriori suit un processus de Dirichlet D Pn , n . On appellera ce processus le processus de Dirichlet d’échantillonnage. On considère que ce processus a posteriori est obtenu en l’absence d’informations a priori bien que le processus D P0 , n0 possède un comportement ne correspondant pas à l’intuition quand n0 0 . Il est enfin intéressant d’examiner la loi marginale (ou prédictive) de l’échantillon x1 ,..., xn après intégration de P par rapport au processus a priori. Nous examinons ici le cas où n0 est quelconque. Une description de cette loi consiste à remarquer que n0 1 n0 i x1 : P0 , x2 | x1 : P0 + x , ..., xi +1 | x1,..., x i : P0 + P n0 + 1 n0 + 1 n0 + i n0 + i i où Pi est la loi empirique associée à x1 ,..., xi . Cette loi de probabilité sur R nm engendre avec une probabilité positive des ex aequo. 1 3. Représentation des processus de Dirichlet Le modèle non paramétrique précédemment décrit a été présenté par Fergurons (1973 et 1974). Il est apparu dans ces travaux que les processus de Dirichlet n’engendrent que des probabilités discrètes a support au plus dénombrable ce qui pose la question de l’adéquation du modèle au cas où la loi génératrice des données est supposée continue ainsi que la question de l’estimation de fonctionnelles de P n’étant définies que pour des lois lisses (densité). Les travaux de Rolin (92 a et b) et Sethuraman (92) permettent une description des trajectoires du processus de Dirichlet plus simple que celle des travaux originaux de Ferguson. A partir d’un résultat général présenté dans Florens et Rolin (1994) on montre les résultats suivants : - Si P suit le processus de Dirichlet d’échantillonnage P : D Pn , n on a alors la représentation n% presque sûre: P å j %x où x%j j 1,...,n% représente les valeurs distinctes de l’échantillon et où le j 1 j vecteur aléatoire 1 ,..., n% suit une loi de Dirichlet de paramètres J1 ,..., J n% si J j est l’ordre de multiplicité dans l’échantillon de x%j . En particulier si l’échantillon ne possède que des valeurs distinctes, le vecteur 1 ,..., n sont une loi uniforme sur le simplexe. Un tel vecteur est engendré en normalisant n exponentielles indépendantes de paramètre 1. - Si P suit le processus de Dirichlet a priori P : D P0 , n0 et si P0 n’a pas de point de masse on a k 1 ¥ P å a k où k k est un tirage i.i.d. de P0 et a k k Õ 1 j . Les k sont indépendants des k 1 k j 1 k et sont i.i.d. de loi Beta de paramètres 1 et n0 . On pourra simuler P en tronquant la somme infinie à K. L’erreur d’approximation a une loi connue 3 fonction de n0 . Enfin si P suit un processus de Dirichlet a posteriori P : D P* , n* on vérifie que n% ¥ P 1 g å a k + g å j x% k 1 k j j1 où les a k ,k et j sont engendrés indépendamment comme précédemment et où g , indépendant des grandeurs aléatoires précédentes, sont une loi Beta de paramètre n et n0 . 4. Estimation d’une fonctionnelle de P et bootstrap bayésien La simplicité apparente du processus de Dirichlet ne doit pas cacher la difficulté réelle de déduire de sa distribution celle de fonctionnelles vectorielles de P. Le problème le plus simple est celui de la distribution de ò m x P dx où P : D Q, qui n’a en général pas de solution sous forme d’une distribution connue (voir Yamato (1984)). On trouvera dans Florens et Rolin (1994) les conditions d’existence de cette intégrale. Un moyen simple pour connaître sa distribution est de procéder à des simulations à l’aide des représentations précédentes. Si P : D P* , n* on a par exemple : ¥ n% k 1 j 1 1 g å a k m k + g å j m x%j et il suffit d’engendrer les k , a k , j et g pour obtenir des tirages de . Cette procédure généralise le bootstrap bayésien au cas d’une distribution a priori informative. De façon plus générale on s’intéressera à des paramètres Î R d fonctions de P et définis implicitement par une relation A P, 0. Si P est un tirage d’un processus de Dirichlet, P est une loi discrète et donc l’opérateur A doit être défini pour les lois discrètes. C’est en particulier le cas quand est défini par une équation de moment, aussi appelée équation estimante : A P, E P h X , 0 h X , Î R d . La loi de probabilité de n’a pas d’expression analytique en général mais on peut simuler P et résoudre en pour obtenir une simulation de . Dans le cas de la méthode des moments généralisée dim h > d . Le problème de suridentification ainsi posé est resolu par un changement de définition de . Dans la ligne des travaux d’échantillonnage, on définira comme la solution des conditions de premier ordre de la minimisation de E p h X , ¢ Var p h X , E P h X , . 1 4 On remplacera P dans ces trois composantes par ses simulations et on déduit par minimisation des simulations de . Le modèle de régression linéaire fournit un exemple d’application de cette démarche. Considérons le cas de deux variables X Y , Z et supposons que le paramètre d’intérêt est E YZ E Z2 . Si P est la loi de X et si P a priori est D P0 , n0 on obtiendra un tirage des par la loi a K åa k priori en calculant k k 1 K k åa k 1 k 2 k ou k , k est un tirage i.i.d. de P0 et a k vecteur de poids aléatoires précédemment défini. Un tirage a posteriori sera obtenu, dans le cas d’observations distinctes, en engendrant K n åak kk + å i yi zi k 1 K åa k 1 k 2 k i1 n + å i zi2 i 1 avec là encore 1 ,..., n uniforme sur le simplexe S n1 . 5. Mélange de Dirichlet a priori et estimation de la densité Plusieurs approches ont été développées afin de contourner le fait que le processus de Dirichlet n’engendre que des lois à support au plus dénombrable. Parmi ces méthodes citons les mélanges de Dirichlet dont l’intérêt est la similitude avec les méthodes de lissage par noyau. (voir Escobar et West (1995), Florens et al (1992) et (1999)). Soit X Î R m de loi P. On se limitera pour simplifier au mélange par convolution suivant. Soit D Q, un processus de Dirichlet et R une probabilité a densité sur R m . On supposera que la loi a priori de P est telle que P K * Q ou Q est tiré par le processus de Dirichlet et * le produit de convolution : P B ò Q B R d ò R B Q d La seconde expression permet de vérifier que P admet une densité a priori p x ò r x Q d où r est la dérivée de R. Cette expression permet de montrer que la densité a posteriori de P peut être simulée par ¥ p( x) å a k r ( x k ). k 1 Malheureusement le calcul a posteriori est plus difficile. Soit Cn une partition de 1,..., n en Ai ,..., Ap de nombre d’éléments ns ,..., n p et considérons les modèles auxiliaires 5 xl j j + l j xl j , j , l j Î R m m j 1,..., p l 1,..., n j où les l j sont iid de loi R, les paramètres j est distribué selon Q0 et où les xli sont les observations correspondantes à l’élément A j de la partition de j . Par la formule de Bayes, on calcule alors Q j la probabilité de j obtenue par ce modèle. On montre alors que la densité a posteriori vérifie : ¥ p k1 j 1 p x | x1 ,..., xn , Cn (1 g ) å a k r x k + g å j r x j où les j sont un tirage iid de Q j . Cette expression est conditionnelle à Cn , configuration d’exaequo de la predictive déduite du processus de Dirichlet. On doit aussi effectuer la sommation sur toutes les partitions possibles en pondérant par leurs probabilités conditionnelles à l’échantillon. La dimension de ce calcul le rend impossible mais une stratégie par échantillonnage de Gibbs a été proposée dans la littérature (Escobar et West 1995). 6. Conclusion Cet exposé ne fait qu’introduire à l’analyse Bayésienne nonparamétrique. Parmi les multiples domaines non évoqués citons le traitement de données censurées et l’utilisation de probabilités a priori généralisant le processus de Dirichlet (processus Beta ou “polya tree prior” par exemple voir Ghosh et Ramamoorthi (2003)). Bibliographie [1] Escobar, A. et West, M. (1995) Bayesian density estimation and inference using mixtures, Journal of the American Statistical Association, 90, 577–588. [2] Ferguson, T.S. (1973) A Bayesian Analysis of Some Nonparametric Problems, Annals of Statistics, 1, 209–230. [3] Ferguson, T.S. (1974) A Prior Distributions on Spaces of Probability Measures, Annals of Statistics, 2, 615–629. [4] Florens, J.P., Mouchart, M. et Rolin, J.M. (1992) Bayesian Analysis of Mixtures: Some Results on Exact Estimability and Identification, in Bayesian Statistics, 4, 127–145, Eds J. M. Bernardo, J.O. Berger, A.P. Dawid et A.F.M. Smith, Oxford Science Publications. [5] Florens, J.P. et Rolin, J.M. (1994) Bayes, Bootstrap, Moments, Discussion paper 9413, Institut de Statistique, Université catholique de Louvain, Louvain-la-Neuve, Belgium. [6] Florens, J.P., Mouchart, M. et Rolin, J.M. (1999) Semi- and Non-parametric Bayesian Analysis of Duration Models with Dirichlet Priors: a Survey, International Statistical Review, 67, 187–211. [7] Ghosh, J.K. et Ramamoorthi, R.V. (2003) Bayesian Nonparametrics, Springer, New York. [8] Sethuraman, J. (1994) A Constructive Definition of the Dirichlet Prior, Statistica Sinica, 2, 639– 650. [9] Yamato, H. (1984) Properties of samples from distributions chosen from a Dirichlet process, Bulletin of Informatics and Cybernetics, 21, 77–83. 6