Un algorithme EM pour l`estimation des paramètres d`un modèle de

Un algorithme EM pour l’estimation des
paramètres d’un modèle de mélange croisé
Gérard Govaert*Mohamed Nadif**
*HEUDIASYC, UMR CNRS 6599
Université de Technologie de Compiègne
BP 20529
F-60205 Compiègne cedex
**LITA EA3097
Université de Metz
Ile du Saulcy
F-57045 Metz
RÉSUMÉ. Dans ce travail, nous proposons une approximation de l’algorithme EM pour estimer
les paramètres d’un modèle de mélange croisé.
ABSTRACT. In this paper, we propose an approximation of the EM algorithm to estimate the
parameters of block mixture model.
MOTS-CLÉS : classification croisée, classification par bloc, modèle de mélange, algorithme EM,
algorithme CEM.
KEYWORDS: block clustering, mixture model, EM algorithm, CEM algorithm.
1. Introduction
L’utilisation du modèle de mélange de probabilité en classification automatique
est devenue aujourd’hui une approche classique. Jusqu’à présent, cette approche a
été surtout développée pour classifier un ensemble d’individus caractérisés par un en-
semble de variables. Ici, nous nous intéressons aux méthodes de classification croisée
qui considèrent simultanément les deux ensembles en cherchant à structurer le tableau
de données sous forme de blocs homogènes [HAR 75, GOV 77, GOV 83, GOV 95].
Pour prendre en compte ce type de structure de classification, un algorithme de mé-
lange croisé a été développé [GOV 03] et l’extension de l’algorithme CEM [CEL 92]
2 Journées de Statistique 2003.
à ce type de modèle a permis de généraliser ces algorithmes de classification croisée.
Toutefois, il est connu que l’approche CEM peut conduire à des résultats biaisés et il
peut être recommandé d’estimer d’abord les paramètres du modèle de mélange puis
d’en déduire une classification. C’est l’objectif du travail que nous présentons ici.
Pour simplifier les notations, le vecteur zassocié à une partition de Ien gclasses
correspondra à la fois au vecteur des classes (z1, ..., zg)et au vecteur des labels des
individus (z1, . . . , zn), labels qui pourront eux-même être représentés par le vecteur
indicateur (zi1, . . . , zig): ainsi la classe zkcorrespond à l’ensemble des individus i
tels que zi=kou zik = 1. On utilisera la même notation pour les partitions wde J
en mclasses.
2. Modèle de mélange croisé
Partant du modèle de mélange fini de densités, qui suppose, rappelons-le, que les
données x= (x1, . . . , xn)sont issues d’un vecteur aléatoire iid de RPde densité
f(xi) = Pg
k=1 pkϕk(xi)gest le nombre de composants et les pket les ϕksont
respectivement les proportions et les densités de chaque composant k, nous avons
proposé dans [GOV 03] un modèle génératif de données permettant de prendre en
compte des structure de classification croisée. Pour ceci, nous avons d’abord montré
que la densité du vecteur x= (x1, . . . , xn)peut aussi s’écrire
f(x) = X
z∈Z
p(z)f(x|z),(1)
Zreprésente l’ensemble de toutes les partitions possibles de Ien gclasses, f(x|z) =
Qn
i=1 ϕzi(xi)et p(z) = Qn
ipzi. Ce modèle se généralise alors simplement à une
structure de classes croisées sur l’ensemble I×Jpar la densité
f(x) = X
(z,w)∈Z×W
p(z,w)f(x|z,w),(2)
Zet Wsont les ensembles de toutes les partitions possibles zde Iet wde J. Nous
avons supposé de plus que les partitions zet wétaient indépendantes, que les v.a.
xij étaient indépendantes conditionnellement au couple (z,w)(hypothèse des classes
latentes) et enfin que les distributions sur Rainsi obtenues appartenaient à une famille
paramétrée pour finalement obtenir le modèle de mélange croisée de densité
f(x;θ) = X
(z,w)∈Z×W
Y
i
pziY
j
qwjY
i,j
ϕziwj(xj
i;α).(3)
où les pket les q`sont les proportions des classes zket w`, les ϕk`(x, α)sont des
densités sur Rde paramètre αet θest le vecteur de l’ensemble des paramètres.
Comme pour le modèle de mélange classique, la recherche d’un couple de parti-
tions s’appuyant sur le modèle de mélange croisé que l’on vient de définir, peut être
traitée de deux façons différentes :
EM et modèle de mélange croisé 3
à l’aide de l’approche « estimation » : les paramètres du modèle sont d’abord
estimés, puis le couple de partitions en est déduit;
– à l’aide de l’approche « classification » [SYM 81] : les paramètres et la classifi-
cation sont obtenus simultanément en maximisant la log-vraisemblance des données
complétées.
Nous avons traité cette dernière approche dans [GOV 03] en utilisant une exten-
sion de l’algorithme CEM [CEL 92] que l’on peut considérer comme une variante
classifiante de l’algorithme EM. Ceci nous a conduit à proposer des algorithmes de
classification croisée très généraux permettant de prendre en compte des situations
variées (données continues, binaires,...) et de traiter de très gros tableaux de données.
Toutefois, comme pour les modèles de mélange habituels, cette approche s’appuie sur
une estimation biaisée des paramètres et peut conduire à de mauvais résultats, en par-
ticulier si les composants ne sont pas très séparés; l’approche estimation, bien qu’elle
puisse être beaucoup plus lente, est généralement recommandée.
3. Approche estimation
Comme pour les modèles de mélange simples, il paraît naturel d’envisager l’es-
timation des paramètres du modèle de mélange croisé à l’aide de la méthode du
maximum de vraisemblance et d’utiliser pour ceci l’algorithme EM. Rappelons que
pour maximiser la log-vraisemblance, cet algorithme fait appel à la notion de données
complétées (le vecteur (x,z,w)dans notre cas) et s’appuie sur la log-vraisemblance
L(θ;x,z,w)de ces données complétées qui s’écrit :
L(θ;x,z,w) = X
ik
zik log pk+X
j`
wj` log q`+X
ijk`
zikwj` log ϕk`(xj
i;α`
k).(4)
Le principe de l’algorithme est de maximiser de manière itérative l’espérance de cette
log-vraisemblance complétée conditionnellement aux données xet à la valeur du pa-
ramètre courant θ(c):
Q(θ, θ(c)) = X
ik
P(zik = 1|x, θ(c)) log pk+X
j`
P(wj` = 1|x, θ(c)) log q`
+X
ijk`
P(zikwj` = 1|x, θ(c)) log ϕk`(xj
i;α`
k).(5)
Malheureusement, la maximisation de cette fonction Qn’est pas directe comme
pour le modèle de mélange simple; les difficultés résultent de la structure de la dépen-
dance du modèle et la détermination de P(zikwj` = 1|x, θ(c))pose des problèmes.
Cette situation est voisine de celle des champs de Markov caché et d’ailleurs, comme
dans cette situation, même la classification par la méthode du MAP (maximum de
probabilité a posteriori) à partir des paramètres supposés connus n’est pas directe et
nécessite un algorithme itératif.
Pour résoudre ce problème, nous proposons ici une démarche en deux étapes :
4 Journées de Statistique 2003.
tout d’abord, en utilisant une approximation de la probabilité a posteriori du
couple de partitions de type pseudo-vraisemblance [BES 75], semblable à celle qui
est développée dans le cas des champs de Markov caché
P(zikwj` = 1|x, θ(c)) = P(zik = 1|x, θ(c))P(wj` = 1|x, θ(c)),
nous remplaçons la fonction Qpar la fonction suivante :
˜
Q(θ, θ(c)) = X
ik
c(c)
ik log pk+X
j`
d(c)
j` log q`+X
ijk`
c(c)
ik d(c)
j` log ϕk`(xj
i;α`
k)
c(c)
ik =P(zik = 1|x, θ(c))et d(c)
j` =P(wj` = 1|x, θ(c));
nous proposons dans un second temps de maximiser cette expression à l’aide
d’un algorithme alterné obtenu en fixant respectivement les probabilités cik puis les
probabilités dj`. Dans les deux deux cas, on obtient alors simplement des versions
classiques de l’algorithme EM appliquées à des modèle de mélanges issus du modèle
de mélange croisé.
On peut alors montrer que cet algorithme a les propriétés habituelles de conver-
gence de l’algorithme EM et qu’en particulier, il permet de construire une suite crois-
sante d’une approximation de la vraisemblance L(θ, x).
4. Bibliographie
[BES 75] BESAG J., « Statistical analysis of lattice systems », The Statistician, vol. 24, 1975,
p. 179-195.
[CEL 92] CELEUX G., GOVAERT G., « A Classification EM Algorithm for Clustering and
Two Stochastic Versions », Computational Statistics and Data Analysis, vol. 14, no3,
1992, p. 315-332.
[GOV 77] GOVAERT G., « Algorithme de classification d’un tableau de contingence », First
international symposium on data analysis and infomatics, Versailles, 1977, INRIA, p. 487-
500.
[GOV 83] GOVAERT G., Classification croisée, Thèse d’État, Université Paris 6, France, 1983.
[GOV 95] GOVAERT G., « Simultaneous Clustering of Rows and Columns », Control and
Cybernetics, vol. 24, no4, 1995, p. 437-458.
[GOV 03] GOVAERT G., NADIF M., « Clustering with block mixture models », Pattern Re-
cognition, vol. 36, no2, 2003, p. 463-473.
[HAR 75] HARTIGAN J. A., Clustering Algorithms, Wiley, New York, 1975.
[SYM 81] SYMONS M. J., « Clustering Criteria and Multivariate Normal Mixture », Biome-
trics, vol. 37, 1981, p. 35-43.
1 / 4 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !