Un algorithme EM pour l`estimation des paramètres d`un modèle de

Téléchargement

Un algorithme EM pour l’estimation des

paramètres d’un modèle de mélange croisé

Gérard Govaert*—Mohamed Nadif**

*HEUDIASYC, UMR CNRS 6599

Université de Technologie de Compiègne

BP 20529

F-60205 Compiègne cedex

Gerard.Go[email protected]

**LITA EA3097

Université de Metz

Ile du Saulcy

F-57045 Metz

[email protected]

RÉSUMÉ. Dans ce travail, nous proposons une approximation de l’algorithme EM pour estimer

les paramètres d’un modèle de mélange croisé.

ABSTRACT. In this paper, we propose an approximation of the EM algorithm to estimate the

parameters of block mixture model.

MOTS-CLÉS : classiﬁcation croisée, classiﬁcation par bloc, modèle de mélange, algorithme EM,

algorithme CEM.

KEYWORDS: block clustering, mixture model, EM algorithm, CEM algorithm.

1. Introduction

L’utilisation du modèle de mélange de probabilité en classiﬁcation automatique

est devenue aujourd’hui une approche classique. Jusqu’à présent, cette approche a

été surtout développée pour classiﬁer un ensemble d’individus caractérisés par un en-

semble de variables. Ici, nous nous intéressons aux méthodes de classiﬁcation croisée

qui considèrent simultanément les deux ensembles en cherchant à structurer le tableau

de données sous forme de blocs homogènes [HAR 75, GOV 77, GOV 83, GOV 95].

Pour prendre en compte ce type de structure de classiﬁcation, un algorithme de mé-

lange croisé a été développé [GOV 03] et l’extension de l’algorithme CEM [CEL 92]

2 Journées de Statistique 2003.

à ce type de modèle a permis de généraliser ces algorithmes de classiﬁcation croisée.

Toutefois, il est connu que l’approche CEM peut conduire à des résultats biaisés et il

peut être recommandé d’estimer d’abord les paramètres du modèle de mélange puis

d’en déduire une classiﬁcation. C’est l’objectif du travail que nous présentons ici.

Pour simpliﬁer les notations, le vecteur zassocié à une partition de Ien gclasses

correspondra à la fois au vecteur des classes (z1, ..., zg)et au vecteur des labels des

individus (z1, . . . , zn), labels qui pourront eux-même être représentés par le vecteur

indicateur (zi1, . . . , zig): ainsi la classe zkcorrespond à l’ensemble des individus i

tels que zi=kou zik = 1. On utilisera la même notation pour les partitions wde J

en mclasses.

2. Modèle de mélange croisé

Partant du modèle de mélange ﬁni de densités, qui suppose, rappelons-le, que les

données x= (x1, . . . , xn)sont issues d’un vecteur aléatoire iid de RPde densité

f(xi) = Pg

k=1 pkϕk(xi)où gest le nombre de composants et les pket les ϕksont

respectivement les proportions et les densités de chaque composant k, nous avons

proposé dans [GOV 03] un modèle génératif de données permettant de prendre en

compte des structure de classiﬁcation croisée. Pour ceci, nous avons d’abord montré

que la densité du vecteur x= (x1, . . . , xn)peut aussi s’écrire

f(x) = X

z∈Z

p(z)f(x|z),(1)

où Zreprésente l’ensemble de toutes les partitions possibles de Ien gclasses, f(x|z) =

i=1 ϕzi(xi)et p(z) = Qn

ipzi. Ce modèle se généralise alors simplement à une

structure de classes croisées sur l’ensemble I×Jpar la densité

f(x) = X

(z,w)∈Z×W

p(z,w)f(x|z,w),(2)

où Zet Wsont les ensembles de toutes les partitions possibles zde Iet wde J. Nous

avons supposé de plus que les partitions zet wétaient indépendantes, que les v.a.

xij étaient indépendantes conditionnellement au couple (z,w)(hypothèse des classes

latentes) et enﬁn que les distributions sur Rainsi obtenues appartenaient à une famille

paramétrée pour ﬁnalement obtenir le modèle de mélange croisée de densité

f(x;θ) = X

(z,w)∈Z×W

pziY

qwjY

i,j

ϕziwj(xj

i;α).(3)

où les pket les q`sont les proportions des classes zket w`, les ϕk`(x, α)sont des

densités sur Rde paramètre αet θest le vecteur de l’ensemble des paramètres.

Comme pour le modèle de mélange classique, la recherche d’un couple de parti-

tions s’appuyant sur le modèle de mélange croisé que l’on vient de déﬁnir, peut être

traitée de deux façons différentes :

EM et modèle de mélange croisé 3

– à l’aide de l’approche « estimation » : les paramètres du modèle sont d’abord

estimés, puis le couple de partitions en est déduit;

– à l’aide de l’approche « classiﬁcation » [SYM 81] : les paramètres et la classiﬁ-

cation sont obtenus simultanément en maximisant la log-vraisemblance des données

complétées.

Nous avons traité cette dernière approche dans [GOV 03] en utilisant une exten-

sion de l’algorithme CEM [CEL 92] que l’on peut considérer comme une variante

classiﬁante de l’algorithme EM. Ceci nous a conduit à proposer des algorithmes de

classiﬁcation croisée très généraux permettant de prendre en compte des situations

variées (données continues, binaires,...) et de traiter de très gros tableaux de données.

Toutefois, comme pour les modèles de mélange habituels, cette approche s’appuie sur

une estimation biaisée des paramètres et peut conduire à de mauvais résultats, en par-

ticulier si les composants ne sont pas très séparés; l’approche estimation, bien qu’elle

puisse être beaucoup plus lente, est généralement recommandée.

3. Approche estimation

Comme pour les modèles de mélange simples, il paraît naturel d’envisager l’es-

timation des paramètres du modèle de mélange croisé à l’aide de la méthode du

maximum de vraisemblance et d’utiliser pour ceci l’algorithme EM. Rappelons que

pour maximiser la log-vraisemblance, cet algorithme fait appel à la notion de données

complétées (le vecteur (x,z,w)dans notre cas) et s’appuie sur la log-vraisemblance

L(θ;x,z,w)de ces données complétées qui s’écrit :

L(θ;x,z,w) = X

zik log pk+X

wj` log q`+X

ijk`

zikwj` log ϕk`(xj

i;α`

k).(4)

Le principe de l’algorithme est de maximiser de manière itérative l’espérance de cette

log-vraisemblance complétée conditionnellement aux données xet à la valeur du pa-

ramètre courant θ(c):

Q(θ, θ(c)) = X

P(zik = 1|x, θ(c)) log pk+X

P(wj` = 1|x, θ(c)) log q`

ijk`

P(zikwj` = 1|x, θ(c)) log ϕk`(xj

i;α`

k).(5)

Malheureusement, la maximisation de cette fonction Qn’est pas directe comme

pour le modèle de mélange simple; les difﬁcultés résultent de la structure de la dépen-

dance du modèle et la détermination de P(zikwj` = 1|x, θ(c))pose des problèmes.

Cette situation est voisine de celle des champs de Markov caché et d’ailleurs, comme

dans cette situation, même la classiﬁcation par la méthode du MAP (maximum de

probabilité a posteriori) à partir des paramètres supposés connus n’est pas directe et

nécessite un algorithme itératif.

Pour résoudre ce problème, nous proposons ici une démarche en deux étapes :

4 Journées de Statistique 2003.

– tout d’abord, en utilisant une approximation de la probabilité a posteriori du

couple de partitions de type pseudo-vraisemblance [BES 75], semblable à celle qui

est développée dans le cas des champs de Markov caché

P(zikwj` = 1|x, θ(c)) = P(zik = 1|x, θ(c))P(wj` = 1|x, θ(c)),

nous remplaçons la fonction Qpar la fonction suivante :

Q(θ, θ(c)) = X

c(c)

ik log pk+X

d(c)

j` log q`+X

ijk`

c(c)

ik d(c)

j` log ϕk`(xj

i;α`

où c(c)

ik =P(zik = 1|x, θ(c))et d(c)

j` =P(wj` = 1|x, θ(c));

– nous proposons dans un second temps de maximiser cette expression à l’aide

d’un algorithme alterné obtenu en ﬁxant respectivement les probabilités cik puis les

probabilités dj`. Dans les deux deux cas, on obtient alors simplement des versions

classiques de l’algorithme EM appliquées à des modèle de mélanges issus du modèle

de mélange croisé.

On peut alors montrer que cet algorithme a les propriétés habituelles de conver-

gence de l’algorithme EM et qu’en particulier, il permet de construire une suite crois-

sante d’une approximation de la vraisemblance L(θ, x).

4. Bibliographie

[BES 75] BESAG J., « Statistical analysis of lattice systems », The Statistician, vol. 24, 1975,

p. 179-195.

[CEL 92] CELEUX G., GOVAERT G., « A Classiﬁcation EM Algorithm for Clustering and

Two Stochastic Versions », Computational Statistics and Data Analysis, vol. 14, no3,

1992, p. 315-332.

[GOV 77] GOVAERT G., « Algorithme de classiﬁcation d’un tableau de contingence », First

international symposium on data analysis and infomatics, Versailles, 1977, INRIA, p. 487-

500.

[GOV 83] GOVAERT G., Classiﬁcation croisée, Thèse d’État, Université Paris 6, France, 1983.

[GOV 95] GOVAERT G., « Simultaneous Clustering of Rows and Columns », Control and

Cybernetics, vol. 24, no4, 1995, p. 437-458.

[GOV 03] GOVAERT G., NADIF M., « Clustering with block mixture models », Pattern Re-

cognition, vol. 36, no2, 2003, p. 463-473.

[HAR 75] HARTIGAN J. A., Clustering Algorithms, Wiley, New York, 1975.

[SYM 81] SYMONS M. J., « Clustering Criteria and Multivariate Normal Mixture », Biome-

trics, vol. 37, 1981, p. 35-43.

1 / 4 100%

Un algorithme EM pour l`estimation des paramètres d`un modèle de

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Un algorithme EM pour l`estimation des paramètres d`un modèle de

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib