Classification automatique de données séquentielles et modèle de

Téléchargement

Classification automatique de donn´

ees

s´

equentielles et mod`

ele de m´

elange

Allou Sam´e & Christophe Ambroise & G´erard Govaert

Universit´e de Technologie de Compi`egne

HEUDIASYC, UMR CNRS 6599

BP 20529, 60205 Compi`egne Cedex, FRANCE

E-mail: {same,ambroise,govaert}@utc.fr

R´esum´e Cet article propose un algorithme s´equentiel original de classiﬁcation automa-

tique bas´e sur les mod`eles de m´elange. L’algorithme propos´e est une mont´ee de gradient

stochastique maximisant la vraisemblance classiﬁante moyenne des param`etres du mod`ele.

Cette approche n´ecessite peu de calculs et poss`ede l’avantage de converger tr`es rapidement

pour un bon choix du pas de mont´ee. Une strat´egie de choix du nombre de classes opti-

mal utilisant le crit`ere de vraisemblance classiﬁante int´egr´ee (ICL) est ´etudi´ee de mani`ere

empirique `a l’aide de donn´ees synth´etiques. Les r´esultats des exp´erimentations montrent

que la m´ethode propos´ee fournit une estimation rapide et ﬁable des param`etres et du

nombre de classes lorsque les composantes du m´elange sont relativement s´epar´ees.

Mots-cl´e : algorithme EM, algorithme CEM, gradient stochastique, crit`ere ICL

Abstract This article presents an original on-line algorithm dedicated to mixture model

based clustering. The proposed algorithm is a stochastic gradient ascent which maximizes

the expectation of the classiﬁcation likelihood. This approach requires few calculations

and exhibits a quick convergence. A strategy for choosing the optimal number of classes

using the Integrated Classiﬁcation Likelihood (ICL) is studied using simulated data. The

results of the simulations show that the proposed method provides a fast and accurate

estimation of the parameters (including the number of classes) when the mixture compo-

nents are relatively well separated.

Key-words: EM algorithm, CEM algorithm, stochastic gradient, ICL criterion

1 Introduction

Les algorithmes de gradient stochastique sont tr`es souvent utilis´es pour l’estimation

s´equentielle (en-ligne) de param`etres dans les domaines du traitement du signal et de

la reconnaissance des formes pour leur simplicit´e de mise en œuvre et leur rapidit´e. En

classiﬁcation automatique, le plus couramment rencontr´e est l’algorithme des k-means

s´equentiel de MacQueen (1967).

Dans le cadre d’un probl`eme de d´etection de d´efauts par ´emission acoustique, nous

avons ´et´e amen´e `a classiﬁer sous contraintes de temps r´eel un ensemble de points situ´es

sur un plan. La solution fournie par l’algorithme CEM (Celeux et Govaert, 1992) est

satisfaisante et rapide par rapport `a l’algorithme EM (Dempster, Laird et Rubin, 1977).

Cependant malgr´e sa rapidit´e, cet algorithme ne permet pas de r´epondre en temps r´eel

quand le nombre de points `a classiﬁer devient trop important (sup´erieur `a 10000 obser-

vations). Dans ce travail, nous cherchons `a d´evelopper un algorithme de classiﬁcation

s´equentiel bas´e sur une approche probabiliste, qui permet aussi le choix du nombre de

classes.

On suppose dans tout notre travail que les donn´ees sont des observations x1, . . . , xn, . . .

de IRpre¸cues au cours du temps et distribu´ees suivant un mod`ele de m´elange

f(x;Φ) = PK

k=1 πkfk(x;θk) avec Φ= (π1, . . . , πK,θ1, . . . , θK), o`u π1, . . . , πKsont les

proportions du m´elange et θ1, . . . , θKles param`etres des densit´es de probabilit´e de chaque

composant. On note z1, . . . , zn, . . . les donn´ees manquantes associ´ees aux observations, o`u

zn∈ {1, . . . , K}correspond `a la classe de xn.

Pour estimer le param`etre Φ, nous choisissons d’utiliser un algorithme de gradient

stochastique. Ces algorithmes permettent g´en´eralement d’optimiser un crit`ere moyen

(Bottou, 1991,1998)

C(Φ) = E[J(x,Φ)] ,

o`u l’esp´erance est calcul´ee avec le vrai param`etre de la distribution fqui est inconnu

et J(x,Φ) d´esigne un crit`ere qui mesure la qualit´e du param`etre Φpour une observa-

tion x. L’algorithme de gradient stochastique permettant de maximiser ce crit`ere s’´ecrit

g´en´eralement

Φ(n+1) =Φ(n)+αn∇ΦJ(xn+1,Φ(n)) (1)

o`u le pas αnd´esigne un scalaire positif ou une matrice d´eﬁnie positive tels que P|αn|=∞

et P|αn|2<∞.

Dans la deuxi`eme section, nous pr´esentons l’approche de classiﬁcation s´equentielle

de Titterington (1984) ; la troisi`eme section concerne le nouvel algorithme de gradient

stochastique que nous proposons pour la classiﬁcation de donn´ees s´equentielles ; une ´etude

exp´erimentale est r´esum´ee dans une quatri`eme section.

2 Algorithme de gradient stochastique d´eriv´e de EM

L’algorithme EM classique est un algorithme it´eratif permettant `a partir de donn´ees ob-

serv´ees xn= (x1, . . . , xn) et d’un param`etre initial Φ(0) de maximiser la log-vraisemblance

log p(xn;Φ) en maximisant dans le cas d’un mod`ele de m´elange la quantit´e

Q(Φ,Φ(q)) = E[log p(xn,zn;Φ)|xn,Φ(q)]

`a l’it´eration q+ 1 o`u zn= (z1, . . . , zn).

L’algorithme de gradient stochastique de Titterington (1984) peut ˆetre d´eriv´e de

l’algorithme EM. On pose pour cela, de la mˆeme mani`ere que dans l’algorithme EM

classique la quantit´e

Qxn+1 (Φ,Φ(n)) = E[log p(xn+1,zn+1; Φ)|xn+1,Φ(n)],

o`u cette fois-ci le param`etre Φ(n)a ´et´e calcul´e `a partir des observations xn. La maximi-

sation de 1

n+1 Qxn+1 (·,Φ(n)) par la m´ethode de Newton, apr`es remplacement sa matrice

hessienne par la matrice d’information de Fisher Ic(Φ(n)) associ´ee `a une observation com-

plete (x, z) nous donne l’algorithme de Titterington

Φ(n+1) =Φ(n)+1

n+ 1 ³Ic(Φ(n))´−1∂log p(xn+1;Φ(n))

∂Φ.(2)

Pour certaines familles de densit´e comme la famille exponentielle r´eguli`ere, la matrice

Ic(Φ(n)) est d´eﬁnie positive et donc l’algorithme de Titterington a bien la forme g´en´erale

(1) des algorithmes de gradient stochastique ; ce qui garantit sous certaines conditions

que le crit`ere optimis´e par (2) est E[log p(x;Φ)].

3 Algorithme de gradient stochastique d´eriv´e de CEM

Le crit`ere que nous cherchons `a maximiser dans cette partie, par analogie avec le crit`ere

de vraisemblance classiﬁante maximis´e dans l’algorithme CEM propos´e par Celeux et

Govaert (1992) que l’on peut aussi ´ecrire LC(Φ) = max

z1,...,zn

log p(x1, . . . , xn, z1, . . . , zn;Φ),

est le crit`ere moyen de vraisemblance classiﬁante

C(Φ) = E[max

1≤z≤Klog p(x, z;Φ)]

o`u log p(x, z;Φ) = L(Φ;x, z) est la vraisemblance compl´et´ee du param`etre Φpour une

observation compl`ete (x, z).

L’application de l’algorithme (1) n´ecessite le calcul du gradient par rapport `a Φde

J(x,Φ) = max

1≤z≤KL(Φ;x, z) qui n’existe pas pour certaines valeurs de x`a cause de la

fonction max. Dans ce cas fr´equent, Bottou (1991, 1998) montre qu’il suﬃt d’une part

de remplacer ce gradient par une fonction H(x,Φ) v´eriﬁant E[H(x,Φ)] = ∇ΦC(x,Φ) et

d’autre part que les fonctions H(x,Φ) et C(Φ) v´eriﬁent certaines conditions.

Dans le cas d’un m´elange gaussien, on peut envisager la fonction H(x,Φ) de la forme

H(x,Φ) = ½∇ΦJ(x,Φ) si ∇ΦJ(x,Φ) existe

0 sinon.

Les param`etres `a mettre `a jour dans le cas gaussien sont les proportions π1, . . . , πkainsi

que les param`etres θk= (µk,Σk) de chaque densit´e gaussienne du m´elange. La mise `a jour

directe des proportions πkpar la formule (1) ne garantit pas en pratique que 0 < πk<1

et PK

k=1 πk= 1. Pour r´esoudre cette instabilit´e num´erique, nous reparam´etrisons (Jian-

Feng, 2000) les proportions grˆace `a la transformation logit wk= log πk

πK. Les nouvelles

variables deviennent alors w1, . . . , wK−1et appartiennent `a IR. Finalement l’algorithme

CEM de gradient stochastique dans le cas d’un m´elange gaussien peut se d´eﬁnir de la

mani`ere suivante :

Etape 0 initialisation par des param`etres : π(0)

k,µ(0)

ket Σ(0)

Etape 1 (`a l’iteration n+ 1) aﬀectation de la nouvelle observation xn+1 `a la classe k∗qui

maximise la log-vraisemblance du param`etre courant, connaissant cette observation

k∗=argmax

1≤k≤Kµlog π(n)

k−1

2log det(Σ(n)

k)−1

2(xn+1 −µ(n)

k)TΣ(n)

−1(xn+1 −µ(n)

k)¶

Etape 2 (`a l’iteration n+ 1) mise `a jour des param`etres :

w(n+1)

k=w(n)

k+αn(zn+1,k −π(n)

k)pour k = 1, . . . , K −1

π(n+1)

k=exp(w(n+1)

1 + PK−1

`=1 exp(w(n+1)

`)pour k = 1, . . . , K −1

π(n+1)

K=1

1 + PK−1

`=1 exp(w(n+1)

µ(n+1)

k=µ(n)

k+zn+1,k αnΣ(n)

−1(xn+1 −µ(n)

Σ(n+1)

k= Σ(n)

k+zn+1,k αnµ1

2Σ(n)

−1

³(xn+1 −µ(n)

k)(xn+1 −µ(n)

k)TΣ(n)

−1−I´

o`u zn+1,k vaut 0 si k=k∗et 1 sinon.

En particulier on retrouve un algorithme ´equivalent `a celui des k-means s´equentiel

de MacQueen (1967) si l’on consid`ere un m´elange gaussien `a proportions identiques et

`a matrices de variance sph´eriques (´egales `a la matrice identit´e) avec le choix du pas

αn=1

n+1 .

La m´ethode que nous proposons pour le choix du nombre de classe consiste `a lancer

l’algorithme CEM de gradient stochastique en parall`ele pour estimer tous les mod`eles

de 2 `a Kmax nombre de classes et `a s´electionner ensuite la solution dont le nombre de

classes maximise le crit`ere de vraisemblance classiﬁante int´egr´ee ICL propos´e par Bier-

nacki, Celeux et Govaert (2001), calcul´e avec les donn´ees disponibles. Rappelons que dans

notre cas ce crit`ere s’´ecrit

ICL(m, K) = log p(Φ(n);x1, . . . , xn, z1, . . . , zn)−νm,K

2log(n).

o`u Φ(n)est le param`etre obtenu `a l’it´eration nde l’algorithme de gradient stochastique

et νm,K le nombre de param`etres libres du mod`ele. L’id´ee directrice de cette m´ethode

r´eside dans le fait que la rapidit´e de l’algorithme CEM de gradient stochastique permet

de l’appliquer plusieurs fois.

4 Simulations

La strat´egie utilis´ee dans ces experimentations consiste `a simuler d’abord npoints, `a

appliquer ensuite l’algorithme CEM sur un faible nombre n0de points et enﬁn `a appliquer

l’algorithme s´equentiel propos´e sur le reste des points. Les principaux param`etres de

simulation utilis´es sont :

•les tailles d’´echantillon : n= 100, n = 300, n = 500, n = 1000, n = 3000, n = 5000 ;

•le nombre n0de points trait´es initialement par CEM : n0= 80 ;

•Le nombre de gaussiennes du m´elange : K0= 4 ;

•Le degr´e de m´elange des classes mesur´e par le pourcentage th´eorique de mal class´es

qui varie en fonction de la position relative des centres µ1,µ2,µ3,µ4des densit´es

gaussiennes du m´elange ; les degr´es de m´elange retenus sont :

–5% d’erreur th´eorique : µ1=(0; 0),µ2=(4; 0),µ3=(0; 4),µ4=(4; 4))

–14% d’erreur th´eorique : µ1=(0; 0),µ2=(2.5; 0),µ3= (0; 2.5),µ4=(2.5; 2.5)

–20% d’erreur th´eorique : µ1=(0; 0),µ2=(2.2; 0),µ3= (0; 2.2),µ4=(2.2; 2.2)

•les proportions du m´elange ont ´et´e choisies ´egales : πk=1

4pour k= 1,...,4 ;

•les variances ont ´et´e ﬁx´ees `a la matrice identit´e.

Dans le but d’obtenir des r´esultats optimaux, nous avons ﬁx´e le pas de mont´ee de

gradient `a αn= 0.3. Le nombre maximal de classes Kmax a ´et´e ﬁx´e `a 7.

Le tableau 1 repr´esente le crit`ere ICL en fonction du nombre de classes ﬁx´e dans

l’algorithme CEM de gradient stochastique pour un degr´e de m´elange de 14%. Nous

observons que le nombre de classes fourni par notre m´ethode, c’est-`a-dire celui pour

lequel la valeur du crit`ere ICL est maximale, correspond au vrai nombre de classes simul´e

c’est-`a-dire 4 classes dans la situation correspondant `a un taux de m´elange de 14%. Ce

comportement est le mˆeme pour toutes les valeurs de nconsid´er´ees. La situation corre-

spondant `a 5% d’erreur th´eorique donne ´egalement de bons r´esultats. Cependant, pour

des degr´es de m´elange ´elev´es (20%) le vrai nombre de classes n’est pas retrouv´e, mˆeme

pour des valeurs ´elev´ees de n. Ce comportement n’est pas surprenant dans la mesure o`u

l’algorithme CEM est connu pour fournir des estimations biais´ees d`es que les classes sont

fortement m´elang´ees.

1 / 6 100%

Classification automatique de données séquentielles et modèle de

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Classification automatique de données séquentielles et modèle de

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib