Classification automatique de données séquentielles et modèle de

Classification automatique de donn´
ees
s´
equentielles et mod`
ele de m´
elange
Allou Sam´e & Christophe Ambroise & G´erard Govaert
Universit´e de Technologie de Compi`egne
HEUDIASYC, UMR CNRS 6599
BP 20529, 60205 Compi`egne Cedex, FRANCE
E-mail: {same,ambroise,govaert}@utc.fr
R´esum´e Cet article propose un algorithme s´equentiel original de classification automa-
tique bas´e sur les mod`eles de m´elange. L’algorithme propos´e est une monee de gradient
stochastique maximisant la vraisemblance classifiante moyenne des param`etres du mod`ele.
Cette approche n´ecessite peu de calculs et poss`ede l’avantage de converger tr`es rapidement
pour un bon choix du pas de monee. Une strat´egie de choix du nombre de classes opti-
mal utilisant le crit`ere de vraisemblance classifiante inegr´ee (ICL) est ´etudi´ee de mani`ere
empirique `a l’aide de donn´ees synth´etiques. Les r´esultats des exp´erimentations montrent
que la m´ethode propos´ee fournit une estimation rapide et fiable des param`etres et du
nombre de classes lorsque les composantes du m´elange sont relativement s´epar´ees.
Mots-cl´e : algorithme EM, algorithme CEM, gradient stochastique, crit`ere ICL
Abstract This article presents an original on-line algorithm dedicated to mixture model
based clustering. The proposed algorithm is a stochastic gradient ascent which maximizes
the expectation of the classification likelihood. This approach requires few calculations
and exhibits a quick convergence. A strategy for choosing the optimal number of classes
using the Integrated Classification Likelihood (ICL) is studied using simulated data. The
results of the simulations show that the proposed method provides a fast and accurate
estimation of the parameters (including the number of classes) when the mixture compo-
nents are relatively well separated.
Key-words: EM algorithm, CEM algorithm, stochastic gradient, ICL criterion
1 Introduction
Les algorithmes de gradient stochastique sont tr`es souvent utilis´es pour l’estimation
s´equentielle (en-ligne) de param`etres dans les domaines du traitement du signal et de
la reconnaissance des formes pour leur simplicit´e de mise en œuvre et leur rapidit´e. En
1
classification automatique, le plus couramment rencontr´e est l’algorithme des k-means
s´equentiel de MacQueen (1967).
Dans le cadre d’un probl`eme de d´etection de d´efauts par ´emission acoustique, nous
avons ´et´e amen´e `a classifier sous contraintes de temps r´eel un ensemble de points situ´es
sur un plan. La solution fournie par l’algorithme CEM (Celeux et Govaert, 1992) est
satisfaisante et rapide par rapport `a l’algorithme EM (Dempster, Laird et Rubin, 1977).
Cependant malgr´e sa rapidit´e, cet algorithme ne permet pas de r´epondre en temps r´eel
quand le nombre de points `a classifier devient trop important (sup´erieur `a 10000 obser-
vations). Dans ce travail, nous cherchons `a d´evelopper un algorithme de classification
s´equentiel bas´e sur une approche probabiliste, qui permet aussi le choix du nombre de
classes.
On suppose dans tout notre travail que les donn´ees sont des observations x1, . . . , xn, . . .
de IRpre¸cues au cours du temps et distribu´ees suivant un mod`ele de m´elange
f(x;Φ) = PK
k=1 πkfk(x;θk) avec Φ= (π1, . . . , πK,θ1, . . . , θK), o`u π1, . . . , πKsont les
proportions du m´elange et θ1, . . . , θKles param`etres des densit´es de probabilit´e de chaque
composant. On note z1, . . . , zn, . . . les donn´ees manquantes associ´ees aux observations, o`u
zn∈ {1, . . . , K}correspond `a la classe de xn.
Pour estimer le param`etre Φ, nous choisissons d’utiliser un algorithme de gradient
stochastique. Ces algorithmes permettent g´en´eralement d’optimiser un crit`ere moyen
(Bottou, 1991,1998)
C(Φ) = E[J(x,Φ)] ,
o`u l’esp´erance est calcul´ee avec le vrai param`etre de la distribution fqui est inconnu
et J(x,Φ) d´esigne un crit`ere qui mesure la qualit´e du param`etre Φpour une observa-
tion x. L’algorithme de gradient stochastique permettant de maximiser ce crit`ere s’´ecrit
g´en´eralement
Φ(n+1) =Φ(n)+αnΦJ(xn+1,Φ(n)) (1)
o`u le pas αnesigne un scalaire positif ou une matrice d´efinie positive tels que P|αn|=
et P|αn|2<.
Dans la deuxi`eme section, nous pr´esentons l’approche de classification s´equentielle
de Titterington (1984) ; la troisi`eme section concerne le nouvel algorithme de gradient
stochastique que nous proposons pour la classification de donn´ees s´equentielles ; une ´etude
exp´erimentale est r´esum´ee dans une quatri`eme section.
2 Algorithme de gradient stochastique d´eriv´e de EM
L’algorithme EM classique est un algorithme it´eratif permettant `a partir de donn´ees ob-
serv´ees xn= (x1, . . . , xn) et d’un param`etre initial Φ(0) de maximiser la log-vraisemblance
log p(xn;Φ) en maximisant dans le cas d’un mod`ele de m´elange la quantit´e
Q(Φ,Φ(q)) = E[log p(xn,zn;Φ)|xn,Φ(q)]
2
`a l’it´eration q+ 1 o`u zn= (z1, . . . , zn).
L’algorithme de gradient stochastique de Titterington (1984) peut ˆetre d´eriv´e de
l’algorithme EM. On pose pour cela, de la mˆeme mani`ere que dans l’algorithme EM
classique la quantit´e
Qxn+1 (Φ,Φ(n)) = E[log p(xn+1,zn+1; Φ)|xn+1,Φ(n)],
o`u cette fois-ci le param`etre Φ(n)a ´et´e calcul´e `a partir des observations xn. La maximi-
sation de 1
n+1 Qxn+1 (·,Φ(n)) par la m´ethode de Newton, apr`es remplacement sa matrice
hessienne par la matrice d’information de Fisher Ic(Φ(n)) associ´ee `a une observation com-
plete (x, z) nous donne l’algorithme de Titterington
Φ(n+1) =Φ(n)+1
n+ 1 ³Ic(Φ(n))´1log p(xn+1;Φ(n))
Φ.(2)
Pour certaines familles de densit´e comme la famille exponentielle r´eguli`ere, la matrice
Ic(Φ(n)) est d´efinie positive et donc l’algorithme de Titterington a bien la forme g´en´erale
(1) des algorithmes de gradient stochastique ; ce qui garantit sous certaines conditions
que le crit`ere optimis´e par (2) est E[log p(x;Φ)].
3 Algorithme de gradient stochastique d´eriv´e de CEM
Le crit`ere que nous cherchons `a maximiser dans cette partie, par analogie avec le crit`ere
de vraisemblance classifiante maximis´e dans l’algorithme CEM propos´e par Celeux et
Govaert (1992) que l’on peut aussi ´ecrire LC(Φ) = max
z1,...,zn
log p(x1, . . . , xn, z1, . . . , zn;Φ),
est le crit`ere moyen de vraisemblance classifiante
C(Φ) = E[max
1zKlog p(x, z;Φ)]
o`u log p(x, z;Φ) = L(Φ;x, z) est la vraisemblance compl´et´ee du param`etre Φpour une
observation compl`ete (x, z).
L’application de l’algorithme (1) n´ecessite le calcul du gradient par rapport `a Φde
J(x,Φ) = max
1zKL(Φ;x, z) qui n’existe pas pour certaines valeurs de x`a cause de la
fonction max. Dans ce cas fr´equent, Bottou (1991, 1998) montre qu’il suffit d’une part
de remplacer ce gradient par une fonction H(x,Φ) v´erifiant E[H(x,Φ)] = ΦC(x,Φ) et
d’autre part que les fonctions H(x,Φ) et C(Φ) v´erifient certaines conditions.
Dans le cas d’un m´elange gaussien, on peut envisager la fonction H(x,Φ) de la forme
H(x,Φ) = ½ΦJ(x,Φ) si ΦJ(x,Φ) existe
0 sinon.
3
Les param`etres `a mettre `a jour dans le cas gaussien sont les proportions π1, . . . , πkainsi
que les param`etres θk= (µk,Σk) de chaque densit´e gaussienne du m´elange. La mise `a jour
directe des proportions πkpar la formule (1) ne garantit pas en pratique que 0 < πk<1
et PK
k=1 πk= 1. Pour r´esoudre cette instabilit´e num´erique, nous reparam´etrisons (Jian-
Feng, 2000) les proportions grˆace `a la transformation logit wk= log πk
πK. Les nouvelles
variables deviennent alors w1, . . . , wK1et appartiennent `a IR. Finalement l’algorithme
CEM de gradient stochastique dans le cas d’un m´elange gaussien peut se d´efinir de la
mani`ere suivante :
Etape 0 initialisation par des param`etres : π(0)
k,µ(0)
ket Σ(0)
k
Etape 1 (`a l’iteration n+ 1) affectation de la nouvelle observation xn+1 `a la classe kqui
maximise la log-vraisemblance du param`etre courant, connaissant cette observation
k=argmax
1kKµlog π(n)
k1
2log det(n)
k)1
2(xn+1 µ(n)
k)TΣ(n)
k
1(xn+1 µ(n)
k)
Etape 2 (`a l’iteration n+ 1) mise `a jour des param`etres :
w(n+1)
k=w(n)
k+αn(zn+1,k π(n)
k)pour k = 1, . . . , K 1
π(n+1)
k=exp(w(n+1)
k)
1 + PK1
`=1 exp(w(n+1)
`)pour k = 1, . . . , K 1
π(n+1)
K=1
1 + PK1
`=1 exp(w(n+1)
`)
µ(n+1)
k=µ(n)
k+zn+1,k αnΣ(n)
k
1(xn+1 µ(n)
k)
Σ(n+1)
k= Σ(n)
k+zn+1,k αnµ1
2Σ(n)
k
1
³(xn+1 µ(n)
k)(xn+1 µ(n)
k)TΣ(n)
k
1I´
o`u zn+1,k vaut 0 si k=ket 1 sinon.
En particulier on retrouve un algorithme ´equivalent `a celui des k-means s´equentiel
de MacQueen (1967) si l’on consid`ere un m´elange gaussien `a proportions identiques et
`a matrices de variance sph´eriques (´egales `a la matrice identit´e) avec le choix du pas
αn=1
n+1 .
La m´ethode que nous proposons pour le choix du nombre de classe consiste `a lancer
l’algorithme CEM de gradient stochastique en parall`ele pour estimer tous les mod`eles
de 2 `a Kmax nombre de classes et `a s´electionner ensuite la solution dont le nombre de
classes maximise le crit`ere de vraisemblance classifiante int´egr´ee ICL propos´e par Bier-
nacki, Celeux et Govaert (2001), calcul´e avec les donn´ees disponibles. Rappelons que dans
notre cas ce crit`ere s’´ecrit
ICL(m, K) = log p(Φ(n);x1, . . . , xn, z1, . . . , zn)νm,K
2log(n).
4
o`u Φ(n)est le param`etre obtenu `a l’it´eration nde l’algorithme de gradient stochastique
et νm,K le nombre de param`etres libres du mod`ele. L’id´ee directrice de cette m´ethode
r´eside dans le fait que la rapidit´e de l’algorithme CEM de gradient stochastique permet
de l’appliquer plusieurs fois.
4 Simulations
La strat´egie utilis´ee dans ces experimentations consiste `a simuler d’abord npoints, `a
appliquer ensuite l’algorithme CEM sur un faible nombre n0de points et enfin `a appliquer
l’algorithme s´equentiel propos´e sur le reste des points. Les principaux param`etres de
simulation utilis´es sont :
les tailles d’´echantillon : n= 100, n = 300, n = 500, n = 1000, n = 3000, n = 5000 ;
le nombre n0de points trait´es initialement par CEM : n0= 80 ;
Le nombre de gaussiennes du m´elange : K0= 4 ;
Le degr´e de m´elange des classes mesur´e par le pourcentage th´eorique de mal class´es
qui varie en fonction de la position relative des centres µ1,µ2,µ3,µ4des densit´es
gaussiennes du m´elange ; les degr´es de m´elange retenus sont :
5% d’erreur th´eorique : µ1=(0; 0),µ2=(4; 0),µ3=(0; 4),µ4=(4; 4))
14% d’erreur th´eorique : µ1=(0; 0),µ2=(2.5; 0),µ3= (0; 2.5),µ4=(2.5; 2.5)
20% d’erreur th´eorique : µ1=(0; 0),µ2=(2.2; 0),µ3= (0; 2.2),µ4=(2.2; 2.2)
les proportions du m´elange ont ´et´e choisies ´egales : πk=1
4pour k= 1,...,4 ;
les variances ont ´et´e fix´ees `a la matrice identit´e.
Dans le but d’obtenir des r´esultats optimaux, nous avons fix´e le pas de mont´ee de
gradient `a αn= 0.3. Le nombre maximal de classes Kmax a ´et´e fix´e `a 7.
Le tableau 1 repr´esente le crit`ere ICL en fonction du nombre de classes fix´e dans
l’algorithme CEM de gradient stochastique pour un degr´e de m´elange de 14%. Nous
observons que le nombre de classes fourni par notre m´ethode, c’est-`a-dire celui pour
lequel la valeur du crit`ere ICL est maximale, correspond au vrai nombre de classes simul´e
c’est-`a-dire 4 classes dans la situation correspondant `a un taux de m´elange de 14%. Ce
comportement est le mˆeme pour toutes les valeurs de nconsid´er´ees. La situation corre-
spondant `a 5% d’erreur th´eorique donne ´egalement de bons r´esultats. Cependant, pour
des degr´es de m´elange ´elev´es (20%) le vrai nombre de classes n’est pas retrouv´e, mˆeme
pour des valeurs ´elev´ees de n. Ce comportement n’est pas surprenant dans la mesure o`u
l’algorithme CEM est connu pour fournir des estimations biais´ees d`es que les classes sont
fortement m´elang´ees.
5
1 / 6 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !