Classification avec recouvrement des classes : une extension des k

Classification avec recouvrement des classes :
une extension des k-moyennes
Guillaume Cleuziou
Laboratoire d’Informatique Fondamentale d’Orl´
eans (LIFO)
Universit´
e d’Orl´
eans
45067 ORLEANS Cedex 2
R´
ESUM ´
E. On constate ces derni`
eres ann´
ees un int´
erˆ
et croissant pour les m´
ethodes de classification construisant des sch´
emas
autorisant le recouvrement des classes. Ces sch´
emas sont, en effet, particuli`
erement adapt´
es `
a certains types de donn´
ees docu-
mentaires ou biologiques par exemple. Malheureusement les quelques techniques existantes s’av`
erent peu ou mal adapt´
ees `
a
ces applications. Nous proposons dans cet article d’adapter l’algorithme des k-moyennes `
a cette tˆ
ache, en reconsid´
erant `
a la
fois le crit`
ere de qualit´
e et l’algorithme de recherche d’un recouvrement optimal.
MOTS-CL ´
ES : Classification non-supervis´
ee, recouvrement des classes, k-moyennes.
1. Introduction
La classification est un domaine de recherches en constante ´
evolution du fait de l’´
emergence perp´
etuelle de
nouvelles probl´
ematiques issues du monde r´
eel. Cette ´
evolution porte autant sur les m´
ethodes employ´
ees (centres
mobiles, hi´
erarchies, m´
elanges de lois, agents artificiels, etc.) que sur l’id´
eal recherch´
e. Ceux qui cherchaient hier
une “organisation en classes compactes et s´
epar´
ees” s’autorisent aujourd’hui `
a varier les formes, densit´
es, tailles,
nombres et agencements des classes, selon le contexte applicatif vis ´
e.
Dans cette ´
etude nous nous int´
eressons `
a l’agencement des classes entres elles et plus particuli `
erement aux
recouvrements (appel´
es aussi intersections ou empi´
etements) entre les classes. Dans certains domaines d’applica-
tions, ce type de sch´
ema de classification est naturel. Par exemple en biologie un g`
ene peut influencer plusieurs
aspects du m´
etabolisme, en recherche d’information un document (texte, image, vid´
eo, etc.) peut aborder plusieurs
th´
ematiques ou appartenir `
a plusieurs genres diff´
erents, enfin en traitement du langage un mot peut avoir plusieurs
interpr´
etations. Dans chacun de ces domaines, restreindre chaque ´
el´
ement `
a n’appartenir qu’`
a une seule classe
entraˆ
ıne une perte d’information potentiellement utile `
a l’utilisateur mais ´
egalement cruciale pour le processus de
classification.
Les approches de classification aboutissant `
a des classes recouvrantes n’abondent pas dans la litt´
erature ; deux
approches de r´
ef´
erence n´
ecessitent cependant d’ˆ
etre mentionn´
ees ici : la classification pyramidale [DID 84] et
la classification floue [BEZ 81]. Pourtant ces deux approches sont peu utilis ´
ees dans les domaines d’application
cit´
es pr´
ec´
edemment car peu adapt´
ees. Les pyramides autorisent des recouvrement trop limit ´
es et entre des classes
n´
ecessairement assez similaires tandis que la classification floue oblige `
a effectuer, a posteriori, un choix d’affec-
tation peu ´
evident, `
a partir des fonctions d’appartenance. L’affectation plus ou moins arbitraire des individus `
a des
classes pr´
e-construites est un raisonnement classificatoire que l’on rencontre dans d’autres m ´
ethodes plus r´
ecentes
[LEL 93, PAN 03, CLE 04].
Nous consid´
ererons dans cette ´
etude que les recouvrements entre classes ne doivent pas ˆ
etre simplement tol´
er´
es
mais, au contraire, que le processus de construction des classes doit les int´
egrer et en tirer profit. De mˆ
eme que
les pyramides ´
etendent les hi´
erarchies en autorisant les recouvrements, nous proposons d’adapter la recherche
d’une bonne partition `
a celle d’un bon recouvrement. Dans cette perspective, nous pr´
esentons une extension des
k-moyennes [MAC 67], fond´
ee d’une part sur l’adaptation de la fonction objective `
a optimiser et d’autre part sur
l’algorithme de recherche d’un recouvrement optimal.
2. Algorithme de classification avec recouvrement des classes
2.1. L’algorithme des k-moyennes
´
Etant donn´
e un ensemble d’individus X={x1, x2,...,xn}d´
efinis dans Rpmuni d’une m´
etrique euclidienne
d, l’algorithme des k-moyennes est fond´
e sur la recherche d’une partition I={I1, I2, . . . , Ik}de Xminimisant
le crit`
ere de variance intra-classes :
V(I) =
k
X
j=1 X
{xiIj}
pid2(xi, cj)[1]
o`
ucjd´
esigne le centre de la classe Ijet pila masse relative `
a l’individu xi(traditionnellement chaque individu
est pond´
er´
e de fac¸on uniforme, avec Ppi= 1). Les deux ´
etapes le l’algorithme des k-moyennes qui consistent
`
a (1) affecter chaque individu au centre de classe le plus proche et (2) mettre `
a jour le centre de chaque classe en
calculant son centre de gravit´
e, permettent d’assurer la convergence du crit`
ere V(.)vers une partition stable1. On
remarquera que l’optimisation du crit`
ere de variance intra-classes ne tol`
ere (et encore moins ne favorise) aucun
recouvrement de classes. En effet, chaque affectation suppl´
ementaire d’un individu xi`
a une classe Ijimpliquerait
une augmentation du crit`
ere V(.)de la quantit´
epid2(xi, cj). Nous proposons de modifier la fonction objective
utilis´
ee, de fac¸on `
a autoriser l’affectation de chaque individu `
a une ou plusieurs classes.
2.2. Une autre interpr´
etation de la fonction objective
R´
esumer une collection d’individus `
a travers un ensemble de classes permet une analyse globale des donn ´
ees
mais suppose en mˆ
eme temps de conc´
eder une partie de l’information contenue dans ces donn ´
ees. La fonction
objective V(.),´
etudi´
ee pr´
ec´
edemment, peut alors ˆ
etre interpr´
et´
ee comme un crit`
ere mesurant l’information perdue
ou encore l’erreur commise en substituant chaque individu `
a un centre (ou repr´
esentant) de classe2. Dans la suite
nous parlerons d’image d’un individu pour d´
esigner ce substitut.
D´
efinition 2.1 Soient une collection de classes I={I1, I2,...,Ik}formant une partition de l’ensemble d’indi-
vidus X={x1, x2,...,xn}et c1, c2,...,ckles centres respectifs des classes de I, l’image de xi(not´
ee xi) dans
la classification est donn´
ee par le centre cjde la classe Ij`
a laquelle xiest affect´
e.
Dans la cas o`
uIn’est plus une partition mais un recouvrement de X, la d´
efinition 2.1 doit ˆ
etre ´
etendue. Consid´
erant
que l’affectation d’un individu xi`
a plusieurs classes se justifie par le fait que xipartage des propri´
et´
es avec chacune
de ces classes, l’image de xidoit r´
esulter d’un compromis entre tous les centres de classes concern´
ees.
D´
efinition 2.2 Soient une collection de classes I={I1, I2,...,Ik}formant un recouvrement de l’ensemble
d’individus X={x1, x2,...,xn}et c1, c2,...,ckles centres respectifs des classes de I, l’image de xi(not´
ee xi)
dans la classification est donn´
ee par le centre de gravit´
e3de l’ensemble {cj|xiIj}.
Par la d´
efinition 2.2, la fonction objective V(.)peut ˆ
etre r´
e´
ecrite de mani`
ere `
a favoriser les recouvrements de
classes lorsque ceux-ci permettent de capturer d’avantage d’information sur les individus concern ´
es. On note V(I)
ce crit`
ere ´
evaluant la qualit´
e d’un recouvrement Id’un ensemble d’individus X:
V(I) = X
xiX
pid2(xi,xi)[2]
2.3. Algorithme de recherche d’un recouvrement optimal
Une mani`
ere na¨
ıve de rechercher le recouvrement qui minimise le crit `
ere V(.)serait de g´
en´
erer tous les recou-
vrements possibles. Cette solution est exclue dans le cas de partitions du fait qu’il existe de l’ordre de knpartitions
1. La partition stable obtenue correspond `
a une situation o`
u l’algorithme ne peut plus ´
evoluer. Nous parlerons dans la suite
d”’optimum local” pour ´
evoquer cette situation.
2. Dans le crit`
ere V(.)l’erreur commise pour un individu xiaffect´
e`
a la classe Ijvaut d2(xi, cj)
3. Dans cette d´
efinition, les classes contenant xisont pond´
er´
ees de fac¸on uniforme.
2
en kclasses pour nindividus. Le nombre de recouvrements possibles ´
etant beaucoup plus grand encore, il convient
de proposer un algorithme permettant d’explorer partiellement l’espace des possibilit ´
es au risque d’aboutir `
a un
optimum seulement “local”.
L’algorithme que nous pr´
esentons (Figure 1) s’inspire largement de l’algorithme des k-moyennes et proc`
ede
par it´
erations de deux ´
etapes :
1. l’affectation des individus aux centres les plus proches,
2. le calcul des nouveaux centres des classes.
Dans cet algorithme, l’heuristique d’affectation (AFFECTER(xi,Ct)) consiste `
a affecter d’abord xiau centre le
plus proche, puis `
a consid´
erer les autres centres - du plus proche au plus ´
eloign´
e - en effectuant l’affectation tant
que d(xi,xi)d´
ecroˆ
ıt.
Initialisation : (t=0) choisir al´
eatoirement kcentres Ct={ct
1, ct
2,...,ct
k}dans X,
Pour chaque xiX: AFFECTER(xi,Ct),
en d´
eduire un recouvrement initial It={It
1, It
2,...,It
k}.
FAIRE (t=t+1)
Calcul des nouveaux centres Ct:pour jallant de 1`
akcalculer le nouveau centre ct
jde Ij,
Affectation : Pour chaque xiX: AFFECTER(xi,Ct),
en d´
eduire un nouveau recouvrement It,
TANT QUE It6=It1
FIG. 1. Algorithme (simplifi´
e) de recherche d’un recouvrement optimal.
L’algorithme simplifi´
e, tel que pr´
esent´
e en Figure 1, n´
ecessite quelques pr´
ecisions afin d’en assurer la conver-
gence (cf. Section 2.4). Tout d’abord concernant l’affectation des individus : apr `
es recalcul des centres, il est
possible que les centres les plus proches d’un individu aient chang´
es sans toutefois qu’une nouvelle affectation
conduise `
a une meilleur image ; dans ce cas nous choisirons de conserver l’ancienne affectation.
La seconde pr´
ecision porte sur le calcul des centres de classes. Dans cet algorithme, le centre cjd’une classe Ij
correspond au centre de gravit´
e du nuage de points Nj={(xi, pi)|xiIj}o`
u les masses piassoci´
ees `
a chaque
individu sont donn´
ees par :
pi=0si d(xi|j, cj,i) = 0,
η.d2(xi|j, xi)/d2(xi|j, cj,i)sinon. [3]
Dans cette expression, xi|jd´
esigne l’image partielle de xi,i.e le centre de gravit´
e de l’ensemble {cl|xi
Ilet j 6=l}. Le terme cj,i d´
esigne le centre cjid´
eal pour permettre `
axide “coller `
a son image” (d(xi,xi) = 0)
et ηest un coefficient normalisateur (Ppi= 1). Dans la suite on notera ´
egalement xb
iet xa
iles images de xi
respectivement avant (before) et apr`
es (after) la mise `
a jour du centre cj.
Notons que dans le cas d’une partition (chaque individu appartient `
a une seule classe), on se ram`
ene au calcul
classique d’un centre de gravit´
e avec des points tous de mˆ
eme masse ηpuisque cj,i =xi.
2.4. Convergence de l’algorithme
Nous donnons dans cette section les principaux ´
el´
ements visant `
a d´
emontrer la convergence de l’algorithme `
a
travers la d´
ecroissance du crit`
ere V(.). Chaque it´
eration de l’algorithme est compos´
ee de deux ´
etapes : l’affectation
des individus aux centres et le recalcul des centres. Concernant l’´
etape d’affectation, nous avons pr´
ecis´
e que pour
chaque individu xi, une nouvelle affectation n’est pas retenue si elle fait augmenter la quantit ´
ed(xi,xi); et donc
indirectement le crit`
ere V(.). On peut ´
egalement montrer que ce crit`
ere d´
ecroˆ
ıt lors de l’´
etape de recalcul des
3
centres et plus pr´
ecis´
ement pour chaque centre recalcul´
e. ´
Etant donn´
e une classe It
j, on note d’apr`
es le th´
eor`
eme
de Huygens :
X
xiIt
j
pi.d2(cj,i, ct
j) = X
xiIt
j
pi.d2(cj,i, ct+1
j) + X
xiIt
j
pi.d2(ct
j, ct+1
j)[4]
On peut de plus montrer g´
eom´
etriquement (Thal`
es) l’´
egalit´
e suivante :
d2(xi|j, xi)
d2(xi|j, cj,i)=d2(xi,xb
i)
d2(ct
j, ci,j )=d2(xi,xa
i)
d2(ct+1
j, ci,j )[5]
En remplac¸ant dans [4] les pipar leur d´
efinition donn´
ee en [3] puis en utilisant l’´
egalit´
e [5] on obtient :
X
xiIt
j
d2(xi,xb
i) = X
xiIt
j
d2(xi,xa
i) + T(avec T0) [6]
ce qui montre que l’´
etape de calcul des nouveaux centres fait d´
ecroˆ
ıtre (strictement4)V(.). La convergence de
l’algorithme est donc assur´
ee du fait de la d´
ecroissance (stricte) du crit`
ere V(.)sur un ensemble fini de recouvre-
ments.
3. Discussion et conclusion
Dans la m´
ethode expos´
ee, l’heuristique d’affectation choisie n’est certainement pas de nature `
a minimiser la
fonction objective. Il s’agit simplement d’en assurer la d´
ecroissance en essayant5de respecter la propri´
et´
e suivante :
chaque individu doit ˆ
etre affect´
e aux centres les plus proches.´
Etant donn´
es kcentres de classes, il serait en effet
possible d’extraire un sch´
ema d’affectation optimal au sens du crit`
ere V(.)mais qui ne v´
erifierait pas la contrainte
pourtant indispensable pour assurer la coh´
erence des classes.
60
70
80
90
100
110
2 4 6 8 10
Crit`
eres V(.)et V(.)
It´
erations
recouvrements
partitions
+
+
+
+++++++
+
FIG. 2. Convergences des crit`
eres V(.)et V(.)dans les mˆ
emes
conditions initiales.
XXXXXXXXX
X
´
Etiquettes
Classes 123
Iris Setosa 50
Iris Versicolor 21 50 5
Iris Virginica 48 24
FIG. 3. Matrice de confusion.
Afin d’illustrer notre approche, nous pr´
esentons une premi`
ere exp´
erimentation de l’algorithme sur la base
Iris (UCI repository). Ce jeu de donn´
e, traditionnellement utilis´
e en classification supervis´
ee, disposerait d’une
organisation en trois classes de 50 individus chacune, dont deux classes sont r´
eput´
ees difficilement s´
eparables
(classes des Iris Versicolor et Virginica). Les r´
esultats pr´
esent´
es correspondent `
a la meilleure classification obtenue
(relativement `
aV(.)) sur 20 ex´
ecutions de l’algorithme.
On observe via la matrice de confusion propos´
ee en Figure 3 que chaque classe d’Iris extraite par notre approche
correspond `
a une classe pr´
ed´
efinie : la classe 1 s’identifie principalement aux Iris Virginica, la classe 2 aux Iris
4. Dans [6], Test strictement positif sauf dans le cas o `
u aucun centre n’a ´
et´
e modifi´
e.
5. L’algorithme propos´
e ne permet pas de satisfaire totalement `
a cette contrainte. Cependant l’heuristique d’affectation limite
en pratique ces violations, qui ne remettent donc pas en cause la coh´
erence globale des classes.
4
-2.5
-2
-1.5
-1
-0.5
0
0.5
1
1.5
2
-3 -2 -1 0 1 2 3
cluster 1
cluster 2
cluster 3
FIG. 4. Visualisation des classes par projection sur les deux premiers vecteurs propres (ACP).
Versicolor et la derni`
ere classe presque exclusivement aux Iris Setosa. De plus, les intersections mentionn ´
ees
entre les deux premi`
eres classes obtenues indiquent effectivement la confusion qui existe entre les deux classes
Versicolor et Virginica. La visualisation propos´
ee en Figure 4 atteste de la coh´
erence globale des classes construites
mais ´
egalement des recouvrements entre ces classes.
Enfin, le graphique de la Figure 2 expose sur un exemple pratique que la vitesse de convergence de l’algorithme
propos´
e est du mˆ
eme ordre que pour la m´
ethode des k-moyennes.
Pour conclure, nous rappelons que nous avons trait´
e dans cet article du probl`
eme de la classification en classes
recouvrantes. Constatant qu’il n’existe pas de m´
ethodologie clairement ´
etablie pour ce probl`
eme, nous avons
pr´
esent´
e une premi`
ere approche dans laquelle la construction de classes recouvrantes est utilis ´
ee dans le processus
mˆ
eme de classification afin d’am´
eliorer la repr´
esentativit´
e des classes relativement aux donn´
ees initiales.
Les ´
etudes `
a venir sur ce th`
eme de recherche consisteront notamment `
a proposer une m´
ethode d’affectation
des individus conciliant `
a la fois les contraintes de coh´
erence des classes et d’am´
elioration du crit`
ere de qualit´
e du
recouvrement.
4. Bibliographie
[BEZ 81] BEZDEK J. C., Pattern Recognition with Fuzzy Objective Function Algoritms, Plenum Press, New York, , 1981.
[CLE 04] CLEUZIO U G., MARTIN L., VRAIN C., PoBOC : an Overlapping Clustering Algorithm. Application to Rule-Based
Classification and Textual Data, R. L ´
OPEZ DE M´
ANTARAS AND L. SAITTA , IOS PRESS, Ed., Proceedings of the 16th
European Conference on Artificial Intelligence, Valencia, Spain, August 22-27 2004, p. 440-444.
[DID 84] DIDAY E., Une repr´
esentation visuelle des classes empi´
etantes : Les Pyramides, rapport, 1984, INRIA n˚291,
Rocquencourt 78150, France.
[LEL 93] LELU A., Mod`
eles neuronaux pour l’analyse de donn´
ees documentaires et textuelles, Th`
ese de doctorat, mars 1993,
Universit´
e de Paris VI.
[MAC 67] MAC QU EEN J., Some methods for classification and analysis of multivariate observations, Proceedings of the
Fifth Berkeley Symposium on Mathematical statistics and probability, vol. 1, Berkeley, 1967, University of California
Press, p. 281-297.
[PAN 03] PANTEL P., Clustering by Committee, Ph.d. dissertation, 2003, Department of Computing Science, University of
Alberta.
5
1 / 5 100%

Classification avec recouvrement des classes : une extension des k

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !