Classification avec recouvrement des classes : une extension des k

Téléchargement

Classiﬁcation avec recouvrement des classes :

une extension des k-moyennes

Guillaume Cleuziou

Laboratoire d’Informatique Fondamentale d’Orl´

eans (LIFO)

Universit´

e d’Orl´

eans

45067 ORLEANS Cedex 2

[email protected]

R´

ESUM ´

E. On constate ces derni`

eres ann´

ees un int´

erˆ

et croissant pour les m´

ethodes de classiﬁcation construisant des sch´

emas

autorisant le recouvrement des classes. Ces sch´

emas sont, en effet, particuli`

erement adapt´

es `

a certains types de donn´

ees docu-

mentaires ou biologiques par exemple. Malheureusement les quelques techniques existantes s’av`

erent peu ou mal adapt´

ees `

ces applications. Nous proposons dans cet article d’adapter l’algorithme des k-moyennes `

a cette tˆ

ache, en reconsid´

erant `

a la

fois le crit`

ere de qualit´

e et l’algorithme de recherche d’un recouvrement optimal.

MOTS-CL ´

ES : Classiﬁcation non-supervis´

ee, recouvrement des classes, k-moyennes.

1. Introduction

La classiﬁcation est un domaine de recherches en constante ´

evolution du fait de l’´

emergence perp´

etuelle de

nouvelles probl´

ematiques issues du monde r´

eel. Cette ´

evolution porte autant sur les m´

ethodes employ´

ees (centres

mobiles, hi´

erarchies, m´

elanges de lois, agents artiﬁciels, etc.) que sur l’id´

eal recherch´

e. Ceux qui cherchaient hier

une “organisation en classes compactes et s´

epar´

ees” s’autorisent aujourd’hui `

a varier les formes, densit´

es, tailles,

nombres et agencements des classes, selon le contexte applicatif vis ´

Dans cette ´

etude nous nous int´

eressons `

a l’agencement des classes entres elles et plus particuli `

erement aux

recouvrements (appel´

es aussi intersections ou empi´

etements) entre les classes. Dans certains domaines d’applica-

tions, ce type de sch´

ema de classiﬁcation est naturel. Par exemple en biologie un g`

ene peut inﬂuencer plusieurs

aspects du m´

etabolisme, en recherche d’information un document (texte, image, vid´

eo, etc.) peut aborder plusieurs

th´

ematiques ou appartenir `

a plusieurs genres diff´

erents, enﬁn en traitement du langage un mot peut avoir plusieurs

interpr´

etations. Dans chacun de ces domaines, restreindre chaque ´

el´

ement `

a n’appartenir qu’`

a une seule classe

entraˆ

ıne une perte d’information potentiellement utile `

a l’utilisateur mais ´

egalement cruciale pour le processus de

classiﬁcation.

Les approches de classiﬁcation aboutissant `

a des classes recouvrantes n’abondent pas dans la litt´

erature ; deux

approches de r´

ef´

erence n´

ecessitent cependant d’ˆ

etre mentionn´

ees ici : la classiﬁcation pyramidale [DID 84] et

la classiﬁcation ﬂoue [BEZ 81]. Pourtant ces deux approches sont peu utilis ´

ees dans les domaines d’application

cit´

es pr´

ec´

edemment car peu adapt´

ees. Les pyramides autorisent des recouvrement trop limit ´

es et entre des classes

n´

ecessairement assez similaires tandis que la classiﬁcation ﬂoue oblige `

a effectuer, a posteriori, un choix d’affec-

tation peu ´

evident, `

a partir des fonctions d’appartenance. L’affectation plus ou moins arbitraire des individus `

a des

classes pr´

e-construites est un raisonnement classiﬁcatoire que l’on rencontre dans d’autres m ´

ethodes plus r´

ecentes

[LEL 93, PAN 03, CLE 04].

Nous consid´

ererons dans cette ´

etude que les recouvrements entre classes ne doivent pas ˆ

etre simplement tol´

er´

mais, au contraire, que le processus de construction des classes doit les int´

egrer et en tirer proﬁt. De mˆ

eme que

les pyramides ´

etendent les hi´

erarchies en autorisant les recouvrements, nous proposons d’adapter la recherche

d’une bonne partition `

a celle d’un bon recouvrement. Dans cette perspective, nous pr´

esentons une extension des

k-moyennes [MAC 67], fond´

ee d’une part sur l’adaptation de la fonction objective `

a optimiser et d’autre part sur

l’algorithme de recherche d’un recouvrement optimal.

2. Algorithme de classiﬁcation avec recouvrement des classes

2.1. L’algorithme des k-moyennes

Etant donn´

e un ensemble d’individus X={x1, x2,...,xn}d´

eﬁnis dans Rpmuni d’une m´

etrique euclidienne

d, l’algorithme des k-moyennes est fond´

e sur la recherche d’une partition I={I1, I2, . . . , Ik}de Xminimisant

le crit`

ere de variance intra-classes :

V(I) =

j=1 X

{xi∈Ij}

pid2(xi, cj)[1]

ucjd´

esigne le centre de la classe Ijet pila masse relative `

a l’individu xi(traditionnellement chaque individu

est pond´

er´

e de fac¸on uniforme, avec Ppi= 1). Les deux ´

etapes le l’algorithme des k-moyennes qui consistent

a (1) affecter chaque individu au centre de classe le plus proche et (2) mettre `

a jour le centre de chaque classe en

calculant son centre de gravit´

e, permettent d’assurer la convergence du crit`

ere V(.)vers une partition stable1. On

remarquera que l’optimisation du crit`

ere de variance intra-classes ne tol`

ere (et encore moins ne favorise) aucun

recouvrement de classes. En effet, chaque affectation suppl´

ementaire d’un individu xi`

a une classe Ijimpliquerait

une augmentation du crit`

ere V(.)de la quantit´

epid2(xi, cj). Nous proposons de modiﬁer la fonction objective

utilis´

ee, de fac¸on `

a autoriser l’affectation de chaque individu `

a une ou plusieurs classes.

2.2. Une autre interpr´

etation de la fonction objective

R´

esumer une collection d’individus `

a travers un ensemble de classes permet une analyse globale des donn ´

ees

mais suppose en mˆ

eme temps de conc´

eder une partie de l’information contenue dans ces donn ´

ees. La fonction

objective V(.),´

etudi´

ee pr´

ec´

edemment, peut alors ˆ

etre interpr´

et´

ee comme un crit`

ere mesurant l’information perdue

ou encore l’erreur commise en substituant chaque individu `

a un centre (ou repr´

esentant) de classe2. Dans la suite

nous parlerons d’image d’un individu pour d´

esigner ce substitut.

D´

eﬁnition 2.1 Soient une collection de classes I={I1, I2,...,Ik}formant une partition de l’ensemble d’indi-

vidus X={x1, x2,...,xn}et c1, c2,...,ckles centres respectifs des classes de I, l’image de xi(not´

ee xi) dans

la classiﬁcation est donn´

ee par le centre cjde la classe Ij`

a laquelle xiest affect´

Dans la cas o`

uIn’est plus une partition mais un recouvrement de X, la d´

eﬁnition 2.1 doit ˆ

etre ´

etendue. Consid´

erant

que l’affectation d’un individu xi`

a plusieurs classes se justiﬁe par le fait que xipartage des propri´

et´

es avec chacune

de ces classes, l’image de xidoit r´

esulter d’un compromis entre tous les centres de classes concern´

ees.

D´

eﬁnition 2.2 Soient une collection de classes I={I1, I2,...,Ik}formant un recouvrement de l’ensemble

d’individus X={x1, x2,...,xn}et c1, c2,...,ckles centres respectifs des classes de I, l’image de xi(not´

ee xi)

dans la classiﬁcation est donn´

ee par le centre de gravit´

e3de l’ensemble {cj|xi∈Ij}.

Par la d´

eﬁnition 2.2, la fonction objective V(.)peut ˆ

etre r´

e´

ecrite de mani`

ere `

a favoriser les recouvrements de

classes lorsque ceux-ci permettent de capturer d’avantage d’information sur les individus concern ´

es. On note V(I)

ce crit`

ere ´

evaluant la qualit´

e d’un recouvrement Id’un ensemble d’individus X:

V(I) = X

xi∈X

pid2(xi,xi)[2]

2.3. Algorithme de recherche d’un recouvrement optimal

Une mani`

ere na¨

ıve de rechercher le recouvrement qui minimise le crit `

ere V(.)serait de g´

en´

erer tous les recou-

vrements possibles. Cette solution est exclue dans le cas de partitions du fait qu’il existe de l’ordre de knpartitions

1. La partition stable obtenue correspond `

a une situation o`

u l’algorithme ne peut plus ´

evoluer. Nous parlerons dans la suite

d”’optimum local” pour ´

evoquer cette situation.

2. Dans le crit`

ere V(.)l’erreur commise pour un individu xiaffect´

a la classe Ijvaut d2(xi, cj)

3. Dans cette d´

eﬁnition, les classes contenant xisont pond´

er´

ees de fac¸on uniforme.

en kclasses pour nindividus. Le nombre de recouvrements possibles ´

etant beaucoup plus grand encore, il convient

de proposer un algorithme permettant d’explorer partiellement l’espace des possibilit ´

es au risque d’aboutir `

a un

optimum seulement “local”.

L’algorithme que nous pr´

esentons (Figure 1) s’inspire largement de l’algorithme des k-moyennes et proc`

ede

par it´

erations de deux ´

etapes :

1. l’affectation des individus aux centres les plus proches,

2. le calcul des nouveaux centres des classes.

Dans cet algorithme, l’heuristique d’affectation (AFFECTER(xi,Ct)) consiste `

a affecter d’abord xiau centre le

plus proche, puis `

a consid´

erer les autres centres - du plus proche au plus ´

eloign´

e - en effectuant l’affectation tant

que d(xi,xi)d´

ecroˆ

ıt.

Initialisation : (t=0) choisir al´

eatoirement kcentres Ct={ct

1, ct

2,...,ct

k}dans X,

Pour chaque xi∈X: AFFECTER(xi,Ct),

en d´

eduire un recouvrement initial It={It

1, It

2,...,It

k}.

FAIRE (t=t+1)

Calcul des nouveaux centres Ct:pour jallant de 1`

akcalculer le nouveau centre ct

jde Ij,

Affectation : Pour chaque xi∈X: AFFECTER(xi,Ct),

en d´

eduire un nouveau recouvrement It,

TANT QUE It6=It−1

FIG. 1. Algorithme (simpliﬁ´

e) de recherche d’un recouvrement optimal.

L’algorithme simpliﬁ´

e, tel que pr´

esent´

e en Figure 1, n´

ecessite quelques pr´

ecisions aﬁn d’en assurer la conver-

gence (cf. Section 2.4). Tout d’abord concernant l’affectation des individus : apr `

es recalcul des centres, il est

possible que les centres les plus proches d’un individu aient chang´

es sans toutefois qu’une nouvelle affectation

conduise `

a une meilleur image ; dans ce cas nous choisirons de conserver l’ancienne affectation.

La seconde pr´

ecision porte sur le calcul des centres de classes. Dans cet algorithme, le centre cjd’une classe Ij

correspond au centre de gravit´

e du nuage de points Nj={(xi, pi)|xi∈Ij}o`

u les masses piassoci´

ees `

a chaque

individu sont donn´

ees par :

pi=0si d(xi|j, cj,i) = 0,

η.d2(xi|j, xi)/d2(xi|j, cj,i)sinon. [3]

Dans cette expression, xi|jd´

esigne l’image partielle de xi,i.e le centre de gravit´

e de l’ensemble {cl|xi∈

Ilet j 6=l}. Le terme cj,i d´

esigne le centre cjid´

eal pour permettre `

axide “coller `

a son image” (d(xi,xi) = 0)

et ηest un coefﬁcient normalisateur (Ppi= 1). Dans la suite on notera ´

egalement xb

iet xa

iles images de xi

respectivement avant (before) et apr`

es (after) la mise `

a jour du centre cj.

Notons que dans le cas d’une partition (chaque individu appartient `

a une seule classe), on se ram`

ene au calcul

classique d’un centre de gravit´

e avec des points tous de mˆ

eme masse ηpuisque cj,i =xi.

2.4. Convergence de l’algorithme

Nous donnons dans cette section les principaux ´

el´

ements visant `

a d´

emontrer la convergence de l’algorithme `

travers la d´

ecroissance du crit`

ere V(.). Chaque it´

eration de l’algorithme est compos´

ee de deux ´

etapes : l’affectation

des individus aux centres et le recalcul des centres. Concernant l’´

etape d’affectation, nous avons pr´

ecis´

e que pour

chaque individu xi, une nouvelle affectation n’est pas retenue si elle fait augmenter la quantit ´

ed(xi,xi); et donc

indirectement le crit`

ere V(.). On peut ´

egalement montrer que ce crit`

ere d´

ecroˆ

ıt lors de l’´

etape de recalcul des

centres et plus pr´

ecis´

ement pour chaque centre recalcul´

e. ´

Etant donn´

e une classe It

j, on note d’apr`

es le th´

eor`

eme

de Huygens :

xi∈It

pi.d2(cj,i, ct

j) = X

xi∈It

pi.d2(cj,i, ct+1

j) + X

xi∈It

pi.d2(ct

j, ct+1

j)[4]

On peut de plus montrer g´

eom´

etriquement (Thal`

es) l’´

egalit´

e suivante :

d2(xi|j, xi)

d2(xi|j, cj,i)=d2(xi,xb

d2(ct

j, ci,j )=d2(xi,xa

d2(ct+1

j, ci,j )[5]

En remplac¸ant dans [4] les pipar leur d´

eﬁnition donn´

ee en [3] puis en utilisant l’´

egalit´

e [5] on obtient :

xi∈It

d2(xi,xb

i) = X

xi∈It

d2(xi,xa

i) + T(avec T≥0) [6]

ce qui montre que l’´

etape de calcul des nouveaux centres fait d´

ecroˆ

ıtre (strictement4)V(.). La convergence de

l’algorithme est donc assur´

ee du fait de la d´

ecroissance (stricte) du crit`

ere V(.)sur un ensemble ﬁni de recouvre-

ments.

3. Discussion et conclusion

Dans la m´

ethode expos´

ee, l’heuristique d’affectation choisie n’est certainement pas de nature `

a minimiser la

fonction objective. Il s’agit simplement d’en assurer la d´

ecroissance en essayant5de respecter la propri´

et´

e suivante :

chaque individu doit ˆ

etre affect´

e aux centres les plus proches.´

Etant donn´

es kcentres de classes, il serait en effet

possible d’extraire un sch´

ema d’affectation optimal au sens du crit`

ere V(.)mais qui ne v´

eriﬁerait pas la contrainte

pourtant indispensable pour assurer la coh´

erence des classes.

100

110

2 4 6 8 10

Crit`

eres V(.)et V(.)

It´

erations

recouvrements

partitions

+++++++

FIG. 2. Convergences des crit`

eres V(.)et V(.)dans les mˆ

emes

conditions initiales.

XXXXXXXXX

Etiquettes

Classes 123

Iris Setosa 50

Iris Versicolor 21 50 5

Iris Virginica 48 24

FIG. 3. Matrice de confusion.

Aﬁn d’illustrer notre approche, nous pr´

esentons une premi`

ere exp´

erimentation de l’algorithme sur la base

Iris (UCI repository). Ce jeu de donn´

e, traditionnellement utilis´

e en classiﬁcation supervis´

ee, disposerait d’une

organisation en trois classes de 50 individus chacune, dont deux classes sont r´

eput´

ees difﬁcilement s´

eparables

(classes des Iris Versicolor et Virginica). Les r´

esultats pr´

esent´

es correspondent `

a la meilleure classiﬁcation obtenue

(relativement `

aV(.)) sur 20 ex´

ecutions de l’algorithme.

On observe via la matrice de confusion propos´

ee en Figure 3 que chaque classe d’Iris extraite par notre approche

correspond `

a une classe pr´

ed´

eﬁnie : la classe 1 s’identiﬁe principalement aux Iris Virginica, la classe 2 aux Iris

4. Dans [6], Test strictement positif sauf dans le cas o `

u aucun centre n’a ´

et´

e modiﬁ´

5. L’algorithme propos´

e ne permet pas de satisfaire totalement `

a cette contrainte. Cependant l’heuristique d’affectation limite

en pratique ces violations, qui ne remettent donc pas en cause la coh´

erence globale des classes.

-2.5

-2

-1.5

-1

-0.5

0.5

1.5

-3 -2 -1 0 1 2 3

cluster 1

cluster 2

cluster 3

FIG. 4. Visualisation des classes par projection sur les deux premiers vecteurs propres (ACP).

Versicolor et la derni`

ere classe presque exclusivement aux Iris Setosa. De plus, les intersections mentionn ´

ees

entre les deux premi`

eres classes obtenues indiquent effectivement la confusion qui existe entre les deux classes

Versicolor et Virginica. La visualisation propos´

ee en Figure 4 atteste de la coh´

erence globale des classes construites

mais ´

egalement des recouvrements entre ces classes.

Enﬁn, le graphique de la Figure 2 expose sur un exemple pratique que la vitesse de convergence de l’algorithme

propos´

e est du mˆ

eme ordre que pour la m´

ethode des k-moyennes.

Pour conclure, nous rappelons que nous avons trait´

e dans cet article du probl`

eme de la classiﬁcation en classes

recouvrantes. Constatant qu’il n’existe pas de m´

ethodologie clairement ´

etablie pour ce probl`

eme, nous avons

pr´

esent´

e une premi`

ere approche dans laquelle la construction de classes recouvrantes est utilis ´

ee dans le processus

mˆ

eme de classiﬁcation aﬁn d’am´

eliorer la repr´

esentativit´

e des classes relativement aux donn´

ees initiales.

Les ´

etudes `

a venir sur ce th`

eme de recherche consisteront notamment `

a proposer une m´

ethode d’affectation

des individus conciliant `

a la fois les contraintes de coh´

erence des classes et d’am´

elioration du crit`

ere de qualit´

e du

recouvrement.

4. Bibliographie

[BEZ 81] BEZDEK J. C., Pattern Recognition with Fuzzy Objective Function Algoritms, Plenum Press, New York, , 1981.

[CLE 04] CLEUZIO U G., MARTIN L., VRAIN C., PoBOC : an Overlapping Clustering Algorithm. Application to Rule-Based

Classiﬁcation and Textual Data, R. L ´

OPEZ DE M´

ANTARAS AND L. SAITTA , IOS PRESS, Ed., Proceedings of the 16th

European Conference on Artiﬁcial Intelligence, Valencia, Spain, August 22-27 2004, p. 440-444.

[DID 84] DIDAY E., Une repr´

esentation visuelle des classes empi´

etantes : Les Pyramides, rapport, 1984, INRIA n˚291,

Rocquencourt 78150, France.

[LEL 93] LELU A., Mod`

eles neuronaux pour l’analyse de donn´

ees documentaires et textuelles, Th`

ese de doctorat, mars 1993,

Universit´

e de Paris VI.

[MAC 67] MAC QU EEN J., Some methods for classiﬁcation and analysis of multivariate observations, Proceedings of the

Fifth Berkeley Symposium on Mathematical statistics and probability, vol. 1, Berkeley, 1967, University of California

Press, p. 281-297.

[PAN 03] PANTEL P., Clustering by Committee, Ph.d. dissertation, 2003, Department of Computing Science, University of

Alberta.

1 / 5 100%

Classification avec recouvrement des classes : une extension des k

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Classification avec recouvrement des classes : une extension des k

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib