
2. Algorithme de classification avec recouvrement des classes
2.1. L’algorithme des k-moyennes
´
Etant donn´
e un ensemble d’individus X={x1, x2,...,xn}d´
efinis dans Rpmuni d’une m´
etrique euclidienne
d, l’algorithme des k-moyennes est fond´
e sur la recherche d’une partition I={I1, I2, . . . , Ik}de Xminimisant
le crit`
ere de variance intra-classes :
V(I) =
k
X
j=1 X
{xi∈Ij}
pid2(xi, cj)[1]
o`
ucjd´
esigne le centre de la classe Ijet pila masse relative `
a l’individu xi(traditionnellement chaque individu
est pond´
er´
e de fac¸on uniforme, avec Ppi= 1). Les deux ´
etapes le l’algorithme des k-moyennes qui consistent
`
a (1) affecter chaque individu au centre de classe le plus proche et (2) mettre `
a jour le centre de chaque classe en
calculant son centre de gravit´
e, permettent d’assurer la convergence du crit`
ere V(.)vers une partition stable1. On
remarquera que l’optimisation du crit`
ere de variance intra-classes ne tol`
ere (et encore moins ne favorise) aucun
recouvrement de classes. En effet, chaque affectation suppl´
ementaire d’un individu xi`
a une classe Ijimpliquerait
une augmentation du crit`
ere V(.)de la quantit´
epid2(xi, cj). Nous proposons de modifier la fonction objective
utilis´
ee, de fac¸on `
a autoriser l’affectation de chaque individu `
a une ou plusieurs classes.
2.2. Une autre interpr´
etation de la fonction objective
R´
esumer une collection d’individus `
a travers un ensemble de classes permet une analyse globale des donn ´
ees
mais suppose en mˆ
eme temps de conc´
eder une partie de l’information contenue dans ces donn ´
ees. La fonction
objective V(.),´
etudi´
ee pr´
ec´
edemment, peut alors ˆ
etre interpr´
et´
ee comme un crit`
ere mesurant l’information perdue
ou encore l’erreur commise en substituant chaque individu `
a un centre (ou repr´
esentant) de classe2. Dans la suite
nous parlerons d’image d’un individu pour d´
esigner ce substitut.
D´
efinition 2.1 Soient une collection de classes I={I1, I2,...,Ik}formant une partition de l’ensemble d’indi-
vidus X={x1, x2,...,xn}et c1, c2,...,ckles centres respectifs des classes de I, l’image de xi(not´
ee xi) dans
la classification est donn´
ee par le centre cjde la classe Ij`
a laquelle xiest affect´
e.
Dans la cas o`
uIn’est plus une partition mais un recouvrement de X, la d´
efinition 2.1 doit ˆ
etre ´
etendue. Consid´
erant
que l’affectation d’un individu xi`
a plusieurs classes se justifie par le fait que xipartage des propri´
et´
es avec chacune
de ces classes, l’image de xidoit r´
esulter d’un compromis entre tous les centres de classes concern´
ees.
D´
efinition 2.2 Soient une collection de classes I={I1, I2,...,Ik}formant un recouvrement de l’ensemble
d’individus X={x1, x2,...,xn}et c1, c2,...,ckles centres respectifs des classes de I, l’image de xi(not´
ee xi)
dans la classification est donn´
ee par le centre de gravit´
e3de l’ensemble {cj|xi∈Ij}.
Par la d´
efinition 2.2, la fonction objective V(.)peut ˆ
etre r´
e´
ecrite de mani`
ere `
a favoriser les recouvrements de
classes lorsque ceux-ci permettent de capturer d’avantage d’information sur les individus concern ´
es. On note V(I)
ce crit`
ere ´
evaluant la qualit´
e d’un recouvrement Id’un ensemble d’individus X:
V(I) = X
xi∈X
pid2(xi,xi)[2]
2.3. Algorithme de recherche d’un recouvrement optimal
Une mani`
ere na¨
ıve de rechercher le recouvrement qui minimise le crit `
ere V(.)serait de g´
en´
erer tous les recou-
vrements possibles. Cette solution est exclue dans le cas de partitions du fait qu’il existe de l’ordre de knpartitions
1. La partition stable obtenue correspond `
a une situation o`
u l’algorithme ne peut plus ´
evoluer. Nous parlerons dans la suite
d”’optimum local” pour ´
evoquer cette situation.
2. Dans le crit`
ere V(.)l’erreur commise pour un individu xiaffect´
e`
a la classe Ijvaut d2(xi, cj)
3. Dans cette d´
efinition, les classes contenant xisont pond´
er´
ees de fac¸on uniforme.
2