Classification tabou bas´ee en transferts
Alex Murillo-Fern´andez Javier Trejos-Zelaya
Programa de Investigaci´on en Modelos y An´alisis de Datos (PIMAD)
Escuela de Matem´atica
Universidad de Costa Rica
2060 San Jos´e, Costa Rica
Tel.: (506) 207 5574, Fax.: (506) 207 4024
Abstract
On propose una m´ethode de classification par partitions qui utilise la technique de la recherche
tabou, bas´ee sur les transferts, afin d’obtenir des classes bien s´epar´ees entre elles et les plus homog`enes.
L’algorithme propos´e fait une recherche dirig´ee afin de trouver la partition optimale du crit`ere de
l’inertie intra-classes. On montre le fonctionnement de l’algorithme sur un exemple simple.
Mots-cl´es: classification automatique, transferts, inertie intra-classes, optimisation combinatoire.
1 Introduction
La classification automatique par partitions cherche la meilleure partition, en un nombre fix´e de classes,
d’un ensemble d’individus Ω, selon une fonction qui mesure l’ad´equation de la partition. La fonction la
plus utilis´ee dans le cas quantitatif est l’inertie intra-classes. Dans [7] et [5] nous expliquons les raisons
de l’utilisation des “techniques modernes” d’optimisation dans le probl`eme de partitionnement. Dans cet
article, on propose une m´ethode de classification automatique par partitions, bas´ee dans la m´ethode de
transferts, en utilisant la technique combinatoire de la recherchetabou.
F. Glover [3] a propos´e, au d´ebut des ann´ees 70, une proc´edure heuristique de “haut niveau” appel´ee
recherche tabou, qui est utilis´ee avec succ`es pour esoudre des probl`emes d’optimisation. La recherche
tabou se caract´erise pour son habilit´e `a ´echaper aux optima locaux.
en´eralement, les m´ethodes d’optimisation combinatoire poss`edent deux phases importantes: une de
construction et une autre d’am´elioration; la recherche tabou s’ins`ere dans la phase d’am´elioration. La
recherche tabou est une technique it´erative qui se d´eplace, `a chaque ´etape, d’un ´etat sd’un probl`eme
d’optimisation combinatoire, vers un ´etat s0qui fournit la meilleure valeur de la fonction de coˆut fdans
V?,o`uV?est un sous-ensemble d’un voisinage N(s)des;f(s0) peut ˆetre meilleure ou non `a f(s).
Il existe deux diff´erences essentielles entre une technique d’am´elioration locale et la proc´edure expliqu´ee
pr´ec´edemment. La premi`ere diff´erence est le fait qu’on peut se d´eplacer vers un ´etat s0pire que l’´etat de
epart s, et la deuxi`eme diff´erence est que l’ensemble V?est celui qui guide la recherche tabou.
Quelques aspects importants de la recherche tabou sont:
1. La recherche tabou fait une utilisation syst´ematique de la m´emoire, puisque du fait de pouvoir
accepter des ´etats pires s0que les ´etats de d´epart s, il peut avoir des cycles; on introduit donc
un structure de m´emoire telle qu’on interdise ou p´enalise certains mouvements qui pourraient faire
revenir le syst`eme sur un ´etat visit´e r´ecemment; ce sont ces mouvements qu’on appelle tabou.
Cela conduit `a une orientation g´en´erale de l’ensemble V?, qui sera en´er´e de fa¸con contrˆol´ee, non
al´eatoire.
Recherche partiellement financ´ee par l’Universit´e du Costa Rica et le Conseil National pour les Recherches Scientifiques
et Technologiques (CONICIT).
2. Les contraintes tabou peuvent ˆetre viol´ees dans certaines circonstances. Quand un mouvement
tabou fournit un ´etat meilleur que n’importe quel autre ´etat visit´e, sa condition tabou peut ˆetre
lev´ee; ce crit`ere est appel´e crit`ere d’aspiration.
3. Vu que la liste des mouvements tabous doit avoir une longueur finie, un mouvement reste tabou
seulement pendant un certain nombre d’it´erations, ce qui oblige `a une strat´egie d’oubli.
2 Recherche tabou d’une partition par transferts
Soit Ω un ensemble de nindividus, not´es xiet munis de poids positifs pitels que Pipi= 1, sur lesquels
on a mesur´e pvariables quantitatives xj. On propose une m´ethode pour trouver une partition de Ω en k
classes, bas´ee sur la technique de la recherche tabou et qui utilise le principe des transferts de S. R´egnier
[6].
Si P=(C1,...,C
k) est une partition de Ω en kclasses, alors l’inertie intra-classes de Pest:
W(P)=
k
X
`=1
X
iC`
pid2(xi,g
`)
o`ug`=1
µ`PxiC`pixiest le centre de gravit´e de la classe C`,µ`le poids de la classe C`,etdest une
distance euclidienne.
Un mouvement dans la recherche tabou sera le transfert d’un individu d’une classe dans une autre
classe. Si Pest la partition de Ω avant le mouvement et P0la partition apr`es celui-ci, alors la valeur du
mouvement est donn´ee par:
W=W(P)W(P0).
Tel que nous l’avons expliqu´e dans [5], on peut simplifier le calcul de ∆Wde fa¸con `a avoir:
W=µ`·pi
µ`+pi
d2(g`,x
i)µj·pi
µjpi
d2(gj,x
i).
o`uCjest la classe de l’individu xitrait´e avant le transfert et C`est la classe apr`es le transfert. De
eme, nous avons des expressions qui simplifient le calcul de l’inertie de la classe Cjet de la classe
C`si le transfert est accept´e, ainsi que le calcul des centres de gravit´e de ces classes modifi´ees. Les
emonstrations de ces r´esultats peuvent ˆetre trouv´ees dans [4].
Les valeurs des mouvements fournissent un bon crit`ere pour repr´esenter la qualit´e d’un mouvement,
eme si on peut en utiliser d’autres.
Pour mod´eliser le probl`eme de partitionnement, on utilisera un vecteur de taille n, dont chaque
entr´ee est un nombre entre 1 et k, qui repr´esente la classe `a laquelle appartient l’individu correspondant.
L’initialisation de la m´ethode se fait al´eatoirement, c’est-`a-dire on affecte un nombre al´eatoire entre 1 et
k`a chaque entr´ee du vecteur qui repr´esente la partition P. Cependant, cette partition initiale peut aussi
ˆetre fournie par un expert.
On appelera le voisinage d’une partition P, l’ensemble de partitions g´en´er´ees `a partir de Ppar un
mouvement, c’est-`a-dire, par le transfert d’un individu. On notera N(P) le voisinage de P.
Un mouvement sera appel´e tabou s’il a ´et´e consid´er´e dans une des mderni`eres it´erations. Les derni`eres
it´erations induisent ainsi une liste tabou, dont la longueur est un des param`etres de l’algorithme. Si cette
longueur est trop petite alors les cycles apparaitront, mais si elle est trop longue on serait peut-ˆetre
contraint dans l’habilit´e d´esir´ee de monter les “vall´ees profondes”.
On remarquera que dans l’algorithme, on introduit dans la liste tabou l’inertie intra-classes W(P)au
lieu de la partition P. En effet, la partition P1=(2,1,1,1,1) est ´egale `a la partition P2=(1,2,2,2,2);
vu que, pour des donn´ees r´eelles, il est tr`es peu probable que l’on trouve deux partitions diff´erentes avec
la mˆeme inertie intra-classes, nous avons pris cette d´ecision qui nous a donn´e d’excellents r´esultats.
Un mouvement de N(P) est admissible s’il n’est pas tabou ou bien si le crit`ere d’aspiration ´elimine
son statut tabou. V?est l’ensemble de tous les mouvements admissibles de N(P). Dans une it´eration,
on choisit le meilleur mouvement P0de V?et la liste tabou est actualis´ee avec la valeur de W(P), mˆeme
si W(P0)>W(P). L’algorithme fait des it´erations jusqu’`a un nombre maximal d’it´erations donn´e par
l’utilisateur.
4
3
2
1
12345
••
••
Figure 1: Graphique des points `a classifier.
2.1 Exemple simple d’ex´ecution de l’algorithme
On a construit un exemple simple pour ilustrer le fonctionnement de l’algorithme. Les donn´ees sont des
points de IR2:x1=(1,1), x2=(2,1), x3=(4,2), x4=(5,1) et x5=(4,4). Dans la repr´esentation des
points de la figure 1, on peut appr´ecier que la partition optimale en 3 classes serait: {x1,x
2},{x3,x
4},{x5}.
La longueur de la liste tabou est 5 et le nombre maximum d’it´erations 10, mais ici on montre seulement les
esultats des 4 premi`eres it´erations. Disons que la partition initiale, choisie al´eatoirement, est (1,1,1,1,1).
It´eration Classification Inertie WEst-il tabou? Meilleur admissible
011111 3.52
121111ou31111 2.15
12111ou13111 3.00
11211ou11311 3.35
11121ou11131 2.55
11112ou11113 2.15
Le montre le meilleur mouvement admissible. Les vecteurs qui sont dans la deuxi`eme colonne (celle de
Classification) forment le voisinage de la partition initiale. On peut remarquer qu’il y a deux mouvements
admissibles qui fournissent la meilleure valeur de l’inertie, et que les deux correspondent `a la mˆeme
partition.
It´eration Classification Inertie WEst-il tabou? Meilleur admissible
131111 2.15
211111 3.52 Oui
21111 2.15 Oui
32111ou31112 1.07
33111 1.17
31211 2.13
31311 3.13
31121 1.47
31131 3.07
31113 2.87
Dans cette it´eration il y a deux mouvements tabou, dont un est la partition de d´epart et l’autre est ´egal
au dernier mouvement; cependant, il y a un autre mouvement qui am´eliore beaucoup l’inertie intra-classe.
It´eration Classification Inertie WEst-il tabou? Meilleur admissible
232111 1.07
312111 3.00
22111ou33111 1.17
31111 2.15 Oui
32211ou32112 1.50
32311ou32131 2.00
32121 1.30
32113 2.00 Oui
Dans cette it´eration on peut remarquer la diff´erence entre l’algorithme propos´e et un algorithme de
descente, car on accepte un mouvement dont l’inertie (0.77) est plus grande que l’inertie du mouvement
pr´ec´edent (0.67). Ce mouvement sert `a sortir de la vall´ee d’un minimum local et on continue la recherche
dans une autre vall´ee.
It´eration Classification Inertie WEst-il tabou? Meilleur admissible
333111 1.17
413111 3.00
23111ou32111 1.07 Oui
31111 2.15 Oui
33211 1.10
33311 2.07
33121 0.50
33131 2.13
33112 0.30 ∗∗∗
33113 2.33
A partir de cette it´eration, on trouve l’optimum global, qui ´etait connu d`es le d´ebut. Cet optimum est
signal´e par ∗∗∗.
algorihtmes g´en´etiques. Ces esultats comprennent aussi une comparaison avec le ethode des nu´ees
dynamiques et la classification hi´erachique selon le crit`ere de Ward.
Nous avonc appliqu´e l’algorithme sur plusieurs tableaux de donn´ees, r´eels et simul´es. Dans le tableau
1 on montre les r´esultats sur deux exemples, les poissons d’Amiard (matrice 23 ×16) et la sociomatrice
de Thomas (matrice 24 ×24), pour 3, 4 et 5 classes. Ce tableau contient aussi les esultats obtenus avec
d’autres m´ethodes que nous proposons (en utilisant le recuit simul´e [5] et un algorithme g´en´etique [7]),
ainsi qu’avec la m´ethode des nu´ees (recherche d’une partition en 3,4 et 5 classes, selon le cas, qui sont
repr´esent´ees par leur centre de gravit´e, on faisant une initialisation al´eatoire des noyaux) et la classification
hi´erarchique suivant le crit`ere de Ward (coupure de l’arbre hi´erarchique au niveau o`u on trouve 3, 4 ou
5 classes, selon le cas).
Poissons d’Amiard Sociomatrice de Thomas
# classes RS RT AG MND CAH RS RT AG MND CAH
3 classes 32213 32213 32213 32213 33149 271.83 271.83 272.98 271.83 279.33
4 classes 18281 18281 22456 28058 19589 235.03 235.03 250.76 241.00 239.37
5 classes 14497 14497 20474 14497 14497 202.58 202.35 223.78 202.23 204.67
Tableau 1: esultats de Wpour le recuit simul´e (RS), la recherche tabou (RT), l’algorithme en´etique
(AG), la m´ethode des nu´ees dynamiques (MND) et la classification hi´erarchique selon Ward (CAH)
On peut voir que les r´esultats sont les emes pour le recuit simul´e et pour la recherche tabou, et que
ceux–ci sont sup´erieurs `a ceux de l’algorithme g´en´etique. Cependant, sur le tableau des Iris de Fisher [4],
on obtient des r´esultats sup´erieures pour le recuit simul´e par rapport `a la recherche tabou.
3 Conclusion
Ce travail montre l’utilisation de la technique d’optimisation combinatoire appel´ee recherche tabou, dans
un probl`eme de classification automatique. Les r´esultats obtenus sont assez bons et semblent montrer
l’habilit´e de la m´ethode propos´ee pour ´echapper des optima locaux. L’algorithme ´etudi´e ´elimine les cycles
et peut accepter de mouvements qui font augmenter l’inertie intra-classes, afin d’acc´eder `a des r´egions
diff´erentes pour ´eviter l’attraction des “vall´ees profondes”.
R´ef´erences
[1] De los Cobos, S. (1994) La T´ecnica de la usqueda Tab´u y sus Aplicaciones. Tesis Doctoral, Univer-
sidad Nacional Aut´onoma de M´exico.
[2] Diday, E.; Lemaire, J.; Pouget, J.; Testu, F. (1982) El´ements d’Analyse de Donn´ees. Dunod, Paris.
[3] Glover, F.; Taillard, E. (1993) “Tabu search: an introduction”, Annals of Operations Research,
41(1-4): 1–28.
[4] Piza, E.; Trejos, J.; Murillo, A. (1994–1996) Clasificaci´on Autom´atica: Particiones Utilizando Algo-
ritmos Gen´eticos y de Sobrecalentamiento Simulado. Informes de Investigaci´on PI-114-94-228, Uni-
versidad de Costa Rica, San Pedro.
[5] Piza, E.; Trejos, J. (1996) “Partitionnement par recuit simul´e”, communication propos´ee aux IV
Journ´ees de la Soci´et´e Francophone de Classification, Vannes.
[6] R´egnier, S. (1965) “Sur quelques aspects math´ematiques des probl`emes de la classification automa-
tique”, I.C.C. Bull.,4: 175–191.
[7] Trejos, J. (1996) “Un algorithme g´en´etique de partitionnement”, communication propos´ee aux IV
Journ´ees de la Soci´et´e Francophone de Classification, Vannes.
1 / 5 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !