Méthodes en classification automatique
Méthodes en classification
automatique
Yves Lechevallier
INRIA-Rocquencourt
78153 Le Chesnay Cedex
E_mail : Yves.Lecheva[email protected]
Méthodes de partitionnement
Méthodes en classification automatique
Méthodes de partitionnement
La structure classificatoire recherchée est la partition. En
définissant une fonction d’homogénéité ou un critère de
qualité sur une partition le problème de classification devient
un problème parfaitement défini en optimisation discrète.
Trouver, parmi l’ensemble de toutes les partitions possibles,
une partition qui optimise un critère défini a priori.
Eest fini donc il y a un ensemble fini de partitions possibles
alors le problème est toujours soluble par l’énumération
complète. Cependant, en pratique, cette approche est
irréalisable car nous avons approximativement avec un
ensemble de N objets en K classes solutions possibles.
K K
N
!
Méthodes en classification automatique
Problème d’optimisation
Soit un critère U, défini de , où est
l’ensemble de toutes les partitions en K classes
non vides de alors le problème d’optimisation se pose
sous la forme:
+
)(E
K
K
E
(
)
=
==
K
k
k
EQ
QwQUMinPU
K
1
)(
)()()(
w(Qk) mesure l’homogénéité de la classe Qk.
Méthodes en classification automatique
Classe « homogène »
Approche géométrique
∈ ∈
=
ki k
Pe Pe
k
dPw
),()(
2
zz
i
Classe PkCritère
Modèle probabiliste
Prototype
=
ki
Pe
kkk
LDLPw ),(),(
i
z
jj
K
j
pp πθ=θ
=
)./()/(
1
zz
θ=θ
ki
Pe
kikk pPL )/()/( z
ddistance
L
k
prototype
Méthodes en classification automatique
Optimisation itérative
On part d’une solution réalisable
)(
)0(
EQ
K
A l’étape t+1, on a une solution réalisable
on cherche une solution réalisable
vérifiant
L’algorithme s’arrête dès que
)(t
Q
)(
)()1( tt
QgQ =
+
)()(
)()1( tt
QUQU
+
{
}
)()0()1(
,,
tt
QQQ
+
Choix
Choix
Méthodes en classification automatique
Algorithme de voisinage
Une des stratégies la plus utilisée pour construire la fonction gest :
•d’associer à toute solution réalisable Qun ensemble fini de
solutions réalisables V(Q), appelé voisinage de Q,
•puis de sélectionner la solution optimale pour ce critère Udans ce
voisinage, ce qui est couramment appelé solution localement
optimale.
Par exemple on peut prendre comme voisinage de Qtoutes les
partitions obtenues à partir de la partition Qen changeant un
seul individu de classe
Deux exemples les plus connus de ce type d’algorithme sont
l’algorithme de transfert et l’algorithme des k-means
Méthodes en classification automatique
Algorithme de transfert
Le critère Uassocié à la partition Qest la somme des inerties de
chacune des classes c’est-à-dire l’inertie intra-classes:
 
= = ∈=
===
K
j
K
j Qe
jj
K
j Qe Qe
j
jji j
dQId
n
QU
1 1
2
1
2
),(2)(2),(
1
)( wzzz
i
dest la distance euclidienne, njreprésente le nombre d'éléments
et wjest le centre de gravité de la classe Qj.
{ }
),(
1
)()( 2
wzii d
n
n
QIeQI +
+=
Si l’individu eiest affecté dans une classe Ql, différente de
sa classe d’affectation actuelle on a:
Méthodes en classification automatique
Algorithme
(a) Initialisation
On se donne au départ une partition Q. Le nombre d'éléments njet
les centre de gravité wjsont calculées pour chacune de ses classes .
(b) Etape itérative test
←0
Pour tout i de 1à N faire
la classe de i est notée s
déterminer l tel que
+
=
=
),(
1
,),(
1
minminarg
22
,,1 si
s
s
ji
j
j
sj Kj
d
n
n
d
n
n
lwzwz
faire alors si s
test
←1
1
.
+
+
n
n
il
zw
w
1
.
s
iss
s
n
nzw
w
{
}
{
}
issi eQQeQQ
et
1et 1
+
ss
nnnn
(c) Si test
#
0 alors aller en (b)
Méthodes en classification automatique
Algorithme des k-means
Avec un algorithme de voisinage, il n’est pas nécessaire, pour
obtenir la décroissance du critère, de prendre systématiquement la
meilleure solution, il suffit de trouver dans ce voisinage une
solution meilleure que la solution en cours.
Pour l'algorithme des k-means l’étape (b) devient :
),(minarg que tel determiner
2
,,1 ji
Kj
dwz
=
=
Remarquons qu’il est impossible de démontrer que l'une des
stratégies donne systématiquement une meilleure solution.
La décroissance du critère Ude l’inertie intra-classe est assurée
grâce au théorème de Huygens
Méthodes en classification automatique
Affectation d’un nouvel individu
Une fonction d’affectation φ de Ddans C={1,..,K}définit une
partition de l’espace de représentation avec
{
}
K
FFF ,,
1
=
Φ
{
}
jDFj
=
Φ
=
)(/ zz
{
}
),(),( si )(
,1 k
Kk
j
dMindjD wzwzzz
=
==Φ
A la convergence de ces algorithmes, la fonction φ est
construite de la manière suivante :
Méthodes en classification automatique
Exemple
Trajectoires des 3 centres
d’un nuage de points
bidimensionnel
Les hyperplans séparateurs
entre les classes
Méthodes en classification automatique
Choix d’un critère ou d’un modèle
Classification « naturelle »
Classification avec les centres
mobiles. Cette classification ne
correspond pas à la structure
cachée
Le critère optimisé est la somme des carrés de écarts
entre les valeurs des points et la moyenne de la classe
Méthodes en classification automatique
Algorithmes possédant deux
étapes d’optimisation
•La première étape est l’étape de représentation, elle consiste à
définir un représentant ou prototype pour chacune des classes.
•La seconde étape est l’étape d’affectation, elle va modifier la
classe d’affectation de chacun des individus de .
La mise à jour sera réalisée après la présentation de tous les
individus de E.
L’ordre de présentation des individus n’a plus aucune influence sur
les résultats.
Remarques:
Méthodes en classification automatique
Méthode des Nuées
Dynamiques
L’idée est d’associé à chaque classe un représentant, par
exemple, centre de gravité, une droite, une loi de probabilité .
Dans ce cas le critère Umesure l’adéquation entre les classes et
leurs noyaux ou représentants
A chaque classe de Eon associe un noyau ou représentant
qui est un élément Ld’un ensemble Λ, espace de
représentation des classes de E.
A chaque vecteur zde Dla fonction d’affectation φde Φlui
associe le représentant de sa classe d’affectation.
Soit dune fonction positive qui mesure la proximité d’un
vecteur zau représentant de la classe d’affectation, donnée
par φ, de ce vecteur.
L
φ
( )z
Méthodes en classification automatique
Critère optimisé
Le critère Umesure l’adéquation entre une partition
de Eet un élément de de l’espace des noyaux
),(),(),(),( )(
1
2
1
2
1i
j
LdLdLPDLU N
i
i
K
j Appz
j
K
j
jj z
zz
φ
φ
 
== ∈=
===
{
}
{
}
P e E z j App z App z j
j j
=
=
=
=
/ ( ) / ( )
φ
φ
et
Avec
Faire décroître ce critère pas à pas exprime une meilleure
adéquation entre les classes et les noyaux associés. La
méthode des Nuées Dynamiques réalise cette optimisation
et résout d’une manière locale le problème suivant:
Trouver un couple qui minimise le critère U.
Méthodes en classification automatique
Algorithme des Nuées
dynamique (1)
(a) initialisation
Il existe deux possibilités d’initialisation de l’algorithme.
Soit on se donne au départ une fonction d’affectation φqui
génère une partition Qsur E. Les noyaux Lj,pour chaque classe
j ,sont calculés.
Soit on se donne K noyaux de Λ, espace de représentation des
classes.
Méthodes en classification automatique
Algorithme des Nuées
dynamique (2)
(b) Étape d’affectation
test
←0
Pour tout i de 1 à Nfaire
la classe de zi, est notée s= φ(zi)
déterminer ltel que
l d L
j K i j
=
=
arg min ( , )
, ,1
z
{
}
{
}
Q Q e Q Q e
i s s i 
← ∪ ← − et
faire alors si s
test
←1
Méthodes en classification automatique
Algorithme des Nuées
dynamique (3)
(c) Étape de représentation
Pour tout j de 1 à K faire
calculer le nouveau noyau Ljde la classe Qjen
sélectionnant un noyau de Λqui vérifie.
(d) si test
#
0 aller en (b)
),(min),( LQDLQD
j
L
jj Λ
=
Méthodes en classification automatique
Algorithme des centres mobiles
(a) initialisation
On se donne au départ une partition Qou un sous-ensemble de K
éléments de E.
(b) Étape d’affectation
test
←0
Pour tout i de 1 à N faire
déterminer l tel que l d
j K i j
=
=
arg min ( , )
, ,1
2
z w
faire alors si s
test
←1
{
}
{
}
Q Q e Q Q e
i s s i 
← ∪ ← − et
(c) Étape de représentation
Pour tout j de 1 à K faire
calculer le centre de gravité et l’effectif de la nouvelle classe Qj
(d) si test
#
0 aller en (b)
Méthodes en classification automatique
Algorithme
X2
X1
1 / 13 100%