Apprentissage non supervisé - moodle@insa

publicité
Apprentissage non supervisé
Hélène Milhem
Institut de Mathématiques de Toulouse, INSA Toulouse, France
IUP SID, 2011-2012
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
1 / 25
Introduction
Répartir les données en plusieurs classes
I
I
I
sur la seule base des échantillons d’apprentissage.
Pas de cible !
Recherche de structures naturelles dans les données.
Optimiser un critère visant à regrouper les individus dans des
classes,
I
I
chacune le plus homogène possible,
et, entre elles, les plus distinctes.
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
2 / 25
Introduction
Différentes méthodes :
1
Classification hiérarchique.
F
F
F
2
Regrouper itérativement les individus, en commençant par le bas (les
2 plus proches) et en construisant un dendogramme.
Il faut calculer à chaque étape, la distance entre un individu et un
groupe et celle entre 2 groupes.
Nombre de classes déterminer a posteriori.
Classification par réallocation dynamique : k -moyennes.
F
F
F
F
F
Nombre de classes k fixé a priori.
Initialisation de k centres de classes par tirages aléatoires.
Affectation des individus à la classe dont le centre est le plus proche.
Calcul du barycentre des classes qui deviennent les nouveaux
centres.
Itération du processus.
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
3 / 25
Mesures d’éloignement
Indice de ressemblance ou similarité
Notons Ω = {1, · · · , n} l’ensemble des individus.
Similarité = mesure de proximité définie de Ω × Ω dans R+ ,
vérifiant :
I
I
I
s(i, j) = s(j, i) ∀(i, j) ∈ Ω × Ω : symétrie,
s(i, i) = S > 0, ∀i ∈ Ω : ressemblance d’un individu à lui-même,
s(i, j) ≤ S, ∀(i, j) ∈ Ω × Ω : la ressemblance est majorée par S.
Indice de ressemblance normé s∗ est défini à partir de s par
s∗ (i, j) =
1
s(i, j), ∀(i, j) ∈ Ω × Ω.
S
s∗ est une application de Ω × Ω dans [0; 1].
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
4 / 25
Mesures d’éloignement
Indice de dissemblance ou dissimilarité
Une dissimilarité est une application d de Ω × Ω dans R+
vérifiant :
I
I
d(i, j) = d(j, i), ∀(i, j) ∈ Ω × Ω : symétrie,
d 0 i, i) = 0, ∀i ∈ Ω : nullité de la dissemblance d’un individu avec
lui-même.
Si s est un indice de similarité alors
d(i, j) = S − s(i, j), ∀(i, j) ∈ Ω × Ω
est un indice de dissemblance.
Si d est un indice de dissemblance avec D =
sup
d(i, j), alors
(i,j)∈ω×Ω
s(i, j) = D − d(i, j) est un indice de ressemblance.
Un indice de dissemblance normé est défini par :
d ∗ (i, j) =
1
d(i, j) ∀(i, j) ∈ Ω × Ω,
D
avec d ∗ = 1 − s∗ .
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
5 / 25
Mesures d’éloignement
Indice de distance
Un indice de distance est un indice de dissemblance qui vérifie la
propriété suivante :
d(i, j) = 0 ⇒ i = j.
Cette propriété évite les indohérences suivantes
∃k ∈ Ω, d(i, k ) 6= d(j, k ), avec pourtant i 6= j et d(i, j) = 0.
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
6 / 25
Mesures d’éloignement
Distance
Une distance est un indice de distance vérfiant de plus l’inégalité
triangulaire :
I
I
I
d(i, j) = d(j, i), ∀(i, j) ∈ Ω × Ω,
d(i, j) = 0 ⇐⇒ i = j,
d(i, j) ≤ d(i, k ) + d(k , j), ∀(i, j, k ) ∈ Ω3 .
Si Ω est fini, alors la distance peut être normée.
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
7 / 25
Similarité ou distance entre 2 individus
p variables quantitatives observées sur n individus
Distance euclidienne
v
u p
uX
d(x, y) = t (xi − yi )2 .
i=1
Distance de Malahanobis
M = diag(
1
1
,··· , )
σ1
σp
et
d(x, y) = (x − y)T M(x − y).
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
8 / 25
Similarité ou distance entre 2 individus
p variables quantitatives observées sur n individus
Soient i et j deux individux distincts.
aij le nombre de caractères communs à i et j sur les p considérés,
bij le nombre de caractères possédés par i mais pas par j,
cij le nombre de caractères possédés par j mais pas par i,
dij le nombre de caractères possédés ni par i, ni par j.
L’indice de ressemblance les plus courants sont :de concordance est
défini par
aij + dij
s(i, j) =
, concordance,
aij + bij + cij + dij
s(i, j) =
aij
, Jacquard,
aij + bij + cij
s(i, j) =
2aij
, Dice.
2aij + bij + cij
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
9 / 25
Similarité ou distance entre 2 individus
p variables quantitatives observées sur n individus
La distance la plus utilisée est la distance du χ2 entre
profils-lignes du tableau disjonctif complet
dχ22 (i, j)
p mj
n X X kl 1
δij k ,
=
p
nl
k =1 l=1
avec
I
I
mj est le nombre de modalités de la variable qualitative Y k ,
nlk est l’effectif de la l-ième modalité de Y k ,
I
δijkl =
1 si i et j en une discordance pour l-ième modalité de Y k ,
0 sinon.
L’importance donnée à une discordance est d’autant plus forte
que les modalités sont rares.
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
10 / 25
Similarité ou distance entre 2 individus
p variables quantitatives observées sur n individus
Rendre tout qualitatif.
I
I
I
Les variables quantitatives sont rendues qualitatives par
découpage en classes.
Les classes d’une même variable sont généralement d’effectifs
sensiblement égaux : bornes des classes égales à des quantiles.
La métrique est alors celle du χ2 .
Rendre tout qualitatif à l’aide d’une AFCM.
I
I
I
Une AFCM est calculée sur les seules variables qualitatives.
L’AFCM produit des scores qui sont les composantes principales de
l’ACP des profils-lignes.
Ces scores sont ensuites utilisés comme coordonnées
quantitatives des individus en vue d’une classification.
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
11 / 25
Similarité ou distance entre 2 individus
p variables quantitatives observées sur n individus
Une fois ces préliminaires accomplis, nous nous retrouvons donc avec
soit un tableau de mesures quantitatives n × p, associé à une
matrice de produit scalaire p × p définissant une métrique
euclidienne,
soit directement un tableau n × n de dissemblance ou de distance
entre individus.
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
12 / 25
Classification hiérarchique ascendante
Principe
A partir de la partition triviale des n individus en n singletons,
nous cherchons, à ch aque étape, à constituer des classes par
agrégation des 2 éléments les plus proches de la partition de
l’étape précédente.
L’algorithme s’arrête avec l’obtention d’une seule classe.
Les regroupements successifs sont représentés sous la forme
d’un arbre binaire ou dendogramme.
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
13 / 25
Classification hiérarchique ascendante
Distance ou dissemblance entre 2 classes
Soient A et B deux classes d’une partition donnée, wA et wB leurs
pondérations. Soit dij la distance entre deux individus i et j.
Cas d’une dissemblance :
Saut minimum ou single linkage
d(A, B) = mini∈A,j∈B dij .
Saut maximum ou complete linkage
d(A, B) = supi∈A,j∈B dij .
Saut moyen ou group average linkage
d(A, B) =
X
1
dij .
card(A)card(B)
i∈A,j∈B
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
14 / 25
Classification hiérarchique ascendante
Distance ou dissemblance entre 2 classes
Cas d’une distance euclidienne :
Distance des barycentres ou centroïd
d(A, B) = d(gA , gB ).
Saut de Ward
d(A, B) =
H. Milhem (IMT, INSA Toulouse)
wA wB
d(gA , gB ).
wA + wB
Apprentissage non supervisé
IUP SID 2011-2012
15 / 25
Classification hiérarchique ascendante
Algorithme
Initialisation : Les classes initiales sont les singletons. Calculer la
matrice de leurs distances 2 à 2.
Itérer les 2 tapes suivantes jusqu’à l’agrégation en une seule
classe.
1
Regrouper les 2 classes les plus proches au sens de la "distance"
entre 2 classes choisies.
2
Mettre à jour le tableau des distances en remplaçant les 2 classes
regroupées par la nouvelle et en calculant sa "distance" avec
chacune des autes classes.
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
16 / 25
Classification hiérarchique ascendante
Propriétés
Complexité : tous les algorithmes sont au moins en O(n2 ) avec n
le nombre de données.
Le résultat de la classification hiérarchique est une arbre de
classes représentant les relations d’inclusion entre clases
Dendogramme.
I
I
La hauteur d’une branche est proportionnelle à l’indice de
dissemblance ou distance entre les 2 objets regroupés.
Dans le cas du saut de Ward, c’est la perte de variance
inter-classes.
Une classification particulière s’obtient en coupant l’arbre des
classes à un niveau donné.
I
Un graphique de la décroissance de la distance inter-classes en
fonction du nombre de classes aide au choix du nombre de
classes. Il faut lire le graphe de droite à gauche et s’arrêter avant le
premier saut jugé significatif.
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
17 / 25
Classification hiérarchique ascendante
Propriétés
Décroissance de la variance interclasses à chaque
regroupement dans le cas du saut de Ward.
5000
●
3000
Hauteur
4000
●
●
1000
2000
●
●
●
●
●
●
●
5
●
●
10
●
●
●
●
●
15
nb de classes
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
18 / 25
Classification hiérarchique ascendante
Propriétés
Height
luxe
metz
nanc
reim
troy
besa
dijo
stra
bale
mulh
mars
nice
cham
gene
gren
lyon
hend
bord
roya
mont
perp
ando
lour
toul
boul
cala
brux
lill
caen
cher
leha
roue
amie
pari
bres
renn
stma
laba
nant
clem
limo
poit
ange
lema
tour
bour
orle
0
1000
2000
3000
4000
5000
Exemple d’un dendogramme issu de la classification
des données par CAH et saut de Ward.
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
19 / 25
Agrégation autour de centres mobiles
Algorithme
Choisir le nombre de classes à créer k .
Initialisation : Choisir k centres initiaux.
Itére les 2 étapes suivantes, jusqu’à ce que le critère de variance
interclasses ne croisse plus de manière signiicative, c’est-à-dire
jusqu’à la stabilisation des classes
I
I
Allouer chaque individu au centre (c’est-à-dire à la classe) le plus
proche au sens de la métrique choisie. On obtient ainsi, à chque
étape, une classification en k classes, ou moins si une des classes
est vide.
Calculer le centre de gravité de chaque classe : il devient le
nouveau centre.
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
20 / 25
Agrégation autour de centres mobiles
Propriétés
Convergence :
I
Le critère (la variance interclasses) est majoré par la variance
totale. Il est simple de montrer qu’il peut croître à chaque étape de
l’algorithme, ce qui en assure la convergence.
I
Il est équivalent de maximiser la variance intraclasses ou de
minimiser la variance interclasses. Cette dernière est alors
décroissante et minorée par 0.
I
Concrètement, une dizaine d’itérations suffit généralement pour
atteindre la convergence.
Optimum local :
I
La solution obtenue est un optimum local, c-à-d que la répartition
en classes dépend du choix initial des noyaux.
I
Plusieurs exécutions de l’algorithme permettent de s’assurer de la
présence de formes fortes, c-à-d de classes présentes de manière
stable dans la majorité des partitions obtenues.
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
21 / 25
Agrégation autour de centres mobiles
Variantes
Nuées dynamiques :
I
Chaque centre de classe est remplacé par un noyau constitué
d’éléments de présentatifs de cette classe.
I
Cela permet de corriger l’influence d’éventuelles valeurs extrêmes
sur le calcul du barycentre.
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
22 / 25
Agrégation autour de centres mobiles
Variantes
Partioning Around Medoïds (PAM) :
I
L’algorithme PAM permet de classifier des données de façon plus
robuste, moins sensible aux valeurs atypiques.
I
Le noyau d’une classe est alors un medoïd, l’observation d’une
classe qui minimise la moyenne des distances ou dissimilarités aux
autres observations de la classe.
I
Une différence majeure avec k -means est qu’un medoïd fait partie
des données et permet de partitionner les matrices de
dissimilarités.
I
Par contre PAM est limité par le nombre de données et le temps de
calcul.
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
23 / 25
Agrégation autour de centres mobiles
Variantes
Représentation des classes obtenues par PAM
hend
bres
400
lour
roya
bord
ando
laba
stma
renn
nant
toul
200
poit
ange
cher
lema
limo
tour
clem
0
cp2
perp
bour
pari
−200
troy
lyon
mars
−400
gene
cham
brux
besa
nanc
metz
luxe
mulh
bale
−800
−600
−400
−200
boul
amiecala
lill
reim
dijo
gren
nice
leha
roue
orle
mont
caen
stra
0
200
400
cp1
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
24 / 25
Agrégation autour de centres mobiles
Combinaison
La CAH qui construit la matrice des distance n’accepte qu’un
nombre limité d’individus.
La réallocation dynamique nécessite de fixer a priori le nombre de
classe.
Stratégie adaptée aux grands ensembles de données permettant
de contourner ces difficultés :
I
I
I
Exécuter une méthode de réallocation dynamique en demandant
un grand nombre de classes, de l’ordre de 10% de n.
Sur les barycentres des classes précédentes, exécuter une CAH
puis déterminer un nombre "optimal" k de classes.
Exécuter une méthode de réallocation dynamique sur l’ensemble
en fixant à k le nombre de classes avec initialisation des noyaux
par les barycentres des classes de l’étape précédente.
H. Milhem (IMT, INSA Toulouse)
Apprentissage non supervisé
IUP SID 2011-2012
25 / 25
Téléchargement