Techniques de Classification : K-Moyenne, DBSCAN

Techniques de
Classification
Classification
Lotfi Ben Romdhane, Ph.D.
DSI / ESST / US/
Tn
DSI / ESST / US/
Tn
Sommaire
• Introduction
Classification hiérarchique
2
Classification hiérarchique
Méthodes de partitionnement
▫ K-Moyenne
▫ FCM
Classification par densité
Classification par densité
▫ DBSCAN
• Discussion
Introduction (1)
clustering
, classification,
3
clustering
, classification,
classement, ...
Un ensemble de méthodes permettant de créer
des groupes à partir d’un ensemble de données
tels que:
les données qui appartiennent au même groupe
sont
similaires
sont
similaires
les données appartenant à des groupes différents
sont dissimilaires
Introduction (2)
Plusieurs applications en
pratique
4
pratique
Les données de puces ADN
les gènes qui sont similaires
admettent dans l’organisme
des fonctions identiques
Compression des données
Les données qui se trouvent
dans un groupe sont
dans un groupe sont
similaires et peuvent être
remplacée par une seule
valeur
Introduction (3)
Segmentation des Images:
diviser une image en un ensemble
5
diviser une image en un ensemble
de régions homogènes
Compression des images pour la
transmission: représenter
chaque région par un seul point
(pixel)
Reconnaissance des formes:
appariement d’une forme (par
exemple le visage d’une
exemple le visage d’une
personne) avec les régions de
l’image (ensembles des visages
dans l’image)
Introduction (4)
Hiérarchiques Bottom-Up
6
Méthodes de
classification
Top-Down
Partitionnement K-Means
FCM
Basées sur la
densité DBSCAN
Formulation du problème (1)
On considère
D = {X
1
, X
2
, …,
X
n
}
un ensemble
7
On considère
D = {X
1
, X
2
, …,
X
n
}
un ensemble
de n points (données)
Xi= {xi,1, xi,2, …, xi,l}une donnée vecteur de
dimension l, c'est-à-dire possédant l attributs
participant à sa définition
Soit dist une mesure de distance
Formulation du problème (2)
La classification consiste à trouver un ensemble
8
La classification consiste à trouver un ensemble
de groupes {C1,C2, …, Cc}; dits aussi clusters;
tel que la distance entre des données du même
groupe est plus petite que la distance entre deux
données appartenant à deux groupes différents
(
)
(
)
D
x
x
x
x
x
dist
x
x
dist
<
/
,
,
;
,
,
(
)
(
)
{ }
mkmji
kjikiji
CxCxx
D
x
x
x
x
x
dist
x
x
dist
<
,
/
,
,
;
,
,
Formulation du problème (3)
Une distance défini sur un ensemble E est une
application :
d
:
E
×
E
→ℜ
+
possédant les
9
application :
d
:
E
×
E
→ℜ
+
possédant les
propriétés suivantes
Symétrie
Séparabilité
),(),(;, xydyxdEyx
=
y
x
y
x
d
E
y
x
=
=
0
)
,
(
;
,
Séparabilité
Inégalité triangulaire
y
x
y
x
d
E
y
x
=
=
0
)
,
(
;
,
),(),(),(;,, zydyxdzxdEzyx
+
Formulation du problème (4)
Distance Euclidienne
10
Distance de Manhattan
( )
=
=
l
kkjkiji
xxXXdist
1
2
,,
),(
=
=
l
kkjkiji
xxXXdist
1,,
),(
Formulation du problème (5)
Distance Edit
11
Distance Edit
nombre d’opérations élémentaires (insertions,
suppression, …) pour changer un objet (chaîne de
caractères, graphe) vers un autre
Distance de Jaccard (pour les ensembles)
BA
BABA
BAdist
=
2
),(
12
Classification
hiérarchique
Notions de base (1)
La classification hiérarchique permet de
produire une
hiérarchie de groupes
13
0.2
produire une
hiérarchie de groupes
chaque niveau de la hiérarchie représente un
partitionnement différent
peut-être modélisé à l’aide d’un arbre hiérarchique
appelé dendrogramme
6
5
1 3 2 5 4 6
0
0.05
0.1
0.15
1
2
3
4
5
6
1
2
3 4
Notions de base (2)
La coupure du dendrogramme à un niveau
14
La coupure du dendrogramme à un niveau
particulier génère un partitionnement différent
0.1
0.15
0.2
1 3 2 5 4 6
0
0.05
Partitionnement = { {x1, x3} ; {x2, x5} ; {x4} ; {x6} }
Notions de base (3)
Le dendrogramme peut
-
être généré selon deux
15
Le dendrogramme peut
-
être généré selon deux
approches différentes
approche ascendante (bottom-up)
dite aussi agglomérative
partir d’un partitionnement dans lequel chaque
donnée forme un groupe à part
à chaque étape (niveau du dendrogramme),
à chaque étape (niveau du dendrogramme),
fusionner les deux groupes les plus proches
s’arrêter lorsqu’on obtient un seul groupe
Notions de base (4)
approche descendante (top
-
down)
16
approche descendante (top
-
down)
dite aussi divisive
partir avec un seul groupe contenant toutes les
données
à chaque étape, diviser le groupe
le plus mauvais
à chaque étape, diviser le groupe
le plus mauvais
s’arrêter lorsqu’on obtient chaque donnée est dans
un groupe à part
Distance (1)
Une question qui se pose :
comment mesurer la
17
Une question qui se pose :
comment mesurer la
distance entre les groupes ?
single-linkage : MIN
dist(g1,g2) = points
les plus proches
Distance (2)
complete-linkage : MAX
18
dist(g1,g2) = points
les plus éloignés
Distance (3)
average-linkage : MOYENNE
19
dist(g1,g2) =
moyenne des
distances
Distance (4)
centroid-linkage : centre des classes
20
définir le centroide de chaque groupe (moyenne des
données qu’elle contient)
prendre la distance entre les centroides
1 / 17 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!