Techniques de Classification : K-Moyenne, DBSCAN

Téléchargement

Techniques de

Classification

Lotfi Ben Romdhane, Ph.D.

DSI / ESST / US/

Sommaire

• Introduction

•

Classification hiérarchique

•

Classification hiérarchique

• Méthodes de partitionnement

▫ K-Moyenne

▫ FCM

•

Classification par densité

•

Classification par densité

▫ DBSCAN

• Discussion

Introduction (1)

•

Plusieurs noms:

clustering

, classification,

•

Plusieurs noms:

clustering

, classification,

classement, ...

• Un ensemble de méthodes permettant de créer

des groupes à partir d’un ensemble de données

tels que:

▫ les données qui appartiennent au même groupe

sont

similaires

sont

similaires

▫ les données appartenant à des groupes différents

sont dissimilaires

Introduction (2)

• Plusieurs applications en

pratique

•Les données de puces ADN

▫ les gènes qui sont similaires

admettent dans l’organisme

des fonctions identiques

•Compression des données

▫ Les données qui se trouvent

dans un groupe sont

similaires et peuvent être

remplacée par une seule

valeur

Introduction (3)

•Segmentation des Images:

diviser une image en un ensemble

de régions homogènes

▫Compression des images pour la

transmission: représenter

chaque région par un seul point

(pixel)

▫Reconnaissance des formes:

appariement d’une forme (par

exemple le visage d’une

personne) avec les régions de

l’image (ensembles des visages

dans l’image)

Introduction (4)

Hiérarchiques Bottom-Up

Méthodes de

classification

Top-Down

Partitionnement K-Means

FCM

Basées sur la

densité DBSCAN

Formulation du problème (1)

•

On considère

D = {X

, X

, …,

}

un ensemble

•

On considère

D = {X

, X

, …,

}

un ensemble

de n points (données)

•Xi= {xi,1, xi,2, …, xi,l}une donnée vecteur de

dimension l, c'est-à-dire possédant l attributs

participant à sa définition

• Soit dist une mesure de distance

Formulation du problème (2)

•

La classification consiste à trouver un ensemble

•

La classification consiste à trouver un ensemble

de groupes {C1,C2, …, Cc}; dits aussi clusters;

tel que la distance entre des données du même

groupe est plus petite que la distance entre deux

données appartenant à deux groupes différents

(

)

(

)

dist

∈

∀

;

(

)

(

)

{ }

mkmji

kjikiji

CxCxx

dist

∉∧∈

∈

∀

;

Formulation du problème (3)

• Une distance défini sur un ensemble E est une

application :

→ℜ

possédant les

application :

→ℜ

possédant les

propriétés suivantes

▫Symétrie

▫

Séparabilité

),(),(;, xydyxdEyx

∈

∀

⇔

∈

∀

)

(

;

▫

Séparabilité

▫Inégalité triangulaire

⇔

∈

∀

)

(

;

),(),(),(;,, zydyxdzxdEzyx

≤

∈

∀

Formulation du problème (4)

•Distance Euclidienne

•Distance de Manhattan

( )

∑

−=

kkjkiji

xxXXdist

),(

∑

−=

kkjkiji

xxXXdist

1,,

),(

Formulation du problème (5)

•

Distance Edit

•

Distance Edit

▫nombre d’opérations élémentaires (insertions,

suppression, …) pour changer un objet (chaîne de

caractères, graphe) vers un autre

•Distance de Jaccard (pour les ensembles)

BABA

BAdist ∪∩−∪

),(

Classification

hiérarchique

Notions de base (1)

• La classification hiérarchique permet de

produire une

hiérarchie de groupes

0.2

produire une

hiérarchie de groupes

▫ chaque niveau de la hiérarchie représente un

partitionnement différent

▫ peut-être modélisé à l’aide d’un arbre hiérarchique

appelé dendrogramme

1 3 2 5 4 6

0.05

0.1

0.15

3 4

Notions de base (2)

•

La coupure du dendrogramme à un niveau

•

La coupure du dendrogramme à un niveau

particulier génère un partitionnement différent

0.1

0.15

0.2

1 3 2 5 4 6

0.05

Partitionnement = { {x1, x3} ; {x2, x5} ; {x4} ; {x6} }

Notions de base (3)

•

Le dendrogramme peut

être généré selon deux

•

Le dendrogramme peut

être généré selon deux

approches différentes

•approche ascendante (bottom-up)

▫ dite aussi agglomérative

▫ partir d’un partitionnement dans lequel chaque

donnée forme un groupe à part

▫

à chaque étape (niveau du dendrogramme),

▫

à chaque étape (niveau du dendrogramme),

fusionner les deux groupes les plus proches

▫ s’arrêter lorsqu’on obtient un seul groupe

Notions de base (4)

•

approche descendante (top

down)

•

approche descendante (top

down)

▫ dite aussi divisive

▫ partir avec un seul groupe contenant toutes les

données

▫

à chaque étape, diviser le groupe

le plus mauvais

▫

à chaque étape, diviser le groupe

le plus mauvais

▫ s’arrêter lorsqu’on obtient chaque donnée est dans

un groupe à part

Distance (1)

•

Une question qui se pose :

comment mesurer la

•

Une question qui se pose :

comment mesurer la

distance entre les groupes ?

▫single-linkage : MIN

dist(g1,g2) = points

les plus proches

Distance (2)

▫complete-linkage : MAX

dist(g1,g2) = points

les plus éloignés

Distance (3)

▫average-linkage : MOYENNE

dist(g1,g2) =

moyenne des

distances

Distance (4)

▫centroid-linkage : centre des classes

définir le centroide de chaque groupe (moyenne des

données qu’elle contient)

prendre la distance entre les centroides

1 / 17 100%

Documents connexes

Examen de Datamining

Examen Master 2

algorithme algorithme -bases -une

TD d`Algorithmique 5 Plus court chemin dans un graphe: Algorithme

orienté. (NB : l`algorithme est identique pour les graphes orientés

L`algorithme suivant est décrit en langage pseudo

Faire tourner l`algorithme de gauche « à la main » pour A = 15

2de - algo - aide algobox

Grille d'évaluation orale ISN - Compétences et capacités

Exercice d'algorithme : Boucle "tant que"

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Techniques de Classification : K-Moyenne, DBSCAN

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Techniques de Classification : K-Moyenne, DBSCAN

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib