Telechargé par Mira Allali

1MSIR ALLALI MIRA RDFRN Kmeans

publicité
Apprentissage
non supervisé
K-means Clustering
CONTENU
Voici les points qu’on va couvrir dans ce cours
1.
2.
3.
Notions préliminaires.
Méthode K-means.
Exercice d’application.
Objectif
Après ce cours, vous devriez avoir assimilé
01
Qu’est ce que
K-means ?
02
Cas d’utilisation
K-means.
03
Algorithme K-means
Forces et faiblesses.
Notions préliminaires
01
l’apprentissage non supervisé
En apprentissage non-supervisé, les réponses que l’on
cherche à prédire ne sont pas disponibles dans les jeux
de données. Ici, l’algorithme utilise un jeu de données non
étiquetées. On demande alors à la machine de créer ses
propres réponses. Elle propose ainsi des réponses à partir
d’analyses et de groupement de données.
Clustering
Le clustering est une discipline particulière du Machine
Learning ayant pour objectif de séparer vos données en
groupes homogènes ayant des caractéristiques communes.
L’algorithme des K-moyennes (K-means) est un
algorithme non supervisé très connu en matière de
Clustering non hiérarchique.
K-means
Étant donnés des points et un entier k, l’algorithme vise à
diviser les points en k groupes, appelés clusters, homogènes
et compacts. Regardons l’exemple ci-dessous :
Notion de Distance (Similarité)
Dans l’algorithme des k-means on utilise généralement
la distance euclidienne,
soient p = (p1,….,pn) et q = (q1,….,qn)
Centroïds
Alias centre du cluster.
Vous choisissez au hasard des points du data-set
(désignés comme centroïds) et vous attribuez des points
aux clusters en fonction de la distance euclidienne de
chaque point à partir des centroïds sélectionnés.
Méthode K-means
02
Algorithme K-means
Choix du nombre de clusters –K
Choisir un nombre de cluster K n’est pas forcément intuitif
Un nombre grand peut conduire à un partitionnement
trop fragmenté des données
Un nombre de clusters trop petit, conduira à avoir,
potentiellement, des clusters trop généralistes
La méthode la plus usuelle pour choisir le nombre de clusters est de
lancer K-Means avec différentes valeurs de K et de calculer la variance
des différents clusters.
Généralement, en mettant dans un graphique les différents nombres de
clusters en fonction de la variance, on retrouve un graphique similaire à
celui-ci :
Cas d’utilisation K-means
La segmentation de la clientèle en fonction d’un certain critère
(démographique, habitude d’achat etc….)
Clustering de documents (regroupement de documents en fonction de
leurs contenus. Pensez à comment Google Actu regroupe des
documents par thématiques.)
Demandez vous comment Amazon fait pour recommander les bons
produits, ou encore YouTube qui vous propose des vidéos en relation
avec vos attentes, ou encore Netflix qui vous propose de bons films.
C’est grâce au Clustering.
Critique
Facile à comprendre et à mettre en œuvre.
Il est applicable aux données de grande taille et de tous types.
Le nombre de clusters K doit être prédéfinit.
Le choix initial des centroïdes conditionne le résultat final.
Le regroupement final obtenu dépend de la mesure utilisée pour
calculer la distance entre les objets et les centroïdes des clusters.
Exemple d’application
03
Soit le tableau suivant :
Application de l’algorithme K-means avec :
Critère d’arrêt : 2 itérations maximum
Mesure de distance euclidienne
µ1 = D3 | µ2 = D7
K=2
Itération 1:
Itération 2:
Mise à jour des centrïdes:
Nouvelle classification:
Merci pour votre attention
Téléchargement