Apprentissage non supervisé K-means Clustering CONTENU Voici les points qu’on va couvrir dans ce cours 1. 2. 3. Notions préliminaires. Méthode K-means. Exercice d’application. Objectif Après ce cours, vous devriez avoir assimilé 01 Qu’est ce que K-means ? 02 Cas d’utilisation K-means. 03 Algorithme K-means Forces et faiblesses. Notions préliminaires 01 l’apprentissage non supervisé En apprentissage non-supervisé, les réponses que l’on cherche à prédire ne sont pas disponibles dans les jeux de données. Ici, l’algorithme utilise un jeu de données non étiquetées. On demande alors à la machine de créer ses propres réponses. Elle propose ainsi des réponses à partir d’analyses et de groupement de données. Clustering Le clustering est une discipline particulière du Machine Learning ayant pour objectif de séparer vos données en groupes homogènes ayant des caractéristiques communes. L’algorithme des K-moyennes (K-means) est un algorithme non supervisé très connu en matière de Clustering non hiérarchique. K-means Étant donnés des points et un entier k, l’algorithme vise à diviser les points en k groupes, appelés clusters, homogènes et compacts. Regardons l’exemple ci-dessous : Notion de Distance (Similarité) Dans l’algorithme des k-means on utilise généralement la distance euclidienne, soient p = (p1,….,pn) et q = (q1,….,qn) Centroïds Alias centre du cluster. Vous choisissez au hasard des points du data-set (désignés comme centroïds) et vous attribuez des points aux clusters en fonction de la distance euclidienne de chaque point à partir des centroïds sélectionnés. Méthode K-means 02 Algorithme K-means Choix du nombre de clusters –K Choisir un nombre de cluster K n’est pas forcément intuitif Un nombre grand peut conduire à un partitionnement trop fragmenté des données Un nombre de clusters trop petit, conduira à avoir, potentiellement, des clusters trop généralistes La méthode la plus usuelle pour choisir le nombre de clusters est de lancer K-Means avec différentes valeurs de K et de calculer la variance des différents clusters. Généralement, en mettant dans un graphique les différents nombres de clusters en fonction de la variance, on retrouve un graphique similaire à celui-ci : Cas d’utilisation K-means La segmentation de la clientèle en fonction d’un certain critère (démographique, habitude d’achat etc….) Clustering de documents (regroupement de documents en fonction de leurs contenus. Pensez à comment Google Actu regroupe des documents par thématiques.) Demandez vous comment Amazon fait pour recommander les bons produits, ou encore YouTube qui vous propose des vidéos en relation avec vos attentes, ou encore Netflix qui vous propose de bons films. C’est grâce au Clustering. Critique Facile à comprendre et à mettre en œuvre. Il est applicable aux données de grande taille et de tous types. Le nombre de clusters K doit être prédéfinit. Le choix initial des centroïdes conditionne le résultat final. Le regroupement final obtenu dépend de la mesure utilisée pour calculer la distance entre les objets et les centroïdes des clusters. Exemple d’application 03 Soit le tableau suivant : Application de l’algorithme K-means avec : Critère d’arrêt : 2 itérations maximum Mesure de distance euclidienne µ1 = D3 | µ2 = D7 K=2 Itération 1: Itération 2: Mise à jour des centrïdes: Nouvelle classification: Merci pour votre attention