Fouille des données Méthodes de regroupement (clustering) Maria Malek Filière TSI EISTI Fouille des données – p. 1/1 Applications du Data Mining Domaines supervisés : Fouille des données – p. 2/1 Applications du Data Mining Domaines supervisés : Chaque instance = p variables predictives + 1 variable cible (à prédire) Fouille des données – p. 2/1 Applications du Data Mining Domaines supervisés : Chaque instance = p variables predictives + 1 variable cible (à prédire) Classification : variable une maladie, etc. cible discrète Exemple : diagnostiquer Fouille des données – p. 2/1 Applications du Data Mining Domaines supervisés : Chaque instance = p variables predictives + 1 variable cible (à prédire) Classification : variable une maladie, etc. Régression : variable valeur d’un bien, etc. cible discrète Exemple : diagnostiquer cible continue Exemple : estimer la Fouille des données – p. 2/1 Applications du Data Mining Domaines supervisés : Chaque instance = p variables predictives + 1 variable cible (à prédire) Classification : variable une maladie, etc. Régression : variable valeur d’un bien, etc. cible discrète Exemple : diagnostiquer cible continue Exemple : estimer la Domaines non supervisés : Fouille des données – p. 2/1 Applications du Data Mining Domaines supervisés : Chaque instance = p variables predictives + 1 variable cible (à prédire) Classification : variable une maladie, etc. Régression : variable valeur d’un bien, etc. cible discrète Exemple : diagnostiquer cible continue Exemple : estimer la Domaines non supervisés : Regroupement(clustering) Exemple : détecter le profil utilisateur, etc. Fouille des données – p. 2/1 Applications du Data Mining Domaines supervisés : Chaque instance = p variables predictives + 1 variable cible (à prédire) Classification : variable une maladie, etc. Régression : variable valeur d’un bien, etc. cible discrète Exemple : diagnostiquer cible continue Exemple : estimer la Domaines non supervisés : Regroupement(clustering) Exemple : détecter le profil utilisateur, etc. Association Exemple analyser les logs utilisateurs d’un serveur web, etc. Fouille des données – p. 2/1 Tâches du Data Mining Prédiction : Classification, Régression, Association. Fouille des données – p. 3/1 Tâches du Data Mining Prédiction : Classification, Régression, Association. Description Visualisation, Regroupement, Association. Fouille des données – p. 3/1 Groupement, Segmentation & Catégorisation On dispose d’un ensemble de données X non étiquetés, il s’agit de les regrouper en K groupes vérifiant la propriété suivantes. Fouille des données – p. 4/1 Groupement, Segmentation & Catégorisation On dispose d’un ensemble de données X non étiquetés, il s’agit de les regrouper en K groupes vérifiant la propriété suivantes. 1. Les données appartenant à un groupe Gi , i ∈ 1...k sont similaires. Fouille des données – p. 4/1 Groupement, Segmentation & Catégorisation On dispose d’un ensemble de données X non étiquetés, il s’agit de les regrouper en K groupes vérifiant la propriété suivantes. 1. Les données appartenant à un groupe Gi , i ∈ 1...k sont similaires. 2. 2 exemples différents appartenant à 2 groupes différents ne sont pas similaires. Fouille des données – p. 4/1 Groupement, Segmentation & Catégorisation On dispose d’un ensemble de données X non étiquetés, il s’agit de les regrouper en K groupes vérifiant la propriété suivantes. 1. Les données appartenant à un groupe Gi , i ∈ 1...k sont similaires. 2. 2 exemples différents appartenant à 2 groupes différents ne sont pas similaires. Exemple d’application : Analyse de logs sur un site E-Commerce : Découvrir les profils utilisateurs. Fouille des données – p. 4/1 Regroupement en trois catégories ... Fouille des données – p. 5/1 Définitions, Notations X : l’ensemble des individus, |X| = N (cardinalité de X). K : le nombre de groupes (paramètre de l’algorithme). Fouille des données – p. 6/1 Définitions, Notations X : l’ensemble des individus, |X| = N (cardinalité de X). K : le nombre de groupes (paramètre de l’algorithme). Soit X un ensemble d’exemples décrit par P attributs :le centre de gravité g de X, est un exemple synthétique qui est décrit par : g = {a¯1 ...āi } où āi est la moyenne de valeurs ai dans X. Fouille des données – p. 6/1 Définitions, Notations X : l’ensemble des individus, |X| = N (cardinalité de X). K : le nombre de groupes (paramètre de l’algorithme). Soit X un ensemble d’exemples décrit par P attributs :le centre de gravité g de X, est un exemple synthétique qui est décrit par : g = {a¯1 ...āi } où āi est la moyenne de valeurs ai dans X. : Trouver k groupes : chacun représenté par son centre de gravité gi . Objectif Approches non hiérarchique (centres mobiles). Approches hiérarchique. Fouille des données – p. 6/1 Méthode des centres mobiles Définitions : L’inertie de X, contenant N données : 1 PN I = N i=1 d2 (xi , g) où g : Centre de gravité de X. Soit I1 , .., In les inerties associées aux groupes g1 ...gk Pk l’inertie intra-classe : Iw = i=1 Ik Soit I1 ...Ik les inerties associées aux groupes g1 ...gk Pk 2 (g , g) l’inertie inter-classe : IB = w d i i=1 i I = IW + IB : Avoir des groupes condensés, séparés si possible: Minimiser Iw . Objectif Fouille des données – p. 7/1 Algorithme des centres mobiles entrée : X jeu de données K ∈ N (I ← ∞). prendre K centres arbitraire Ck ∈ X REPETER Pour k ∈ {1..K} faire Gk ← Φ Pour i ∈ {1..N } · K∗ ← argmink∈{1..K} d(xi , Ck ) · Gk∗ ← Gk∗ ∪ xi Pour k ∈ {1..k} Ck ← Centre de gravité de Gk I ← Iw Calculer Iw JUSQU’A |I − IW | < Fouille des données – p. 8/1 Regroupement Hiérarchique Approche ascendante qui permet de construire des regroupements d’individus au fur et à mesure, Fouille des données – p. 9/1 Regroupement Hiérarchique Approche ascendante qui permet de construire des regroupements d’individus au fur et à mesure, N-1 groupes, N-2 groupes, 1 groupe. Fouille des données – p. 9/1 Regroupement Hiérarchique Approche ascendante qui permet de construire des regroupements d’individus au fur et à mesure, N-1 groupes, N-2 groupes, 1 groupe. On obtient un arbre les feuilles sont les exemples (Nf euilles) la racine représente X. Une coupe horizontale de cet arbre nous permettra de déterminer K groupes. Fouille des données – p. 9/1 Regroupement hiérarchique Fouille des données – p. 10/1 Algorithme de ségmentation hiérarchique Entrée : N exemples Fouille des données – p. 11/1 Algorithme de ségmentation hiérarchique Entrée : N exemples N groupes Gi ← xi Fouille des données – p. 11/1 Algorithme de ségmentation hiérarchique Entrée : N exemples N groupes Gi ← xi Marquer Gi prenables. Fouille des données – p. 11/1 Algorithme de ségmentation hiérarchique Entrée : N exemples N groupes Gi ← xi Marquer Gi prenables. Pour d=1 jusqu’a N-1 choisir Gi , Gj prenables. les fusionner : Gd ← Gi ∪ Gj . Marquer Gi , Gj non prenables. Marquer Gd prenable. Fouille des données – p. 11/1 Le choix des groupes à fusionner Pour trouver (Gi , Gj ) à fusionner 4 approches sont possibles : Saut minimal : La plus petite distance soit minimale. Saut maximal : La plus grande distance soit minimale. Saut moyen : minimiser la distance entre centre de gravités. Méthode de Ward perte de Iw minimale. SGi ,Gj = wi = wj = wi wj 2 wi +wj d (gi , gj ) |Gi | N |Gj | N Fouille des données – p. 12/1