Apprentissage non supervisé Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 1 / 25 Introduction Répartir les données en plusieurs classes I I I sur la seule base des échantillons d’apprentissage. Pas de cible ! Recherche de structures naturelles dans les données. Optimiser un critère visant à regrouper les individus dans des classes, I I chacune le plus homogène possible, et, entre elles, les plus distinctes. H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 2 / 25 Introduction Différentes méthodes : 1 Classification hiérarchique. F F F 2 Regrouper itérativement les individus, en commençant par le bas (les 2 plus proches) et en construisant un dendogramme. Il faut calculer à chaque étape, la distance entre un individu et un groupe et celle entre 2 groupes. Nombre de classes déterminer a posteriori. Classification par réallocation dynamique : k -moyennes. F F F F F Nombre de classes k fixé a priori. Initialisation de k centres de classes par tirages aléatoires. Affectation des individus à la classe dont le centre est le plus proche. Calcul du barycentre des classes qui deviennent les nouveaux centres. Itération du processus. H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 3 / 25 Mesures d’éloignement Indice de ressemblance ou similarité Notons Ω = {1, · · · , n} l’ensemble des individus. Similarité = mesure de proximité définie de Ω × Ω dans R+ , vérifiant : I I I s(i, j) = s(j, i) ∀(i, j) ∈ Ω × Ω : symétrie, s(i, i) = S > 0, ∀i ∈ Ω : ressemblance d’un individu à lui-même, s(i, j) ≤ S, ∀(i, j) ∈ Ω × Ω : la ressemblance est majorée par S. Indice de ressemblance normé s∗ est défini à partir de s par s∗ (i, j) = 1 s(i, j), ∀(i, j) ∈ Ω × Ω. S s∗ est une application de Ω × Ω dans [0; 1]. H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 4 / 25 Mesures d’éloignement Indice de dissemblance ou dissimilarité Une dissimilarité est une application d de Ω × Ω dans R+ vérifiant : I I d(i, j) = d(j, i), ∀(i, j) ∈ Ω × Ω : symétrie, d 0 i, i) = 0, ∀i ∈ Ω : nullité de la dissemblance d’un individu avec lui-même. Si s est un indice de similarité alors d(i, j) = S − s(i, j), ∀(i, j) ∈ Ω × Ω est un indice de dissemblance. Si d est un indice de dissemblance avec D = sup d(i, j), alors (i,j)∈ω×Ω s(i, j) = D − d(i, j) est un indice de ressemblance. Un indice de dissemblance normé est défini par : d ∗ (i, j) = 1 d(i, j) ∀(i, j) ∈ Ω × Ω, D avec d ∗ = 1 − s∗ . H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 5 / 25 Mesures d’éloignement Indice de distance Un indice de distance est un indice de dissemblance qui vérifie la propriété suivante : d(i, j) = 0 ⇒ i = j. Cette propriété évite les indohérences suivantes ∃k ∈ Ω, d(i, k ) 6= d(j, k ), avec pourtant i 6= j et d(i, j) = 0. H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 6 / 25 Mesures d’éloignement Distance Une distance est un indice de distance vérfiant de plus l’inégalité triangulaire : I I I d(i, j) = d(j, i), ∀(i, j) ∈ Ω × Ω, d(i, j) = 0 ⇐⇒ i = j, d(i, j) ≤ d(i, k ) + d(k , j), ∀(i, j, k ) ∈ Ω3 . Si Ω est fini, alors la distance peut être normée. H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 7 / 25 Similarité ou distance entre 2 individus p variables quantitatives observées sur n individus Distance euclidienne v u p uX d(x, y) = t (xi − yi )2 . i=1 Distance de Malahanobis M = diag( 1 1 ,··· , ) σ1 σp et d(x, y) = (x − y)T M(x − y). H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 8 / 25 Similarité ou distance entre 2 individus p variables quantitatives observées sur n individus Soient i et j deux individux distincts. aij le nombre de caractères communs à i et j sur les p considérés, bij le nombre de caractères possédés par i mais pas par j, cij le nombre de caractères possédés par j mais pas par i, dij le nombre de caractères possédés ni par i, ni par j. L’indice de ressemblance les plus courants sont :de concordance est défini par aij + dij s(i, j) = , concordance, aij + bij + cij + dij s(i, j) = aij , Jacquard, aij + bij + cij s(i, j) = 2aij , Dice. 2aij + bij + cij H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 9 / 25 Similarité ou distance entre 2 individus p variables quantitatives observées sur n individus La distance la plus utilisée est la distance du χ2 entre profils-lignes du tableau disjonctif complet dχ22 (i, j) p mj n X X kl 1 δij k , = p nl k =1 l=1 avec I I mj est le nombre de modalités de la variable qualitative Y k , nlk est l’effectif de la l-ième modalité de Y k , I δijkl = 1 si i et j en une discordance pour l-ième modalité de Y k , 0 sinon. L’importance donnée à une discordance est d’autant plus forte que les modalités sont rares. H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 10 / 25 Similarité ou distance entre 2 individus p variables quantitatives observées sur n individus Rendre tout qualitatif. I I I Les variables quantitatives sont rendues qualitatives par découpage en classes. Les classes d’une même variable sont généralement d’effectifs sensiblement égaux : bornes des classes égales à des quantiles. La métrique est alors celle du χ2 . Rendre tout qualitatif à l’aide d’une AFCM. I I I Une AFCM est calculée sur les seules variables qualitatives. L’AFCM produit des scores qui sont les composantes principales de l’ACP des profils-lignes. Ces scores sont ensuites utilisés comme coordonnées quantitatives des individus en vue d’une classification. H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 11 / 25 Similarité ou distance entre 2 individus p variables quantitatives observées sur n individus Une fois ces préliminaires accomplis, nous nous retrouvons donc avec soit un tableau de mesures quantitatives n × p, associé à une matrice de produit scalaire p × p définissant une métrique euclidienne, soit directement un tableau n × n de dissemblance ou de distance entre individus. H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 12 / 25 Classification hiérarchique ascendante Principe A partir de la partition triviale des n individus en n singletons, nous cherchons, à ch aque étape, à constituer des classes par agrégation des 2 éléments les plus proches de la partition de l’étape précédente. L’algorithme s’arrête avec l’obtention d’une seule classe. Les regroupements successifs sont représentés sous la forme d’un arbre binaire ou dendogramme. H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 13 / 25 Classification hiérarchique ascendante Distance ou dissemblance entre 2 classes Soient A et B deux classes d’une partition donnée, wA et wB leurs pondérations. Soit dij la distance entre deux individus i et j. Cas d’une dissemblance : Saut minimum ou single linkage d(A, B) = mini∈A,j∈B dij . Saut maximum ou complete linkage d(A, B) = supi∈A,j∈B dij . Saut moyen ou group average linkage d(A, B) = X 1 dij . card(A)card(B) i∈A,j∈B H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 14 / 25 Classification hiérarchique ascendante Distance ou dissemblance entre 2 classes Cas d’une distance euclidienne : Distance des barycentres ou centroïd d(A, B) = d(gA , gB ). Saut de Ward d(A, B) = H. Milhem (IMT, INSA Toulouse) wA wB d(gA , gB ). wA + wB Apprentissage non supervisé IUP SID 2011-2012 15 / 25 Classification hiérarchique ascendante Algorithme Initialisation : Les classes initiales sont les singletons. Calculer la matrice de leurs distances 2 à 2. Itérer les 2 tapes suivantes jusqu’à l’agrégation en une seule classe. 1 Regrouper les 2 classes les plus proches au sens de la "distance" entre 2 classes choisies. 2 Mettre à jour le tableau des distances en remplaçant les 2 classes regroupées par la nouvelle et en calculant sa "distance" avec chacune des autes classes. H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 16 / 25 Classification hiérarchique ascendante Propriétés Complexité : tous les algorithmes sont au moins en O(n2 ) avec n le nombre de données. Le résultat de la classification hiérarchique est une arbre de classes représentant les relations d’inclusion entre clases Dendogramme. I I La hauteur d’une branche est proportionnelle à l’indice de dissemblance ou distance entre les 2 objets regroupés. Dans le cas du saut de Ward, c’est la perte de variance inter-classes. Une classification particulière s’obtient en coupant l’arbre des classes à un niveau donné. I Un graphique de la décroissance de la distance inter-classes en fonction du nombre de classes aide au choix du nombre de classes. Il faut lire le graphe de droite à gauche et s’arrêter avant le premier saut jugé significatif. H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 17 / 25 Classification hiérarchique ascendante Propriétés Décroissance de la variance interclasses à chaque regroupement dans le cas du saut de Ward. 5000 ● 3000 Hauteur 4000 ● ● 1000 2000 ● ● ● ● ● ● ● 5 ● ● 10 ● ● ● ● ● 15 nb de classes H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 18 / 25 Classification hiérarchique ascendante Propriétés Height luxe metz nanc reim troy besa dijo stra bale mulh mars nice cham gene gren lyon hend bord roya mont perp ando lour toul boul cala brux lill caen cher leha roue amie pari bres renn stma laba nant clem limo poit ange lema tour bour orle 0 1000 2000 3000 4000 5000 Exemple d’un dendogramme issu de la classification des données par CAH et saut de Ward. H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 19 / 25 Agrégation autour de centres mobiles Algorithme Choisir le nombre de classes à créer k . Initialisation : Choisir k centres initiaux. Itére les 2 étapes suivantes, jusqu’à ce que le critère de variance interclasses ne croisse plus de manière signiicative, c’est-à-dire jusqu’à la stabilisation des classes I I Allouer chaque individu au centre (c’est-à-dire à la classe) le plus proche au sens de la métrique choisie. On obtient ainsi, à chque étape, une classification en k classes, ou moins si une des classes est vide. Calculer le centre de gravité de chaque classe : il devient le nouveau centre. H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 20 / 25 Agrégation autour de centres mobiles Propriétés Convergence : I Le critère (la variance interclasses) est majoré par la variance totale. Il est simple de montrer qu’il peut croître à chaque étape de l’algorithme, ce qui en assure la convergence. I Il est équivalent de maximiser la variance intraclasses ou de minimiser la variance interclasses. Cette dernière est alors décroissante et minorée par 0. I Concrètement, une dizaine d’itérations suffit généralement pour atteindre la convergence. Optimum local : I La solution obtenue est un optimum local, c-à-d que la répartition en classes dépend du choix initial des noyaux. I Plusieurs exécutions de l’algorithme permettent de s’assurer de la présence de formes fortes, c-à-d de classes présentes de manière stable dans la majorité des partitions obtenues. H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 21 / 25 Agrégation autour de centres mobiles Variantes Nuées dynamiques : I Chaque centre de classe est remplacé par un noyau constitué d’éléments de présentatifs de cette classe. I Cela permet de corriger l’influence d’éventuelles valeurs extrêmes sur le calcul du barycentre. H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 22 / 25 Agrégation autour de centres mobiles Variantes Partioning Around Medoïds (PAM) : I L’algorithme PAM permet de classifier des données de façon plus robuste, moins sensible aux valeurs atypiques. I Le noyau d’une classe est alors un medoïd, l’observation d’une classe qui minimise la moyenne des distances ou dissimilarités aux autres observations de la classe. I Une différence majeure avec k -means est qu’un medoïd fait partie des données et permet de partitionner les matrices de dissimilarités. I Par contre PAM est limité par le nombre de données et le temps de calcul. H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 23 / 25 Agrégation autour de centres mobiles Variantes Représentation des classes obtenues par PAM hend bres 400 lour roya bord ando laba stma renn nant toul 200 poit ange cher lema limo tour clem 0 cp2 perp bour pari −200 troy lyon mars −400 gene cham brux besa nanc metz luxe mulh bale −800 −600 −400 −200 boul amiecala lill reim dijo gren nice leha roue orle mont caen stra 0 200 400 cp1 H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 24 / 25 Agrégation autour de centres mobiles Combinaison La CAH qui construit la matrice des distance n’accepte qu’un nombre limité d’individus. La réallocation dynamique nécessite de fixer a priori le nombre de classe. Stratégie adaptée aux grands ensembles de données permettant de contourner ces difficultés : I I I Exécuter une méthode de réallocation dynamique en demandant un grand nombre de classes, de l’ordre de 10% de n. Sur les barycentres des classes précédentes, exécuter une CAH puis déterminer un nombre "optimal" k de classes. Exécuter une méthode de réallocation dynamique sur l’ensemble en fixant à k le nombre de classes avec initialisation des noyaux par les barycentres des classes de l’étape précédente. H. Milhem (IMT, INSA Toulouse) Apprentissage non supervisé IUP SID 2011-2012 25 / 25