Analyse des données M1- INFO Nicoleta ROGOVSCHI [email protected] Plan 2 Méthodes d’analyse multivariée Classification hiérarchique Principe de la CAH Algorithme Choix du critère d’aggregation Avantages et desavantages Classification non hiérarchique Principe des K-means Algorithme Avantages et desavantages Conclusions Analyses multivariées Les méthodes d’analyse multidimensionnelle ou multivariée permettent de traiter simultanémént de nombreuses variables caractérisant les individus de l’étude Ce sont des outils à but principalement descriptif : qui visent à obtenir une représentation synthétique d’un tableau de données en extrayant le maximum d’ «information», plus exactement de variabilité, de variance ou d’inertie avec en contrepartie le minimum de distorsion par rapport aux données d’origine 3 Le but des méthodes d’analyse multivariée 4 Lorsque nous sommes en présence de 2 ou 3 variables, il est possible d'avoir une représentation graphique qui restitue toute l'information. Ce n'est plus vrai si on s'intéresse à plus de 3 variables. Le principe de l'analyse de données est de tracer sur un graphique en 2 dimensions (grâce à une projection) l'ensemble des observations. Cependant, les axes choisis ne correspondent pas à l'une ou l'autre des variables mais sont des axes virtuels, issus de combinaisons entre les variables et calculés pour passer le plus près possible de tous les points du nuage. Chaque point est projeté sur ce plan. Le choix des axes est fait de manière à ce que le graphique résume les données en minimisant la perte de l'information. Types de méthodes d’analyses multivariée On distingue en général deux grand types de méthodes: 5 Ordination (méthodes factorielles) : permettent de dégager des grandes axes suivant lesquels s’ordonnent les objets et/ou les variables Classification (hiérarchique ou non) : définissent des grandes classes dans lesquelles se rangent les objets (plus rarement les variables) selon des critères de similarités ORDINATION en espace réduit 6 CLASSIFICATION Classification non-supervisée Le partitionnement de données (data clustering en anglais) est une méthode statistique d’analyse des données qui a pour but de regrouper un ensemble de données en différents paquets homogènes, c’est à dire que les données de chaque sous-ensemble partagent des caractéristiques communes, qui correspondent le plus souvent à des critères de proximité que l’on définit en introduisant des mesures de distance. 7 Classification non-supervisée Pour obtenir un bon partitionnement, il faut : 8 Minimiser l’inertie (la variance) intra-classe pour obtenir des classes (= groupes ou clusters) les plus homogènes possibles. Maximiser l’inertie inter-classe afin d’obtenir des groupes bien différenciés. Taxonomie des méthodes de classification Classification hiérarchique Classification par partitionnement Classification à base de densité Classification à base de grille 9 9 Caractéristiques des méthodes de classification Les propriétés essentielles d’un bon algorithme de partitionnement sont : 10 Indifférent à l’ordre des données en entrée Interpretabilité des résultats Capacité à gérer différents types de variables (attributs) Découverte de clusters avec des formes variables Incorporation de contraintes par l’utilisateur Passage à l’échelle Abilité de traiter des grandes bases de données Compléxité au niveau du temps Besoin minimum de connaissances du domaine pour déterminer les paramètres Prise en compte des "outliers“ Classification hiérarchique 11 Classification hiérarchique 12 Le résultat de ce type d’algorithmes est un arbre de clusters, appelé dendogramme, qui montre comment les clusters sont organisés. En coupant le dendogramme au niveau désiré, une classification des données dans des groupes disjoints est ainsi obtenue. Classification hiérarchique Il existe 2 type d’approches de classification hiérarchique : 13 Ascendante (agglomérative) Descendante (divisive) Classification hiérarchique L’approche ascendante qui est la plus couramment utilisée consiste, à construire l'hiérarchie à partir des objets (au départ on a un objet par classe), puis à fusionner les classes les plus proches, afin de n'en obtenir plus qu'une seule contenant tous les objets. L’approche descendante, moins utilisée, consiste à construire l'hiérarchie à partir d'une seule classe regroupant tous les objets, puis à partager celle-ci en deux groupes. Cette opération est répétée à chaque itération jusqu'à ce que toutes les classes soient réduites à des singletons. 14 Avantages et desavantages Les avantages : – Facilité pour traiter différentes formes de similarité ou de distance entre objets – Applicable aux différents types d’attributs – Une flexibilité en ce qui concerne le niveau de granularité 15 Les desavantages : – Choix du critère d’arrêt qui reste vague – Interprétation problématique du dendogramme lorsque le nombre d’individus est très important Classification hiérarchique ascendante 16 Classification hiérarchique ascendante (CAH) 17 Nécessité de se munir d’une métrique (distance euclidienne,...). Nécessité de fixer une règle pour agréger une donnée ou un groupe de donnée avec un autre groupe : le critère d’agrégation. Algorithme 18 1. Calculer la matrice de distance entre les n éléments et regrouper les 2 éléments les plus proches. 2. Si toutes les données ne sont pas regroupées en un seul groupe, retourner en 1. 3. Sinon construire le dendrogramme (arbre hiérarchique) et utiliser un critère de qualité (DaviesBouldin,...) pour choisir la coupure la plus pertinente. 4. En déduire une segmentation des données. Exemple Etape 1 : n individus / n classes 1 3 2 4 5 19 Exemple Etape 2 : n -1 classes Proximité entre les éléments 1 3 2 4 5 20 Exemple Etape 3 : n - 2 classes Proximité entre les éléments 1 3 2 4 5 21 Exemple Etape 4 : n - 3 classes Proximité entre les éléments 1 3 2 4 5 22 Exemple Etape 5 : n - 4 classes Proximité entre les éléments 1 3 2 4 5 23 Exemple Proximité entre les éléments Etape 5 : n - 4 classes 2 Classes 1 3 2 4 5 24 Classe 1 Classe 2 Interprétation 25 5 4 3 1 2 Choix de la règle d’aggregation Ce choix est très important, avec des règles différentes on obtient des résultats différents ! Il existe de nombreuses règles possibles : 26 Lien minimum (single link) Lien maximum (complète link) Lien moyen (average link) Le critère de Ward Choix de la règle d’aggregation Lien minimum (single link) Dsl Ci , C j min x, y d ( x, y) x Ci , y C j Lien maximum (complète link) Dcl Ci , C j max x, y d ( x, y) x Ci , y C j lien maximum (max) Lien moyen (average link) 1 Davg Ci , C j Ci C j 27 lien minimum (min) d ( x, y) xCi , yC j lien moyen (moyenne) Le critère de Ward Distance entre les centres des clusters : Dcentres Ci , C j d (ri , rj ) Le critère de Ward Dw Ci , C j x ri x rj x rij 2 xCi 28 où : ri: centre du cluster Ci rj: centre du cluster Cj rij: centre du cluster Cij 2 xC j 2 xCij Le critère de Ward 29 Le critère le plus utilisé Il a tendance à donner des classes de proportions égales C’est le critère à utiliser sur les composantes principales Il est moins performant que le critère du lien minimum lorsque les classes sont allongées ou irrégulières Classification non hiérarchique (par partitionnement) 30 Classification non hiérarchique Puisque l’examen de tous les sous-ensembles possibles est infaisable du point de vue computationnel, quelques heuristiques gloutonnes sont utilisées sous forme d’optimisation itérative. Plus précisément, cela correspond aux différents schémas de réallocation qui réaffectent itérativement les points entre les k clusters. Par rapport aux méthodes hiérarchiques traditionnelles, dans lesquelles les clusters ne sont pas revus après avoir été construits, les méthodes par réaffectations améliorent les clusters progressivement. 31 Principe du K-means 32 La méthode des K-Moyennes est un cas particulier de la méthode des centres mobiles. L’objectif principal de ces méthodes est de choisir un certain nombre de représentants (= centre ou prototypes) dans l’espace des données. Chaque prototype représente un groupe. Ainsi à la fin du processus on associe chaque point de donnée à son prototype le plus proche, de façon à obtenir une segmentation des données en différents groupes homogènes. Algorithme 33 Initialisation : - Choisir k points au hasard appelés centres Étape d’affectation – Affecter les points aux centres les plus proches – On obtient une partition C Étape de mis à jour des centres – Calculer les nouveaux centres Algorithme EXEMPLE : 34 Algorithme EXEMPLE : 35 Algorithme EXEMPLE : 36 Algorithme EXEMPLE : 37 Algorithme EXEMPLE : 38 Algorithme EXEMPLE : 39 Algorithme EXEMPLE : 40 Algorithme EXEMPLE : 41 Algorithme EXEMPLE : 42 Problèmes Choix de la mesure de distance (métrique) Ce choix est très important, avec des mesures de distance différentes on obtient des résultats différents ! Le plus souvent on utilise la distance euclidienne : n x y i 1 43 i 2 i avec n le nombre des variables. Problèmes Instabilité Le résultat final est fortement dépendant de l’initialisation des centres. Pour remédier à ça on lance l’algorithme plusieurs fois avec une initialisation aléatoire et on ne garde que le meilleur résultat. Choix du nombre des groupes Le nombre de groupes obtenu en sortie de l’algorithme doit être choisi par l’utilisateur. Or en général il n’est pas connu ! On lance donc généralement l’algorithme plusieurs fois avec des choix différents pour le nombre de groupes et on ne garde que le meilleur résultat. 44 Avantages – L’outil de classification le plus utilisé dans les applications scientifiques et industrielles – Méthode très rapide – Un algorithme simple qui se base sur un fondement solide de l’analyse de la variance – Comme la CAH, k-means peut s’appliquer sur les composantes principales retenues 45 Desavantages – Les résultats dépendent beaucoup de l’initialisation – Le minimum local calculé semble être très loin du minimum global – Le processus est sensible aux données atypiques ("outliers") 46 Conclusions Il existe de très nombreuses méthodes de segmentation des données. Les résultats obtenus dépendent : - De l’algorithme utilisé (K-means, Méthodes Ascendantes selon la règle d’agrégation, Méthodes Descendantes, ...). - De la métrique (distance Euclidienne, distance de Manhattan, distance de Minkowski, ...). - De l’indice de performance (Davies-Bouldin, Silhouette, Calinski-Harabatz,...). Cependant plus les groupes sont compacts et bien séparés, plus les différentes méthodes aurons tendance à donner les mêmes résultats. 47