La classification par l’analyse en clusters Animateur : Philippe Wanlin (Ph. D.) Co-animatrices : Lara Laflotte et Laura Luiu Pourquoi classer • Classer = grouper des éléments similaires en ensembles • «primitif» classer les animaux selon leur férocité, les aliments selon leur comestibilité • Utile aide à parler des choses, à les décrire et à savoir les reconnaître (nommer c’est déjà classer) • Classer = capacité de conceptualisation basique de l’humain • Classer = fondamental pour la plupart des sciences Philippe Wanlin (2015) 2 Types de classifications • Polythétique : le classement est basé sur plusieurs caractéristiques des objets • Monothétique : une seule caractéristique Philippe Wanlin (2015) 3 Pourquoi classer ? • Organiser un ensemble vaste de données pour le rendre plus compréhensible et permettre une identification plus aisée de l’information • Si les données peuvent être validement résumées par un nombre restreint de groupes d’éléments, les étiquettes de groupes peuvent fournir une description concise de patterns de similarités et différences dans les données (data mining) • Attention il existe différentes classifications possibles au sein d’un ensemble de données (tout dépend des critères et objectifs de classification) – certaines sont plus utiles que d’autres (classer des livres selon leurs couleurs ou leurs sujets) • Une classification n’est pas comme une théorie scientifique jugée en fonction de si elle est exacte ou non, mais elle doit être jugée selon son utilité Philippe Wanlin (2015) 4 Classification numérique – cluster analysis • Créer des classifications objectives et stables • Objectives : les classifications des mêmes éléments avec la même méthode produit le même classement • Stable : la classification reste la même même si on additionne des éléments à classer ou que l’on ajoute des caractéristiques descriptives • Le but est de proposer un partitionnement des données dans lequel chaque élément appartient à un seul cluster et que l’ensemble de tous les clusters contient l’ensemble des éléments de la base de données • Dans certaines circonstances des clusters superposés peuvent être une solution plus acceptable • Parfois la conclusion d’une analyse en clusters peut être qu’il n’y a pas de sousensembles d’éléments dans la base de données Philippe Wanlin (2015) 5 Identifier des clusters Philippe Wanlin (2015) 6 Philippe Wanlin (2015) 7 Philippe Wanlin (2015) 8 Philippe Wanlin (2015) 9 Bref • L’analyse en clusters sert à découvrir des groupes dans des données, une structure dans des données • Attention : «parfois» la structure est «imposée» aux données Si le chercheur ne connaît pas la structure a priori de ses données, il peut interpréter la solution «cluster» comme étant «naturelle» alors que cette solution est peut-être un artefact • Il faut explorer les données pour évaluer si oui ou non elles peuvent être résumées de manière sensée par un petit nombre d’ensembles d’éléments qui se ressemblent mais qui diffèrent des éléments des autres ensembles Philippe Wanlin (2015) 10 Explorer les données Philippe Wanlin (2015) 11 Techniques • Approche par graphiques Exemple «fiction.sav» • L’exploration de graphiques peut • donner une idée générale de la structure des données • être utile pour identifier si les données contiennent des ensembles différents et, si c’est le cas, pour décider de si les données sont susceptibles d’être clusterisées. Philippe Wanlin (2015) 12 Chercher des preuves de l’existence d’une structure en clusters pour les données • Méthode directe : analyser les données brutes • Méthode indirecte : lorsqu’il y a beaucoup de variables différentes (trop), passer par une réduction des dimensions analyse factorielle Philippe Wanlin (2015) 13 Histogrammes • Ouvrir le fichier ; dans SPSS : graphique générateur de graphiques Philippe Wanlin (2015) 14 Philippe Wanlin (2015) 15 Si vous voulez sauvegarder une syntaxe de vos analyses Philippe Wanlin (2015) 16 Philippe Wanlin (2015) 17 Philippe Wanlin (2015) 18 Histogrammes • Premier pas intéressant • L’observation du nombre de modes peut indiquer un nombre probable de clusters Philippe Wanlin (2015) 19 Dispersion de points Philippe Wanlin (2015) 20 Philippe Wanlin (2015) 21 Matrices de dispersions de points Philippe Wanlin (2015) 22 Philippe Wanlin (2015) 23 Philippe Wanlin (2015) 24 Philippe Wanlin (2015) 25 Approche graphique • Permet d’identifier une structure probable et donc la pertinence d’utiliser une analyse en clusters • Permet d’identifier des «outliers» (cas particuliers) qui peuvent poser problème à certains algorithmes de clustering • Limite : quand il y a trop de caractéristiques (solution : appliquer d’abord une analyse factorielle aux données, puis explorer la structure des facteurs pour décider de la pertinence d’une analyse en clusters) Philippe Wanlin (2015) 26 Philippe Wanlin (2015) 27 Philippe Wanlin (2015) 28 Échelonnement multidimensionnel Philippe Wanlin (2015) 29 Philippe Wanlin (2015) 30 similarités dissimilarités Philippe Wanlin (2015) 31 Résumé • On a pu rassembler quelques éléments de preuve en faveur de l’existence d’une structure en clusters dans nos données via l’observation de graphiques et via un échelonnement multidimensionnel • Marche à suivre : • • • • • (analyse factorielle si nécessaire de réduire le nombre de caractéristiques) Histogrammes (observation du nombre de modes) Dispersions de points (observation d’ensemble de points regroupés) Matrices de dispersions de points Échelonnement multidimensionnel (place les éléments sur un plan pour observer s’il y en a qui se ressemblent et d’autres non) • Avantages : • permet de justifier la pertinence du recours à une analyse en clusters • Permet de se faire une première idée du nombre de clusters (une décision délicate en analyse de clusters) Philippe Wanlin (2015) 32 Analyse en clusters hiérarchiques Philippe Wanlin (2015) 33 Types d’analyses en clusters hiérarchiques • Les classifications ne se font pas d’un coup, elles se font pas par pas (par séries de partitions) • Agglomératives : un part des éléments un à un pour les rassembler (coller, fusionner, agglomérer, agglutiner) en ensembles d’éléments qui se ressemblent jusqu’à l’obtention d’un seul ensemble contenant tous les éléments • Divisives : on part d’un ensemble contenant tous les éléments que l’on sépare (divise, partitionne) en ensembles jusqu’à l’obtention de n singletons (ensembles avec un seul élément) • Il y a à chaque fois plusieurs itérations. Philippe Wanlin (2015) 34 Philippe Wanlin (2015) 35 Les variables qualitatives (chaines) uniquement Philippe Wanlin (2015) 36 Philippe Wanlin (2015) 37 Mesures de (dis)similarités • Permettent d’estimer dans quelle mesure les individus sont «proches» les uns des autres ou «éloignés» les uns des autres • Généralement une mesure quantitative des distances/proximités entre éléments (même à partir de données qualitatives) • Proximités pour variables catégorielles • Oscillent entre 0 et 1 • Binaires ou multinomiales (les calculs diffèrent en fonction de l’objectif de recherche) • Proximités pour variables continues • Métriques (p. ex.: distance euclidienne) Distance physique entre deux points dans l’espace euclidien D’autres mesures de distances existent (city-bloc, Minkowski, Canberra, ...) Parfois on utilise la corrélation (mais cela pose problème carWanlin ce n’est pas vraiment adapté pour mesurer une distance entre éléments38 Philippe (2015) Mesures de proximités • Pour des variables mixtes • Quand dans les variables il y a des binaires mais aussi des multinomiales et/ou des métriques • Solution 1 = dichotomiser le tout (par exemple en utilisant la médiane ou la moyenne – en-dessous 0, au-dessus 1) • Solution 2 = rééchelonner en remplaçant les valeurs par le rang de l’élément vis-à-vis des autres éléments • Solution 3 = construire une mesure de similarité pour chaque type de variable • Variables structurées (type longitudinal) • • • • Coefficient de régression Valeur moyenne Modèle factoriel (confirmatoire) Autre solutions disponibles dans Everitt et al. (2011) Philippe Wanlin (2015) 39 Mesure de proximités entre groupes d’éléments • Nécessité de définir les groupes par un résumé fidèle des proximités des éléments à leur groupe • Nécessité d’en «dériver» une statistique à laquelle appliquer un algorithme • Possibilité • Nearest neighbour : distance la plus petite entre deux éléments du groupe • Technique de clustering : single linkage • Furthest neighbour : distance la plus longue entre deux éléments du groupe • Technique de clustering : complete linkage • Au lieu de se référer aux extrêmes on peut aussi utiliser d’autres moyens tel que par exemple une distance moyenne des éléments à leur groupe • Technique de clustering : average linkage Philippe Wanlin (2015) 40 Distances entre deux groupes y • Distance minimum: dBC A • Distance maximum: dAD B • Distance moyenne: moyenne quadratique des distances euclidiennes entre toutes les paires D C x d G O T o L 2.16 2.80 2.95 2.07 S 3.14 3.69 3.89 3.02 Philippe Wanlin (2015) 41 Proximités – variables continues • Moyennes : centroïde • Distance euclidienne • City block • Etc. Philippe Wanlin (2015) 42 Distance euclidienne y A B D d G L O S T c o G 0 2.16 1.47 3.14 1.22 5.12 0.53 L 2.16 0 2.80 0.99 2.95 4.89 2.07 O 1.47 2.80 0 3.69 0.55 5.80 1.25 S 3.14 0.99 3.69 0 3.89 5.25 3.02 T 1.22 2.95 0.55 3.89 0 5.67 1.09 c 5.12 4.89 5.80 5.25 5.67 0 5.23 o 0.53 2.07 1.25 3.02 1.09 5.23 0 C Philippe Wanlin (2015) x 43 Distances centroïdes • G: centre de gravité (centroïde) y A B y A C G2 G D x B C G1 D Philippe Wanlin (2015) x 44 Choisir la mesure de proximité • Dépendra de la nature des données, du type de traitement que l’on veut appliquer aux données et des questions de recherche que l’on veut investiguer Philippe Wanlin (2015) 45 Philippe Wanlin (2015) 46 Philippe Wanlin (2015) 47 Philippe Wanlin (2015) 48 Philippe Wanlin (2015) 49 Philippe Wanlin (2015) 50 Si on a déjà une idée du nombre probable on peut déjà demander d’enregistrer les clusters d’appartenance des éléments ; sinon on attendra l’analyse du dendrogramme et de la chaîne d’agglutination Philippe Wanlin (2015) 51 Philippe Wanlin (2015) 52 Pondération des variables • On peut donner plus de poids, d’importance à certaines variables via une pondération • Solution 1 : les intégrer ou non dans le clustering • Solution 2 : la standardisation • Solution 3 : appliquer un coefficient de pondération judicieusement choisi • Jugement subjectif du chercheur • Observation des données • Calcul (p. ex. analyse factorielle et poids des variables dans les facteurs) Philippe Wanlin (2015) 53 Méthode de WARD avec carré de la distance euclidienne Best cut : là où la distance est la plus élevée pour la première fois (changements larges dans la fusion) Philippe Wanlin (2015) 54 Philippe Wanlin (2015) 55 Philippe Wanlin (2015) 56 Définir les clusters obtenus • Variables binaires ou catégorielles : test du chi2 • Variables d’intervalle ou continues : t de student ou ANOVA (avec tests post hoc s’il y a plus de deux clusters) Philippe Wanlin (2015) 57 Philippe Wanlin (2015) 58 Philippe Wanlin (2015) 59 Philippe Wanlin (2015) 60 Philippe Wanlin (2015) 61 Vérifier le choix du nombre de clusters • Étape 1 : refaire une analyse avec un autre algorithme • Étape 2 : faire une analyse en clusters avec un algorithme divisif • Étape 3 : couper l’échantillon en 2 et clusteriser chaque partie, vérifier si l’appartenance clusters sur l’ensemble des données correspond à celle sur la moitié Philippe Wanlin (2015) 62 Étape 1 : autre algorithme • Choisir une autre méthode (p. ex. centroïde) • Refaire tout ce qu’on a fait Philippe Wanlin (2015) 63 Philippe Wanlin (2015) 64 • Comparer les clusters (ANOVA) Philippe Wanlin (2015) 65 Philippe Wanlin (2015) 66 Philippe Wanlin (2015) 67 Y a-t-il recouvrement entre les clustering ? Philippe Wanlin (2015) 68 Philippe Wanlin (2015) 69 Philippe Wanlin (2015) 70 Étape 2 : clustering divisif Philippe Wanlin (2015) 71 Philippe Wanlin (2015) 72 • Ne produit pas de dendrogramme Philippe Wanlin (2015) 73 • Définir les groupes par une ANOVA • Vérifier le recouvrement via un tableau croisé Philippe Wanlin (2015) 74 Philippe Wanlin (2015) 75 Philippe Wanlin (2015) 76 Philippe Wanlin (2015) 77 Étape 3 : scinder l’échantillon • Voir démonstration Philippe Wanlin (2015) 78 Définir et représenter les clusters • Choisir une solution (généralement celle de l’algorithme de Ward) et décrire les clusters obtenus en s’appuyant sur les résultats de l’analyse factorielle. • La représentation des clusters sur des graphiques et nuages de points peut être intéressante Philippe Wanlin (2015) 79 Philippe Wanlin (2015) 80 Philippe Wanlin (2015) 81 • Dans l’onglet «tracé» demander de colorer en fonction de l’appartenance cluster Philippe Wanlin (2015) 82 Valider le clustering • Utiliser une ou des variables qui n’appartien(nen)t pas au clustering pour prédire l’appartenance de groupe. • Régressions : • Logistique binaire • Logistique multinomiale • «ordinaire» Voir démonstration Philippe Wanlin (2015) 83 Références principales • Everitt, B. S., Landau, S., Leese, M., & Stahl, D. (2011). Cluster Analysis (5th éd.). London: Wiley. • Clatworthy, J., Buick, D., Hankins, M., Weinman, J., & Horne, R. (2005). The use and reporting of cluster analysis in health psychology: a review. Britsh Journal of Health Psychology, 10, 329-358. Philippe Wanlin (2015) 84 Exercice guidé Avec le fichier transmission-constructivisme Philippe Wanlin (2015) 85 Exercice individuel Fichier jugement-interaction Philippe Wanlin (2015) 86 Exercice libre Philippe Wanlin (2015) 87