La classification par l`analyse en clusters

publicité
La classification par l’analyse
en clusters
Animateur : Philippe Wanlin (Ph. D.)
Co-animatrices : Lara Laflotte et Laura Luiu
Pourquoi classer
• Classer = grouper des éléments similaires en ensembles
• «primitif»  classer les animaux selon leur férocité, les aliments
selon leur comestibilité
• Utile  aide à parler des choses, à les décrire et à savoir les
reconnaître (nommer c’est déjà classer)
• Classer = capacité de conceptualisation basique de l’humain
• Classer = fondamental pour la plupart des sciences
Philippe Wanlin (2015)
2
Types de classifications
• Polythétique : le classement est basé sur plusieurs caractéristiques
des objets
• Monothétique : une seule caractéristique
Philippe Wanlin (2015)
3
Pourquoi classer ?
• Organiser un ensemble vaste de données pour le rendre plus
compréhensible et permettre une identification plus aisée de l’information
• Si les données peuvent être validement résumées par un nombre restreint
de groupes d’éléments, les étiquettes de groupes peuvent fournir une
description concise de patterns de similarités et différences dans les
données (data mining)
• Attention il existe différentes classifications possibles au sein d’un
ensemble de données (tout dépend des critères et objectifs de
classification) – certaines sont plus utiles que d’autres (classer des livres
selon leurs couleurs ou leurs sujets)
• Une classification n’est pas comme une théorie scientifique jugée en
fonction de si elle est exacte ou non, mais elle doit être jugée selon son
utilité
Philippe Wanlin (2015)
4
Classification numérique – cluster analysis
• Créer des classifications objectives et stables
• Objectives : les classifications des mêmes éléments avec la même méthode produit
le même classement
• Stable : la classification reste la même même si on additionne des éléments à classer
ou que l’on ajoute des caractéristiques descriptives
• Le but est de proposer un partitionnement des données dans lequel
chaque élément appartient à un seul cluster et que l’ensemble de tous les
clusters contient l’ensemble des éléments de la base de données
• Dans certaines circonstances des clusters superposés peuvent être une solution plus
acceptable
• Parfois la conclusion d’une analyse en clusters peut être qu’il n’y a pas de sousensembles d’éléments dans la base de données
Philippe Wanlin (2015)
5
Identifier des clusters
Philippe Wanlin (2015)
6
Philippe Wanlin (2015)
7
Philippe Wanlin (2015)
8
Philippe Wanlin (2015)
9
Bref
• L’analyse en clusters sert à découvrir des groupes dans des données,
une structure dans des données
• Attention : «parfois» la structure est «imposée» aux données
Si le chercheur ne connaît pas la structure a priori de ses données, il peut
interpréter la solution «cluster» comme étant «naturelle» alors que cette
solution est peut-être un artefact
• Il faut explorer les données pour évaluer si oui ou non elles peuvent
être résumées de manière sensée par un petit nombre d’ensembles
d’éléments qui se ressemblent mais qui diffèrent des éléments des
autres ensembles
Philippe Wanlin (2015)
10
Explorer les données
Philippe Wanlin (2015)
11
Techniques
• Approche par graphiques
Exemple «fiction.sav»
• L’exploration de graphiques peut
• donner une idée générale de la structure des données
• être utile pour identifier si les données contiennent des ensembles différents
et, si c’est le cas, pour décider de si les données sont susceptibles d’être
clusterisées.
Philippe Wanlin (2015)
12
Chercher des preuves de l’existence d’une structure en clusters
pour les données
• Méthode directe : analyser les données brutes
• Méthode indirecte : lorsqu’il y a beaucoup de variables différentes
(trop), passer par une réduction des dimensions  analyse factorielle
Philippe Wanlin (2015)
13
Histogrammes
• Ouvrir le fichier ; dans SPSS : graphique  générateur de graphiques
Philippe Wanlin (2015)
14
Philippe Wanlin (2015)
15
Si vous voulez
sauvegarder une
syntaxe de vos
analyses
Philippe Wanlin (2015)
16
Philippe Wanlin (2015)
17
Philippe Wanlin (2015)
18
Histogrammes
• Premier pas intéressant
• L’observation du nombre de modes peut indiquer un nombre
probable de clusters
Philippe Wanlin (2015)
19
Dispersion de points
Philippe Wanlin (2015)
20
Philippe Wanlin (2015)
21
Matrices de dispersions de points
Philippe Wanlin (2015)
22
Philippe Wanlin (2015)
23
Philippe Wanlin (2015)
24
Philippe Wanlin (2015)
25
Approche graphique
• Permet d’identifier une structure probable  et donc la pertinence
d’utiliser une analyse en clusters
• Permet d’identifier des «outliers» (cas particuliers) qui peuvent poser
problème à certains algorithmes de clustering
• Limite : quand il y a trop de caractéristiques (solution : appliquer
d’abord une analyse factorielle aux données, puis explorer la
structure des facteurs pour décider de la pertinence d’une analyse en
clusters)
Philippe Wanlin (2015)
26
Philippe Wanlin (2015)
27
Philippe Wanlin (2015)
28
Échelonnement multidimensionnel
Philippe Wanlin (2015)
29
Philippe Wanlin (2015)
30
similarités
dissimilarités
Philippe Wanlin (2015)
31
Résumé
• On a pu rassembler quelques éléments de preuve en faveur de l’existence
d’une structure en clusters dans nos données via l’observation de graphiques
et via un échelonnement multidimensionnel
• Marche à suivre :
•
•
•
•
•
(analyse factorielle si nécessaire de réduire le nombre de caractéristiques)
Histogrammes (observation du nombre de modes)
Dispersions de points (observation d’ensemble de points regroupés)
Matrices de dispersions de points
Échelonnement multidimensionnel (place les éléments sur un plan pour observer s’il y
en a qui se ressemblent et d’autres non)
• Avantages :
• permet de justifier la pertinence du recours à une analyse en clusters
• Permet de se faire une première idée du nombre de clusters (une décision délicate en
analyse de clusters)
Philippe Wanlin (2015)
32
Analyse en clusters hiérarchiques
Philippe Wanlin (2015)
33
Types d’analyses en clusters hiérarchiques
• Les classifications ne se font pas d’un coup, elles se font pas par pas (par
séries de partitions)
• Agglomératives : un part des éléments un à un pour les rassembler (coller, fusionner,
agglomérer, agglutiner) en ensembles d’éléments qui se ressemblent jusqu’à
l’obtention d’un seul ensemble contenant tous les éléments
• Divisives : on part d’un ensemble contenant tous les éléments que l’on sépare
(divise, partitionne) en ensembles jusqu’à l’obtention de n singletons (ensembles
avec un seul élément)
• Il y a à chaque fois plusieurs itérations.
Philippe Wanlin (2015)
34
Philippe Wanlin (2015)
35
Les variables
qualitatives
(chaines)
uniquement
Philippe Wanlin (2015)
36
Philippe Wanlin (2015)
37
Mesures de (dis)similarités
• Permettent d’estimer dans quelle mesure les individus sont
«proches» les uns des autres ou «éloignés» les uns des autres
• Généralement une mesure quantitative des distances/proximités entre
éléments (même à partir de données qualitatives)
• Proximités pour variables catégorielles
• Oscillent entre 0 et 1
• Binaires ou multinomiales (les calculs diffèrent en fonction de l’objectif de
recherche)
• Proximités pour variables continues
• Métriques (p. ex.: distance euclidienne)
Distance physique entre deux points dans l’espace euclidien
D’autres mesures de distances existent (city-bloc, Minkowski, Canberra, ...)
Parfois on utilise la corrélation (mais cela pose problème
carWanlin
ce n’est
pas vraiment adapté pour mesurer une distance entre éléments38
Philippe
(2015)
Mesures de proximités
• Pour des variables mixtes
• Quand dans les variables il y a des binaires mais aussi des multinomiales et/ou des
métriques
• Solution 1 = dichotomiser le tout (par exemple en utilisant la médiane ou la moyenne
– en-dessous 0, au-dessus 1)
• Solution 2 = rééchelonner en remplaçant les valeurs par le rang de l’élément vis-à-vis
des autres éléments
• Solution 3 = construire une mesure de similarité pour chaque type de variable
• Variables structurées (type longitudinal)
•
•
•
•
Coefficient de régression
Valeur moyenne
Modèle factoriel (confirmatoire)
Autre solutions disponibles dans Everitt et al. (2011)
Philippe Wanlin (2015)
39
Mesure de proximités entre groupes
d’éléments
• Nécessité de définir les groupes par un résumé fidèle des proximités
des éléments à leur groupe
• Nécessité d’en «dériver» une statistique à laquelle appliquer un
algorithme
• Possibilité
• Nearest neighbour : distance la plus petite entre deux éléments du groupe
• Technique de clustering : single linkage
• Furthest neighbour : distance la plus longue entre deux éléments du groupe
• Technique de clustering : complete linkage
• Au lieu de se référer aux extrêmes on peut aussi utiliser d’autres moyens tel
que par exemple une distance moyenne des éléments à leur groupe
• Technique de clustering : average linkage
Philippe Wanlin (2015)
40
Distances entre deux groupes
y
• Distance minimum: dBC
A
• Distance maximum: dAD
B
• Distance moyenne: moyenne quadratique des
distances euclidiennes entre toutes les paires
D
C
x
d
G
O
T
o
L
2.16
2.80
2.95
2.07
S
3.14
3.69
3.89
3.02
Philippe Wanlin (2015)
41
Proximités – variables continues
• Moyennes : centroïde
• Distance euclidienne
• City block
• Etc.
Philippe Wanlin (2015)
42
Distance euclidienne
y
A
B
D
d
G
L
O
S
T
c
o
G
0
2.16
1.47
3.14
1.22
5.12
0.53
L
2.16
0
2.80
0.99
2.95
4.89
2.07
O
1.47
2.80
0
3.69
0.55
5.80
1.25
S
3.14
0.99
3.69
0
3.89
5.25
3.02
T
1.22
2.95
0.55
3.89
0
5.67
1.09
c
5.12
4.89
5.80
5.25
5.67
0
5.23
o
0.53
2.07
1.25
3.02
1.09
5.23
0
C
Philippe Wanlin (2015)
x
43
Distances centroïdes
• G: centre de gravité (centroïde)
y
A
B
y
A
C
 G2
G
D
x
B
C
 G1
D
Philippe
Wanlin (2015)
x
44
Choisir la mesure de proximité
• Dépendra de la nature des données, du type de traitement que l’on
veut appliquer aux données et des questions de recherche que l’on
veut investiguer
Philippe Wanlin (2015)
45
Philippe Wanlin (2015)
46
Philippe Wanlin (2015)
47
Philippe Wanlin (2015)
48
Philippe Wanlin (2015)
49
Philippe Wanlin (2015)
50
Si on a déjà une idée du nombre probable on peut déjà
demander d’enregistrer les clusters d’appartenance des
éléments ; sinon on attendra l’analyse du
dendrogramme et de la chaîne d’agglutination
Philippe Wanlin (2015)
51
Philippe Wanlin (2015)
52
Pondération des variables
• On peut donner plus de poids, d’importance à certaines variables via
une pondération
• Solution 1 : les intégrer ou non dans le clustering
• Solution 2 : la standardisation
• Solution 3 : appliquer un coefficient de pondération judicieusement choisi
• Jugement subjectif du chercheur
• Observation des données
• Calcul (p. ex. analyse factorielle et poids des variables dans les facteurs)
Philippe Wanlin (2015)
53
Méthode de WARD avec carré de la distance euclidienne
Best cut : là où la distance
est la plus élevée pour la
première fois
(changements larges dans
la fusion)
Philippe Wanlin (2015)
54
Philippe Wanlin (2015)
55
Philippe Wanlin (2015)
56
Définir les clusters obtenus
• Variables binaires ou catégorielles : test du chi2
• Variables d’intervalle ou continues : t de student ou ANOVA (avec
tests post hoc s’il y a plus de deux clusters)
Philippe Wanlin (2015)
57
Philippe Wanlin (2015)
58
Philippe Wanlin (2015)
59
Philippe Wanlin (2015)
60
Philippe Wanlin (2015)
61
Vérifier le choix du nombre de clusters
• Étape 1 : refaire une analyse avec un autre algorithme
• Étape 2 : faire une analyse en clusters avec un algorithme divisif
• Étape 3 : couper l’échantillon en 2 et clusteriser chaque partie,
vérifier si l’appartenance clusters sur l’ensemble des données
correspond à celle sur la moitié
Philippe Wanlin (2015)
62
Étape 1 : autre algorithme
• Choisir une autre méthode (p. ex. centroïde)
• Refaire tout ce qu’on a fait
Philippe Wanlin (2015)
63
Philippe Wanlin (2015)
64
• Comparer les clusters (ANOVA)
Philippe Wanlin (2015)
65
Philippe Wanlin (2015)
66
Philippe Wanlin (2015)
67
Y a-t-il recouvrement entre les clustering ?
Philippe Wanlin (2015)
68
Philippe Wanlin (2015)
69
Philippe Wanlin (2015)
70
Étape 2 : clustering divisif
Philippe Wanlin (2015)
71
Philippe Wanlin (2015)
72
• Ne produit pas de dendrogramme
Philippe Wanlin (2015)
73
• Définir les groupes par une ANOVA
• Vérifier le recouvrement via un tableau croisé
Philippe Wanlin (2015)
74
Philippe Wanlin (2015)
75
Philippe Wanlin (2015)
76
Philippe Wanlin (2015)
77
Étape 3 : scinder l’échantillon
• Voir démonstration
Philippe Wanlin (2015)
78
Définir et représenter les clusters
• Choisir une solution (généralement celle de l’algorithme de Ward) et
décrire les clusters obtenus en s’appuyant sur les résultats de
l’analyse factorielle.
• La représentation des clusters sur des graphiques et nuages de points
peut être intéressante
Philippe Wanlin (2015)
79
Philippe Wanlin (2015)
80
Philippe Wanlin (2015)
81
• Dans l’onglet «tracé» demander de colorer en fonction de l’appartenance cluster
Philippe Wanlin (2015)
82
Valider le clustering
• Utiliser une ou des variables qui n’appartien(nen)t pas au clustering
pour prédire l’appartenance de groupe.
• Régressions :
• Logistique binaire
• Logistique multinomiale
• «ordinaire»
Voir démonstration
Philippe Wanlin (2015)
83
Références principales
• Everitt, B. S., Landau, S., Leese, M., & Stahl, D. (2011). Cluster Analysis
(5th éd.). London: Wiley.
• Clatworthy, J., Buick, D., Hankins, M., Weinman, J., & Horne, R.
(2005). The use and reporting of cluster analysis in health psychology:
a review. Britsh Journal of Health Psychology, 10, 329-358.
Philippe Wanlin (2015)
84
Exercice guidé
Avec le fichier transmission-constructivisme
Philippe Wanlin (2015)
85
Exercice individuel
Fichier jugement-interaction
Philippe Wanlin (2015)
86
Exercice libre
Philippe Wanlin (2015)
87
Téléchargement