Apprentissage numérique non supervisé pour la fouille de données

publicité
Analyse des données
M1- INFO
Nicoleta ROGOVSCHI
[email protected]
Plan











2
Méthodes d’analyse multivariée
Classification hiérarchique
Principe de la CAH
Algorithme
Choix du critère d’aggregation
Avantages et desavantages
Classification non hiérarchique
Principe des K-means
Algorithme
Avantages et desavantages
Conclusions
Analyses multivariées

Les méthodes d’analyse multidimensionnelle ou multivariée permettent de
traiter simultanémént de nombreuses variables caractérisant les individus
de l’étude
Ce sont des outils à but principalement descriptif :
 qui visent à obtenir une représentation synthétique d’un tableau de
données
 en extrayant le maximum d’ «information», plus exactement de variabilité,
de variance ou d’inertie
 avec en contrepartie le minimum de distorsion par rapport aux données
d’origine
3
Le but des méthodes
d’analyse multivariée
4

Lorsque nous sommes en présence de 2 ou 3 variables, il est possible
d'avoir une représentation graphique qui restitue toute l'information. Ce
n'est plus vrai si on s'intéresse à plus de 3 variables.

Le principe de l'analyse de données est de tracer sur un graphique en 2
dimensions (grâce à une projection) l'ensemble des observations.

Cependant, les axes choisis ne correspondent pas à l'une ou l'autre des
variables mais sont des axes virtuels, issus de combinaisons entre les
variables et calculés pour passer le plus près possible de tous les points
du nuage. Chaque point est projeté sur ce plan.

Le choix des axes est fait de manière à ce que le graphique résume les
données en minimisant la perte de l'information.
Types de méthodes d’analyses
multivariée
On distingue en général deux grand types de méthodes:
5

Ordination (méthodes factorielles) : permettent de dégager des grandes
axes suivant lesquels s’ordonnent les objets et/ou les variables

Classification (hiérarchique ou non) : définissent des grandes classes
dans lesquelles se rangent les objets (plus rarement les variables) selon
des critères de similarités
ORDINATION
en espace réduit
6
CLASSIFICATION
Classification non-supervisée
Le partitionnement de données (data clustering en anglais) est une méthode
statistique d’analyse des données qui a pour but de regrouper un ensemble
de données en différents paquets homogènes, c’est à dire que les données
de chaque sous-ensemble partagent des caractéristiques communes, qui
correspondent le plus souvent à des critères de proximité que l’on définit en
introduisant des mesures de distance.
7
Classification non-supervisée
Pour obtenir un bon partitionnement, il faut :
8

Minimiser l’inertie (la variance) intra-classe
pour obtenir des classes (= groupes ou
clusters) les plus homogènes possibles.

Maximiser l’inertie inter-classe afin d’obtenir
des groupes bien différenciés.
Taxonomie des méthodes de classification
 Classification hiérarchique
 Classification par partitionnement
 Classification à base de densité
 Classification à base de grille
9
9
Caractéristiques des méthodes de
classification
Les propriétés essentielles d’un bon algorithme de
partitionnement sont :









10

Indifférent à l’ordre des données en entrée
Interpretabilité des résultats
Capacité à gérer différents types de variables (attributs)
Découverte de clusters avec des formes variables
Incorporation de contraintes par l’utilisateur
Passage à l’échelle
Abilité de traiter des grandes bases de données
Compléxité au niveau du temps
Besoin minimum de connaissances du domaine pour
déterminer les paramètres
Prise en compte des "outliers“
Classification hiérarchique
11
Classification hiérarchique


12
Le résultat de ce type d’algorithmes est un
arbre de clusters, appelé dendogramme, qui
montre comment les clusters sont organisés.
En coupant le dendogramme au niveau désiré,
une classification des données dans des
groupes disjoints est ainsi obtenue.
Classification hiérarchique
Il existe 2 type d’approches de classification hiérarchique :


13
Ascendante (agglomérative)
Descendante (divisive)
Classification hiérarchique
 L’approche ascendante qui est la plus couramment utilisée consiste, à
construire l'hiérarchie à partir des objets (au départ on a un objet par classe),
puis à fusionner les classes les plus proches, afin de n'en obtenir plus qu'une
seule contenant tous les objets.
 L’approche descendante, moins utilisée, consiste à construire l'hiérarchie
à partir d'une seule classe regroupant tous les objets, puis à partager celle-ci
en deux groupes. Cette opération est répétée à chaque itération jusqu'à ce
que toutes les classes soient réduites à des singletons.
14
Avantages et desavantages
Les avantages :
– Facilité pour traiter différentes formes de similarité ou de
distance entre objets
– Applicable aux différents types d’attributs
– Une flexibilité en ce qui concerne le niveau de
granularité
15
Les desavantages :
– Choix du critère d’arrêt qui reste vague
– Interprétation problématique du dendogramme lorsque
le nombre d’individus est très important
Classification hiérarchique
ascendante
16
Classification hiérarchique ascendante (CAH)
17

Nécessité de se munir d’une métrique (distance
euclidienne,...).

Nécessité de fixer une règle pour agréger une
donnée ou un groupe de donnée avec un autre
groupe : le critère d’agrégation.
Algorithme
18
1.
Calculer la matrice de distance entre les n éléments
et regrouper les 2 éléments les plus proches.
2.
Si toutes les données ne sont pas regroupées en un
seul groupe, retourner en 1.
3.
Sinon construire le dendrogramme (arbre
hiérarchique) et utiliser un critère de qualité (DaviesBouldin,...) pour choisir la coupure la plus pertinente.
4.
En déduire une segmentation des données.
Exemple
Etape 1 : n individus / n classes
1
3
2
4
5
19
Exemple
Etape 2 : n -1 classes
Proximité entre les éléments
1
3
2
4
5
20
Exemple
Etape 3 : n - 2 classes
Proximité entre les éléments
1
3
2
4
5
21
Exemple
Etape 4 : n - 3 classes
Proximité entre les éléments
1
3
2
4
5
22
Exemple
Etape 5 : n - 4 classes
Proximité entre les éléments
1
3
2
4
5
23
Exemple
Proximité entre les éléments
Etape 5 : n - 4 classes
2 Classes
1
3
2
4
5
24
Classe 1
Classe 2
Interprétation
25
5
4
3
1
2
Choix de la règle
d’aggregation
Ce choix est très important, avec des règles différentes on obtient
des résultats différents !
Il existe de nombreuses règles possibles :
26

Lien minimum (single link)

Lien maximum (complète link)

Lien moyen (average link)

Le critère de Ward
Choix de la règle
d’aggregation

Lien minimum (single link)

Dsl Ci , C j   min x, y d ( x, y) x  Ci , y  C j

Lien maximum (complète link)

Dcl Ci , C j   max x, y d ( x, y) x  Ci , y  C j


lien maximum
(max)
Lien moyen (average link)
1
Davg Ci , C j  
Ci  C j
27

lien minimum
(min)
 d ( x, y)
xCi , yC j
lien moyen
(moyenne)
Le critère de Ward
 Distance entre les centres des clusters :
Dcentres Ci , C j   d (ri , rj )
 Le critère de Ward
Dw Ci , C j    x  ri    x  rj    x  rij 
2
xCi
28
où :
ri: centre du cluster Ci
rj: centre du cluster Cj
rij: centre du cluster Cij
2
xC j
2
xCij
Le critère de Ward




29
Le critère le plus utilisé
Il a tendance à donner des classes de
proportions égales
C’est le critère à utiliser sur les composantes
principales
Il est moins performant que le critère du lien
minimum lorsque les classes sont allongées ou
irrégulières
Classification non hiérarchique
(par partitionnement)
30
Classification non hiérarchique
Puisque l’examen de tous les sous-ensembles possibles est
infaisable du point de vue computationnel, quelques heuristiques
gloutonnes sont utilisées sous forme d’optimisation itérative. Plus
précisément, cela correspond aux différents schémas de réallocation
qui réaffectent itérativement les points entre les k clusters.

Par rapport aux méthodes hiérarchiques traditionnelles,
dans lesquelles les clusters ne sont pas revus après avoir été
construits, les méthodes par réaffectations améliorent les clusters
progressivement.

31
Principe du K-means



32
La méthode des K-Moyennes est un cas particulier de la méthode
des centres mobiles.
L’objectif principal de ces méthodes est de choisir un certain
nombre de représentants (= centre ou prototypes) dans l’espace
des données. Chaque prototype représente un groupe.
Ainsi à la fin du processus on associe chaque point de donnée à
son prototype le plus proche, de façon à obtenir une segmentation
des données en différents groupes homogènes.
Algorithme



33
Initialisation :
- Choisir k points au hasard appelés centres
Étape d’affectation
– Affecter les points aux centres les plus proches
– On obtient une partition C
Étape de mis à jour des centres
– Calculer les nouveaux centres
Algorithme
EXEMPLE :
34
Algorithme
EXEMPLE :
35
Algorithme
EXEMPLE :
36
Algorithme
EXEMPLE :
37
Algorithme
EXEMPLE :
38
Algorithme
EXEMPLE :
39
Algorithme
EXEMPLE :
40
Algorithme
EXEMPLE :
41
Algorithme
EXEMPLE :
42
Problèmes

Choix de la mesure de distance (métrique)
Ce choix est très important, avec des mesures de distance
différentes on obtient des résultats différents ! Le plus souvent on utilise
la distance euclidienne :
n
x y
i 1
43
i
2
i
avec n le nombre des variables.
Problèmes
Instabilité
Le résultat final est fortement dépendant de l’initialisation des centres.
Pour remédier à ça on lance l’algorithme plusieurs fois avec une
initialisation aléatoire et on ne garde que le meilleur résultat.

Choix du nombre des groupes
Le nombre de groupes obtenu en sortie de l’algorithme doit être
choisi par l’utilisateur. Or en général il n’est pas connu ! On lance
donc généralement l’algorithme plusieurs fois avec des choix
différents pour le nombre de groupes et on ne garde que le
meilleur résultat.

44
Avantages
– L’outil de classification le plus utilisé dans les
applications scientifiques et industrielles
– Méthode très rapide
– Un algorithme simple qui se base sur un fondement
solide de l’analyse de la variance
– Comme la CAH, k-means peut s’appliquer sur les
composantes principales retenues
45
Desavantages
– Les résultats dépendent beaucoup de l’initialisation
– Le minimum local calculé semble être très loin du
minimum global
– Le processus est sensible aux données atypiques
("outliers")
46
Conclusions
Il existe de très nombreuses méthodes de segmentation des
données. Les résultats obtenus dépendent :
- De l’algorithme utilisé (K-means, Méthodes Ascendantes
selon la règle d’agrégation, Méthodes Descendantes, ...).
- De la métrique (distance Euclidienne, distance de Manhattan,
distance de Minkowski, ...).
- De l’indice de performance (Davies-Bouldin, Silhouette,
Calinski-Harabatz,...).
Cependant plus les groupes sont compacts et bien séparés, plus
les différentes méthodes aurons tendance à donner les mêmes
résultats.
47
Téléchargement