Fouille des données - Maria Malek

publicité
Fouille des données
Méthodes de regroupement (clustering)
Maria Malek
Filière TSI
EISTI
Fouille des données – p. 1/1
Applications du Data Mining
Domaines supervisés :
Fouille des données – p. 2/1
Applications du Data Mining
Domaines supervisés :
Chaque instance = p variables predictives + 1 variable cible (à
prédire)
Fouille des données – p. 2/1
Applications du Data Mining
Domaines supervisés :
Chaque instance = p variables predictives + 1 variable cible (à
prédire)
Classification : variable
une maladie, etc.
cible discrète Exemple : diagnostiquer
Fouille des données – p. 2/1
Applications du Data Mining
Domaines supervisés :
Chaque instance = p variables predictives + 1 variable cible (à
prédire)
Classification : variable
une maladie, etc.
Régression : variable
valeur d’un bien, etc.
cible discrète Exemple : diagnostiquer
cible continue Exemple : estimer la
Fouille des données – p. 2/1
Applications du Data Mining
Domaines supervisés :
Chaque instance = p variables predictives + 1 variable cible (à
prédire)
Classification : variable
une maladie, etc.
Régression : variable
valeur d’un bien, etc.
cible discrète Exemple : diagnostiquer
cible continue Exemple : estimer la
Domaines non supervisés :
Fouille des données – p. 2/1
Applications du Data Mining
Domaines supervisés :
Chaque instance = p variables predictives + 1 variable cible (à
prédire)
Classification : variable
une maladie, etc.
Régression : variable
valeur d’un bien, etc.
cible discrète Exemple : diagnostiquer
cible continue Exemple : estimer la
Domaines non supervisés :
Regroupement(clustering) Exemple : détecter le profil utilisateur,
etc.
Fouille des données – p. 2/1
Applications du Data Mining
Domaines supervisés :
Chaque instance = p variables predictives + 1 variable cible (à
prédire)
Classification : variable
une maladie, etc.
Régression : variable
valeur d’un bien, etc.
cible discrète Exemple : diagnostiquer
cible continue Exemple : estimer la
Domaines non supervisés :
Regroupement(clustering) Exemple : détecter le profil utilisateur,
etc.
Association Exemple analyser les logs utilisateurs d’un serveur
web, etc.
Fouille des données – p. 2/1
Tâches du Data Mining
Prédiction :
Classification,
Régression,
Association.
Fouille des données – p. 3/1
Tâches du Data Mining
Prédiction :
Classification,
Régression,
Association.
Description
Visualisation,
Regroupement,
Association.
Fouille des données – p. 3/1
Groupement, Segmentation & Catégorisation
On dispose d’un ensemble de données X non étiquetés,
il s’agit de les regrouper en K groupes vérifiant la
propriété suivantes.
Fouille des données – p. 4/1
Groupement, Segmentation & Catégorisation
On dispose d’un ensemble de données X non étiquetés,
il s’agit de les regrouper en K groupes vérifiant la
propriété suivantes.
1. Les données appartenant à un groupe Gi , i ∈ 1...k
sont similaires.
Fouille des données – p. 4/1
Groupement, Segmentation & Catégorisation
On dispose d’un ensemble de données X non étiquetés,
il s’agit de les regrouper en K groupes vérifiant la
propriété suivantes.
1. Les données appartenant à un groupe Gi , i ∈ 1...k
sont similaires.
2. 2 exemples différents appartenant à 2 groupes différents ne
sont pas similaires.
Fouille des données – p. 4/1
Groupement, Segmentation & Catégorisation
On dispose d’un ensemble de données X non étiquetés,
il s’agit de les regrouper en K groupes vérifiant la
propriété suivantes.
1. Les données appartenant à un groupe Gi , i ∈ 1...k
sont similaires.
2. 2 exemples différents appartenant à 2 groupes différents ne
sont pas similaires.
Exemple d’application : Analyse de logs sur un site
E-Commerce : Découvrir les profils utilisateurs.
Fouille des données – p. 4/1
Regroupement en trois catégories ...
Fouille des données – p. 5/1
Définitions, Notations
X : l’ensemble des individus, |X| = N (cardinalité de X).
K : le nombre de groupes (paramètre de l’algorithme).
Fouille des données – p. 6/1
Définitions, Notations
X : l’ensemble des individus, |X| = N (cardinalité de X).
K : le nombre de groupes (paramètre de l’algorithme).
Soit X un ensemble d’exemples décrit par P attributs :le
centre de gravité g de X, est un exemple synthétique qui est
décrit par : g = {a¯1 ...āi } où āi est la moyenne de valeurs
ai dans X.
Fouille des données – p. 6/1
Définitions, Notations
X : l’ensemble des individus, |X| = N (cardinalité de X).
K : le nombre de groupes (paramètre de l’algorithme).
Soit X un ensemble d’exemples décrit par P attributs :le
centre de gravité g de X, est un exemple synthétique qui est
décrit par : g = {a¯1 ...āi } où āi est la moyenne de valeurs
ai dans X.
: Trouver k groupes : chacun représenté par son
centre de gravité gi .
Objectif
Approches non hiérarchique (centres mobiles).
Approches hiérarchique.
Fouille des données – p. 6/1
Méthode des centres mobiles
Définitions :
L’inertie de X, contenant N données :
1 PN
I = N i=1 d2 (xi , g) où g : Centre de gravité de X.
Soit I1 , .., In les inerties associées aux groupes g1 ...gk
Pk
l’inertie intra-classe : Iw =
i=1 Ik
Soit I1 ...Ik les inerties associées aux groupes g1 ...gk
Pk
2 (g , g)
l’inertie inter-classe : IB =
w
d
i
i=1 i
I = IW + IB
: Avoir des groupes condensés, séparés si
possible: Minimiser Iw .
Objectif
Fouille des données – p. 7/1
Algorithme des centres mobiles
entrée : X jeu de données K ∈ N (I ← ∞).
prendre K centres arbitraire Ck ∈ X
REPETER
Pour k ∈ {1..K} faire
Gk ← Φ
Pour i ∈ {1..N }
· K∗ ← argmink∈{1..K} d(xi , Ck )
· Gk∗ ← Gk∗ ∪ xi
Pour k ∈ {1..k}
Ck ← Centre de gravité de Gk
I ← Iw
Calculer Iw
JUSQU’A |I − IW | < Fouille des données – p. 8/1
Regroupement Hiérarchique
Approche ascendante qui permet de construire des
regroupements d’individus au fur et à mesure,
Fouille des données – p. 9/1
Regroupement Hiérarchique
Approche ascendante qui permet de construire des
regroupements d’individus au fur et à mesure,
N-1 groupes, N-2 groupes, 1 groupe.
Fouille des données – p. 9/1
Regroupement Hiérarchique
Approche ascendante qui permet de construire des
regroupements d’individus au fur et à mesure,
N-1 groupes, N-2 groupes, 1 groupe.
On obtient un arbre
les feuilles sont les exemples (Nf euilles)
la racine représente X.
Une coupe horizontale de cet arbre nous permettra
de déterminer K groupes.
Fouille des données – p. 9/1
Regroupement hiérarchique
Fouille des données – p. 10/1
Algorithme de ségmentation hiérarchique
Entrée : N exemples
Fouille des données – p. 11/1
Algorithme de ségmentation hiérarchique
Entrée : N exemples
N groupes Gi ← xi
Fouille des données – p. 11/1
Algorithme de ségmentation hiérarchique
Entrée : N exemples
N groupes Gi ← xi
Marquer Gi prenables.
Fouille des données – p. 11/1
Algorithme de ségmentation hiérarchique
Entrée : N exemples
N groupes Gi ← xi
Marquer Gi prenables.
Pour d=1 jusqu’a N-1
choisir Gi , Gj prenables.
les fusionner : Gd ← Gi ∪ Gj .
Marquer Gi , Gj non prenables.
Marquer Gd prenable.
Fouille des données – p. 11/1
Le choix des groupes à fusionner
Pour trouver (Gi , Gj ) à fusionner 4 approches sont
possibles :
Saut minimal : La plus petite distance soit minimale.
Saut maximal : La plus grande distance soit minimale.
Saut moyen : minimiser la distance entre centre de
gravités.
Méthode de Ward perte de Iw minimale.
SGi ,Gj =
wi =
wj =
wi wj 2
wi +wj d (gi , gj )
|Gi |
N
|Gj |
N
Fouille des données – p. 12/1
Téléchargement