Caractérisation et Classification

publicité
Classification et caractérisation
• Classification
Š arbre de décision
Š classificateur Bayésien
Š réseau de neurones
réseau de neurones
Š …
• Caractérisation
Š Description des concepts
Š Généralisation des données
Généralisation des données
Š Induction orientée attribut
Š Analyse de la pertinence des attributs
Analyse de la pertinence des attributs
Š Mesure de pertinence
Š Caractérisation analytique
1
Classification vs. Prédiction
2
• Classification
Classification: Š prédit la catégorie d’un objet
Š construit un modèle basé sur un jeu d’apprentissage et des valeurs (nom des catégories) et l’utilise pour classer des données nouvelles
• Prédiction: Š modélise des données numériques pour prédire des valeurs inconnues ou manquantes
valeurs inconnues ou manquantes
• Applications
Š diagnostique médical
di
ti
édi l
Š séquences codantes
Š structure secondaire, tertiaire
Š …
Classification
• Méthodes
é
Š arbre de décision
arbre de décision
Š classificateur bayésien
Š réseau de neurones
Š plus proches voisins
Š règles d
règles d’association
association
Š algorithme génétique
g
g
q
Š machine à vecteur de support
Š modèle de Markov
Š…
3
Classification : 2 étapes
• Construction du modèle
C
i d
dèl
Š
Š
chaque objet appartient à une classe connue
jeu de données d’apprentissage : ensemble des objets utilisés pour la construction du modèle
• Utilisation du modèle pour classer des objets nouveaux ou inconnus
Š
estimation de la précision du modèle
ƒ les classes connues du jeu d’apprentissage sont comparées à celles j
pp
g
p
prédites
ƒ précision : pourcentage d’objets de jeu de test correctement classés
ƒ le jeu de test est indépendant du jeu d’apprentissage sinon risque de biais
4
5
Classification : construction du modèle
algorithmes
de classification
de classification
Jeux d’apprentissage
NAME
Mike
Mary
Bill
Bill Jim
Dave
Anne
RANK
Assistant Prof
Assistant Prof
Assistant Prof
Professor
Associate Prof
Assistant Prof
Assistant Prof
Associate Prof
YEARS
3
7
2
7
6
3
TENURED
no
yes
yes
yes
no
no
Classificateur
(modèle)
IF rank = ‘professor’
OR years > 6
OR years > 6
THEN tenured = ‘yes’ 6
Classification : utilisation du modèle
Classificateur
Données
nouvelles
Jeu d
de test
(J ff P f
(Jeff, Professor, 4)
4)
NAME
Tom
Merlisa
George
Joseph
RANK
Assistant Prof
Associate Prof
Professor
Assistant Prof
YEARS
2
7
5
7
TENURED
no
no
yes
yes
Tenured?
Apprentissage supervisé ou non
• Apprentissage supervisé (classification)
A
i
i é ( l ifi i )
Š
Š
supervision : le jeu de données d’apprentissage fournit les classes des objets
les nouveaux objets sont classés en fonction du jeu d’apprentissage
• Apprentissage non supervisé (clustering)
Š
Š
Pas de classes définies
Étant donné un ensemble de mesures, d’observations, etc., essayer d’établir l’existence de classes ou de clusters dans les données
7
Considérations pour la classification
• Nettoyage
Nettoyage des données
des données
Š pré‐traiter les données pour réduire le bruit et gérer les valeurs manquantes
• Analyse de pertinence
Š supprimer les attributs non pertinents ou redondants
• Transformation des données
f
d d
é
Š généraliser ou normaliser les données
• Précision de la prédiction
Précision de la prédiction
• Efficacité et mise à l’échelle
Š pour construire le modèle
pour construire le modèle
Š pour l’utiliser
• Robustesse
Š tolérance au bruit et aux données manquantes
• Interprétabilité
Š compréhension des données via le modèle
éh i d d
é
i l
dèl
• Qualité des règles
Š taille de l
taille de l’arbre
arbre de décision
de décision
Š règles de classification compactes
8
9
Classification par arbre de décision
• Arbre de décision
A b d dé i i
Š
Š
Š
nœuds internes : test sur un attribut
b
branches : résultat d’un test / valeur de l’attribut
h
é lt t d’ t t / l
d l’ tt ib t
feuilles : classe
Ciel
dégagé
Humidité
forte
non
pluvieux
couvert
Vent
oui
normale
oui
faible
fort
non
oui
Classification par arbre de décision
• Gé
Génération de l’arbre en 2 étapes
é ti d l’ b
2 ét
Š Construction
ƒ au départ, tous les exemples du jeu d’
d’apprentissage sont à la racine
ti
tàl
i
ƒ partitionne récursivement les exemple en p
p
sélectionnant des attributs
Š Élagage
Él
ƒ identification et suppression des branches pp
correspondant à des exceptions ou du bruit
• Utilisation de l’arbre
Utili ti d l’ b
Š teste les valeurs des attributs avec l’arbre de décision
10
11
Exemple : achète un ordinateur ?
age
<=30
<=30
31…40
>40
>40
>40
31…40
<=30
<=30
>40
<=30
31…40
31 40
31…40
>40
income student credit_rating
credit rating
high
no
fair
high
no
excellent
high
g
no
fair
medium
no
fair
low
yes fair
low
yes excellent
low
yes excellent
medium
no
fair
low
yes fair
medium
yes fair
medium
yes excellent
medium
no
excellent
hi h
high
yes fair
f i
medium
no
excellent
age?
<=30
overcast
30 40
30..40
student?
yes
>40
credit rating?
no
yes
excellent
fair
no
yes
no
yes
Algorithme pour l’induction d’arbre de décision
12
• Algorithme
Algorithme glouton
glouton
Š approche descendante récursive diviser pour régner
Š au départ, tous les objets sont à la racine
au départ, tous les objets sont à la racine
Š attributs catégoriels (les valeurs continues sont discrétisées à l’avance)
Š les exemples sont partitionnés récursivement par la sélection d’attribut
Š les attributs sont sélectionnés sur la base d’une heuristique ou d’une mesure statistique
• Conditions d’arrêt
Š tous les exemples pour un nœud appartiennent à la même classe
tous les exemples pour un nœud appartiennent à la même classe
Š plus d’attribut pour partitionner, dans ce cas la classe attribuées correspond à celle la plus représentée
Š plus d’exemple à classer
Mesure pour la sélection d’attribut. Exemple : gain d’information (ID3 et c4.5)
• Sélectionne
Sélectionne ll’attribut
attribut qui a le gain le plus élevé
qui a le gain le plus élevé
• Soient 2 classes P et N
Š Soit un jeu d
Soit un jeu d’apprentissage
apprentissage S qui contient p objets de classe P et n S qui contient p objets de classe P et n
objets de classe N
Š La quantité d’information nécessaire pour décider si un objet de S appartient à P ou N est définie comme
appartient à P ou N est définie comme
p
p
n
n
I ( p, n) = −
log 2
−
log 2
p+n
p+n p+n
p+n
• Les valeurs de A partitionnent S en {S1, …, Sv}
Š si Si contient pi exemples de P et ni exemple de N, l’entropie ou ll’information
information attendue nécessaire pour classer les objets dans tous les attendue nécessaire pour classer les objets dans tous les
sous‐arbres Si est
pi + ni
E ( A) = ∑
I ( pi , ni )
i =1 p + n
ν
• Le gain d’information de l’attribut A est Gain( A) = I ( p, n) − E ( A)
13
14
Exemple : achète un ordinateur ?
Œ
Œ
Classe P : achète un ordinateur = oui
Classe
P : achète un ordinateur oui
Classe N : achète un ordinateur = non
Œ
I(p,n) = I(9,5) = 0.940
Œ
Calcul de l’entropie
Œ
Gain d’information
Œ
De même
age
<=30
30…40
>40
pi
2
4
3
5
4
E ( age ) =
I ( 2 ,3 ) +
I ( 4 ,0 )
14
14
5
+
I ( 3 , 2 ) = 0 . 69
14
Gain(age) = I ( p, n) − E (age)
Gain(income) = 0.029
Gain( student ) = 0.151
Gain(credit _ rating ) = 0.048
ni
3
0
2
I(pi, ni)
0.971
0
0.971
Éviter de trop modéliser le jeu d’apprentissage (overfitting)
15
• LL’arbre
arbre généré risque de trop refléter le jeu d
généré risque de trop refléter le jeu d’apprentissage
apprentissage
Š
Š
trop de branches, certaines peuvent représenter des anomalies
précision faible pour des données nouvelles
précision faible pour des données nouvelles
• 2 approches
Š
Š
pré élagage : arrêter la construction de l
pré‐élagage
: arrêter la construction de l’arbre
arbre tôt tôt = ne pas partitionner ne pas partitionner
un nœud si la mesure de qualité dépasse un seuil
ƒ difficulté de fixer le seuil
post‐élagage : supprimer des branches d’un arbre totalement construit él
d b
h d’
b
l
= obtenir une séquence d’arbres progressivement élagués
ƒ utiliser un jeu de données différents pour décider du meilleur arbre utiliser un jeu de données différents pour décider du meilleur arbre
élagué
Améliorations de l’algorithme
• Attributs définis sur des valeurs continues
é
Š définir dynamiquement les valeurs pour définir dynamiquement les valeurs pour
partitionner les données
• Tolérance
Tolérance aux données manquantes
aux données manquantes
Š attribuer la valeur la plus fréquente
Š attribuer une probabilité pour chaque valeur possible
ibl
16
Classification Bayésienne
• A
Apprentissage probabiliste : calcule explicitement les probabilités des ti
b bili t
l l
li it
tl
b bilité d
hypothèses, une des approches les plus pragmatiques pour certains types d apprentissage
d’apprentissage
• Incrémental
Incrémental : chaque exemple met à jour la probabilité qu
: chaque exemple met à jour la probabilité qu’une
une hypothèse hypothèse
est correcte. Des connaissances a priori peuvent être combinées avec des données d’observation.
données d
observation.
• Prédiction
Prédiction probabiliste : prédit plusieurs hypothèses, pondérées par leur probabiliste : prédit plusieurs hypothèses pondérées par leur
probabilité
17
Classification Bayésienne
• Le problème de classification peut être formulé en è
ê
é
utilisant les probabilités a posteriori :
utilisant les probabilités a posteriori :
Š P(C|X) = probabilité que l’objet X = <x1,…,xk> est de la classe C
• Exemple : P(non|ciel=dégagé,vent=fort,…)
Exemple : P(non|ciel=dégagé vent=fort )
• Idée : attribuer à l’objet X la classe qui maximise P(C|X)
( | )
18
Estimation des probabilités a posteriori
• Théorème de Bayes
é è
Š P(C|X) = P(X|C)∙P(C) / P(X)
P(C|X) = P(X|C)∙P(C) / P(X)
• P(X) est constant pour toutes les classes
• P(C) = fréquence de la classe C
• C tel que P(C|X) est maximum = C
C tel que P(X|C) P(C) / P(X) est maximum
C tel que P(X|C)∙P(C) / P(X) est maximum
• Problème : pas faisable en pratique !
p
p q
19
Classificateur Bayésien naïf
• Assomption naïve : indépendance des attributs
A
ti
ï
i dé
d
d
tt ib t
Š
P(x1,…,xk|C) = P(x1|C)∙…∙P(xk|C)
• si le i‐ième attribut est catégoriel :
P(xi|C) est estimée comme la fréquence des échantillons qui ont pour valeur xi et qui sont de classe C
• si le i‐ième attribut est continu :
P(xi|C) est estimée avec une gaussienne
• calcul facile
20
21
Exemple
Ciell
Ci
dégagé
dégagé
couvert
pluvieux
pluvieux
pluvieux
couvert
dégagé
dégagé
pluvieux
dégagé
couvert
couvert
pluvieux
•
•
TTempérature
é
chaud
chaud
chaud
moyenne
frais
frais
frais
moyenne
frais
moyenne
moyenne
moyenne
chaud
moyenne
Humidité
H
idi é
forte
forte
forte
forte
normale
normale
normale
forte
normale
normale
normale
forte
normale
forte
Vent
V
faux
vrai
faux
vrai
faux
vrai
vrai
faux
faux
faux
vrai
vrai
faux
vrai
Classe
Cl
N
N
P
P
P
N
P
N
P
P
P
P
P
N
Un objet X = <pluvieux, chaud, forte, faux>
P(X|p) P(p) =
P(X|p).P(p) = Ciel
P(dégagé|p) = 2/9
P(dégagé|n) = 3/5
P(couvert|p) = 4/9
P(couvert|n) = 0
P(pluvieux|p) = 3/9
P(pluvieux|n) = 2/5
température
P(chaud|p)
(
|p) = 2/9
/
P(chaud|n)
(
| ) = 2/5
/
P(moyenne|p) = 4/9
P(moyenne|n) = 2/5
P(frais|p) = 3/9
P(frais|n) = 1/5
humidité
P(forte|p) = 3/9
P(forte|n) = 4/5
P(normale|p) = 6/9
P(normale|n) = 2/5
vent
P(vrai|p) = 3/9
P(vrai|n) = 3/5
P(faux|p) = 6/9
P(faux|n) = 2/5
P(p) = 9/14
P(n) = 5/14
P(pluvieux|p)∙P(chaud|p)∙P(forte|p)∙P(faux|p)∙P(p) = 3/9∙2/9∙3/9∙6/9∙9/14 = 0.010582
•
P(X|n)∙P(n) = P(pluvieux|n)∙P(chaud|n)∙P(forte|n)∙P(faux|n)∙P(n) = 2/5∙2/5∙4/5∙2/5∙5/14 = 0.018286
•
X est classé comme n
L’hypothèse d’indépendance …
• … rend le calcul possible
dl
l l
ibl
• … mène à des classificateurs optimaux si elle est vérifiée
• … mais c’est rarement le cas, car les attributs sont souvent corrélés
• tentative de pallier cette difficulté :
Š
Š
réseaux Bayésiens : combinent le raisonnement Bayésien avec la relation causale entre les attributs
arbres de décision : considère un seul attribut à la fois, en commençant par le plus important
t
l l i
t t
22
Méthodes basées sur des instances (Instance‐Based Methods)
• Apprentissage basé sur des instances : é
Š Stocke le jeu d
Stocke le jeu d'apprentissage
apprentissage et effectue le et effectue le
traitement quand une nouvelle instance doit être classée
• Approches typiques
Approches typiques
Škp
plus proches voisin (k
p
( nearest neighbors)
g
)
ƒ chaque objet représente un point dans l’l’espace
Š régression
ƒ loess, approximation locale
23
24
Algorithme des k plus proches voisins
• Chaque
Chaque objet est représenté par un point dans un espace à n
objet est représenté par un point dans un espace à n
dimensions
• Les plus proches voisins sont définis en terme de distance Les plus proches voisins sont définis en terme de distance
(euclidienne, manhattan, …) ou dissimilarité
• La fonction de prédiction peut être discrète/nominale ou La fonction de prédiction peut être discrète/nominale ou
continue
Š discrète : valeur la plus fréquente
discrète : valeur la plus fréquente
Š continue : moyenne
• Diagramme de Voronoï
Diagramme de Voronoï : surface de décision induite par le : surface de décision induite par le
plus proche voisin
.
_
_
_
+
_
_
+
.
xq
+
_
+
.
.
.
.
Discussion sur l’algorithme des k plus proches voisins
• Pondération en fonction de la distance
dé i
f
i d l di
Š p
pondère la contribution de chacun des k voisins en fonction de sa distance à l’objet à classer
1
w≡
d ( xq , xi )2
Š plus on est proche, plus on a de poids
plus on est proche plus on a de poids
• Robuste dans le cas de données bruitées
• Problème de dimensionnalité : la distance peut être dominée par des attributs non pertinents
dominée par des attributs non pertinents
Š solution : normalisation des dimensions ou élimination des attributs non pertinents
25
Réseau de neurones
• Avantages
Š précision souvent élevée
précision souvent élevée
Š robuste, marche lorsque le jeu d’apprentissage contient des erreurs
Š sortie peut être valeur discrète, continue, ou un ti
t êt
l
di èt
ti
p
vecteur de plusieurs valeurs discrètes ou continues
• Critiques
Š apprentissage long
apprentissage long
Š difficile de comprendre le modèle
Š difficile d’incorporer des connaissances
26
27
Un neurone
• vecteur x n‐dimensionnel est intégré en y par le é é
produit scalaire (xi.wi), le biais et la fonction produit scalaire (x
), le biais et la fonction
d’activation
x0
w0
x1
w1
xn
wn
Vecteur
entrée x
Vecteur
poids w
∑
somme
pondérée
biais
f
fonction
d’activation
sortie y
Entraînement
• Objectif
Obj tif
Š
obtenir un ensemble de poids permettant de classer correctement (presque tous) les objets du jeu d’apprentissage
(presque tous) les objets du jeu d
apprentissage
• Étapes
Š
Š
Š
IInitialiser les poids avec des valeurs aléatoires
iti li l
id
d
l
lé t i
Passer les objets au réseau un par un
pour chaque unité (neurone)
pour chaque unité (neurone)
ƒ calculer l’entrée (combinaison linéaire de toutes les entrées)
ƒ calculer la sortie en utilisation la fonction d
calculer la sortie en utilisation la fonction d’activation
activation
ƒ calculer l’erreur
ƒ mettre à jour le biais et les poids
j
p
28
29
Perceptron (multicouche)
vecteur sortie
Err j = O j (1 − O j )∑ Errk w jk
k
nœuds sorties
θ j = θ j + (l)) Err j
wij = wij + (l ) Err j Oi
nœuds cachés
Err j = O j (1 − O j )(T j − O j )
wij
nœuds entrées
Oj =
−I
1+ e j
I j = ∑ wij Oi + θ j
i
vecteur entrée : xi
1
Performances du classificateur
• Positif (P=•+•), Négatif (N=•+•), Prédit Positif (PP=•+•), Prédit Négatif (PN=•+•), Vrai Positif (VP=•), Faux Positif (FP=•), Vrai Négatif(VN=•), Faux Négatif (FN=•)
• Sensibilité=VP/P
• Spécificité=VN/N
• Précision=VP/(VP+FP) = VP/PP
• Exactitude=sensibilité.P/(P+N) + spécificité.N/(P+N) = (VP+VN)/(P+N)
30
Estimation du taux d’erreurs
• partitionnement :
partitionnement :
Š
utilisation de jeux indépendants : apprentissage (2/3), test (1/3)
• validation croisée :
Š
Š
Š
Š
diviser les données en k partitions
diviser
les données en k partitions
utiliser k‐1 partitions pour l’apprentissage et la dernière pour le test
précision = nombre d’objets bien classés lors des k itérations / nombre d’objets
leave‐one‐out (validation croisée avec k = s)
• bootstrapping
Š
tirage aléatoire avec remise des objets constituant le jeu tirage
aléatoire avec remise des objets constituant le jeu
d’apprentissage
31
Classification et caractérisation
• Classification
Š arbre de décision
Š classificateur Bayésien
Š réseau de neurones
réseau de neurones
Š …
• Caractérisation
Š Description des concepts
Š Généralisation des données
Généralisation des données
Š Induction orientée attribut
Š Analyse de la pertinence des attributs
Analyse de la pertinence des attributs
Š Mesures de pertinence
Š Caractérisation analytique
32
Description des concepts
• Fouille de données descriptive ou prédictive
F ill d d
é d
i ti
édi ti
Š
Š
Fouille descriptive : décrits les concepts ou les données pertinentes pour l’analyse
pour l
analyse sous une forme concise, générale, informative, sous une forme concise générale informative
discriminative.
Fouille prédictive : construit un modèle des données basé sur leur ou e p éd ct e co st u t u
odè e des do ées basé su eu
analyse et prédit les tendances et les propriétés de données nouvelles ou inconnues
• Description des concepts
Š
Š
Caractérisation : fournit une généralisation concise et succincte d’un ensemble de données.
bl d d
é
Comparaison : fournit des descriptions en comparant plusieurs ensembles de données
ensembles de données.
33
34
Généralisation des données
• Gé
Généralisation des données
é li ti d d
é
Š processus d
processus d’abstraction
abstraction des données depuis un des données depuis un
grand volume de données de bas niveau vers un niveau d’abstraction
niveau d
abstraction plus élevé
plus élevé
1
2
3
4 : category
Š
Niveaux conceptuels
approches :
pp
5 : item
ƒ cube de données (OLAP)
ƒ Hiérarchie de concepts
ƒ induction orientée attribut (Attribute
induction orientée attribut (Attribute‐
oriented induction)
Induction orientée attribut
• P
Proposée en 1989 (KDD ’89 Workshop)
é
1989 (KDD ’89 W k h )
• Ne se limite pas à des données nominales ni à des mesures particulières
• Principes :
Principes :
Š
Š
Š
Š
sélection des données pertinentes
généralisation par suppression d’attribut
généralisation par suppression d
attribut ou généralisation d
ou généralisation d’attribut
attribut
agrégation par fusion des tuples généralisés identiques en conservant leurs effectifs
leurs effectifs
présentation interactive à l’utilisateur
35
Principes de l’induction orientée attribut • Suppression
Suppression d
d’attribut
attribut : supprime l
: supprime l’attribut
attribut A si le nombre de A si le nombre de
valeurs prises par cet attribut est grand et
Š
Š
ilil n
n’yy a pas d
a pas d’opérateur
opérateur de généralisation ou
de généralisation ou
les niveaux supérieurs d’abstraction de A sont exprimés par d’autres attributs
• Généralisation d’attribut : s’il y a un grand nombre de valeurs distinctes pour A et qu’il existe un opérateur de généralisation
• Contrôle :
ôl
Š
Š
Seuil par attribut : en général de 2 à 8, spécifié par l’utilisateur ou par défaut (attribute generalization threshold control)
défaut (attribute
Seuil par taille de la table/relation : nombre de tuples
maximal(generalized relation threshold control)
36
Algorithme simple
• RelationInitiale : table à généraliser
: table à généraliser
• PréGénéralisée : déterminer le plan de généralisation pour chaque attribut en fonction de l’analyse
chaque attribut en fonction de l
analyse de ses valeurs : de ses valeurs :
suppression ou jusqu’à quel niveau généraliser ?
: table résultant de l’application
application du plan
du plan
• GénéraliséePrimaire : table résultant de l
• Présentation : interaction de l’utilisateur :
Š
Š
ajustement des seuils (drill
ajustement
des seuils (drill‐down,
down, roll
roll‐up)
up)
représentation sous forme ƒ de règles
ƒ de tableaux croisés
ƒ de graphiques…
37
38
Exemple
Name
Gender
Jim
Woodman
Scott
L h
Lachance
Laura Lee
…
M
F
…
R
Removed
d
R i d
Retained
Major
Birth-Place
Residence
Phone #
GPA
Vancouver,BC, 8-12-76
Canada
CS
Montreal, Que, 28-7-75
C
Canada
d
Physics Seattle, WA, USA 25-8-70
…
…
…
3511 Main St.,
Richmond
345 1st Ave.,
Ri h
Richmond
d
687-4598
3.67
253-9106
3.70
125 Austin Ave.,
Burnaby
…
420-5232
…
3.83
…
S iE
Sci,Eng,
Bus
Ci
City
Removed
Excl,
VG,..
CS
M
C
Country
Gender Major
RelationInitiale
Birth_date
M
F
…
Science
Science
…
GénéraliséePrimaire
A range
Age
Birth region
Birth_region
Age range
Age_range
Residence
GPA
Canada
Foreign
…
20-25
25-30
…
Richmond
Burnaby
…
Very-good
Excellent
…
Count
16
22
…
Birth_Region
Canada
Foreign
Total
Gender
Tablea croisé
Tableau
c oisé
M
16
14
30
F
10
22
32
Total
26
36
62
Présentation des résultats de la généralisation
• Relation généralisée
é é
é
Š table avec quelques uns ou tous les attributs table avec quelques uns ou tous les attributs
généralisés, avec effectifs ou autres valeurs d’agrégation accumulées
• Tableaux croisés
Tableaux croisés
• Techniques de visualisation
q
Š camemberts, histogrammes, courbes, …
• Règles quantitatives caractéristiques
grad ( x) ∧ male ( x) ⇒birth _ region ( x) ="Canada "[t :53 %] ∨
birth _ region ( x) =" foreign"[t : 47 %].
39
40
Présentation : exemples
relation généralisée
tableau croisé
Analyse de la pertinence des attributs
• Pourquoi
Pourquoi ??
Š quelles dimensions inclure ? à quel niveau d’abstraction ?
Š nombre d
nombre d’attributs
attributs réduits : patterns plus faciles à réduits : patterns plus faciles à
comprendre
Š méthodes statistiques pour pré
méthodes statistiques pour pré‐traiter
traiter les données
les données
ƒ filtrer les données non ou peu pertinentes
ƒ retenir et ordonner les attributs pertinents
retenir et ordonner les attributs pertinents
Š pertinence relative des dimensions et niveaux
Š caractérisation analytique, comparaison analytique
caractérisation analytique comparaison analytique
• Comment ?
Š généralisation analytique : utiliser l
généralisation analytique : utiliser l’analyse
analyse du gain du gain
d’information (entropie ou autres mesures) pour identifier les dimensions et niveaux d’abstraction très pertinents
Š analyse de pertinence : trier et sélectionner les dimensions et niveaux les plus pertinents
Š induction orientée attribut sur les dimensions et niveaux i d i
i é
ib
l di
i
i
sélectionnés
41
Mesures de pertinence
• Mesure quantitative de pertinence
Š détermine le pouvoir classificateur d
détermine le pouvoir classificateur d’un
un attribut
attribut
• Méthodes
Š gain d’information (ID3)
Š ratio de gain (c4.5)
Š Information mutuelle Information mutuelle
42
Approche basée sur la théorie de l’information
• Arbre de décision
A b d dé i i
Š
Š
Š
les nœuds internes testent un attribut
l b
les branches correspondent à une valeur d’attribut
h
d tà
l
d’ tt ib t
les feuilles attribuent une classe
• Algorithme ID3
Al ith
ID3
Š
Š
Š
construit un arbre de décision basé sur un jeu de données d’apprentissage
d
apprentissage (les classes des objets sont connues)
(les classes des objets sont connues)
ordonne les attributs selon la mesure de gain d’information
taille minimale
taille minimale
ƒ le moins de tests possibles pour classer un objet
43
44
Exemple
CIEL
TEMPERATURE
HUMIDITE
VENT
JOUE ?
Dégagé
85
85
non
non
Dégagé
g g
80
90
oui
non
Couvert
83
78
non
oui
Pluvieux
70
96
non
oui
Pluvieux
68
80
non
oui
Pluvieux
65
70
oui
non
Couvert
64
65
oui
oui
Dégagé
72
95
non
non
Dégagé
69
70
non
oui
Pluvieux
75
80
non
oui
Dégagé
75
70
oui
oui
Couvert
72
90
oui
oui
Couvert
81
75
non
oui
Pl i
Pluvieux
71
90
ouii
non
45
Induction descendante par arbre de décision
Attributs : {Ciel, Température, Humidité, Vent}
Att
ib t {Ci l T
é t
H idité V t}
Classes : joue au tennis { oui , non }
Ciel
dégagé
couvert
Humidité
forte
non
pluvieux
Vent
oui
normale
oui
faible
fort
non
oui
46
Entropie et gain d’information
• SS contient s
contient si tuples de classe C
tuples de classe Ci pour i = {1..m}
pour i = {1 m}
• L’information mesure la quantité d’information nécessaire pour classer un objet
classer un objet
m
si
si
I( s1,ss 2,...,ss m ) = − ∑ log 2
s
i =1 s
• Entropie d
Entropie d’un
un attribut A ayant pour valeurs {a
attribut A ayant pour valeurs {a1,…,aav}
s1 j + ...+ smj
I( s1 j ,...,smj )
s
j =1
v
E(A)= ∑
• Gain d’information en utilisant l’attribut A
Gain(A) = I(s 1, s 2 ,..., sm) − E(A)
Exemple : caractérisation analytique
• Tâ
Tâche :
h
Š fouiller les caractéristiques générales qui fouiller les caractéristiques générales qui
décrivent les étudiants de 3ème cycle en faisant une caractérisation analytique
une caractérisation analytique
• Étant donné :
Š attributs : name, gender, major, birth_place, birth date phone# and gpa
birth_date, phone#, and gpa
Š Gen(ai) = hiérarchies de concepts pour ai
Š Ui = seuils analytiques d’attribut pour ai
Š Ti = seuils de généralisation pour a
il d é é li ti
i
Š R = seuil de pertinence
p
47
Exemple : caractérisation analytique
• Données :
D
é
Š
Š
classe cible : étudiants 3ème cycle
classe contrastante : étudiant 1er et 2ème cycle
• Généralisation analytique
y q
Š
suppression d’attributs
ƒ supprime name
supprime name et phone#
et phone#
généralisation d’attribut
ƒ généralise major, birth_place, birth_date
généralise major birth place birth date et gpa
ƒ accumule les effectifs
Š
relation candidate : gender, major, birth_country, age_range
relation candidate : gender major birth country age range et gpa
et gpa
Š
48
49
Exemple : caractérisation analytique
N
Name
G d
Gender
Jim
Woodman
Scott
Lachance
Laura Lee
…
M
F
…
Removed
Retained
M
M j
Major
Bi th Pl
Birth-Place
Bi th d t
Birth_date
R id
Residence
Ph
Phone
#
GPA
Vancouver,BC, 8-12-76
Canada
CS
Montreal Que,
Montreal,
Que 28-7-75
Canada
Physics Seattle, WA, USA 25-8-70
…
…
…
3511 Main St.,
Richmond
345 1st Ave
Ave.,
Richmond
687-4598
3.67
253-9106
3 70
3.70
125 Austin Ave.,
Burnaby
…
420-5232
…
3.83
…
Sci,Eng,
Bus
City
Removed
Excl,
VG,..
CS
Country
Age range
Relation initiale
50
Exemple : caractérisation analytique
gender
d
major
j
bi th
birth_country
t
age_range gpa
countt
M
F
M
F
M
F
Canada
Foreign
Foreign
Foreign
Canada
Canada
16
22
18
25
21
18
Science
Science
Engineering
Science
Science
Engineering
20-25
25-30
25-30
25-30
20-25
20
25
20-25
Very_good
Excellent
Excellent
Excellent
Excellent
Excellent
Relation candidate pour la classe cible : 3ème cycle (Σ=120)
gender
major
birth_country
age_range gpa
count
M
F
M
F
M
F
Science
Business
Business
Science
Engineering
Engineering
g
g
Foreign
Canada
Canada
Canada
Foreign
Canada
<20
<20
<20
20-25
20-25
<20
18
20
22
24
22
24
Very_good
Very
good
Fair
Fair
Fair
Very_good
Excellent
Relation candidate pour la classe contrastante : 1er et 2nd cycle (Σ=130)
51
Exemple : caractérisation analytique
• Analyse de pertinence
Š Calcul de l
Calcul de l’information
information nécessaire pour classer nécessaire pour classer
un objet
I( 1, s 2 ) = I( 120,130 ) = −
I(s
Š
120
120 130
130
l 2
log
−
l 2
log
= 0.9988
250
250 250
250
Calcul de l
Calcul
de l’entropie
entropie pour chaque attribut : ex : pour chaque attribut : ex :
major
major=”Science” :
major=”Engineering”
major=”Business”
major=
Business
:
S 11 =84
S 21 =42
I(s 11 ,s 21)=0.9183
: S 12 =36
S 22 =46
I(s 12 ,s 22)=0.9892
S 23 =42
I(s 13 ,ss 23)=0
S 13 =0
3ème
Nombre de
cycle en sciences
Nombre de 1er et 2nd
cycle en sciences
52
Exemple : caractérisation analytique
• C
Calcul de l’information nécessaire pour classer un objet si S est partitionné l l d l’i f
ti
é
i
l
bj t i S t
titi
é
selon l’attribut
E(major) =
126
82
42
I ( s11, s 21 ) +
I ( s12 , s 22 ) +
I ( s13, s 23 ) = 0.7873
250
250
250
• Calcul du gain d’information pour chaque attribut
C l ld
i d’i f
i
h
ib
Gain(major ) = I(s 1, s 2 ) − E(major) = 0.2115
Š
gain pour tous les attributs
Gain(gender)
= 0.0003
Gain(birth_country)
= 0.0407
Gain(major)
G i ( )
Gain(gpa)
= 0.2115
= 0.4490
0 4490
Gain(age_range)
= 0.5971
53
Exemple : caractérisation analytique
• Dérivation de RelationInitiale
é
Š R = 0.1
R=01
Š supprimer les attributs peu ou pas pertinents de la relation candidate : supprime gender et birth country
birth_country
major
Science
Science
Science
Engineering
Engineering
g ee g
age_range
age
range
20-25
25-30
20-25
20-25
25-30
5 30
gpa
Very_good
Excellent
Excellent
Excellent
Excellent
ce e
count
16
47
21
18
18
8
• Effectuer l
Effectuer l’induction
induction orientée attribut
orientée attribut
Téléchargement