Approches supervisées

publicité
Fouille de données
Approches supervisées
1
Plan du cours
1. Le pré-traitement des données
2. Méthodes non supervisées
3. Méthodes supervisées
4. Méthodes semi-supervisées
5. Fouille de données Web
2
Approches supervisées
3
Exemple d’application
Société de crédit
Pour chaque client qui veut emprunter :
- Age
- Statut marital
- Salaire annuel
- Dettes contractées
-…
Faut-il accorder le crédit ?
4
Apprentissage supervisé
- On apprend des expériences passées
- Un ordinateur n’a pas d’expérience
- Il apprend à partir des données
- Objectif: apprendre une fonction objectif pour prédire la
valeur d’une classe
- Plusieurs noms possibles: classification, apprentissage
supervisé, machine learning
5
Un processus en deux étapes
1. Apprentissage du modèle sur un jeu de données d’apprentissage
X
A
B
A
A
Y
C
D
C
D
Z Classe
E
1
E
2
E
1
F
2
Données d’apprentissage
Modèle
2. Test du modèle sur un jeu de données test
X
B
A
A
B
Y
D
C
D
D
Z Classe
E
?
F
?
E
?
F
?
Données de test
Modèle
6
X
Y
Z
Classe
prédite
B
A
A
B
D
C
D
D
E
F
E
F
2
1
1
2
Prédiction
Hypothèse fondamentale
Hypothèse
Distribution des classes identique entre le jeu d’apprentissage et le jeu de test
Remarques
- Ce n’est jamais vraiment le cas en pratique
- Si la distribution est vraiment différente alors la classification sera de
mauvaise qualité
- Le jeu d’apprentissage doit être suffisamment représentatif du jeu de test
7
Jeu de données
Choix des jeux de données de test et d’apprentissage
Principes
Soit
le jeu de données. On note
jeu de test. On a :
le jeu d’apprentissage et
-
Objectif
- Etre représentatif de l’ensemble du jeu de donnée
- Eviter l’overfitting (sur-apprentissage)
8
le
Jeu de données
Validation simple
Principes
Découpe du jeu de données en 2 : apprentissage et test
A appliquer lorsque le jeu de données est large
Répartition courante :
- 50 % apprentissage - 50% test
- 2/3 apprentissage - 1/3 test
Tirage aléatoire ou en fonction de la temporalité de la donnée
=
9
Jeu de données
Tirage multiple aléatoire
Principes
Applicable si le jeu de données est petit
Application n fois de la validation simple
Obtention de n indicateurs de performance
Efficacité moyenne = la moyenne des n indicateurs de performance
=
=
10
Jeu de données
Validation croisée
Principes
Découpe du jeu de données en k (5 ou 10 généralement) parties
On apprend sur k-1 parties et on teste sur la k ème partie
Processus répété k fois (chaque partie sert de jeu de données de test)
Calcul de l’efficacité globale identique au tirage multiple aléatoire
Apprentissage
Round 1
Round 2
Round 3
Round 4
11
Test
Evaluation des méthodes
- Efficacité de la classification
- Temps de calcul
- Passage à l’échelle:
- Interprétabilité
- Compacité
12
Mesures
Efficacité n’est qu’une mesure
Erreur = 1 - efficacité
Pas toujours valide sur jeux de données déséquilibrés
- Fouille de texte
- Détection d’intrusion
- Détection de fraude
Communément :
- Classe d’intérêt : classe positive
- Autre classe : classe négative
13
Précision et rappel
- Très utilisé en recherche d’information
- Utilisation d’une matrice de contingence
Classe réelle
Classe prédite
+
-
+
VP
FN
-
FP
VN
14
Précision et rappel
Precision
Rappel
F-mesure
Classe réelle
Classe prédite
15
+
-
+
VP
FN
-
FP
VN
Précision et rappel
Precision
Classe réelle
Classe prédite
Rappel
F-mesure
+
-
+
1
99
-
0
1000
Remarques
1. Précision et rappel ne s’occupent
que de la classe positive
2. Peut facilement être étendu au
cas où nbClasses > 2
16
Courbe ROC
Receiver Operating Characteristic
- Communément utilisé pour évaluer les performances d’un
classifieur bi-classe
- Nécessité d’ordonner les instances selon la vraisemblance
d’appartenir à la classe positive
Ratio Vrai Positif (RVP)
Sensitivité
Ratio Faux Positif (RFP)
1 - spécificité
17
Courbe ROC
Receiver Operating Characteristic
Exploitation de la courbe
- Calcul de l’aire sous la
courbe (AUC)
- AUC = 1 équivaut à un
tirage aléatoire
- AUC = 1 équivaut à un
classifieur parfait
18
Courbe ROC
Construction
Rang
Classe
VP
FP
VN
FN
RVP
RFP
0
0
6
4
0
0
1
+
1
0
6
3
0,25
0
2
+
2
0
6
2
0,5
0
3
2
1
5
2
0,5
0,17
4
-
5
+
19
6
-
7
-
8
+
9
-
10
-
Courbe ROC
Construction
Rang
Classe
VP
FP
VN
FN
RVP
RFP
0
0
6
4
0
0
1
+
1
0
6
3
0,25
0
2
+
2
0
6
2
0,5
0
3
2
1
5
2
0,5
0,17
4
2
2
4
2
0,5
0,33
20
5
+
3
2
4
1
0,75
0,33
6
3
3
3
1
0,75
0,50
7
3
4
2
1
0,75
0,67
8
+
4
4
2
0
1
0,67
9
4
5
1
0
1
0,83
10
4
6
0
0
1
1
Arbres de décision
-
Une des techniques les plus utilisées
Efficacité compétitive
Rapide à construire
Résultat facile à interpréter
Chaque instance du
jeu d’apprentissage est
couverte une et une seule fois
21
Arbres de décision
Algorithme C4.5 [Quinlan J.,1993]
Quilan J. C4.5: programs for machine learning. 1993: Morgan Kaufmann Publishers.
22
Arbres de décision
Gestion d’attributs numériques
- Ne gère pas nativement les attributs numériques
- Nécessité de discrétiser
- Deux classes sont souvent suffisantes (valeur qui maximise le gain)
- Nécessite de modifier légèrement l’algorithme initial (on garde
l’attribut numérique)
- Impact négatif sur la complexité temporelle
23
Arbres de décision
Elagage de l’arbre
- Arbre potentiellement très profond
- Bruit, complexité des données, caractère aléatoire
- L’arbre produit ne généralise pas bien les données (surapprentissage)
- Elagage nécessaire (pré ou post traitement)
- Si l’erreur estimée d’un noeud est inférieure ou proche de l’erreur
estimée moyenne du sous-arbre alors on élague
24
Arbres de décision
Données manquantes et classes non-équilibrées
Données manquantes
Situation très courante si pré-traitement mal effectué
Plusieurs manières d’aborder le problème
- Remplacement par une valeur joker
- Remplacement par la valeur la plus fréquente ou la moyenne
Classes non-équilibrées
Une classe apparaît significativement plus qu’une autre (alarmes)
Plusieurs manières d’aborder le problème
- Augmenter la proportion de la classe sous-représentée
- Echantillonner la classe sur-représentée
25
Arbres de décision
Résumé
INCONVÉN
AVANTAGES
- Très utilisé
e
iv
it
t
é
p
m
o
c
é
it
c
a
c
fi
f
-E
e
ir
u
r
t
s
n
o
c
à
e
id
p
a
R
u
o
e
u
iq
r
é
m
u
n
s
t
u
- Attrib
catégoriel
s
le
b
a
t
é
r
p
r
e
t
in
s
t
- Résulta
IENTS
- Données
ma n q u a n t
Inconvénients
es
- Classes
non-équilib
rées
26
Classification naive bayésienne
Point de vue probabiliste de l’apprentissage
Soit A1,…,Ak des attributs discrets et C la classe à prédire
On cherche la classe c telle que :
Pr(C=c | A1=a1,…,Ak=ak) soit maximale
Fonctionne sur données catégorielles
Articles fondateurs
Domingos, P., & Pazzani, M. (1997). On the optimality of the simple Bayesian classifier under zero-one
loss. Machine learning, 29(2-3), 103-130.
Langley, P., Iba, W., & Thompson, K. (1992, July). An analysis of Bayesian classifiers. In AAAI (Vol.
90, pp. 223-228).
Kohavi, R., Becker, B., & Sommerfield, D. (1997). Improving simple bayes.
27
Classification naive bayésienne
Par le théorème de Bayes on a :
Probabilité a priori
Inutile à des fins de classification
28
Classification naive bayésienne
Hypothèse d’indépendance conditionnelle
et de façon similaire pour les autres attributs
Sous l’hypothèse d’indépendance conditionnelle, on a :
29
Classification naive bayésienne
Classe prédite
30
Classification naive bayésienne
Exercice
A
B
C
m
b
f
m
s
f
g
q
f
h
s
f
g
q
f
g
q
t
g
s
t
h
b
t
h
q
t
m
b
t
A = m, B = q, C = ?
31
Classification naive bayésienne
Attributs numériques,valeurs absentes et valeurs
manquantes
Attributs numériques
Situation très courante
On peut utiliser une technique de discrétisation vue précédemment
Valeurs absentes
Problème si une valeur apparaît uniquement dans le jeu de test
On utilise un facteur correcteur :
où nij le nombre d’instances avec ai et cj, nj le nombre d’instances avec cj,
mi le nombre de valeurs d’Ai et
(n est la taille du jeu)
Valeurs manquantes
Elles sont ignorées dans le calcul
32
Classification naive bayésienne
Résumé
INCONVÉN
AVANTAGES
e
é
is
a
n
io
t
a
t
n
e
m
lé
p
- Im
e
iv
it
t
é
p
m
o
c
é
it
c
- Effica
e
ir
u
r
t
s
n
o
c
à
e
id
- Rap
IENTS
- Indépend
ance
Inconvénients
- Attributs
numérique
s
- Valeurs a
bsentes
- Valeurs m
anquantes
33
Classification naive bayésienne sur
les textes
[McCallum A. et Nigam K., 1998]
Classification de textes
Assigner un document à une classe (e.g., Sports, Politique, Finance, …)
Constat
Méthode précédente assez peu efficace sur des textes
Améliorations
Cadre probabiliste pour les textes
Idées similaires à l’approche précédente
McCallum, A., & Nigam, K. (1998, July). A comparison of event models for naive bayes text classification. In
AAAI-98 workshop on learning for text categorization (Vol. 752, pp. 41-48).
34
CNB sur les textes
Cadre probabiliste pour les textes
- Modèle génératif probabiliste
- Chaque document est généré par une distribution paramétrique
- Estimation des paramètres via le jeu de données d’apprentissage
Suppositions du modèle génératif probabiliste
1. Les données (ou les textes) sont générés par un modèle de
mixture
2. Correspondance une à une entre les composants de la mixture et
les classes
35
CNB sur les textes
Cadre probabiliste pour les textes
Notations
Génération de di
Probabilité que di soit généré par le modèle de mixture
36
CNB sur les textes
Quelques hypothèses sur les textes
Modélisation d’un texte
Les textes sont représentés comme des sacs de mots (comme en
Recherche d’Information)
Hypothèses
- Chaque mot d’un document est généré indépendamment de son
contexte, i.e., des autres mots du document et de la classe
- La probabilité d’un mot est indépendante de sa position dans le texte
- La longueur des documents est indépendante de la classe
Génération de di
Par une distribution multinomiale
k tirages avec k la taille du document
37
CNB sur les textes
Calcul de la probabilité conditionnelle
Application de la fonction de probabilité d’une distribution mulinomiale
Indépendant de la
classe
Le nombre d’apparitions
de wt dans di
38
CNB sur les textes
Estimation des paramètres
Estimation à partir du jeu d’apprentissage
L’estimation de wt sachant cj est simplement le nombre de fois que wt apparaît
dans un document de la classe cj
Cas des valeurs absentes
39
CNB sur les textes
Probabilités a priori et classification
Probabilités a priori
Probabilités a priori = poids des mixtures
Classification
40
Classification naive bayésienne
Résumé
INCONVÉN
AVANTAGES
s
e
d
n
o
ti
la
io
v
i
s
e
m
- Efficace mê
s
e
d
e
c
n
a
d
n
e
p
é
d
in
hypothèses (
eà
n
u
e
c
n
a
d
n
o
p
s
e
r
r
o
mots et c
t
une entre classes e
e)
r
tu
ix
m
la
e
d
ts
n
a
s
compo
ire
- Rapide à constru
IENTS
Inconvénients
41
SVM
Support Vector Machine
Séparateur à Vaste Marge
[Vapnik V., 2013]
Quand ?
Classification binaire
Attributs réels
Principe
Trouver un séparateur dont la marge est maximale
Séparateur
Marge
Vapnik, V. (2013). The nature of statistical learning theory. Springer Science & Business Media.
42
SVM
Pré-requis mathématiques
Optimisation non-linéaire
- Méthode de Lagrange, lagrangien, multiplicateur de Lagrange
- Problèmes primal et dual
- Problèmes convexes et leurs résolution
Analyse fonctionnelle
- Espaces de Hilbert
- Espace de Hilbert à noyau reproduisant
43
SVM
Formulation mathématique du problème
Z
Z
Minimiser ce terme
maximise la séparabilité
Formulation
44
SVM
Difficultés
Séparateur rarement linéaire
Séparateur
Séparation rarement parfaite
Séparateur
45
SVM
SVM non linéaire
« Dans une tâche de classification supervisée, plus la dimension des données
est grande, i.e., plus ils ont d’attributs linéairement indépendants, plus la
p ro b a b i l i t é q u e l e s c l a s s e s s o i e n t l i n é a i re m e n t s é p a r a b l e s e s t
grande » [Théoreme de Cover, 1965]
Principe
Pulvérisation des données dans un espace potentiellement infini
Problème : produit scalaire en grandes dimensions est coûteux
Astuce du noyau : noyau symétrique défini positif pour calculer le produit
scalaire des données pulvérisées dans l’espace de représentation d’origine
Noyaux usuels
Noyau polynomial
Noyau gaussien
46
SVM
Cas linéairement non séparable
Principe
Introduction de nouvelles contraintes
Nouveau problème de minimisation avec contraintes
47
SVM
Multi-classes
Un contre tous
Construction
Construction de M classifier binaires (classe + pour une classe et - pour toutes les
autres)
Test
Le classifieur donnant la marche la plus élevée remporte le vote et sa décision sera
suivie
Un contre un
Construction
Construction de M(M-1)/2 classifieurs
Test
Vote majoritaire
48
SVM
Données catégorielles
Solutions possibles
Création d’une variable prenant n valeurs numériques
Création de n variables binaires
Remarques
Meilleures performances des variables binaires
Très utilisé pour la classification de documents
Fonctionne très bien pour de grandes dimensions
49
SVM
Résumé
INCONVÉN
AVANTAGES
IENTS
- Attributs
ré e l s
Inconvénients
- Classifica
tion binaire
- Modèle d
ifficilemen
t
interprétab
le
s
e
u
iq
r
o
é
th
s
n
o
ti
a
- Solides fond
s
e
c
n
a
m
r
fo
r
e
p
s
e
n
n
- Très bo
s
e
d
n
a
r
g
s
le
te
r
o
p
- Sup
dimensions
50
K plus proches voisins
- Pas de construction de modèle (lazy learning vs eager learning)
- Nécessite une fonction de distance
- Compte la classe majoritaire dans le voisinage
2 plus proches voisins
1 plus proche voisin
3 plus proches voisins
51
K plus proches voisins
Classification
- La classe majoritaire est élue
- Possibilité de pondérer en fonction de la distance
2 plus proches voisins ?
1 plus proche voisin
3 plus proches voisins
Très sensible au paramètre k
52
K plus proches voisins
Résumé
INCONVÉN
AVANTAGES
- Simplicité
- Efficacité
s
e
s
s
la
c
ilt
u
m
s
e
d
- Gestion
IENTS
- Classifica
Inconvénients
tion
lente
- Non gest
ion des
données m
anquantes
53
Classification supervisée
Approches ensemblistes
Constat
Classifieurs isolés peuvent peiner à résoudre un problème de classification
Mais ils peuvent chacun être efficaces sur une partie de l’espace de données
Questions
Ne peut on pas construire de nombreux modèles puis les combiner ?
Comment les combiner ?
Solutions
Génériques :
- Bagging
- Boosting
Spécifique:
- Random forest
54
Approches ensemblistes
Bagging (Bootstrap Aggregating)
[Breiman L., 1996]
Notations
Un jeu de données D avec n exemples et un algorithme d’apprentissage M
Apprentissage
1. Création de k jeu d’apprentissage, S1 à Sk, par tirage aléatoire avec remise
de n exemples
2. Création de k modèles construites sur S1 … Sk avec le même algorithme M
Test
- Système de vote (poids égaux)
- Election de la classe majoritaire
Breiman, L. (1996). Bagging predictors. Machine learning, 24(2), 123-140.
55
Bagging
Forces et faiblesses
INCONVÉN
AVANTAGES
IENTS
Peut dégr
ader les ré
Inconvénients
sultats
des mét
hodes s
tables
(KPP et
c l a s s i fi c a
tion
bayésienn
e)
r
te
n
e
m
g
u
a
t
n
e
m
e
Peut significativ
s
e
d
o
th
é
m
s
e
d
s
les performance
)
n
io
is
c
é
d
e
d
s
e
r
b
instables (ar
56
Approches ensemblistes
Boosting
[Schapire R., 1990]
Idée générale
Un classifieur dit « faible » est exécuté à plusieurs reprises sur le jeu de données
repondéré.
Mécanisme
A chaque itération t :
1. Pondération de chaque exemple selon s’il a été bien classé
précédemment (fort poids si mal classé)
2. Apprentissage d’un modèle noté ht
3. Affection d’une force à ce modèle noté
Sortie
Combinaison linéaire du vote des différents modèles pondéré par leur force
Schapire, R. E. (1990). The strength of weak learnability. Machine learning, 5(2), 197-227.
57
Boosting
Pondération du jeu de données
Les exemples ne sont pas égaux
Plus un exemple est dur à classer plus celui-ci devrait être « sur-représenté »
dans le jeu de données
Jeu de données pondéré
On note D(i) le poids du ième exemple (xi, yi)
Interprétation :
- Le ième exemple compte pour D(i) exemples
- Si on doit « resampler » le jeu de données, les exemples ayant un fort
poids seront plus présents
58
Boosting
AdaBoost
59
Références
Ces ouvrages pointent vers de nombreuses références d’articles
scientifiques décrivant les approches vues en cours ou des
variantes de celles-ci
- Data Mining - Concepts and Techniques par J. Han et M.Kamber
(ed. Morgan Kauffman)
- Web Data Mining - ExploringHyperlink, Contents and Usage Data
par B. Liu (ed. Springer)
- Statistiques Exploratoires Multidimensionnelles par L. Lebart et al.
(ed. Dunod)
60
Téléchargement