Jeu de slides... - Vincent Lemaire

publicité
L'Apprentissage SemiSupervisé
Quelques éléments
Frank Meyer
France Telecom R&D /TECH/SUSI/TSI
The present document contains information that remains the property of France Telecom. The recipient’s
acceptance of this document implies his or her acknowledgement of the confidential nature of its contents
and his or her obligation not to reproduce, transmit to a third party, disclose or use for commercial purposes
any of its contents whatsoever without France Telecom’s prior written agreement.
(Nom du fichier) - D1 - 06-07-2006
Sommaire
0. Quelques rappels & terminologie usuelle
1. Classification semi-supervisée
1.1 Problématique
1.2 Panorama général des méthodes
2. Clustering semi-supervisé
3. Le cas de l'apprentissage de métrique
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 1/4
➨ Terminologie traditionnelle en data mining / apprentissage automatique
Exemples = instances = points = records = objets = lignes des données
Variables = attributs = coordonnées = features = propriétés = colonnes de
données
Classe = label = variable cible = variable à prédire (domaine supervisé)
Classification = classification supervisée = apprentissage supervisé
Exemples de méthodes : arbre de décision C5 ou CART, réseaux
de neurones type perceptron, régression linéaire, régression logistique,
K-plus-proches-voisins, Support Vector Machine...
Clustering = classification non supervisée (= malheureusement parfois
classification en français)
 exemples de méthodes : K-Means, Classification Hiérarchique
Ascendante, carte de Kohonen
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 2/4
o Apprentissage supervisé (en anglais,
classification) :
Y
o
On a des points de n classes différentes
(par exemple n=2), l'ensemble
d'apprentissage
o On voudra par la suite classer des
nouveaux points : C'est l'ensemble des
points pour lesquels on voudra appliquer
un modèle
Espace descriptif (ici à 2 dimensions)
*
Ensemble
d'apprentissage
Nouvel
élément :
X
Y
Classe
2
5
vert
7
4
rouge
(...)
(...)
(...)
8
3
?
France Télécom R&D
X
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 3/4
o Classification, suite :
Y
o On cherche donc un modèle qui va
définir des frontières dans l'espace de
description (c'est l'apprentissage)
o On en déduit, pour de nouveaux points
pas encore classés, leur classe
d'appartenance
Espace descriptif (ici à 2 dimensions)
*
Ensemble
d'apprentissage
Nouvel
élément :
X
Y
Classe
2
5
vert
7
4
rouge
(...)
(...)
(...)
8
3
Prédit : rouge
France Télécom R&D
X
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
0. Quelques rappels & terminologie 4/4
o Apprentissage non supervisé ("clustering")
o
On a des points sans information de
classe
o On cherche des groupes dans les
données
o On en déduit, pour de nouveaux points
pas encore classés, leur groupe (cluster)
d'appartenance
X
*
Espace descriptif (ici à 2 dimensions)
Ensemble
d'apprentissage
Nouvel
élément :
X
Y
2
5
7
4
(...)
(...)
10
2
X
*
Y
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Chapitre 1 – Classification semisupervisée
➨ Principe :
En classification supervisée traditionnelle, on apprend à partir d'un
ensemble d'apprentissage composé de données labellisées
Problème : il est souvent coûteux d'obtenir les labels, alors qu'en général
il est peu coûteux d'obtenir les données sans label
 Exemples :
– appétence (oui / non) pour une offre commerciale en fonction
du profil client => nécessite une campagne sur des centaines ou
milliers de clients
– réaction à un nouveau médicament ( OK /pas OK) en fonction
de paramètres du diagnostic => nécessite des dizaines de tests
sur des volontaires
Par contre : il est souvent peu coûteux d'obtenir les données descriptives
(sans le "résultat", le label)
Apprentissage semi-supervisé : on va apprendre avec un peu de
données labellisées et beaucoup de données non labellisées
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
1. 1 Problématique
Résultat d'une hypothèse de
densité : bon.
➨ Comment apprendre aussi à partir de
données non labellisées ?
On utilise des hypothèses
complémentaires, par exemple de densités,
de modèles sous-jacents...
➨ A-t-on des garanties que cela fonctionne
dans le cas général ?
Aucune. On doit poser des hypothèses et
tester (plusieurs essais en général
nécessaires)
➨ 2 dilemmes encore non résolus :
Est-il plus coûteux d'acquérir les labels ou
de tester plusieurs hypothèses ?
Vaut il mieux utiliser une méthode de
classification non supervisée ou méthode
supervisée traditionnelle puissante ?
Résultat d'une hypothèse de
densité : mauvais !
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Méthodes de classification semisupervisées 1/5
➨ Méthodes de mélange
Hypothèse : les différentes classes sont générées par exemple par des
gaussiennes
Principe : on utilise un algorithme type Expectation Maximization. On
s'assure que le modèle s'adapte bien à la distribution des points labellisés
mais aussi des points non labellisés
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Méthodes de classification semisupervisées 2/5
➨ Self-Training
Principe :
On utilise un algorithme de classification traditionnel qu'on entraîne
avec les données d'apprentissage labellisées
 On classifie les données d'apprentissage mais non labellisées avec
l'algorithme
 On sélectionne les exemples prédits avec la meilleure confiance et
on les considère maintenant comme données d'apprentissage
labellisées
 ... le processus peut être répété plusieurs fois.
 Le classifieur utilise donc ses propres prédictions pour apprendre
lui-même.
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Méthodes de classification semisupervisées 3/5
➨ Co-Training
Principe :
 On suppose que les variables peuvent être séparées en 2 sousensembles A et B et que chaque sous-ensemble est suffisant pour
apprendre un bon classifieur.
 On entraîne 2 classifieurs respectivement sur l'ensemble A et
l'ensemble B, avec les points labellisés uniquement.
 Puis chaque classifieur
– labellise (classe) les points non labellisés
– donne les points avec les labels prédits pour lesquels il a le plus
confiance à l'autre classifieur qui va les utiliser comme nouveaux
points labellisés
 Peut être vu comme un self-training croisé à 2 classifieurs
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Méthodes de classification semisupervisées 4/5
➨ Eviter les coupures dans les régions denses
Principe :
 On suppose que dans les régions denses on a plutôt une classe
bien représentée
 On utilise un classifieur traditionnel mais on va ajouter à
l'algorithme un dispositif de pénalisation des frontières denses
Frontière naturelle, mais à éviter (région dense)
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Méthodes de classification semisupervisées 5/5
➨ Méthodes basées sur des graphes
Principe :
On doit représenter les données sous forme de graphe. Par
exemple, on construit un graphe des 2 plus proches voisins.
On applique ensuite un algorithme qui va "diffuser" les labels sur les
noeuds labellisés
 Problème : algorithmes souvent en complexité O(n3) ou plus
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Chapitre 2 : Clustering semi-supervisé
➨ C'est du clustering, mais en fait :
on dispose d'un "superviseur" qui va nous apporter
quelques exemples labellisés
ou quelques informations sous la forme de contraintes : tel exemple
ne doit pas ressembler à tel autre, tel exemple doit être dans le même
cluster que tel autre...
on évaluera les résultats selon un mode supervisé (pureté des clusters
selon les classes cibles en général)
➨ Avantages
Clustering plus "significatif"
Peut être vu comme une méthode supervisée simple et souvent
performante même avec peu d'information supervisée
➨ 2 grandes façons de procéder
1. Apprendre une métrique puis utiliser un algorithme de clustering
standard,
2. ou bien utiliser un algorithme qui travaille directement sur les contraintes.
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
2.1 Clustering semi-supervisé Principes
Semi-supervision par contraintes : l'utilisateur ajoute des contraintes, par
exemple des liens "cannot link" et "must link" entre quelques instances
must link
cannot
link
En résultat on obtient des groupes (sans
label). On est vraiment dans le domaine
non supervisé.
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
2.1 Clustering semi-supervisé, principes
Semi-supervision par labellisation : l'utilisateur ajoute des labels sur
certaines instances (sur l'exemple, des labels "rouges" et "verts")
En résultat on obtient des groupes qu'on
peut labelliser par les instances qu'ils
contiennent. En fait on est plutôt dans un
domaine supervisé.
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Clustering semi-supervisé - exemple 1
➨ XING 2003 : clustering par apprentissage de métrique
Utilisation de contraintes de type Must Link
 avec signification particulière : "doit être proche"
Information supervisée : un ensemble de couples Must Link (xi,yi)
Utilisation d'une fonction de coût
 idée de base : somme des distances des couples => coût
 avec une contrainte complémentaire : la métrique ne doit pas être
nulle, la somme des poids des attributs est constante
Deux algorithmes pour trouver une métrique diagonale (poids des
attributs) ou matrice pleine (poids attributs + coefficients de covariance)
 utilise une technique d'optimisation de la fonction de coût en faisant
varier les paramètres recherchés.
– Type "descente de gradient" (algo de Newton)
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Clustering semi-supervisé - exemple 2
➨ Bilenko 2004 : clustering par apprentissage de métrique
Utilisation de contraintes de type Must Link et Cannot Link
 avec signification "standard"
– a Must Link b => a et b doivent être dans le même cluster
– a Cannot Link b => a et b doivent être dans des clusters différents
Information supervisée : un ensemble de couples Must Link (xi,yi) et un ensemble
de couples Cannot Link (xi,yi)
Utilisation d'une fonction de coût
Coût de chaque contrainte non respectée :
– a ML b non respectée => coût proportionnel à la distance qui les sépare
– a CL b non respectée => coût symétrique au coût ML
+ Coût du clustering :
– somme distances aux barycentres des instances à leur cluster
– avec une métrique sous-jacente "matrice pleine" (permet de clusters de
formes variables, non limités à la forme "sphérique")
Optimisations (complexes) effectuées à l'intérieur de l'algorithme K-Means
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
3. Apprentissage de métrique
➨ Constat : beaucoup d'algorithmes d'apprentissage s'appuient sur une
fonction de distance
Méthodes de clustering : K-Means, Classification Hiérarchique Ascendante,
cartes de Kohonen...
Méthodes supervisées : Fonction radiales de bases (RBFN), LVQ,
Algorithme à K plus proche voisins
... ET Les Méthodes semi-supervisées
➨ Performances de ces algorithmes : dépendent directement de la qualité
de la métrique utilisée.
Généralement, métrique choisie "manuellement" ou "intuitivement" : souvent
il s'agit d'une distance euclidienne sur les attributs explicatifs normalisés dans
une intervalle [0;1] (suppression de l'influence de l'échelle de chaque attribut)
L'apprentissage de métrique : apprendre une fonction de distance
(paramétrée) automatiquement... pour qu'elle soit bien adaptée au problème
qu'on traite.
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Usages de l'apprentissage de
métrique
➨ Principales utilisations actuelles dans la littérature
Les méthodes de clustering dites semi-supervisées
Permet d'adapter les clusters formés en utilisant quelques informations
supervisées (labels ou contraintes)
Correspond à un domaine du clustering semi-supervisé
Etudié depuis peu
Classifieurs supervisé dits Lazy Learners ou K-Nearest Neighbors Classifiers
ou méthodes à plus K plus proches voisins
 Permet de résoudre le principal problème des classifieurs à plus
proches voisins : l'inadaptation de la fonction de distance si elle prend en
compte de nombreux attributs non significatifs
 Etudié depuis longtemps (sous la terminologie "Feature weighting
methods", ou "pondération de variables")
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Distances : Rappels et exemples
➨ Définition d'une métrique
Une métrique ou distance sur un ensemble X est
une application d : X.X => [0;+∞[ vérifiant les
propriétés suivantes :
1. d(x,y) = d(y,x)
symétrie
2. d(x,y) = 0 x=y
identité (*)
3. d(x,y) + d(y,z) ≥ d(x,z) inégalité triangulaire
On dit alors que (X,d) est un espace métrique
➨ Exemples de métriques.
Soit x=(x1,...,xn) et y (y1,...,yn) deux points d'un
espace à n dimensions
 Distance euclidienne "classique" :
 Norme P
 Norme infinie
 distance de Manhattan
 distance triviale
d ( x, y ) =
n
∑
i= 1
( xi − yi ) 2

P
d P ( x, y ) =  ∑ xi − yi 
 i= 1

n
1
P
d ∞ ( x, y ) = max i xi − yi
d Manhantan ( x, y ) =
n
∑
i= 1
xi − yi
d Triviale ( x, y ) = 1 si x ≠ y et 0 si x = y
(*) si (2) n'est pas respecté on devrait parler en fait de pseudo-métrique.
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Représentation d'une distance
paramétrable
1. Pondération des attributs
Par exemple, distance euclidienne pondérée
par des poids wi,...,wn
3. Représentation par une matrice M positive
Permet de prendre en compte des éléments
de covariances entre les attributs
d ( x, y ) =
n
∑
i= 1
d ( x, y ) =
wi2 ( xi − yi ) 2
( x − y)T M ( x − y)
➨ Avantage d'une métrique de type matrice
diagonale : revient à une pondération des
attributs
résultats plus lisibles (notion d'importance
de l'attribut)
paramètres augmentant seulement de
manière linéaire avec la dimension
(quadratique dans le cas d'une matrice non
diagonale)
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Algorithmes d'apprentissage de
métrique
➨ Idée sous-jacente
Obtenir une distance faible pour les objets similaires
Obtenir une distance nulle ou très faible pour des objets identiques
("identique" peut être relatif à une classe)
Obtenir une distance importante pour des objets différents ("différent"
peut être relatif à une classe).
➨ Notion d'objets similaires ou dissimilaires ?
Implique une idée de supervision : on aura besoin d'une information
indiquant des exemples d'objets similaires et d'objets différents
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Discriminer selon la distance...
n
∑
d ( x, y ) =
i= 1
Distance non paramétrée non utilisable : la
distance sera corrompue par la contribution de
nombreux attributs non significatifs
( xi − yi ) 2
A1
(informatif
)
1
A2
(informatif)
A3
(Bruit)
A4
(Bruit)
A5
(Bruit)
Classe
cible
1
3
5
4
Oui
5
4
2
1
2
Non
1
2
4
1
4
Oui
Distance paramétrée
intégrant un poids sur chaque
attribut :
d ( x, y ) =
n
∑
i= 1
wi2 ( xi − yi ) 2
renforcer le poids des
attributs significatifs
diminuer voire supprimer le poids des
attributs bruités ou non informatifs.
Des poids nuls pour des attributs non significatifs, même s'ils ne définissent plus exactement une
métrique, peuvent être très intéressants tant d'un point de vue explicatif que d'un point de vue des
performances.
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Principe de l'apprentissage de métrique
➨ Utiliser une information indiquant des exemples d'objets similaires et
différents
Utiliser des contraintes sur des paires d'objets : les objets x et y doivent
être similaires ou les objets x et y doivent être dissimilaires
Ou bien : Utiliser une information de classe dans un contexte
d'apprentissage supervisé classique.
➨ Calculer les paramètres de la métrique
Utiliser une fonction de coût + un algorithme d'optimisation
ou utiliser un algorithme spécifique
➨ Evaluer la métrique
Utilise un ensemble de test, et de nouveau une information indiquant des
exemples d'objets similaires ou différents
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
RELIEF 1/3
➨ Relief est une famille d'algorithmes d'apprentissage de métrique pour
de l'apprentissage supervisé
➨ La famille Relief est connue pour ses bonnes performances dans
l'estimation du poids des attributs
➨ Ces algorithmes approximent le poids de chaque attribut A en utilisant
en modèle sous-jacent un modèle à plus proche voisin.
➨ Pour chaque attribut A et pour toute instance x de l'ensemble
d'apprentissage :
W[A]= P(valeur différente de A / le plus proche voisin de x est de même classe) P(valeur différente de A / le plus proche voisin de x est de classe différente)
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
RELIEF 2/3
➨ Principe général de l'algorithme. Soit m le nombre d'exemples en apprentissage
et n le nombre d'attribut. RELIEF (pour 2 classes) :
Mettre tous les poids W[J] à 0
Pour i=1 jusqu'à m faire
 choisir au hasard une instance Ri
 trouver instance la plus proche de Ri de même classe, notée H (Hit)
 trouver l'instance la plus proche de Ri de classe différente, notée M (Miss)
 pour J=1 jusqu'à n faire
W[J] = W[J] - diff(J,Ri,H) / m + diff(J,Ri,M) / m
Fin
Fin
➨ Remarque : la métrique en cours d'estimation n'est pas utilisée pour la
recherche des plus proches voisins : on utilise en général une distance
classique, non pondérée
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
RELIEF 3/3
➨ Relief F
Généralisation de Relief pour du multi-classe (un peu plus complexe).
 Utilise des K plus proches voisins
 Peut gérer des données incomplètes ou bruitées
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
ANNEXES
The present document contains information that remains the property of France Telecom. The recipient’s
acceptance of this document implies his or her acknowledgement of the confidential nature of its contents
and his or her obligation not to reproduce, transmit to a third party, disclose or use for commercial purposes
any of its contents whatsoever without France Telecom’s prior written agreement.
(Nom du fichier) - D29 - 06-07-2006
Exemple de bench effectué
➨ Test de la vitesse de convergence d'un algorithme d'apprentissage de
métrique dans le cas où on ne dispose que de très peu de données
application visée : clustering semi-supervisé interactif
suppose qu'on ne peut pas avoir des centaines ou des milliers
d'exemples "gratuitement"
➨ Principe
Limitation à 100 instances par data set
 excepté pour Iris, ensemble d'apprentissage relativement petit
Utilisation d'un système d'apprentissage de métrique + modèle à 1 plus
proche voisin sur l'ensemble d'apprentissage
Quelques fichiers de données de l'UCI + 2 datasets artificiels
20 cross-validations, et uniquement 100 "cycles d'apprentissage"
Résultats calculés sur l'ensemble de test restant, calcul du taux d'erreur
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Bench, résultats en % Erreurs
DataSet
data\ionosphere.txt
FCPG
RELIEFF
VNS
STOCHAS
Centroids
Classe
LAZY
15.65737
15.89641
13.98406
14.58167
15.87649
12.66932
4.4
4.2
3.9
4.8
4.5
3.6
data\sonar.txt
17.40741
19.12037
17.91667
17.91667
17.36111
17.26852
data\segment.txt
13.83937
11.31222
11.67195
12.01357
13.88688
11.67873
data\letter.txt
61.05729
50.85402
54.01608
55.01256
61.05729
60.60176
data\vehicle.txt
39.89946
39.23592
40.19437
39.36327
39.84584
40.37534
data\glass.txt
34.69298
34.21053
30.57018
29.7807
34.73684
37.85088
data\waveform40.txt
32.01429
25.72143
32.30204
32.77857
32.49388
24.72653
10.05
2.7
6.5
6.1
10.15
2.9
26.77778
0
3.677778
0.866667
37.04444
44.07778
data\iris.txt
data\DataTLearningMetric.txt
data\xorIn20Dim.txt
100 instances en apprentissage.
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Bench, résultats en % Erreurs
70
60
50
FCPG
RELIEFF
VNS
STOCHAS
LAZY
CentroidsClasse
40
30
20
10
da
ta
\io
no
sp
he
re
.tx
da
t
ta
\ir
is
da
.tx
ta
t
\s
on
da
ar
ta
.tx
\s
t
eg
m
en
t.t
da
xt
ta
\le
tte
da
r.t
ta
xt
\v
eh
icl
e.
da
tx
t
t
da
a\
da
g
ta
la
ta
\w
ss
\D
av
.tx
at
ef
t
aT
or
Le
m
40
ar
.tx
ni
ng
t
da
M
et
ta
ric
\x
or
.tx
In
t
20
D
im
.tx
t
0
France Télécom R&D
Rappel : 100
instances en
apprentissage.
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Points de repères
dataset
Train size
performances/techniques
Ionosphere
200 instances
moins de 10% d'erreur, moins de 6% avec C4.5
sonar
100 instances
de l'ordre de 15% d'erreur sur un MLP à plusieurs couches cachées,
25% pour C4.5
segment
letter
vehicle
210
de l'ordre de 12 à 13 % pour du CART ou du Neural Network, 18%
reporté sur du Kppv
1% soit 200 instances
de l'ordre de 56% d'erreur pour un système à base de fenêtres de
Parzen
16000 instances
2% d'erreur avec technique type SVM
90%
35% avec du naïve Bayes, 12% avec CART
90%
entre 25% et 20% d'erreur respectivement pour naïve bayes et C4.5
pas d'information
waveform
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Références
➨ Méthodes à K-plus proches voisins ou "Lazy learners"
D. Wettschereck, D.W. Aha, and T. Mohri, `A review and empirical
comparison of feature weighting methods for a class of lazy learning
algorithms', AI Review, 11, 273--314, (1997).
➨ Relief
Marko Robnik-Sikonja, Igor Kononenko: Theoretical and Empirical
Analysis of ReliefF and RReliefF. Machine Learning 53 (1-2): 23-69 (2003)
➨ Clustering semi-supervisé
E.P. Xing, A.Y Ng, M.I. Jordan, S. Russel: Distance metric learning, wiht
application to clustering with side-information, advances in NIPS 2003.
M. Bilenko, S. Basu, R.J. Mooney : Integrating constraints and metric
learning in semi supervised cluserting, ICML 2004.
France Télécom R&D
Distribution of this document is subject to France Telecom’s authorization
Tech/Susi/Tsi - 2006
Téléchargement