Learning with labeled and unlabeled data

publicité
Introduction
Approches principales
Learning with labeled and unlabeled data
Rapport de fin de première année de thèse (!)
de Matthias Seeger, 2002
Institute for Adaptive and Neural Computation
University of Edinburgh
mardi 25 septembre 2007
Conclusion
Introduction
Approches principales
Conclusion
Apprentissages standard
Introduction
Apprentissage
A des fins de "compression", pour représenter les données par un
"modèle".
Recherche d’une structure sous-jacente dans les données.
Principe de parcimonie (rasoir d’Occam) : rechercher a priori une
structure "simple".
Notations
Données : x ∈ X
Etiquettes : t ∈ T
Données étiquetées : Dl = {(xi , ti )|i = 1, · · · , n}
Données non-étiquetées : Du = {xi |i = 1, · · · , m}
Introduction
Approches principales
Conclusion
Apprentissages standard
Apprentissage supervisé
Objectif
Déterminer une relation probabiliste P(x, t) entre les données et
les étiquettes
A partir d’un ensemble de données étiquetées Dl uniquement
Utilité de l’apprentissage
|T | < ∞, problème de classification ou reconnaissance de formes
T ⊂ R, problème de régression ou d’estimation
Problème de la généralisation
Problème mal-posé car l’ensemble des données étiquetées est de
cardinal fini
Il faut donc déterminer une relation P(x, t) qui reste représentative
quand on augmente le volume de données
Introduction
Approches principales
Conclusion
Apprentissages standard
Apprentissage non-supervisé
Cadre complètement différent
On dispose uniquement de données non-étiquetées Du
supposées issues d’une distribution source P(x)
On ne connaît pas a priori l’ensemble T des étiquettes
Objectif
Recherche d’une "structure intéressante" si possible simple
(principe de parcimonie)
Cette structure est supposée "cachée" dans les données,
notamment à cause du bruit
Approche générative
Estimation de la densité des données P(x)
P(x) est la superposition de modèles P(x|t) ajustés aux données
La "simplicité" des modèles P(x|t) est contrôlée par régularisation
Introduction
Approches principales
Conclusion
Apprentissage semi-supervisé
Et le semi-supervisé là-dedans ?
Deux techniques opposées
Supervisé : on connaît parfaitement les données, mais souvent en
nombre insuffisant, d’où le problème de généralisation
Non-supervisé : on dispose d’une masse de données
non-étiquetées mais souvent sans connaissance autre
Semi-supervisé
On dispose de quelques données étiquetées,
ET de beaucoup de données non-étiquetées
Combinaison des avantages des deux méthodes
Les données étiquetées permettent de se faire une idée de la
structure de P(x)
Les données non-étiquetées aident à aborder le problème de la
généralisation
Introduction
Approches principales
Conclusion
Apprentissage semi-supervisé
Approche de Seeger
Apprentissage supervisé assisté par des données additionnelles non
étiquetées
Données
Dl = {(xi , ti )|i = 1, · · · , n} avec t ∈ T = {1, · · · , c}, supposées
connues indépendamment de la relation P(x, t)
Du = {xi |i = n + 1, ·P
· · , n + m}, connues indépendamment de la
distribution P(x) = ct=1 P(x, c)
Connaissance a priori
Dans le cas supervisé : "ceinture de sécurité" pour éviter de
diverger d’une solution "simple"
Dans le cas non-supervisé : forte influence sur le résultat final
En semi-supervisé : faire attention à rester loin de ces deux limites
extrèmes ( !)
Introduction
Approches principales
Conclusion
Non-supervisé et prise en compte des données étiquetées
Non-supervisé puis étiquetage des clusters
Supposition
On suppose que m >> n, c’est à dire qu’on dispose de très peu de
données étiquetées et de beaucoup de données brutes
Etapes de l’approche
On réalise un apprentissage non-supervisé sur les données brutes
afin de constituer des clusters
On regroupe éventuellement les clusters afin de constituer des
classes en utilisant les données étiquetées
Exemple : méthode de Tipping ou de Rattray
Modélisation des données par un mélange de Gaussiennes
Cette modélisation permet de construire une distance adaptée à
la forme des clusters
KPPV avec cette distance et les données étiquetées
Introduction
Approches principales
Non-supervisé et prise en compte des données étiquetées
K-Means initialisés (Seeded K-Means, Basu et al.)
Principe
On initialise les centroïdes des clusters à la moyenne des classes
définies par les données étiquetées
On itère l’algorithme K-Means en autorisant un changement des
étiquettes sur Dl
Conclusion
Introduction
Approches principales
Non-supervisé et prise en compte des données étiquetées
K-Means initialisés (Seeded K-Means, Basu et al.)
Principe
On initialise les centroïdes des clusters à la moyenne des classes
définies par les données étiquetées
On itère l’algorithme K-Means en autorisant un changement des
étiquettes sur Dl
Initialisation
des centroïdes
Conclusion
Introduction
Approches principales
Non-supervisé et prise en compte des données étiquetées
K-Means initialisés (Seeded K-Means, Basu et al.)
Principe
On initialise les centroïdes des clusters à la moyenne des classes
définies par les données étiquetées
On itère l’algorithme K-Means en autorisant un changement des
étiquettes sur Dl
Affectation des
points aux
clusters
Conclusion
Introduction
Approches principales
Non-supervisé et prise en compte des données étiquetées
K-Means initialisés (Seeded K-Means, Basu et al.)
Principe
On initialise les centroïdes des clusters à la moyenne des classes
définies par les données étiquetées
On itère l’algorithme K-Means en autorisant un changement des
étiquettes sur Dl
Mise à jour
des centroïdes
Conclusion
Introduction
Approches principales
Non-supervisé et prise en compte des données étiquetées
K-Means initialisés (Seeded K-Means, Basu et al.)
Principe
On initialise les centroïdes des clusters à la moyenne des classes
définies par les données étiquetées
On itère l’algorithme K-Means en autorisant un changement des
étiquettes sur Dl
l’étiquette a changé
Convergence
Conclusion
Introduction
Approches principales
Conclusion
Non-supervisé et prise en compte des données étiquetées
K-Means contraints (Constrained K-Means, Bennett et al.)
Principe
On initialise les centroïdes des clusters à la moyenne des classes
définies par les données étiquetées
On itère l’algorithme K-Means sans autoriser de changement des
étiquettes sur Dl
Introduction
Approches principales
Conclusion
Non-supervisé et prise en compte des données étiquetées
K-Means contraints (Constrained K-Means, Bennett et al.)
Principe
On initialise les centroïdes des clusters à la moyenne des classes
définies par les données étiquetées
On itère l’algorithme K-Means sans autoriser de changement des
étiquettes sur Dl
Initialisation
des centroïdes
Introduction
Approches principales
Conclusion
Non-supervisé et prise en compte des données étiquetées
K-Means contraints (Constrained K-Means, Bennett et al.)
Principe
On initialise les centroïdes des clusters à la moyenne des classes
définies par les données étiquetées
On itère l’algorithme K-Means sans autoriser de changement des
étiquettes sur Dl
Affectation des
points aux
clusters
Introduction
Approches principales
Conclusion
Non-supervisé et prise en compte des données étiquetées
K-Means contraints (Constrained K-Means, Bennett et al.)
Principe
On initialise les centroïdes des clusters à la moyenne des classes
définies par les données étiquetées
On itère l’algorithme K-Means sans autoriser de changement des
étiquettes sur Dl
Mise à jour
des centroïdes
Introduction
Approches principales
Conclusion
Non-supervisé et prise en compte des données étiquetées
K-Means contraints (Constrained K-Means, Bennett et al.)
Principe
On initialise les centroïdes des clusters à la moyenne des classes
définies par les données étiquetées
On itère l’algorithme K-Means sans autoriser de changement des
étiquettes sur Dl
l’étiquette ne peut pas changer
Convergence
Introduction
Approches principales
Conclusion
Supervisé et prise en compte des données non étiquetées
Méthodes génératives en supervisé pur
Modélisation des classes
P(x|t) est estimé en combinant des modèles P(x|t, θ)
L’apprentissage détermine les proportions πt de chaque modèle
L’appartenance est estimée par la règle de Bayes :
P(t|x, θ̂, π̂) = Pc
π̂t P(x|t, θ̂)
πˆt 0 P(x|t 0 , θ̂)
(1)
t 0 =1
Apprentissage supervisé par la méthode EM
Déterminer (θ, π) en maximisant la log-vraisemblance :
n
X
log πti P(xi |ti , θ)
i=1
Pas de solution analytique, donc estimation itérative
Classiquement : algorithme EM (Dempster, Laird, Rubin, 1977)
(2)
Introduction
Approches principales
Conclusion
Supervisé et prise en compte des données non étiquetées
Comment faire intervenir les données non-étiquetées ?
Modification de la log-vraisemblance
Objectif : faire intervenir deux termes (vraisemblance conjointe),
l’un pour les données étiquetées, l’autre pour les non-étiquetées
n
X
log πti P(xi |ti , θ) +
i=1
m
X
i=n+1
log
c
X
πt P(xi |t, θ)
t=1
Principe sous-jacent
Pour les données non-étiquetées, l’étiquette est considérée
comme une information "manquante"
L’algorithme EM détermine donc simultanément : 1) les
proportions, 2) les appartenances manquantes
(3)
Introduction
Approches principales
Conclusion
Supervisé et prise en compte des données non étiquetées
Problème de l’approche EM modifiée
Algorithme EM
Etape "Expectation" : la distribution conditionnelle est déterminée
en utilisant les données et le modèle courant
Etape "Maximization 1" : l’espérance de la log-vraisemblance est
calculée en utilisant la distribution conditionnelle.
Etape "Maximization 2" : la log-vraisemblance est maximisée afin
de mettre à jour le modèle courant
Dans le cas du semi-supervisé
On initialise les modèles en les ajustant aux données étiquetées Dl
Dans la première itération E, on assigne des étiquettes
manquantes aux données Du
Le première itération de Maximisation repose donc sur des
données entièrement étiquetées
Il est fort probable que les étiquettes ne changent plus par la suite
Introduction
Approches principales
Conclusion
Problèmes connexes
Réflexion sur des problèmes similaires
Active learning
On dispose d’une masse de données non-étiquetées
Un "expert" ou "oracle" peut étiqueter une données à la demande
(coût)
L’objectif de l’apprentissage est d’appeler l’oracle le moins
souvent possible
Coaching : apprendre comment apprendre
Utilisation d’une variable supplémentaire z (coach) en plus des
étiquettes lors de l’apprentissage
Relations entre x et z et entre t et z plus "simples"
L’objectif est de ne plus faire intervenir z lorsque l’apprentissage
est terminé
Introduction
Approches principales
Conclusion
Conclusion sur l’article
Conclusion sur l’article
Présente l’apprentissage semi-supervisé sous le point de vue :
"supervisé assisté par des données additionnelles non étiquetées"
Points positifs
Bon positionnement de la problématique de l’apprentissage
Cadre suffisament général pour englober de nombreuses
méthodes décrites dans la litérature
Points négatifs
Approche "non-supervisé assisté par des données étiquetées" trop
peu investiguée
Pas de prise en compte des approches dans lesquelles
l’étiquetage est partiel ou incertain
Téléchargement