Introduction Approches principales Learning with labeled and unlabeled data Rapport de fin de première année de thèse (!) de Matthias Seeger, 2002 Institute for Adaptive and Neural Computation University of Edinburgh mardi 25 septembre 2007 Conclusion Introduction Approches principales Conclusion Apprentissages standard Introduction Apprentissage A des fins de "compression", pour représenter les données par un "modèle". Recherche d’une structure sous-jacente dans les données. Principe de parcimonie (rasoir d’Occam) : rechercher a priori une structure "simple". Notations Données : x ∈ X Etiquettes : t ∈ T Données étiquetées : Dl = {(xi , ti )|i = 1, · · · , n} Données non-étiquetées : Du = {xi |i = 1, · · · , m} Introduction Approches principales Conclusion Apprentissages standard Apprentissage supervisé Objectif Déterminer une relation probabiliste P(x, t) entre les données et les étiquettes A partir d’un ensemble de données étiquetées Dl uniquement Utilité de l’apprentissage |T | < ∞, problème de classification ou reconnaissance de formes T ⊂ R, problème de régression ou d’estimation Problème de la généralisation Problème mal-posé car l’ensemble des données étiquetées est de cardinal fini Il faut donc déterminer une relation P(x, t) qui reste représentative quand on augmente le volume de données Introduction Approches principales Conclusion Apprentissages standard Apprentissage non-supervisé Cadre complètement différent On dispose uniquement de données non-étiquetées Du supposées issues d’une distribution source P(x) On ne connaît pas a priori l’ensemble T des étiquettes Objectif Recherche d’une "structure intéressante" si possible simple (principe de parcimonie) Cette structure est supposée "cachée" dans les données, notamment à cause du bruit Approche générative Estimation de la densité des données P(x) P(x) est la superposition de modèles P(x|t) ajustés aux données La "simplicité" des modèles P(x|t) est contrôlée par régularisation Introduction Approches principales Conclusion Apprentissage semi-supervisé Et le semi-supervisé là-dedans ? Deux techniques opposées Supervisé : on connaît parfaitement les données, mais souvent en nombre insuffisant, d’où le problème de généralisation Non-supervisé : on dispose d’une masse de données non-étiquetées mais souvent sans connaissance autre Semi-supervisé On dispose de quelques données étiquetées, ET de beaucoup de données non-étiquetées Combinaison des avantages des deux méthodes Les données étiquetées permettent de se faire une idée de la structure de P(x) Les données non-étiquetées aident à aborder le problème de la généralisation Introduction Approches principales Conclusion Apprentissage semi-supervisé Approche de Seeger Apprentissage supervisé assisté par des données additionnelles non étiquetées Données Dl = {(xi , ti )|i = 1, · · · , n} avec t ∈ T = {1, · · · , c}, supposées connues indépendamment de la relation P(x, t) Du = {xi |i = n + 1, ·P · · , n + m}, connues indépendamment de la distribution P(x) = ct=1 P(x, c) Connaissance a priori Dans le cas supervisé : "ceinture de sécurité" pour éviter de diverger d’une solution "simple" Dans le cas non-supervisé : forte influence sur le résultat final En semi-supervisé : faire attention à rester loin de ces deux limites extrèmes ( !) Introduction Approches principales Conclusion Non-supervisé et prise en compte des données étiquetées Non-supervisé puis étiquetage des clusters Supposition On suppose que m >> n, c’est à dire qu’on dispose de très peu de données étiquetées et de beaucoup de données brutes Etapes de l’approche On réalise un apprentissage non-supervisé sur les données brutes afin de constituer des clusters On regroupe éventuellement les clusters afin de constituer des classes en utilisant les données étiquetées Exemple : méthode de Tipping ou de Rattray Modélisation des données par un mélange de Gaussiennes Cette modélisation permet de construire une distance adaptée à la forme des clusters KPPV avec cette distance et les données étiquetées Introduction Approches principales Non-supervisé et prise en compte des données étiquetées K-Means initialisés (Seeded K-Means, Basu et al.) Principe On initialise les centroïdes des clusters à la moyenne des classes définies par les données étiquetées On itère l’algorithme K-Means en autorisant un changement des étiquettes sur Dl Conclusion Introduction Approches principales Non-supervisé et prise en compte des données étiquetées K-Means initialisés (Seeded K-Means, Basu et al.) Principe On initialise les centroïdes des clusters à la moyenne des classes définies par les données étiquetées On itère l’algorithme K-Means en autorisant un changement des étiquettes sur Dl Initialisation des centroïdes Conclusion Introduction Approches principales Non-supervisé et prise en compte des données étiquetées K-Means initialisés (Seeded K-Means, Basu et al.) Principe On initialise les centroïdes des clusters à la moyenne des classes définies par les données étiquetées On itère l’algorithme K-Means en autorisant un changement des étiquettes sur Dl Affectation des points aux clusters Conclusion Introduction Approches principales Non-supervisé et prise en compte des données étiquetées K-Means initialisés (Seeded K-Means, Basu et al.) Principe On initialise les centroïdes des clusters à la moyenne des classes définies par les données étiquetées On itère l’algorithme K-Means en autorisant un changement des étiquettes sur Dl Mise à jour des centroïdes Conclusion Introduction Approches principales Non-supervisé et prise en compte des données étiquetées K-Means initialisés (Seeded K-Means, Basu et al.) Principe On initialise les centroïdes des clusters à la moyenne des classes définies par les données étiquetées On itère l’algorithme K-Means en autorisant un changement des étiquettes sur Dl l’étiquette a changé Convergence Conclusion Introduction Approches principales Conclusion Non-supervisé et prise en compte des données étiquetées K-Means contraints (Constrained K-Means, Bennett et al.) Principe On initialise les centroïdes des clusters à la moyenne des classes définies par les données étiquetées On itère l’algorithme K-Means sans autoriser de changement des étiquettes sur Dl Introduction Approches principales Conclusion Non-supervisé et prise en compte des données étiquetées K-Means contraints (Constrained K-Means, Bennett et al.) Principe On initialise les centroïdes des clusters à la moyenne des classes définies par les données étiquetées On itère l’algorithme K-Means sans autoriser de changement des étiquettes sur Dl Initialisation des centroïdes Introduction Approches principales Conclusion Non-supervisé et prise en compte des données étiquetées K-Means contraints (Constrained K-Means, Bennett et al.) Principe On initialise les centroïdes des clusters à la moyenne des classes définies par les données étiquetées On itère l’algorithme K-Means sans autoriser de changement des étiquettes sur Dl Affectation des points aux clusters Introduction Approches principales Conclusion Non-supervisé et prise en compte des données étiquetées K-Means contraints (Constrained K-Means, Bennett et al.) Principe On initialise les centroïdes des clusters à la moyenne des classes définies par les données étiquetées On itère l’algorithme K-Means sans autoriser de changement des étiquettes sur Dl Mise à jour des centroïdes Introduction Approches principales Conclusion Non-supervisé et prise en compte des données étiquetées K-Means contraints (Constrained K-Means, Bennett et al.) Principe On initialise les centroïdes des clusters à la moyenne des classes définies par les données étiquetées On itère l’algorithme K-Means sans autoriser de changement des étiquettes sur Dl l’étiquette ne peut pas changer Convergence Introduction Approches principales Conclusion Supervisé et prise en compte des données non étiquetées Méthodes génératives en supervisé pur Modélisation des classes P(x|t) est estimé en combinant des modèles P(x|t, θ) L’apprentissage détermine les proportions πt de chaque modèle L’appartenance est estimée par la règle de Bayes : P(t|x, θ̂, π̂) = Pc π̂t P(x|t, θ̂) πˆt 0 P(x|t 0 , θ̂) (1) t 0 =1 Apprentissage supervisé par la méthode EM Déterminer (θ, π) en maximisant la log-vraisemblance : n X log πti P(xi |ti , θ) i=1 Pas de solution analytique, donc estimation itérative Classiquement : algorithme EM (Dempster, Laird, Rubin, 1977) (2) Introduction Approches principales Conclusion Supervisé et prise en compte des données non étiquetées Comment faire intervenir les données non-étiquetées ? Modification de la log-vraisemblance Objectif : faire intervenir deux termes (vraisemblance conjointe), l’un pour les données étiquetées, l’autre pour les non-étiquetées n X log πti P(xi |ti , θ) + i=1 m X i=n+1 log c X πt P(xi |t, θ) t=1 Principe sous-jacent Pour les données non-étiquetées, l’étiquette est considérée comme une information "manquante" L’algorithme EM détermine donc simultanément : 1) les proportions, 2) les appartenances manquantes (3) Introduction Approches principales Conclusion Supervisé et prise en compte des données non étiquetées Problème de l’approche EM modifiée Algorithme EM Etape "Expectation" : la distribution conditionnelle est déterminée en utilisant les données et le modèle courant Etape "Maximization 1" : l’espérance de la log-vraisemblance est calculée en utilisant la distribution conditionnelle. Etape "Maximization 2" : la log-vraisemblance est maximisée afin de mettre à jour le modèle courant Dans le cas du semi-supervisé On initialise les modèles en les ajustant aux données étiquetées Dl Dans la première itération E, on assigne des étiquettes manquantes aux données Du Le première itération de Maximisation repose donc sur des données entièrement étiquetées Il est fort probable que les étiquettes ne changent plus par la suite Introduction Approches principales Conclusion Problèmes connexes Réflexion sur des problèmes similaires Active learning On dispose d’une masse de données non-étiquetées Un "expert" ou "oracle" peut étiqueter une données à la demande (coût) L’objectif de l’apprentissage est d’appeler l’oracle le moins souvent possible Coaching : apprendre comment apprendre Utilisation d’une variable supplémentaire z (coach) en plus des étiquettes lors de l’apprentissage Relations entre x et z et entre t et z plus "simples" L’objectif est de ne plus faire intervenir z lorsque l’apprentissage est terminé Introduction Approches principales Conclusion Conclusion sur l’article Conclusion sur l’article Présente l’apprentissage semi-supervisé sous le point de vue : "supervisé assisté par des données additionnelles non étiquetées" Points positifs Bon positionnement de la problématique de l’apprentissage Cadre suffisament général pour englober de nombreuses méthodes décrites dans la litérature Points négatifs Approche "non-supervisé assisté par des données étiquetées" trop peu investiguée Pas de prise en compte des approches dans lesquelles l’étiquetage est partiel ou incertain