Fouille de données Approches semi-supervisées 1 Plan du cours 1. Le pré-traitement des données 2. Méthodes non supervisées 3. Méthodes non supervisées 4. Méthodes semi-supervisées 5. Analyses de réseaux sociaux 6. Fouille d’opinion et analyse de sentiments 2 Approches supervisées 3 Contexte Les données labellisées sont peu nombreuses Effort humain important Deux scénarios considérés dans ce cours 1. Apprendre de données labellisées et non labellisées (apprentissage LN) 2. Apprendre de données labellisées positivement et de données non labellisées (apprentissage PN) 4 Apprentissage LN - Les données labellisées sont peu nombreuses - Effort humain important - Particulièrement vrai pour la classification de documents Web - Le clustering peut aider d’une certaine manière mais le résultat n’est pas forcément adapté aux besoins de l’utilisateur Pré-requis Même en petit nombre, chaque classe doit être représentée Pourquoi les données non labellisées peuvent être utiles ? Données non labellisées peuvent fournir des informations sur les lois de probabilité à plusieurs variables « Devoir » est fréquemment associé à une classe + forte corrélation entre « devoir » et « cours » dans le jeu de données non labellisés => « cours » est représentatif de la classe également 5 Apprentissage LN ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? Données labellisées Classe + ? ? Données non labellisées Classe - ? 6 Classe inconnue ? ? ? ? ? ? ? ? ? ? ? ? ? Algorithme EM et NBC Algorithme EM [Dempster A., et al. 1977] Algorithme itératif pour l’estimation du maximum de vraisemblance avec des données manquantes - Etape Expectation (E) : complète les trous avec les paramètres courants - Etape Minimization (M) : Ré-estime les paramètres Itération jusqu’à ce que les paramètres se stabilisent et obtention d’un minimum local 7 Incorporer des données non labellisés dans l’algorithme EM [Nigam et al., 2000] - Application brute de l’algorithme EM - Algorithme EM intégrant une pondération des données non labellisées - Algorithme EM avec plusieurs composants de mixture par classe 8 Aperçu de l’approche 1. Entrainer un classifieur avec les données labellisées 2. Utiliser ce modèle pour prédire les données non labellisées 3. Apprendre un nouveau modèle en se servant de tous les documents 4. Répéter les étapes 2 et 3 jusqu’à convergence 9 Algorithme EM “basique” Algorithme 1 : EM(L,U) Apprendre un modèle f en utilisant un NB classifieur sur L uniquement ; répéter // Etape E pour chaque di 2 U faire Utiliser le classifieur f pour estimer P r(cj |di ); // Etape M Apprendre un nouveau modèle f sur L [ U en calculant P r(cj ) et P r(wt |cj ); jusqu’à Stabilisation des paramètres; Résultat : Le classifieur f produit à la dernière itération 10 Rappel sur le calcul des probabilités Classification Calcul du modèle 11 Algorithme EM “basique” Limites Points positifs Efficace si les 2 suppositions du modèle génératif sont respectées Pour rappel : 1. Les données (textes) sont générés par un modèle de mixture 2. Correspondance une à une entre les composants de la mixture et les classes Problèmes - En pratique ces deux suppositions sont très fortes - En effet, une catégorie a souvent des sous-catégories (Actualités -> actualités politiques, actualités sportives, faits divers, …) Des solutions existent pour prendre en compte ces limitations 12 Solution 1: pondérer les documents non labellisés Nouvelle étape M Avec : 13 Solution 2: le co-apprentissage Principe - Partition des attributs (dimensions) en deux sous-ensembles - Chaque sous-ensemble est suffisant pour apprendre un modèle - Deux modèles sont appris à partir des mêmes données Exemple Apprentissage d’un classifieur thématique de pages Web à partir (1) des liens entrants/sortants (aspect structurel) et (2) du contenu des pages 14 Solution 2: le co-apprentissage Algorithme Données - Données labellisées, L - Données non labellisées, N Algorithme Répéter - Entrainer h1 avec L - Entrainer h2 avec L - Prédire sur N avec h1 (classe + / classe -) - Prédire sur N avec h2 (classe + / classe -) - Ajouter les prédictions les plus sûres à L Jusqu’à plus aucun exemple dans N ou maxIter atteint 15 Quand le modèle génératif ne convient pas Situation - L’hypothèse “un composant par classe” n’est pas toujours vérifiées en pratique - Ex: classification thématique des pages Webs Objectif Apprendre le nombre de composants Approches existantes - M-EM (Nigam et al., 2000) : validation croisée - Partitionned-EM (Cong et al., 2004) : clustering hiérarchique (++) 16 Résumé sur apprentissage LN - Utiliser des données non labellisées peut augmenter la qualité des modèles quand les données respectent le modèle génératif - M-EM et Partitionned-EM marchent bien quand on a plus d’un composant par classe - Le co-apprentissage est aussi une technique très efficace quand on dispose de suffisamment d’attributs 17 Références Ces ouvrages pointent vers de nombreuses références d’articles scientifiques décrivant les approches vues en cours ou des variantes de celles-ci - Data Mining - Concepts and Techniques par J. Han et M.Kamber (ed. Morgan Kauffman) - Web Data Mining - ExploringHyperlink, Contents and Usage Data par B. Liu (ed. Springer) - Statistiques Exploratoires Multidimensionnelles par L. Lebart et al. (ed. Dunod) 18