Approches semi

publicité
Fouille de données
Approches semi-supervisées
1
Plan du cours
1. Le pré-traitement des données
2. Méthodes non supervisées
3. Méthodes non supervisées
4. Méthodes semi-supervisées
5. Analyses de réseaux sociaux
6. Fouille d’opinion et analyse de sentiments
2
Approches supervisées
3
Contexte
Les données labellisées sont peu nombreuses
Effort humain important
Deux scénarios considérés dans ce cours
1. Apprendre de données labellisées et non labellisées
(apprentissage LN)
2. Apprendre de données labellisées positivement et de données
non labellisées (apprentissage PN)
4
Apprentissage LN
- Les données labellisées sont peu nombreuses
- Effort humain important
- Particulièrement vrai pour la classification de documents Web
- Le clustering peut aider d’une certaine manière mais le résultat n’est
pas forcément adapté aux besoins de l’utilisateur
Pré-requis
Même en petit nombre, chaque classe doit être représentée
Pourquoi les données non labellisées peuvent être utiles ?
Données non labellisées peuvent fournir des informations sur les lois de
probabilité à plusieurs variables
« Devoir » est fréquemment associé à une classe + forte corrélation entre « devoir » et « cours »
dans le jeu de données non labellisés => « cours » est représentatif de la classe également
5
Apprentissage LN
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
Données labellisées
Classe +
?
?
Données non labellisées
Classe -
?
6
Classe inconnue
?
?
?
?
?
?
?
?
?
?
?
?
?
Algorithme EM et NBC
Algorithme EM [Dempster A., et al. 1977]
Algorithme itératif pour l’estimation du maximum de vraisemblance avec des
données manquantes
- Etape Expectation (E) : complète les trous avec les paramètres courants
- Etape Minimization (M) : Ré-estime les paramètres
Itération jusqu’à ce que les paramètres se stabilisent et obtention d’un minimum
local
7
Incorporer des données non
labellisés dans l’algorithme EM
[Nigam et al., 2000]
- Application brute de l’algorithme EM
- Algorithme EM intégrant une pondération des données non labellisées
- Algorithme EM avec plusieurs composants de mixture par classe
8
Aperçu de l’approche
1. Entrainer un classifieur avec les données labellisées
2. Utiliser ce modèle pour prédire les données non labellisées
3. Apprendre un nouveau modèle en se servant de tous les documents
4. Répéter les étapes 2 et 3 jusqu’à convergence
9
Algorithme EM “basique”
Algorithme 1 : EM(L,U)
Apprendre un modèle f en utilisant un NB classifieur sur L uniquement ;
répéter
// Etape E
pour chaque di 2 U faire
Utiliser le classifieur f pour estimer P r(cj |di );
// Etape M
Apprendre un nouveau modèle f sur L [ U en calculant P r(cj ) et
P r(wt |cj );
jusqu’à Stabilisation des paramètres;
Résultat : Le classifieur f produit à la dernière itération
10
Rappel sur le calcul des
probabilités
Classification
Calcul du modèle
11
Algorithme EM “basique”
Limites
Points positifs
Efficace si les 2 suppositions du modèle génératif sont respectées
Pour rappel :
1. Les données (textes) sont générés par un modèle de mixture
2. Correspondance une à une entre les composants de la
mixture et les classes
Problèmes
- En pratique ces deux suppositions sont très fortes
- En effet, une catégorie a souvent des sous-catégories
(Actualités -> actualités politiques, actualités sportives, faits
divers, …)
Des solutions existent pour prendre en compte ces limitations
12
Solution 1: pondérer les
documents non labellisés
Nouvelle étape M
Avec :
13
Solution 2: le co-apprentissage
Principe
- Partition des attributs (dimensions) en deux sous-ensembles
- Chaque sous-ensemble est suffisant pour apprendre un modèle
- Deux modèles sont appris à partir des mêmes données
Exemple
Apprentissage d’un classifieur thématique de pages Web à partir (1)
des liens entrants/sortants (aspect structurel) et (2) du contenu des
pages
14
Solution 2: le co-apprentissage
Algorithme
Données
- Données labellisées, L
- Données non labellisées, N
Algorithme
Répéter
- Entrainer h1 avec L
- Entrainer h2 avec L
- Prédire sur N avec h1 (classe + / classe -)
- Prédire sur N avec h2 (classe + / classe -)
- Ajouter les prédictions les plus sûres à L
Jusqu’à plus aucun exemple dans N ou maxIter atteint
15
Quand le modèle génératif ne
convient pas
Situation
- L’hypothèse “un composant par classe” n’est pas toujours
vérifiées en pratique
- Ex: classification thématique des pages Webs
Objectif
Apprendre le nombre de composants
Approches existantes
- M-EM (Nigam et al., 2000) : validation croisée
- Partitionned-EM (Cong et al., 2004) : clustering hiérarchique (++)
16
Résumé sur apprentissage LN
- Utiliser des données non labellisées peut augmenter la qualité des modèles
quand les données respectent le modèle génératif
- M-EM et Partitionned-EM marchent bien quand on a plus d’un composant
par classe
- Le co-apprentissage est aussi une technique très efficace quand on
dispose de suffisamment d’attributs
17
Références
Ces ouvrages pointent vers de nombreuses références d’articles
scientifiques décrivant les approches vues en cours ou des
variantes de celles-ci
- Data Mining - Concepts and Techniques par J. Han et M.Kamber
(ed. Morgan Kauffman)
- Web Data Mining - ExploringHyperlink, Contents and Usage Data
par B. Liu (ed. Springer)
- Statistiques Exploratoires Multidimensionnelles par L. Lebart et al.
(ed. Dunod)
18
Téléchargement