Fouille de données
Approches semi-supervisées
1
Plan du cours
1. Le pré-traitement des données
2. Méthodes non supervisées
3. Méthodes non supervisées
4. Méthodes semi-supervisées
5. Analyses de réseaux sociaux
6. Fouille d’opinion et analyse de sentiments
2
Approches supervisées
3
Contexte
Les données labellisées sont peu nombreuses
Effort humain important
4
Deux scénarios considérés dans ce cours
1. Apprendre de données labellisées et non labellisées
(apprentissage LN)
2. Apprendre de données labellisées positivement et de données
non labellisées (apprentissage PN)
Apprentissage LN
-Les données labellisées sont peu nombreuses
-Effort humain important
-Particulièrement vrai pour la classification de documents Web
-Le clustering peut aider d’une certaine manière mais le résultat n’est
pas forcément adapté aux besoins de l’utilisateur
5
Pré-requis
Même en petit nombre, chaque classe doit être représentée
Pourquoi les données non labellisées peuvent être utiles ?
Données non labellisées peuvent fournir des informations sur les lois de
probabilité à plusieurs variables
«!Devoir!» est fréquemment associé à une classe + forte corrélation entre «!devoir!» et «!cours!»
dans le jeu de données non labellisés => «!cours!» est représentatif de la classe également
1 / 18 100%