Apprentissage LN
-Les données labellisées sont peu nombreuses
-Effort humain important
-Particulièrement vrai pour la classification de documents Web
-Le clustering peut aider d’une certaine manière mais le résultat n’est
pas forcément adapté aux besoins de l’utilisateur
5
Pré-requis
Même en petit nombre, chaque classe doit être représentée
Pourquoi les données non labellisées peuvent être utiles ?
Données non labellisées peuvent fournir des informations sur les lois de
probabilité à plusieurs variables
«!Devoir!» est fréquemment associé à une classe + forte corrélation entre «!devoir!» et «!cours!»
dans le jeu de données non labellisés => «!cours!» est représentatif de la classe également