2 ISI
1. Introduction
1.1. Apprentissage semi-supervisé
Etant donné un ensemble de données étiquetées D`={(xi, yi)}M`
i=1, où xi∈X⊂
RDest une donnée observée et yi∈ {1, ..., K}son étiquette parmi un choix de K
classes, l’objectif des approches supervisées est de modéliser la relation existant entre
les données et leur étiquette de manière à répondre à la question suivante : connaissant
une nouvelle donnée, quelle est l’étiquette associée ? Malheureusement, dans de nom-
breuses applications, s’il est aisé d’obtenir les données grâce à un système d’acquisi-
tion automatisé, le processus d’étiquetage est quant à lui généralement long et coûteux
puisqu’il requiert les efforts et l’expérience d’un expert du domaine. Afin de réduire
le besoin de données étiquetées, les algorithmes d’apprentissage dits semi-supervisés,
qui apprennent un classifieur à partir de données étiquetées et non-étiquetées, ont fait
l’objet de nombreux travaux ces dernières années (Chapelle et al., 2006).
Par la suite, on note Dul’ensemble des Mudonnées non-étiquetées, Du=
{xi}Mu
i=1 et D`l’ensemble des M`données étiquetées, D`={(xi, yi)}M`
i=1. Le nombre
total de données est : M=Mu+M`, avec Mu>> M`.
Lorsqu’on dispose de peu de données étiquetées, l’idée générale des approches
semi-supervisées est d’exploiter la structure géométrique de la distribution des don-
nées observées P(x), qui est fournie par les seules données non-étiquetées. Ceci pro-
vient de deux hypothèses généralement admises (Chapelle et al., 2003).
–Hypothèse locale : si deux données sont proches dans une zone de forte densité,
alors elles devraient appartenir à la même classe, ce qui implique que la frontière de
décision doit passer par des régions de faible densité.
–Hypothèse globale : les données sont proches d’un ensemble de variétés dont
la dimension intrinsèque est plus faible que la dimension de l’espace d’observation.
Puisque les variétés définissent des chemins de forte densité, on obtient par transiti-
vité de la première hypothèse que des données issues de la même variété devraient
appartenir à la même classe (Bousquet et al., 2004).
1.2. Plan
Dans les deux Sections suivantes, nous présentons les différents algorithmes de
l’état de l’art en les caractérisant comme étant soit génératifs, soit discriminatifs
(Rubinstein et al., 1997). La section 2 introduit les approches génératives qui tentent
de décrire le processus de génération des données (et donc les variétés) en estimant
la distribution jointe P(x, y). La section 3 introduit les approches discriminatives
qui ont pour seul objectif de définir une fonction h, liant les données et les étiquettes
(y=h(x)) de manière à minimiser une erreur de classification. Nous verrons au tra-
vers de cette section comment ces approches utilisent un graphe de proximité construit
sur les données pour capturer la géométrie des variétés.