Classification faiblement supervisée : arbre de décision probabiliste et apprentissage itératif
supervisé. L’idée est que chaque exemple de l’ensemble d’apprentissage est associé à un vec-
teur de probabilité qui donne l’a priori de chaque classe et qui constitue la seule connaissance
relative aux exemples. Soit {xn, πn}nl’ensemble d’apprentissage, où xncontient les descrip-
teurs du neme exemple d’apprentissage et πn={πni}iest le vecteur qui donne les probabilités
a priori pour xn,iindexant la classe. Ainsi, le cas de l’apprentissage supervisé correspond à
πni = 0 si l’exemple nn’est pas de la classe iet πni = 1 sinon. Pour l’apprentissage semi-
supervisé, une partie des vecteurs πnseront binaires comme pour le cas de l’apprentissage
supervisé, l’autre partie sera constituée de vecteurs de distributions uniformes sur les classes.
Enfin, en apprentissage non supervisé, les classes sont équiprobables.
D’un point de vue applicatif, l’apprentissage semi-supervisé couvre plusieurs spécialités.
Tout d’abord, dans le domaine de la reconnaissance d’objets dans des images : chaque image
est annotée de manière binaire telle que la présence ou l’absence des classes dans les images
soit connue (Crandall and Huttenlocher, 2006) (Ulusoy and Bishop, 2005) (Ponce et al., 2006)
(Weber et al., 2000) (Fergus et al., 2006) (Schmid, 2004). Dans ce cas, pour chaque objet d’une
image, l’annotation peut être vue comme une information a priori sur les classes. Deuxième-
ment, les objets peuvent être annotés par un expert, ou l’application elle-même produit des
incertitudes sur les classes, et donc des a priori (Rossiter and Mukai, 2007). Ce type d’appli-
cation est typique de la télédétection et notamment de l’interprétation d’images (Van de Vlag
and Stein, 2007). Le cas de l’acoustique halieutique est un cas typique d’apprentissage faible-
ment supervisé (Fablet et al., 2008) (Lefort et al., 2009). Des images de la colonne d’eau sont
acquises par un sondeur acoustique, l’objectif étant de classer les bancs de poissons dans les
images en fonction de leur classe (le banc de poissons étant finalement associé à une seule
classe). L’unique connaissance a priori est celle de la proportion des classes dans les images
qui est donnée par chalutage, le résultat de la pêche étant représentatif de la proportion des
classes présentes dans l’image au moment de la pêche. Enfin, l’apprentissage faiblement su-
pervisé est employé dans le cas des cascades de classificateurs probabilistes (Maccormick and
Blake, 2000) (Neville and Jensen, 2000). C’est le cas de l’apprentissage semi-supervisé itéra-
tif (Chapelle et al., 2006). Au lieu de transmettre une information " dure " sur les labels, les
probabilités issues des sorties des classificateurs sont conservées et utilisées pour l’apprentis-
sage d’un autre classificateur. Dans ce cas, l’emploi des classificateurs probabilistes diminue
le risque de propagation d’erreurs.
En premier lieu, dans ce papier, une méthode d’apprentissage faiblement supervisé qui
s’appuie sur les arbres de décision est proposée. La plupart des classificateurs probabilistes
utilisent des modèles génératifs qui utilisent l’algorithme EM (Neal and Hinton, 1998) (Mc
Lachlan and Krishnan, 1997). Ces classificateurs probabilistes sont aussi employés avec les
ensembles de classificateurs tels que les méthodes dites de boosting (Kotsiantis and Pintelas,
2005), ou pour les classificateurs itératifs (Neville and Jensen, 2000). En comparaison, nous
proposons d’apprendre des arbres de décision à partir d’un jeu de données faiblement labélisé.
Les arbres de décision et les forêts aléatoires sont des techniques de classification supervisée
très performantes et très souples (Breiman, 2001). Cependant, à notre connaissance, il n’existe
pas de méthodes qui permettent d’apprendre un arbre de décision avec des données faible-
ment labélisées, i.e. des arbres qui prennent des probabilités en entrée. En effet, si les forêts
aléatoires produisent des probabilités en sortie, l’apprentissage des arbres est toujours effectué
pour des données dont les labels sont connus. La seconde contribution de ce papier concerne le
développement d’une procédure itérative d’apprentissage faiblement supervisé. L’objectif est