3
Résumé
Le sujet de cette thèse est la classification semi-supervisée qui est considérée d’un
point de vue décisionnel. Nous nous intéressons à la question de choix de modèles dans
ce contexte où les modèles sont estimés en utilisant conjointement des données étiquetées
et des données non étiquetées plus nombreuses. Nous concentrons notre recherche sur les
modèles génératifs où la classification semi-supervisée s’envisage sans difficulté, contraire-
ment au cadre prédictif qui nécessite des hypothèses supplémentaires peu naturelles.
Après avoir dressé un état de l’art de la classification semi-supervisée, nous décrivons
l’estimation des paramètres d’un modèle de classification à l’aide de données étiquetées
et non étiquetées par l’algorithme EM. Nos contributions sur la sélection de modèles font
l’objet des deux chapitres suivants. Au chapitre 3, nous présentons un test statistique où
les données non étiquetées sont utilisées pour mettre à l’épreuve le modèle utilisé. Au
chapitre 4 nous présentons un critère de sélection de modèles AICcond, dérivé du critère
AIC d’un point de vue prédictif. Nous prouvons la convergence asymptotique de ce cri-
tère particulièrement bien adapté au contexte semi-supervisé et ses bonnes performances
pratiques comparé à la validation croisée et à d’autres critères de vraisemblance pénalisée.
Une deuxième partie de la thèse, sans rapport direct avec le contexte semi-supervisé,
présente des modèles multinomiaux pour la classification sur variables qualitatives. Nous
avons conçu ces modèles pour répondre à des limitations des modèles multinomiaux par-
cimonieux proposés dans le logiciel mixmod. À cette occasion, nous proposons un critère
type BIC qui prend en compte de manière spécifique la complexité de ces modèles multi-
nomiaux contraints.
Mots clés : modèles de mélange, estimation par maximum de vraisemblance, don-
nées manquantes, algorithme EM, analyse discriminante, classification semi-supervisée,
modèles parcimonieux, choix de modèle.
tel-00447141, version 1 - 14 Jan 2010