N˚ORDRE : 40105
Université des Sciences et Technologies Lille 1,
École Doctorale régionale Sciences Pour l’Ingénieur
Lille Nord-de-France
Thèse pour obtenir le grade de Docteur en Sciences de
l’Université Lille 1
présentée par Vincent Vandewalle
le 09 décembre 2009
Discipline : Mathématiques Appliquées
Estimation et sélection en classification
semi-supervisée
Directeurs de Thèse : Christophe Biernacki et Gilles Celeux
Jury :
Directeur Christophe Biernacki Professeur Université de Lille 1
Directeur Gilles Celeux Dir. Recherche INRIA
Rapporteur Didier Chauveau Professeur Université d’Orléans
Rapporteur Jean-Jacques Daudin Professeur AgroParisTech
Président Gérard Govaert Professeur Université de Technologie de Compiègne
Thèse de Vincent Vandewalle, Lille 1, 2009
© 2010 Tous droits réservés.
http://doc.univ-lille1.fr
2
Thèse de Vincent Vandewalle, Lille 1, 2009
© 2010 Tous droits réservés.
http://doc.univ-lille1.fr
3
Résumé
Le sujet de cette thèse est la classification semi-supervisée qui est considérée d’un
point de vue décisionnel. Nous nous intéressons à la question de choix de modèles dans
ce contexte où les modèles sont estimés en utilisant conjointement des données étiquetées
et des données non étiquetées plus nombreuses. Nous concentrons notre recherche sur les
modèles génératifs où la classification semi-supervisée s’envisage sans difficulté, contraire-
ment au cadre prédictif qui nécessite des hypothèses supplémentaires peu naturelles.
Après avoir dressé un état de l’art de la classification semi-supervisée, nous décrivons
l’estimation des paramètres d’un modèle de classification à l’aide de données étiquetées
et non étiquetées par l’algorithme EM. Nos contributions sur la sélection de modèles font
l’objet des deux chapitres suivants. Au chapitre 3, nous présentons un test statistique où
les données non étiquetées sont utilisées pour mettre à l’épreuve le modèle utilisé. Au
chapitre 4 nous présentons un critère de sélection de modèles AICcond, dérivé du critère
AIC d’un point de vue prédictif. Nous prouvons la convergence asymptotique de ce cri-
tère particulièrement bien adapté au contexte semi-supervisé et ses bonnes performances
pratiques comparé à la validation croisée et à d’autres critères de vraisemblance pénalisée.
Une deuxième partie de la thèse, sans rapport direct avec le contexte semi-supervisé,
présente des modèles multinomiaux pour la classification sur variables qualitatives. Nous
avons conçu ces modèles pour répondre à des limitations des modèles multinomiaux par-
cimonieux proposés dans le logiciel mixmod. À cette occasion, nous proposons un critère
type BIC qui prend en compte de manière spécifique la complexité de ces modèles multi-
nomiaux contraints.
Mots clés : modèles de mélange, estimation par maximum de vraisemblance, don-
nées manquantes, algorithme EM, analyse discriminante, classification semi-supervisée,
modèles parcimonieux, choix de modèle.
Thèse de Vincent Vandewalle, Lille 1, 2009
© 2010 Tous droits réservés.
http://doc.univ-lille1.fr
4
Thèse de Vincent Vandewalle, Lille 1, 2009
© 2010 Tous droits réservés.
http://doc.univ-lille1.fr
5
Abstract
Estimation and selection in semi-supervised classification
The subject of this thesis is the semi-supervised classification which is considered in
decision-making perpective. We are interested in model choice issue when models are
estimated using both labeled data and many unlabeled data. We focus our research
on generative models for which the semi-supervised classification is considered without
difficulty, unlike predictive framework that requires additional unnatural assumptions.
Having developed a state of the art of semi-supervised classification, we describe the
parameters estimation of a classification model using labeled data and unlabeled data by
the EM algorithm. Our contributions on models selection is closely-watched in the two fol-
lowing chapters. In Chapter 3, we present a statistical test where unlabeled data are used
to test the model. In Chapter 4 we present a model selection criterion, AICcond, derived
from the AIC criterion in a predictive point of view. We prove the asymptotic convergence
of this criterion particularly well suited to semi-supervised setting and his good practical
performance compared to the cross-validation and other penalized likelihood criteria.
A second part of the thesis, not directly connected with the semi-supervised setting, the
multinomial models for classification of qualitative variables are considered. We designed
these models to address the limitations of parsimonious multinomial models proposed in
the program MIXMOD. For this setting, we propose a BIC-type criterion which takes
into account specifically the complexity of the constrained multinomial models.
Keywords: mixture models, maximum likelihood estimation, missing data, EM algo-
rithm, discriminant analysis, semi-supervised classification, parsimonious models, model
choice.
Thèse de Vincent Vandewalle, Lille 1, 2009
© 2010 Tous droits réservés.
http://doc.univ-lille1.fr
1 / 156 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !