Estimation et sélection en classification semi-supervisée

Téléchargement

N˚ORDRE : 40105

Université des Sciences et Technologies Lille 1,

École Doctorale régionale Sciences Pour l’Ingénieur

Lille Nord-de-France

Thèse pour obtenir le grade de Docteur en Sciences de

l’Université Lille 1

présentée par Vincent Vandewalle

le 09 décembre 2009

Discipline : Mathématiques Appliquées

Estimation et sélection en classification

semi-supervisée

Directeurs de Thèse : Christophe Biernacki et Gilles Celeux

Jury :

Directeur Christophe Biernacki Professeur Université de Lille 1

Directeur Gilles Celeux Dir. Recherche INRIA

Rapporteur Didier Chauveau Professeur Université d’Orléans

Rapporteur Jean-Jacques Daudin Professeur AgroParisTech

Président Gérard Govaert Professeur Université de Technologie de Compiègne

Thèse de Vincent Vandewalle, Lille 1, 2009

http://doc.univ-lille1.fr

Thèse de Vincent Vandewalle, Lille 1, 2009

http://doc.univ-lille1.fr

Résumé

Le sujet de cette thèse est la classiﬁcation semi-supervisée qui est considérée d’un

point de vue décisionnel. Nous nous intéressons à la question de choix de modèles dans

ce contexte où les modèles sont estimés en utilisant conjointement des données étiquetées

et des données non étiquetées plus nombreuses. Nous concentrons notre recherche sur les

modèles génératifs où la classiﬁcation semi-supervisée s’envisage sans diﬃculté, contraire-

ment au cadre prédictif qui nécessite des hypothèses supplémentaires peu naturelles.

Après avoir dressé un état de l’art de la classiﬁcation semi-supervisée, nous décrivons

l’estimation des paramètres d’un modèle de classiﬁcation à l’aide de données étiquetées

et non étiquetées par l’algorithme EM. Nos contributions sur la sélection de modèles font

l’objet des deux chapitres suivants. Au chapitre 3, nous présentons un test statistique où

les données non étiquetées sont utilisées pour mettre à l’épreuve le modèle utilisé. Au

chapitre 4 nous présentons un critère de sélection de modèles AICcond, dérivé du critère

AIC d’un point de vue prédictif. Nous prouvons la convergence asymptotique de ce cri-

tère particulièrement bien adapté au contexte semi-supervisé et ses bonnes performances

pratiques comparé à la validation croisée et à d’autres critères de vraisemblance pénalisée.

Une deuxième partie de la thèse, sans rapport direct avec le contexte semi-supervisé,

présente des modèles multinomiaux pour la classiﬁcation sur variables qualitatives. Nous

avons conçu ces modèles pour répondre à des limitations des modèles multinomiaux par-

cimonieux proposés dans le logiciel mixmod. À cette occasion, nous proposons un critère

type BIC qui prend en compte de manière spéciﬁque la complexité de ces modèles multi-

nomiaux contraints.

Mots clés : modèles de mélange, estimation par maximum de vraisemblance, don-

nées manquantes, algorithme EM, analyse discriminante, classiﬁcation semi-supervisée,

modèles parcimonieux, choix de modèle.

Thèse de Vincent Vandewalle, Lille 1, 2009

http://doc.univ-lille1.fr

Thèse de Vincent Vandewalle, Lille 1, 2009

http://doc.univ-lille1.fr

Abstract

Estimation and selection in semi-supervised classiﬁcation

The subject of this thesis is the semi-supervised classiﬁcation which is considered in

decision-making perpective. We are interested in model choice issue when models are

estimated using both labeled data and many unlabeled data. We focus our research

on generative models for which the semi-supervised classiﬁcation is considered without

diﬃculty, unlike predictive framework that requires additional unnatural assumptions.

Having developed a state of the art of semi-supervised classiﬁcation, we describe the

parameters estimation of a classiﬁcation model using labeled data and unlabeled data by

the EM algorithm. Our contributions on models selection is closely-watched in the two fol-

lowing chapters. In Chapter 3, we present a statistical test where unlabeled data are used

to test the model. In Chapter 4 we present a model selection criterion, AICcond, derived

from the AIC criterion in a predictive point of view. We prove the asymptotic convergence

of this criterion particularly well suited to semi-supervised setting and his good practical

performance compared to the cross-validation and other penalized likelihood criteria.

A second part of the thesis, not directly connected with the semi-supervised setting, the

multinomial models for classiﬁcation of qualitative variables are considered. We designed

these models to address the limitations of parsimonious multinomial models proposed in

the program MIXMOD. For this setting, we propose a BIC-type criterion which takes

into account speciﬁcally the complexity of the constrained multinomial models.

Keywords: mixture models, maximum likelihood estimation, missing data, EM algo-

rithm, discriminant analysis, semi-supervised classiﬁcation, parsimonious models, model

choice.

Thèse de Vincent Vandewalle, Lille 1, 2009

http://doc.univ-lille1.fr

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

1 / 156 100%

Documents connexes

télécharger - LISIC

Compte Rendu du Projet Python

d`où log tang-C = - log [a — b) + L ( « + A) • L`angle

exercices 5 8 11 12 p 553

stage2017fr - Pierre Chainais

Exercice 1 : Détection de naines brunes. Exercice 2 : Influence de la

fiche chimie 01

INTRODUCTION `A LA THÉORIE ALGÉBRIQUE DES NOMBRES

CORRIGE DES EXERCICES

Maître de conférences associé à mi-temps (PAST) à partir du

Ordre maximal d`un élément du groupe symétrique(1) - IMJ-PRG

Ce qu`on a vu cette année en math 526…

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Estimation et sélection en classification semi-supervisée

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Estimation et sélection en classification semi-supervisée

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib