Mod´elisation et classification des donn´ees de grande
dimension : application `a l’analyse d’images.
Charles Bouveyron
To cite this version:
Charles Bouveyron. Mod´elisation et classification des donn´ees de grande dimension : appli-
cation `a l’analyse d’images.. Math´ematiques [math]. Universit´e Joseph-Fourier - Grenoble I,
2006. Fran¸cais. <tel-00109047v1>
HAL Id: tel-00109047
https://tel.archives-ouvertes.fr/tel-00109047v1
Submitted on 23 Oct 2006 (v1), last revised 23 Jan 2006 (v2)
HAL is a multi-disciplinary open access
archive for the deposit and dissemination of sci-
entific research documents, whether they are pub-
lished or not. The documents may come from
teaching and research institutions in France or
abroad, or from public or private research centers.
L’archive ouverte pluridisciplinaire HAL, est
destin´ee au d´epˆot et `a la diffusion de documents
scientifiques de niveau recherche, publi´es ou non,
´emanant des ´etablissements d’enseignement et de
recherche fran¸cais ou ´etrangers, des laboratoires
publics ou priv´es.
UNIVERSITÉ JOSEPH FOURIER – GRENOBLE 1
THÈSE
présentée par
Charles BOUVEYRON
pour obtenir le grade de
DOCTEUR DE L’UNIVERSITÉ JOSEPH FOURIER
Spécialité : Mathématiques Appliquées
MODÉLISATION ET CLASSIFICATION
DES DONNÉES DE GRANDE DIMENSION
APPLICATION À L’ANALYSE D’IMAGES
réalisée sous la direction de
Cordelia SCHMID et Stéphane GIRARD
soutenue publiquement le 28 septembre 2006
JURY
Christophe BIERNACKI Professeur Président
Gilles CELEUX Directeur de Recherche Rapporteur
Fionn MURTAGH Professeur Rapporteur
Tinne TUYTELAARS Chargé de Recherche Examinateur
Cordelia SCHMID Directeur de Recherche Directeur
Stéphane GIRARD Maître de Conférence Directeur
Thèse préparée au sein des équipes SMS (LMC-IMAG) et Mistis (INRIA Rhône-Alpes)
Table des matières
Principales notations 7
Principales abbréviations 9
1 Introduction 11
1.1 Modélisation et classification des données modernes . . . . . . . . . . . . . . . . . 11
1.2 Problématique et contributions de la thèse . . . . . . . . . . . . . . . . . . . . . . . 12
1.3 Domaines d’application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.4 Organisation de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2 État de l’art 17
2.1 Modélisation probabiliste en classification . . . . . . . . . . . . . . . . . . . . . . . 17
2.1.1 Le problème de la classification . . . . . . . . . . . . . . . . . . . . . . . . 18
2.1.2 La classification probabiliste . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.1.3 Modélisation par mélange de lois . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.4 Estimation des paramètres d’un modèle de mélange . . . . . . . . . . . . . . 23
2.2 Analyse discriminante . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 Le problème de la discrimination . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.2 L’approche générative . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.3 L’approche discriminative . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3 La classification automatique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.3.1 Le problème de la classification automatique . . . . . . . . . . . . . . . . . 31
2.3.2 Le modèle de mélange et l’algorithme EM . . . . . . . . . . . . . . . . . . . 31
2.3.3 Autres méthodes de classification automatique . . . . . . . . . . . . . . . . 36
2.4 Classification des données de grande dimension . . . . . . . . . . . . . . . . . . . . 36
2.4.1 Le fléau de la dimension en classification . . . . . . . . . . . . . . . . . . . 36
2.4.2 Réduction de dimension . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
2.4.3 Méthodes de régularisation . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3
4
TABLE DES MATIÈRES
2.4.4 Modèles parcimonieux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
2.4.5 Classification dans des sous-espaces . . . . . . . . . . . . . . . . . . . . . . 56
3 Modèles de mélange gaussien pour les données de grande dimension 59
3.1 Motivation de notre approche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
3.1.1 Les limites des approches existantes . . . . . . . . . . . . . . . . . . . . . . 60
3.1.2 Notre approche : combiner réduction de dimension, modèles parcimonieux et
régularisation.................................. 62
3.2 Le modèle de mélange gaussien [aij biQidi]...................... 63
3.2.1 Re-paramétrisation du modèle de mélange gaussien . . . . . . . . . . . . . . 63
3.2.2 Fonction de coût Kiassociée au modèle [aij biQidi]............. 65
3.2.3 Complexité du modèle [aij biQidi]....................... 68
3.3 Les sous-modèles de [aij biQidi]............................ 69
3.3.1 Modèles à orientations libres . . . . . . . . . . . . . . . . . . . . . . . . . . 69
3.3.2 Modèles à orientations communes . . . . . . . . . . . . . . . . . . . . . . . 74
3.3.3 Modèles à matrices de covariance communes . . . . . . . . . . . . . . . . . 75
3.4 Liens avec les modèles gaussiens existants . . . . . . . . . . . . . . . . . . . . . . . 76
3.4.1 Liens avec les modèles gaussiens classiques . . . . . . . . . . . . . . . . . . 77
3.4.2 Liens avec les modèles de classification dans des sous-espaces . . . . . . . . 78
4 Classification des données de grande dimension 81
4.1 Vraisemblance du modèle [aij biQidi]et de ses sous-modèles . . . . . . . . . . . . . 81
4.1.1 Vraisemblance des modèles à orientations libres . . . . . . . . . . . . . . . 82
4.1.2 Vraisemblance des modèles à orientations communes . . . . . . . . . . . . . 84
4.1.3 Vraisemblance des modèles à matrices de covariance communes . . . . . . . 85
4.2 Construction des classifieurs HDDA et HDDC . . . . . . . . . . . . . . . . . . . . . 86
4.2.1 Construction du classifieur HDDA . . . . . . . . . . . . . . . . . . . . . . . 86
4.2.2 Construction du classifieur HDDC . . . . . . . . . . . . . . . . . . . . . . . 88
4.3 Estimation des paramètres de la famille du modèle [aij biQidi]............ 89
4.3.1 Estimateurs des modèles à orientations libres . . . . . . . . . . . . . . . . . 89
4.3.2 Estimateurs des modèles à orientations communes . . . . . . . . . . . . . . 93
4.3.3 Estimateurs des modèles à matrices de covariance communes . . . . . . . . 96
4.3.4 Considérations numériques . . . . . . . . . . . . . . . . . . . . . . . . . . . 97
4.4 Estimation des paramètres discrets . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
4.4.1 Estimation des dimensions intrinsèques di................... 99
4.4.2 Estimation du nombre de classes k....................... 100
4.5 Choixdumodèle .................................... 100
4.5.1 Choix du modèle dans le cadre supervisé . . . . . . . . . . . . . . . . . . . 101
4.5.2 Choix du modèle dans le cadre non supervisé . . . . . . . . . . . . . . . . . 101
1 / 183 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !