Délivré par UNIVERSITE MONTPELLIER 2
Préparée au sein de l'école doctorale I2S
Et de l'unité de recherche UMR MISTEA
Spécialité : Biostatistique
Classification bayésienne non
supervisée de données fonctionnelles
en présence de covariables
Soutenue le 18/12/2014 devant le jury composé de :
Examinateur
Damien JUERYPrésentée par :
M. Jean-Michel MARIN, Université Montpellier 2
RapporteurM. Nicolas CHOPIN, ENSAE
RapporteurM. Pierre DRUILHET, Université Blaise Pascal
ExaminateurM. Denys POMMERET, Université d'Aix-Marseille
Directeur de thèseM. Christophe ABRAHAM, Montpellier SupAgro
Co-encadrante de thèseMme Bénédicte FONTEZ, Montpellier SupAgro
A mon épouse Lucie et toute ma vie.
A mes parents Norbert et Geneviève.
A ma sœur Séverine.
Résumé
Un des objectifs les plus importants en classification non supervisée est d’extraire des groupes
de similarité depuis un jeu de données. Avec le développement actuel du phénotypage où les
données sont recueillies en temps continu, de plus en plus dutilisateurs ont besoin d’outils ca-
pables de classer des courbes.
Le travail présenté dans cette thèse se fonde sur la statistique bayésienne. Plus précisément,
nous nous intéressons à la classification bayésienne non supervisée de données fonctionnelles.
Les lois a priori bayésiennes non paramétriques permettent la construction de modèles flexibles
et robustes.
Nous généralisons un modèle de classification (DPM), basé sur le processus de Dirichlet, au
cadre fonctionnel. Contrairement aux méthodes actuelles qui utilisent la dimension finie en pro-
jetant les courbes dans des bases de fonctions, ou en considérant les courbes aux temps d’obser-
vation, la méthode proposée considère les courbes complètes, en dimension infinie. La théorie
des espaces de Hilbert à noyau reproduisant (RKHS) nous permet de calculer, en dimension in-
finie, les densités de probabilité des courbes par rapport à une mesure gaussienne. De la même
façon, nous explicitons un calcul de loi a posteriori, sachant les courbes complètes et non seule-
ment les valeurs discrétisées. Nous proposons un algorithme qui généralise l’algorithme "Gibbs
sampling with auxiliary parameters" de Neal (2000). L’implémentation numérique requiert le
calcul de produits scalaires, qui sont approchés à partir de méthodes numériques. Quelques ap-
plications sur données réelles et simulées sont également présentées, puis discutées.
En dernier lieu, l’ajout d’une hiérarchie supplémentaire à notre modèle nous permet de pou-
voir prendre en compte des covariables fonctionnelles. Nous verrons à cet effet qu’il est pos-
sible de définir plusieurs modèles. La méthode algorithmique proposée précédemment est ainsi
étendue à chacun de ces nouveaux modèles. Quelques applications sur données simulées sont
présentées.
5
1 / 124 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !