Résumé
Un des objectifs les plus importants en classification non supervisée est d’extraire des groupes
de similarité depuis un jeu de données. Avec le développement actuel du phénotypage où les
données sont recueillies en temps continu, de plus en plus d’utilisateurs ont besoin d’outils ca-
pables de classer des courbes.
Le travail présenté dans cette thèse se fonde sur la statistique bayésienne. Plus précisément,
nous nous intéressons à la classification bayésienne non supervisée de données fonctionnelles.
Les lois a priori bayésiennes non paramétriques permettent la construction de modèles flexibles
et robustes.
Nous généralisons un modèle de classification (DPM), basé sur le processus de Dirichlet, au
cadre fonctionnel. Contrairement aux méthodes actuelles qui utilisent la dimension finie en pro-
jetant les courbes dans des bases de fonctions, ou en considérant les courbes aux temps d’obser-
vation, la méthode proposée considère les courbes complètes, en dimension infinie. La théorie
des espaces de Hilbert à noyau reproduisant (RKHS) nous permet de calculer, en dimension in-
finie, les densités de probabilité des courbes par rapport à une mesure gaussienne. De la même
façon, nous explicitons un calcul de loi a posteriori, sachant les courbes complètes et non seule-
ment les valeurs discrétisées. Nous proposons un algorithme qui généralise l’algorithme "Gibbs
sampling with auxiliary parameters" de Neal (2000). L’implémentation numérique requiert le
calcul de produits scalaires, qui sont approchés à partir de méthodes numériques. Quelques ap-
plications sur données réelles et simulées sont également présentées, puis discutées.
En dernier lieu, l’ajout d’une hiérarchie supplémentaire à notre modèle nous permet de pou-
voir prendre en compte des covariables fonctionnelles. Nous verrons à cet effet qu’il est pos-
sible de définir plusieurs modèles. La méthode algorithmique proposée précédemment est ainsi
étendue à chacun de ces nouveaux modèles. Quelques applications sur données simulées sont
présentées.
5