Proposition de thèse
Lieu : Laboratoire de Mathématiques de Besançon, UMR 6623, Universtié de Franche Comté.
École doctorale : Carnot-Pasteur.
Directeurs de thèse :
Clément Dombry, PR, clement.dombry@univ-fcomte.fr.
Stéphane Chrétien, MCF HDR, stephane.chretien@univ-fcomte.fr.
Commencement de la thèse : Septembre 2015.
Domaine scientifique principal de la thèse : Probabilités & Statistiques, Machine learning.
Algorithmes stochastiques en machine learning et big data
La production de grands jeux de données dans de nombreux domaines parallèlement au dévelop-
pement rapide de la capacité de stockage et de calcul des ordinateurs amènent de nouveaux défis aux
détenteurs de bases de données et aux mathématiciens. Comment retirer une information pertinente
(d’un point de vue descriptif, explicatif, économique) et synthétique d’un immense jeux de données ?
C’est la problématique du data mining. Comment adapter des méthodes statistiques classiques à des ta-
bleaux de données de très grande dimension sans faire exploser la consommation de ressource de calcul ?
C’est une des problématiques du machine learning.
Un des objectifs de la thèse sera d’étudier une classe d’algorithme stochastique répondant à ce besoin,
et notamment adapté au cadre séquentiel (ou online) où on un accès limité aux données pour des raisons
de disponibilité (recueil des données étalé dans le temps) ou pour des raisons de gestion mémoire (gestion
simultanée de l’ensemble des données impossible) - voir la monographie de Bottou [3]. On commencera
la thèse par une étude poussée de l’algorithme du gradient stochastique (Robbins et Monroe [4]). Si des
conditions de convergence de cette algorithme classique sont bien connues, rien n’existe encore concernant
sa vitesse de convergence et sa normalité asymptotique. Une adaptation du travail [1] devrait permettre
de pallier à cette insuffisance et on s’attend à ce que la variance limite dépende de manière cruciale du
pas utilisé dans l’algorithme du gradient.
La thèse permettra d’aborder les questions suivantes :