Proposition de thèse - Ecole Doctorale Carnot Pasteur

publicité
Proposition de thèse
Lieu : Laboratoire de Mathématiques de Besançon, UMR 6623, Universtié de Franche Comté.
École doctorale : Carnot-Pasteur.
Directeurs de thèse :
Clément Dombry, PR, [email protected].
Stéphane Chrétien, MCF HDR, [email protected].
Commencement de la thèse : Septembre 2015.
Domaine scientifique principal de la thèse : Probabilités & Statistiques, Machine learning.
Algorithmes stochastiques en machine learning et big data
La production de grands jeux de données dans de nombreux domaines parallèlement au développement rapide de la capacité de stockage et de calcul des ordinateurs amènent de nouveaux défis aux
détenteurs de bases de données et aux mathématiciens. Comment retirer une information pertinente
(d’un point de vue descriptif, explicatif, économique) et synthétique d’un immense jeux de données ?
C’est la problématique du data mining. Comment adapter des méthodes statistiques classiques à des tableaux de données de très grande dimension sans faire exploser la consommation de ressource de calcul ?
C’est une des problématiques du machine learning.
Un des objectifs de la thèse sera d’étudier une classe d’algorithme stochastique répondant à ce besoin,
et notamment adapté au cadre séquentiel (ou online) où on un accès limité aux données pour des raisons
de disponibilité (recueil des données étalé dans le temps) ou pour des raisons de gestion mémoire (gestion
simultanée de l’ensemble des données impossible) - voir la monographie de Bottou [3]. On commencera
la thèse par une étude poussée de l’algorithme du gradient stochastique (Robbins et Monroe [4]). Si des
conditions de convergence de cette algorithme classique sont bien connues, rien n’existe encore concernant
sa vitesse de convergence et sa normalité asymptotique. Une adaptation du travail [1] devrait permettre
de pallier à cette insuffisance et on s’attend à ce que la variance limite dépende de manière cruciale du
pas utilisé dans l’algorithme du gradient.
La thèse permettra d’aborder les questions suivantes :
1. Peut-on adapter les preuves de [1] pour fournir un théorème central limite pour l’algorithme du
gradient stochastique ?
2. Comment choisir le pas optimal afin de minimiser la variance limite ?
3. Quels sont les modèles statistiques où cet algorithme très général peut-être utilisé ? On commencera
par étudier le cas de la régression logistique avant de généraliser (régressions linéaire, modèles
linéaires généralisés, introduction de pénalité de type LASSO ou elastic net ...) On s’attachera
pour chaque modèle à évaluer les performances de l’algorithme sur des données simulées et à
illustrer la méthode sur des données réelles.
4. Peut-on considérer le cas d’algorithmes un peu plus complexes comme ceux proposés par Bach et
Moulines [2] ou Teh et al .[5].
Références
[1] M.Arnaudon, C.Dombry, Y.Le, A.Phan, Stochastic algorithms for computing means of probability
measures, Stochastic Process. Appl., 2012.
[2] F.Bach and E.Moulines, Non-Asymptotic Analysis of Stochastic Approximation Algorithms for Machine Learning, NIPS, 2011.
[3] L.Bottou, Online Algorithms and Stochastic Approximations, Online Learning and Neural Networks,
Cambridge University Press, 1998.
[4] H. Robbins and S. Monro, A stochastic approximation method, Ann. Math. Statistics, 1951.
[5] Y.W.Teh, A.H.Thiery and S.J.Vollmer, Consistency and Fluctuations for stochastic gradient Langevin
dynamics, preprint arxiv :1409.0578, 2014.
Téléchargement