CHAIRE MACHINE LEARNING FOR BIG DATA Paris, le 07/12/2014 Offre de stage Sujet : Prédiction structurée à grande échelle : des images aux phrases / Large Scale structured prédiction : from images to sentences Possibilité de poursuivre sur une thèse Encadrement Florence d’Alché-Buc ([email protected]) Lieu et dates du stage Telecom ParisTech, 37 rue Dareau, 75014 Paris Date de début du stage : Mars ou Avril 2015 Durée : 5 à 6 mois Équipe(s) d’accueil de la thèse département TSI, équipe Statistiques et Applications (STA) Mots clés Structured prediction, output kernel regression, operator-valued kernels, fast scalable kernels, application to visual scene understanding and visual phrasal prediction Sujet détaillé Structured prediction aims at retrieving a relationship between (structured) input data and structured output data such as sequences, trees, graphs or other composite objects. For instance in visual scene understanding, structured prediction allows to provide a natural language sentence describing the visual scene. Other tasks can be found in many other areas such bioinformatics (prediction of a biomolecule) or natural language processing (machine translation, sequence labelling)... Literature on structured prediction has focused on scoring methods that build linear combinations of features based on pairs of input and hypothesized output. Implementations are based either based on graphical models as well as deep Learning or on large margin approaches. Another angle to structured prediction is to consider it as a regression task in some structured output _BIG DATA _DATA SCIENCE _MACHINE LEARNING CHAIRE MACHINE LEARNING FOR BIG DATA space. Already used for multi-task regression, image completion or link prediction, such an approach makes use of the well-known kernel trick in the output space. Learning a function with values in a fetaure space can be handled within the Reproducing Kernel Hilbert Space theory when choosing kernels with operator values. The subject of this intern is to develop large scale operator-valued kernel-based approach to cope with a structured prediction problem using a fast and accurate kernel approximation. The target problem will be the problem of translating pictures into words using existing databases. Development will be theoretical, algorithmic and practical. La Chaire Machine Learning for Big Data Le traitement statistique des masses de données convoque à la fois mathématiques appliquées et informatique, à travers une discipline en plein essor : le Machine Learning ou apprentissage statistique. Créée en septembre 2013 avec le soutien de la Fondation Télécom et financée à hauteur de près de 2 M€ par quatre entreprises partenaires : Criteo, PSA Peugeot Citroën, Safran et BNP Paribas, la Chaire Machine Learning for Big Data est portée par le mathématicien Stéphan Clémençon, EnseignantChercheur, Professeur au sein du Département du Traitement du Signal et des Images à Télécom ParisTech. Proposant cinq axes de recherche méthodologiques, enrichis par des applications industrielles concrètes, cette Chaire a pour objectif d’animer, en interaction avec ses partenaires, une activité de recherche de pointe en Machine Learning, ainsi que de proposer des programmes de formation. La variété des données aujourd’hui disponibles (nombres, images, textes, signaux), leur grande dimension et leur volumétrie rendent souvent inopérantes les méthodes statistiques traditionnelles reposant sur le prétraitement humain et un long travail de modélisation. Le Machine Learning vise donc à élaborer et étudier des algorithmes, à vocation prédictive le plus souvent, permettant à des machines d’apprendre automatiquement à partir des données et à effectuer des tâches de façon performante. Les avancées technologiques, l’omniprésence des capteurs (systèmes embarqués, objets connectés, Internet…) et l’explosion des réseaux sociaux s’accompagnent d’un véritable déluge de données, propulsant les sciences de l’information au centre du processus de valorisation des masses de donnés. En plus de la collecte et du stockage, l’enjeu est de pouvoir analyser ces données afin d’optimiser les décisions et mettre au point de nouvelles applications. Au-delà du buzz médiatique dont il fait l’objet, le Big Data est donc un sujet stratégique majeur, au cœur d’enjeux économiques et sociétaux considérables. Son impact est désormais perçu dans presque tous les secteurs de l’activité humaine : de la recherche scientifique à la médecine en passant, entre autres, par la finance, le bâtiment, l’e-commerce, la défense ou les transports. En savoir plus sur la Chaire, ses axes de recherche, ses activités, ses publications : _BIG DATA _DATA SCIENCE _MACHINE LEARNING CHAIRE MACHINE LEARNING FOR BIG DATA http://machinelearningforbigdata.telecom-paristech.fr Profil du candidat Etudiant titulaire d’un master 2 recherche - Apprentissage statistique / reconnaissance des formes - Bon niveau en programmation (C/C++, Python,Matlab) - Bon niveau d’anglais Candidatures à envoyer à : [email protected] - Curriculum Vitae - Lettre de motivation personnalisée expliquant l’intérêt du candidat sur le sujet (directement dans le corps du mail) - Relevés de notes des années précédentes - Contact d’une personne de référence Les candidatures incomplètes ne seront pas examinées. Références C. Brouard, F. d'Alché-Buc and M. Szafranski (2011): Semi-Supervized Penalized Output Kernel Regression for Link Prediction. In ICML 2011. C. Brouard, F. d'Alché-Buc and M. Szafranski (2011): Supervised and semi-supervised Input Output Kernel Regression for structured prédiction, tech report (2014). N. Lim, F. d’Alché-Buc, C. Auliac, G. Michailidis, Operator-valued Kernel based Vector Autoregressive Models for Network Inference, Machine Learning Journal, nov 2014. N. Lim, Y. Senbabaoglu, G. Michalidis and F. d'Alche-Buc (2013): OKVAR-Boost: a novel boosting algorithm to infer nonlinear dynamics and interactions in gene regulatory networks. Bioinformatics 29 (11):1416-1423, 2013. Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeff Dean, Distributed Representations of Words and Phrases and their Compositionality, NIPS 2013. Sadeghi, M. A. and Farhadi, A. Recognition Using Visual Phrases, Proceedings of the 2011 IEEE Conference on Computer Vision and Pattern Recognition, CVPR '11, 2011. OPERAlib, a Python toolbox for structured output prediction, vector autoregressive models and multitask/multi-view problems based on operator-valued kernels. (https://github.com/operalib/operalib) _BIG DATA _DATA SCIENCE _MACHINE LEARNING