Offre de stage - Machine learning for big data

publicité
CHAIRE
MACHINE LEARNING
FOR BIG DATA
Paris, le 07/12/2014
Offre de stage
Sujet : Prédiction structurée à grande échelle : des images aux
phrases / Large Scale structured prédiction : from images to
sentences
Possibilité de poursuivre sur une thèse
Encadrement
Florence d’Alché-Buc ([email protected])
Lieu et dates du stage
Telecom ParisTech, 37 rue Dareau, 75014 Paris
Date de début du stage : Mars ou Avril 2015
Durée : 5 à 6 mois
Équipe(s) d’accueil de la thèse
département TSI, équipe Statistiques et Applications (STA)
Mots clés
Structured prediction, output kernel regression, operator-valued kernels, fast scalable kernels,
application to visual scene understanding and visual phrasal prediction
Sujet détaillé
Structured prediction aims at retrieving a relationship between (structured) input data and
structured output data such as sequences, trees, graphs or other composite objects. For instance in
visual scene understanding, structured prediction allows to provide a natural language sentence
describing the visual scene. Other tasks can be found in many other areas such bioinformatics
(prediction of a biomolecule) or natural language processing (machine translation, sequence
labelling)... Literature on structured prediction has focused on scoring methods that build linear
combinations of features based on pairs of input and hypothesized output. Implementations are
based either based on graphical models as well as deep Learning or on large margin approaches.
Another angle to structured prediction is to consider it as a regression task in some structured output
_BIG DATA
_DATA SCIENCE
_MACHINE LEARNING
CHAIRE MACHINE LEARNING FOR BIG DATA
space. Already used for multi-task regression, image completion or link prediction, such an approach
makes use of the well-known kernel trick in the output space. Learning a function with values in a
fetaure space can be handled within the Reproducing Kernel Hilbert Space theory when choosing
kernels with operator values.
The subject of this intern is to develop large scale operator-valued kernel-based approach to cope
with a structured prediction problem using a fast and accurate kernel approximation. The target
problem will be the problem of translating pictures into words using existing databases.
Development will be theoretical, algorithmic and practical.
La Chaire Machine Learning for Big Data
Le traitement statistique des masses de données convoque à la fois mathématiques appliquées et
informatique, à travers une discipline en plein essor : le Machine Learning ou apprentissage
statistique.
Créée en septembre 2013 avec le soutien de la Fondation Télécom et financée à hauteur de près de 2
M€ par quatre entreprises partenaires : Criteo, PSA Peugeot Citroën, Safran et BNP Paribas, la Chaire
Machine Learning for Big Data est portée par le mathématicien Stéphan Clémençon, EnseignantChercheur, Professeur au sein du Département du Traitement du Signal et des Images à Télécom
ParisTech.
Proposant cinq axes de recherche méthodologiques, enrichis par des applications industrielles
concrètes, cette Chaire a pour objectif d’animer, en interaction avec ses partenaires, une activité de
recherche de pointe en Machine Learning, ainsi que de proposer des programmes de formation.
La variété des données aujourd’hui disponibles (nombres, images, textes, signaux), leur grande
dimension et leur volumétrie rendent souvent inopérantes les méthodes statistiques traditionnelles
reposant sur le prétraitement humain et un long travail de modélisation. Le Machine Learning vise
donc à élaborer et étudier des algorithmes, à vocation prédictive le plus souvent, permettant à des
machines d’apprendre automatiquement à partir des données et à effectuer des tâches de façon
performante.
Les avancées technologiques, l’omniprésence des capteurs (systèmes embarqués, objets connectés,
Internet…) et l’explosion des réseaux sociaux s’accompagnent d’un véritable déluge de données,
propulsant les sciences de l’information au centre du processus de valorisation des masses de
donnés. En plus de la collecte et du stockage, l’enjeu est de pouvoir analyser ces données afin
d’optimiser les décisions et mettre au point de nouvelles applications.
Au-delà du buzz médiatique dont il fait l’objet, le Big Data est donc un sujet stratégique majeur, au
cœur d’enjeux économiques et sociétaux considérables. Son impact est désormais perçu dans
presque tous les secteurs de l’activité humaine : de la recherche scientifique à la médecine en
passant, entre autres, par la finance, le bâtiment, l’e-commerce, la défense ou les transports.
En savoir plus sur la Chaire, ses axes de recherche, ses activités, ses publications :
_BIG DATA
_DATA SCIENCE
_MACHINE LEARNING
CHAIRE MACHINE LEARNING FOR BIG DATA
http://machinelearningforbigdata.telecom-paristech.fr
Profil du candidat
Etudiant titulaire d’un master 2 recherche
- Apprentissage statistique / reconnaissance des formes
- Bon niveau en programmation (C/C++, Python,Matlab)
- Bon niveau d’anglais
Candidatures
à envoyer à : [email protected]
- Curriculum Vitae
- Lettre de motivation personnalisée expliquant l’intérêt du candidat sur le sujet (directement dans le
corps du mail)
- Relevés de notes des années précédentes
- Contact d’une personne de référence
Les candidatures incomplètes ne seront pas examinées.
Références
C. Brouard, F. d'Alché-Buc and M. Szafranski (2011): Semi-Supervized Penalized Output Kernel Regression for
Link Prediction. In ICML 2011.
C. Brouard, F. d'Alché-Buc and M. Szafranski (2011): Supervised and semi-supervised Input Output Kernel
Regression for structured prédiction, tech report (2014).
N. Lim, F. d’Alché-Buc, C. Auliac, G. Michailidis, Operator-valued Kernel based Vector Autoregressive Models for
Network Inference, Machine Learning Journal, nov 2014.
N. Lim, Y. Senbabaoglu, G. Michalidis and F. d'Alche-Buc (2013): OKVAR-Boost: a novel boosting algorithm to
infer nonlinear dynamics and interactions in gene regulatory networks. Bioinformatics 29 (11):1416-1423,
2013.
Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeff Dean, Distributed Representations of Words
and Phrases and their Compositionality, NIPS 2013.
Sadeghi, M. A. and Farhadi, A. Recognition Using Visual Phrases, Proceedings of the 2011 IEEE Conference on
Computer Vision and Pattern Recognition, CVPR '11, 2011.
OPERAlib, a Python toolbox for structured output prediction, vector autoregressive models and multitask/multi-view problems based on operator-valued kernels. (https://github.com/operalib/operalib)
_BIG DATA
_DATA SCIENCE
_MACHINE LEARNING
Téléchargement