Offre de stage - Machine learning for big data

Téléchargement

_DATA SCIENCE

_BIG DATA

_MACHINE LEARNING

CHAIRE

MACHINE LEARNING

FOR BIG DATA

Paris, le 07/12/2014

Offre de stage

Sujet : Prédiction structurée à grande échelle : des images aux

phrases / Large Scale structured prédiction : from images to

sentences

Possibilité de poursuivre sur une thèse

Encadrement

Florence d’Alché-Buc (florence.dalche@telecom-paristech.fr)

Lieu et dates du stage

Telecom ParisTech, 37 rue Dareau, 75014 Paris

Date de début du stage : Mars ou Avril 2015

Durée : 5 à 6 mois

Équipe(s) d’accueil de la thèse

département TSI, équipe Statistiques et Applications (STA)

Mots clés

Structured prediction, output kernel regression, operator-valued kernels, fast scalable kernels,

application to visual scene understanding and visual phrasal prediction

Sujet détaillé

Structured prediction aims at retrieving a relationship between (structured) input data and

structured output data such as sequences, trees, graphs or other composite objects. For instance in

visual scene understanding, structured prediction allows to provide a natural language sentence

describing the visual scene. Other tasks can be found in many other areas such bioinformatics

(prediction of a biomolecule) or natural language processing (machine translation, sequence

labelling)... Literature on structured prediction has focused on scoring methods that build linear

combinations of features based on pairs of input and hypothesized output. Implementations are

based either based on graphical models as well as deep Learning or on large margin approaches.

Another angle to structured prediction is to consider it as a regression task in some structured output

CHAIRE MACHINE LEARNING FOR BIG DATA

_DATA SCIENCE

_BIG DATA

_MACHINE LEARNING

space. Already used for multi-task regression, image completion or link prediction, such an approach

makes use of the well-known kernel trick in the output space. Learning a function with values in a

fetaure space can be handled within the Reproducing Kernel Hilbert Space theory when choosing

kernels with operator values.

The subject of this intern is to develop large scale operator-valued kernel-based approach to cope

with a structured prediction problem using a fast and accurate kernel approximation. The target

problem will be the problem of translating pictures into words using existing databases.

Development will be theoretical, algorithmic and practical.

La Chaire Machine Learning for Big Data

Le traitement statistique des masses de données convoque à la fois mathématiques appliquées et

informatique, à travers une discipline en plein essor : le Machine Learning ou apprentissage

statistique.

Créée en septembre 2013 avec le soutien de la Fondation Télécom et financée à hauteur de près de 2

M€ par quatre entreprises partenaires : Criteo, PSA Peugeot Citroën, Safran et BNP Paribas, la Chaire

Machine Learning for Big Data est portée par le mathématicien Stéphan Clémençon, Enseignant-

Chercheur, Professeur au sein du Département du Traitement du Signal et des Images à Télécom

ParisTech.

Proposant cinq axes de recherche méthodologiques, enrichis par des applications industrielles

concrètes, cette Chaire a pour objectif d’animer, en interaction avec ses partenaires, une activité de

recherche de pointe en Machine Learning, ainsi que de proposer des programmes de formation.

La variété des données aujourd’hui disponibles (nombres, images, textes, signaux), leur grande

dimension et leur volumétrie rendent souvent inopérantes les méthodes statistiques traditionnelles

reposant sur le prétraitement humain et un long travail de modélisation. Le Machine Learning vise

donc à élaborer et étudier des algorithmes, à vocation prédictive le plus souvent, permettant à des

machines d’apprendre automatiquement à partir des données et à effectuer des tâches de façon

performante.

Les avancées technologiques, l’omniprésence des capteurs (systèmes embarqués, objets connectés,

Internet…) et l’explosion des réseaux sociaux s’accompagnent d’un véritable déluge de données,

propulsant les sciences de l’information au centre du processus de valorisation des masses de

donnés. En plus de la collecte et du stockage, l’enjeu est de pouvoir analyser ces données afin

d’optimiser les décisions et mettre au point de nouvelles applications.

Au-delà du buzz médiatique dont il fait l’objet, le Big Data est donc un sujet stratégique majeur, au

cœur d’enjeux économiques et sociétaux considérables. Son impact est désormais perçu dans

presque tous les secteurs de l’activité humaine : de la recherche scientifique à la médecine en

passant, entre autres, par la finance, le bâtiment, l’e-commerce, la défense ou les transports.

En savoir plus sur la Chaire, ses axes de recherche, ses activités, ses publications :

CHAIRE MACHINE LEARNING FOR BIG DATA

_DATA SCIENCE

_BIG DATA

_MACHINE LEARNING

http://machinelearningforbigdata.telecom-paristech.fr

Profil du candidat

Etudiant titulaire d’un master 2 recherche

- Apprentissage statistique / reconnaissance des formes

- Bon niveau en programmation (C/C++, Python,Matlab)

- Bon niveau d’anglais

Candidatures

à envoyer à : florence.dalche@telecom-paristech.fr

- Curriculum Vitae

- Lettre de motivation personnalisée expliquant l’intérêt du candidat sur le sujet (directement dans le

corps du mail)

- Relevés de notes des années précédentes

- Contact d’une personne de référence

Les candidatures incomplètes ne seront pas examinées.

Références

C. Brouard, F. d'Alché-Buc and M. Szafranski (2011): Semi-Supervized Penalized Output Kernel Regression for

Link Prediction. In ICML 2011.

C. Brouard, F. d'Alché-Buc and M. Szafranski (2011): Supervised and semi-supervised Input Output Kernel

Regression for structured prédiction, tech report (2014).

N. Lim, F. d’Alché-Buc, C. Auliac, G. Michailidis, Operator-valued Kernel based Vector Autoregressive Models for

Network Inference, Machine Learning Journal, nov 2014.

N. Lim, Y. Senbabaoglu, G. Michalidis and F. d'Alche-Buc (2013): OKVAR-Boost: a novel boosting algorithm to

infer nonlinear dynamics and interactions in gene regulatory networks. Bioinformatics 29 (11):1416-1423,

2013.

Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg Corrado, and Jeff Dean, Distributed Representations of Words

and Phrases and their Compositionality, NIPS 2013.

Sadeghi, M. A. and Farhadi, A. Recognition Using Visual Phrases, Proceedings of the 2011 IEEE Conference on

Computer Vision and Pattern Recognition, CVPR '11, 2011.

OPERAlib, a Python toolbox for structured output prediction, vector autoregressive models and multi-

task/multi-view problems based on operator-valued kernels. (https://github.com/operalib/operalib)

1 / 3 100%

Documents connexes

Entreprise 29 - Offre 141

Détection des signaux faibles - Département de Mathématiques d

comprendre et intégrer la démarche marketing

questionnaire

Management de l`Innovation Technologique « MIT

Apprentissage symbolique et statistique à l`ère du mariage pour tous

Machine Learning

Semaine 3 Le Social Learning, de quoi parle-t-on - Fun-Mooc

DataScientist sénior, spécialisé ciblage marketing et réseaux sociaux

- Bonne connaissance du Machine Learning et au minimum d`une

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

Offre de stage - Machine learning for big data

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Offre de stage - Machine learning for big data

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib