DRT : Sujet de thèse SL-DRT-17-0460 - instn

publicité
DRT : Sujet de thèse SL-DRT-17-0460
DOMAINE DE RECHERCHE
Mathématiques - Analyse numérique - Simulation / Sciences pour l'ingénieur
INTITULÉ DU SUJET
Représentations minimalistes de flux de données pour l'apprentissage automatique sous contrainte de "confidentialité différentielle"
RÉSUMÉ DU SUJET
Les algorithmes d’apprentissage automatique sont aujourd'hui omniprésents dans de multiples facettes de nos vies. Leur fonctionnement
est invariablement le même : on considère un ensemble de données au sein desquelles on cherche à faire apprendre à un algorithme des
relations statistiques susceptibles de rester vraies pour des données inconnues. Or cette omniprésence soulève une question centrale
pour nos vies privées : que peut-on apprendre des données individuelles à partir de requêtes (e.g. calculées à partir d'un algorithme de
machine learning) réalisées sur une base de données complètes ou des sous-parties d'une base de données ? Le concept de
"confidentialité différentielle" s'intéresse exactement à cette promesse, faite par celui qui rassemble et administre les données à chaque
individu (ou objet) émetteur d'une donnée : vos données individuelles ne sauraient être compromises en les laissant accessibles pour des
analyses, quelles que soient les sources d'informations complémentaires dont pourrait disposer un individu mal intentionné.
Si de nombreuses approches ont été employées pour garantir la confidentialité des jeux de données statiques, le sujet proposé ici se
focalise sur l'apprentissage à partir de flux de données. En particulier, la problématique abordée au cours de cette thèse est la suivante :
dans le contexte d'une tâche d'apprentissage (représentation ou prédiction) à partir d'un flux de données massives, comment concevoir
des représentations minimalistes des données reçues (sketches) qui permettent à la fois de répondre à la tâche d'apprentissage de
manière efficace (espace mémoire, temps et performances) et également de garantir la confidentialité différentielle des données ?
FORMATION NIVEAU MASTER RECOMMANDÉ
M2R ou école d'ingénieur en mathématique appliquée ou informatique
INFORMATIONS PRATIQUES
DM2I (LIST)
Laboratoire d'Analyse des Données et d'Intelligence des Systèmes
Centre : Saclay
Date souhaitée pour le début de la thèse : 01/09/2017
PERSONNE À CONTACTER PAR LE CANDIDAT
Cédric GOUY-PAILLER
CEA
DRT/DM2I//LADIS
CEA Saclay
Bâtiment 565, PC 192
91 191 Gif-sur-Yvette
Commissariat à l'énergie atomique et aux énergies alternatives
Institut national des sciences et techniques nucléaires
www­instn.cea.fr
1
Téléphone : +33 1 69 08 41 87
Email : [email protected]
UNIVERSITÉ / ÉCOLE DOCTORALE
Paris-Dauphine
Ecole Doctorale de Dauphine
DIRECTEUR DE THÈSE
Jamal ATIF
Université Paris Dauphine
LAMSADE (Laboratoire d'Analyse et Modélisation de Systèmes pour l'Aide à la DEcision)
LAMSADE
Université Paris-Dauphine
Place du Maréchal de Lattre de Tassigny
75775 PARIS Cedex 16
Commissariat à l'énergie atomique et aux énergies alternatives
Institut national des sciences et techniques nucléaires
www­instn.cea.fr
Powered by TCPDF (www.tcpdf.org)
2
Téléchargement