DRT : Sujet de thèse SL-DRT-17-0460 DOMAINE DE RECHERCHE Mathématiques - Analyse numérique - Simulation / Sciences pour l'ingénieur INTITULÉ DU SUJET Représentations minimalistes de flux de données pour l'apprentissage automatique sous contrainte de "confidentialité différentielle" RÉSUMÉ DU SUJET Les algorithmes d’apprentissage automatique sont aujourd'hui omniprésents dans de multiples facettes de nos vies. Leur fonctionnement est invariablement le même : on considère un ensemble de données au sein desquelles on cherche à faire apprendre à un algorithme des relations statistiques susceptibles de rester vraies pour des données inconnues. Or cette omniprésence soulève une question centrale pour nos vies privées : que peut-on apprendre des données individuelles à partir de requêtes (e.g. calculées à partir d'un algorithme de machine learning) réalisées sur une base de données complètes ou des sous-parties d'une base de données ? Le concept de "confidentialité différentielle" s'intéresse exactement à cette promesse, faite par celui qui rassemble et administre les données à chaque individu (ou objet) émetteur d'une donnée : vos données individuelles ne sauraient être compromises en les laissant accessibles pour des analyses, quelles que soient les sources d'informations complémentaires dont pourrait disposer un individu mal intentionné. Si de nombreuses approches ont été employées pour garantir la confidentialité des jeux de données statiques, le sujet proposé ici se focalise sur l'apprentissage à partir de flux de données. En particulier, la problématique abordée au cours de cette thèse est la suivante : dans le contexte d'une tâche d'apprentissage (représentation ou prédiction) à partir d'un flux de données massives, comment concevoir des représentations minimalistes des données reçues (sketches) qui permettent à la fois de répondre à la tâche d'apprentissage de manière efficace (espace mémoire, temps et performances) et également de garantir la confidentialité différentielle des données ? FORMATION NIVEAU MASTER RECOMMANDÉ M2R ou école d'ingénieur en mathématique appliquée ou informatique INFORMATIONS PRATIQUES DM2I (LIST) Laboratoire d'Analyse des Données et d'Intelligence des Systèmes Centre : Saclay Date souhaitée pour le début de la thèse : 01/09/2017 PERSONNE À CONTACTER PAR LE CANDIDAT Cédric GOUY-PAILLER CEA DRT/DM2I//LADIS CEA Saclay Bâtiment 565, PC 192 91 191 Gif-sur-Yvette Commissariat à l'énergie atomique et aux énergies alternatives Institut national des sciences et techniques nucléaires www­instn.cea.fr 1 Téléphone : +33 1 69 08 41 87 Email : [email protected] UNIVERSITÉ / ÉCOLE DOCTORALE Paris-Dauphine Ecole Doctorale de Dauphine DIRECTEUR DE THÈSE Jamal ATIF Université Paris Dauphine LAMSADE (Laboratoire d'Analyse et Modélisation de Systèmes pour l'Aide à la DEcision) LAMSADE Université Paris-Dauphine Place du Maréchal de Lattre de Tassigny 75775 PARIS Cedex 16 Commissariat à l'énergie atomique et aux énergies alternatives Institut national des sciences et techniques nucléaires www­instn.cea.fr Powered by TCPDF (www.tcpdf.org) 2