PROPOSITION DE THÈSE
Titre : [fr] Représentations minimalistes de flux de données pour l’apprentissage
automatique sous contrainte de « confidentialité différentielle » – [en] Statistical
learning from data streams sketches under « differential privacy » constraints
Mots-clés : Représentations minimalistes de données (data sketching) ; flux de don-
nées (data streams) ; apprentissage automatique (statistical learning) ; confiden-
tialité différentielle (differential privacy) ; Internet des Objets (IoT) ; applications
médicales.
Date de publication : 1er décembre 2016
Date de début de thèse : Septembre 2017
Durée : 36 mois
Contexte
Les algorithmes d’apprentissage automatique sont aujourd’hui omniprésents dans
de multiples facettes de nos vies. De manière souvent cachée, ils influencent le résul-
tat de nos recherches sur internet, les publicités que nous voyons ou encore les pro-
duits culturels qui nous sont recommandés (films, musique). Plus largement, ils inter-
viennent dans des domaines économiques variés, e.g. dans le domaine de la santé pour
aider à l’interprétation de certaines données quantitatives (radiographies), ou pour au-
tomatiser la veille en pharmacovigilance à grande échelle ; dans la banque/assurance
pour évaluer la solvabilité d’un client ou estimer les risques liés à des comportements
particuliers; ou dans la domotique énergétique pour donner aux thermostats des ca-
pacités d’adaptation aux occupants d’un logement. Quel que soit l’algorithme choisi,
le fonctionnement de tels systèmes est immuablement le même : en entrée, on consi-
dère un ensemble de données, au sein desquelles on cherche à faire apprendre à un
algorithme des relations statistiques susceptibles de rester vraies pour des données in-
connues. En d’autres termes on cherche à inférer des lois sur la population à partir des
observations restreintes à un échantillon d’individus [Hastie et al., 2009].
Or l’omniprésence de tels algorithmes soulève une question centrale : que peut-on
apprendre des données individuelles à partir de requêtes (e.g. calculées à partir d’un
algorithme de machine learning) réalisées sur une base de données complètes ou des
sous-parties d’une base de données? Cette interrogation a pris notamment sa source
dans les travaux de chercheurs ayant illustré la mise en oeuvre de techniques permet-
tant d’identifier des utilisateurs dans des bases de données célèbres, malgré une ano-
nymisation minutieuse [Narayanan and Shmatikov, 2008]. Le concept de « confiden-
tialité différentielle » s’intéresse exactement à cette promesse [Dwork and Roth, 2013],
1
faite par celui qui rassemble et administre les données à chaque individu (ou objet)
émetteur d’une donnée : vos données individuelles ne sauraient être compromises
en les laissant accessibles pour des analyses, quelles que soient les sources d’in-
formations complémentaires dont pourrait disposer un individu mal intentionné.
De nombreuses approches ont été proposées pour rendre des bases de données com-
patibles avec cette contrainte de confidentialité différentielle [Dwork and Roth, 2013,
Dwork, 2010]. Dans le contexte particulier des algorithmes d’apprentissage automa-
tique, la confidentialité différentielle signifie que l’on souhaite être capable d’apprendre
des relations statistiques sur les objets ou individus d’une base de données privées,
sans que ne soit révélée aucune information sur un unique objet/individu. Cette ga-
rantie passe par une compromission des performances des algorithmes au profit d’une
garantie de confidentialité différentielle.
Dans le cas de flux de données massives, l’apprentissage se matérialise par la conser-
vation par l’algorithme d’informations sur les données individuelles [Dwork et al., 2010a,
Cormode and Garofalakis, 2007]. De même que, dans le cas classique de données sta-
tiques, l’accès à l’état de l’algorithme et la possibilité de réaliser des requêtes sur cette
algorithme ne garantissent pas la confidentialité des données individuelles. Néan-
moins il est possible de concevoir des algorithmes d’apprentissage statistique vérifiant
cette propriété [Dwork et al., 2010a, Dwork et al., 2010b].
L’apprentissage à partir de flux de données est au coeur d’innombrables applica-
tions, notamment dans le domaine de la santé et de l’internet des objets. Le sketching
– résumé minimaliste de données – permet de conserver uniquement les parties per-
tinentes des données en minimisant les ressources nécessaires au stockage de cette in-
formation, tout en garantissant la possibilité de fournir à partir de ces représentations
des approximations satisfaisantes de l’algorithme initial. Si les approches de sketching
avec contrainte de confidentialité différentielle ont été employées dans le cas de la fac-
torisation de matrices [Balu and Furon, 2016], aucune approche, à notre connaissance,
ne s’est intéressée à la conception de techniques de sketching dans le cas de l’appren-
tissage à partir de flux de données avec des contraintes de confidentialité différentielle.
Travaux attendus
La problématique abordée au cours de cette thèse est la suivante : dans le contexte
d’une tâche d’apprentissage (représentation ou prédiction) à partir d’un flux de données mas-
sives, comment concevoir des représentations minimalistes des données reçues (sketches) qui
permettent à la fois de répondre à la tâche d’apprentissage et également de garantir la confiden-
tialité différentielle des données?
D’un point de vue théorique, les travaux se focaliseront donc sur l’introduction
des contraintes de confidentialité différentielle dans des approches de sketching exis-
tantes, ou sur la proposition de nouvelles techniques de sketching respectant la contrainte
de confidentialité différentielle. Cette partie des travaux conduira le candidat (la can-
didate) à se familiariser avec les notions d’algorithmes approximatifs (probablement
approximativement corrects).
D’un point de vue applicatif, les travaux se focaliseront sur trois cas d’usage po-
tentiels pour lesquels la notion de respect de la confidentialité est primordiale : l’ap-
prentissage de contexte à partir de données issues de l’Internet des Objets, l’utilisation
d’objets connectés portatifs (e.g. bracelets connectés), ou encore l’apprentissage sta-
2
tistique à partir de données médicales. Afin de démontrer les gains significatifs des
algorithmes dans des applications réelles, une attention particulière sera portée à l’im-
plémentation des méthodes.
Points d’ancrage du sujet
Cette proposition de thèse s’inscrit dans le cadre d’une collaboration entre le CEA
LIST (Cédric Gouy-Pailler) et l’Université Paris-Dauphine (Jamal Atif) datant de 2013.
La collaboration a donné lieu à la thèse de Yoann Isaac, soutenue en 2015, sur le
thème de l’introduction de contraintes structurées pour l’apprentissage de diction-
naires. Anne Morvan a débuté sa thèse en 2015 sur la thématique de l’utilisation de
méthodes de sketching pour l’apprentissage à partir de données structurées massives.
Côté Paris-Dauphine, Florian Yger a rejoins Jamal Atif en 2015 en tant qu’enseignant-
chercheur, il participe activement à la collaboration et sera un co-encadrant de la pré-
sente thèse.
Références
[Balu and Furon, 2016] Balu, R. and Furon, T. (2016). Differentially private matrix fac-
torization using sketching techniques.
[Cormode and Garofalakis, 2007] Cormode, G. and Garofalakis, M. (2007). Streaming
in a connected world : Querying and tracking distributed data streams.
[Dwork, 2010] Dwork, C. (2010). Differential privacy in new settings.
[Dwork et al., 2010a] Dwork, C., Naor, M., Pitassi, T., and Rothblum, G. N. (2010a).
Differential privacy under continual observation.
[Dwork et al., 2010b] Dwork, C., Naor, M., Pitassi, T., Rothblum, G. N., and Yekhanin,
S. (2010b). Pan-private streaming algorithms.
[Dwork and Roth, 2013] Dwork, C. and Roth, A. (2013). The algorithmic foundations
of differential privacy. In Foundations and Trends in Theoretical Computer Science, vo-
lume 9. Now Publishers Inc.
[Hastie et al., 2009] Hastie, T., Tibshirani, R., and Friedman, J. H. (2009). The Elements
of Statistical Learning : Data Mining, Inference, and Prediction. Springer Series in Sta-
tistics. Springer, New-York, USA, seconde edition.
[Narayanan and Shmatikov, 2008] Narayanan, A. and Shmatikov, V. (2008). Robust
de-anonymization of large sparse datasets.
3
1 / 3 100%