faite par celui qui rassemble et administre les données à chaque individu (ou objet)
émetteur d’une donnée : vos données individuelles ne sauraient être compromises
en les laissant accessibles pour des analyses, quelles que soient les sources d’in-
formations complémentaires dont pourrait disposer un individu mal intentionné.
De nombreuses approches ont été proposées pour rendre des bases de données com-
patibles avec cette contrainte de confidentialité différentielle [Dwork and Roth, 2013,
Dwork, 2010]. Dans le contexte particulier des algorithmes d’apprentissage automa-
tique, la confidentialité différentielle signifie que l’on souhaite être capable d’apprendre
des relations statistiques sur les objets ou individus d’une base de données privées,
sans que ne soit révélée aucune information sur un unique objet/individu. Cette ga-
rantie passe par une compromission des performances des algorithmes au profit d’une
garantie de confidentialité différentielle.
Dans le cas de flux de données massives, l’apprentissage se matérialise par la conser-
vation par l’algorithme d’informations sur les données individuelles [Dwork et al., 2010a,
Cormode and Garofalakis, 2007]. De même que, dans le cas classique de données sta-
tiques, l’accès à l’état de l’algorithme et la possibilité de réaliser des requêtes sur cette
algorithme ne garantissent pas la confidentialité des données individuelles. Néan-
moins il est possible de concevoir des algorithmes d’apprentissage statistique vérifiant
cette propriété [Dwork et al., 2010a, Dwork et al., 2010b].
L’apprentissage à partir de flux de données est au coeur d’innombrables applica-
tions, notamment dans le domaine de la santé et de l’internet des objets. Le sketching
– résumé minimaliste de données – permet de conserver uniquement les parties per-
tinentes des données en minimisant les ressources nécessaires au stockage de cette in-
formation, tout en garantissant la possibilité de fournir à partir de ces représentations
des approximations satisfaisantes de l’algorithme initial. Si les approches de sketching
avec contrainte de confidentialité différentielle ont été employées dans le cas de la fac-
torisation de matrices [Balu and Furon, 2016], aucune approche, à notre connaissance,
ne s’est intéressée à la conception de techniques de sketching dans le cas de l’appren-
tissage à partir de flux de données avec des contraintes de confidentialité différentielle.
Travaux attendus
La problématique abordée au cours de cette thèse est la suivante : dans le contexte
d’une tâche d’apprentissage (représentation ou prédiction) à partir d’un flux de données mas-
sives, comment concevoir des représentations minimalistes des données reçues (sketches) qui
permettent à la fois de répondre à la tâche d’apprentissage et également de garantir la confiden-
tialité différentielle des données?
D’un point de vue théorique, les travaux se focaliseront donc sur l’introduction
des contraintes de confidentialité différentielle dans des approches de sketching exis-
tantes, ou sur la proposition de nouvelles techniques de sketching respectant la contrainte
de confidentialité différentielle. Cette partie des travaux conduira le candidat (la can-
didate) à se familiariser avec les notions d’algorithmes approximatifs (probablement
approximativement corrects).
D’un point de vue applicatif, les travaux se focaliseront sur trois cas d’usage po-
tentiels pour lesquels la notion de respect de la confidentialité est primordiale : l’ap-
prentissage de contexte à partir de données issues de l’Internet des Objets, l’utilisation
d’objets connectés portatifs (e.g. bracelets connectés), ou encore l’apprentissage sta-
2