Données confidentielles: génération de jeux de
données synthétisés par forêts aléatoires pour des
variables catégoriques
Mémoire
Maxime Caron
Maîtrise en statistique
Maître ès sciences (M.Sc.)
Québec, Canada
© Maxime Caron, 2015
Résumé
La confidentialité des données est devenue primordiale en statistique. Une méthode souvent utilisée
pour diminuer le risque de réidentification est la génération de jeux de données partiellement synthé-
tiques. On explique le concept de jeux de données synthétiques, et on décrit une méthode basée sur
les forêts aléatoires pour traiter les variables catégoriques.
On s’intéresse à la formule qui permet de faire de l’inférence avec plusieurs jeux synthétiques. On
montre que l’ordre des variables à synthétiser a un impact sur l’estimation de la variance des estima-
teurs.
On propose une variante de l’algorithme inspirée du concept de confidentialité différentielle. On
montre que dans ce cas, on ne peut estimer adéquatement ni un coefficient de régression, ni sa va-
riance.
On montre l’impact de l’utilisation de jeux synthétiques sur des modèles d’équations structurelles.
On conclut que les jeux synthétiques ne changent pratiquement pas les coefficients entre les variables
latentes et les variables mesurées.
iii
Abstract
Confidential data are very common in statistics nowadays. One way to treat them is to create partially
synthetic datasets for data sharing. We will present an algorithm based on random forest to generate
such datasets for categorical variables.
We are interested by the formula used to make inference from multiple synthetic dataset. We show
that the order of the synthesis has an impact on the estimation of the variance with the formula.
We propose a variant of the algorithm inspired by differential privacy, and show that we are then not
able to estimate a regression coefficient nor its variance.
We show the impact of synthetic datasets on structural equations modeling. One conclusion is that
the synthetic dataset does not really affect the coefficients between latent variables and measured
variables.
v
1 / 190 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !