Résumé
La confidentialité des données est devenue primordiale en statistique. Une méthode souvent utilisée
pour diminuer le risque de réidentification est la génération de jeux de données partiellement synthé-
tiques. On explique le concept de jeux de données synthétiques, et on décrit une méthode basée sur
les forêts aléatoires pour traiter les variables catégoriques.
On s’intéresse à la formule qui permet de faire de l’inférence avec plusieurs jeux synthétiques. On
montre que l’ordre des variables à synthétiser a un impact sur l’estimation de la variance des estima-
teurs.
On propose une variante de l’algorithme inspirée du concept de confidentialité différentielle. On
montre que dans ce cas, on ne peut estimer adéquatement ni un coefficient de régression, ni sa va-
riance.
On montre l’impact de l’utilisation de jeux synthétiques sur des modèles d’équations structurelles.
On conclut que les jeux synthétiques ne changent pratiquement pas les coefficients entre les variables
latentes et les variables mesurées.
iii