Données confidentielles: génération de jeux de données

Téléchargement

Données conﬁdentielles: génération de jeux de

données synthétisés par forêts aléatoires pour des

variables catégoriques

Mémoire

Maxime Caron

Maîtrise en statistique

Maître ès sciences (M.Sc.)

Québec, Canada

Résumé

La conﬁdentialité des données est devenue primordiale en statistique. Une méthode souvent utilisée

pour diminuer le risque de réidentiﬁcation est la génération de jeux de données partiellement synthé-

tiques. On explique le concept de jeux de données synthétiques, et on décrit une méthode basée sur

les forêts aléatoires pour traiter les variables catégoriques.

On s’intéresse à la formule qui permet de faire de l’inférence avec plusieurs jeux synthétiques. On

montre que l’ordre des variables à synthétiser a un impact sur l’estimation de la variance des estima-

teurs.

On propose une variante de l’algorithme inspirée du concept de conﬁdentialité différentielle. On

montre que dans ce cas, on ne peut estimer adéquatement ni un coefﬁcient de régression, ni sa va-

riance.

On montre l’impact de l’utilisation de jeux synthétiques sur des modèles d’équations structurelles.

On conclut que les jeux synthétiques ne changent pratiquement pas les coefﬁcients entre les variables

latentes et les variables mesurées.

iii

Abstract

Conﬁdential data are very common in statistics nowadays. One way to treat them is to create partially

synthetic datasets for data sharing. We will present an algorithm based on random forest to generate

such datasets for categorical variables.

We are interested by the formula used to make inference from multiple synthetic dataset. We show

that the order of the synthesis has an impact on the estimation of the variance with the formula.

We propose a variant of the algorithm inspired by differential privacy, and show that we are then not

able to estimate a regression coefﬁcient nor its variance.

We show the impact of synthetic datasets on structural equations modeling. One conclusion is that

the synthetic dataset does not really affect the coefﬁcients between latent variables and measured

variables.

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

1 / 190 100%

Documents connexes

Laboratoire 10 – Bases

TP4 : Méthode extractMin

TP JDBC

Avec VECTOR, le détartrage devient indolore!

Lois de probabilité usuelles : tableau récapitulatif

tp3_Suite

TD1 - LIPN

TP 2

Examen de français 6ème - Semestre 1

20XX-XX.rappels.la-CVaR.adr2016-11-07 09:26162

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d'utilisation

Données confidentielles: génération de jeux de données

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Données confidentielles: génération de jeux de données

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib