Apprentissage supervisé à partir des multiples annotateurs incertains

THÈSE

En vue de l’obtention du

DOCTORAT

Délivré par : L’Université d’Aix-Marseille

Présentée et soutenue le 01/12/2014 par :

APPRENTISSAGE SUPERVISE A PARTIR DE MULTIPLES

ANNOTATEURS INCERTAINS

JURY

Thierry Artière Professeur, Université

d’Aix-Marseille

Examinateur

Younes Bennani Professeur, Université Paris

Nord

Rapporteur

Faicel Chamroukhi Maitre de Conférences,

Université de Toulon

Examinateur

Philippe Leray Professeur, Université de

Nantes

Rapporteur

Mohamed Quafafou Professeur, Université

d’Aix-Marseille

Directeur de Thèse

Jean Sallantin Directeur de Recherche,

Université de Montpellier

Examinateur

École doctorale et spécialité :

Ecole Doctorale en Mathématiques et Informatiques de Marseille

Unité de Recherche :

Laboratoire des Sciences de l’Information et des Systèmes (LSIS)

A la mémoire de mon grand-père.

2

3

Résumé

En apprentissage automatique supervisé, obtenir les réels labels pour un ensemble de

données peut s’avérer être une étape très fastidieuse et très longue. De plus, les données

collectées peuvent être contaminées d’erreurs, caractérisées par la présence de valeurs

manquantes, etc. Ainsi, de nombreuses méthodes ont été développées pour faire face à

l’imperfection aussi bien des données de description d’instances que de leurs étiquettes

(labels). Aujourd’hui, les récentes avancées d’Internet ont permis le développement de

nombreux services d’annotations en ligne, faisant alors appel au crowdsourcing pour

collecter facilement et rapidement des labels. Néanmoins, le principal inconvénient de

ces services réside dans le fait que les annotateurs peuvent avoir des niveaux d’expertise

très hétérogènes. Ainsi, le spectre des annotateurs varie des experts, peu nombreux,

jusqu’aux incompétents, en passant par une majorité d’annotateurs qui n’ont qu’une

connaissance partielle du problème. De telles données ne sont forcément pas ﬁables,

de plus quelques annotateurs peuvent même être des spammers. Par conséquent, la

gestion de l’incertitude des annotateurs est un élément clé pour l’apprentissage à partir

de multiples annotateurs de niveaux de compétences très hétérogènes.

Dans cette thèse, nous proposons des algorithmes probabilistes qui traitent l’incer-

titude des annotateurs et la qualité des données durant la phase d’apprentissage. Pour

cela, nous donnons la possibilité aux annotateurs d’exprimer leur incertitude durant le

processus de labellisation. On se restreint aux deux cas suivants : (1) Ignorance totale,

l’annotateur utilise le symbole « ? » lorsqu’il ne peut quantiﬁer son incertitude et (2)

Ignorance partielle, l’annotateur est capable d’expliciter un degré de certitude associé au

label qu’il propose. Les trois modèles proposés dans cette thèse sont des modèles d’ap-

prentissage en présence de multiples annotateurs incertains, et permettent de classer

une nouvelle instance tout en réalisant une tâche additionnelle particulière. Ces modèles

adoptent une approche probabiliste Bayésienne et se basent sur les modèles graphiques

et des méthodes d’optimisation telles que Newton-Raphson et LBFGS quasi Newton. Le

modèle IGNORE permet de classer de nouvelles instances tout en évaluant les annota-

teurs en terme de performance d’annotation qui dépend de leur incertitude. Il devient

alors possible d’exhiber un classement des annotateurs. Le modèle, X-IGNORE, intègre

la qualité des données en plus de l’incertitude des juges. En eﬀet, X-IGNORE suppose

que la performance des annotateurs dépend non seulement de leur incertitude mais aussi

de la qualité des données qu’ils annotent. Par ailleurs, ce modèle permet d’évaluer la

qualité des données en terme de leur diﬃculté à être annotées, et permet de prédire la

4

qualité d’une nouvelle instance. Enﬁn, le modèle ExpertS répond au problème de sé-

lection d’annotateurs durant l’apprentissage. ExpertS élimine les annotateurs les moins

performants, et se base ainsi uniquement sur les labels des bons annotateurs (experts)

lors de l’étape d’apprentissage. De nombreuses expérimentations, eﬀectuées sur des don-

nées synthétiques, montrent la performance et la stabilité de nos modèles par rapport

à diﬀérents algorithmes de la littérature. Nous avons aussi exploité nos modèles dans

une application médicale réelle qui consiste en la reconnaissance du mélanome à partir

d’images annotées par de multiples dermatologues.

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

32

33

34

35

36

37

38

39

40

41

42

43

44

45

46

47

48

49

50

51

52

53

54

55

56

57

58

59

60

61

62

63

64

65

66

67

68

69

70

71

72

73

74

75

76

77

78

79

80

81

82

83

84

85

86

87

88

89

90

91

92

93

94

95

96

97

98

99

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

Apprentissage supervisé à partir des multiples annotateurs incertains

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

Apprentissage supervisé à partir des multiples annotateurs incertains

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib