Apprentissage supervisé à partir des multiples annotateurs incertains

THÈSE
THÈSE
En vue de l’obtention du
DOCTORAT
Délivré par : L’Université d’Aix-Marseille
Présentée et soutenue le 01/12/2014 par :
APPRENTISSAGE SUPERVISE A PARTIR DE MULTIPLES
ANNOTATEURS INCERTAINS
JURY
Thierry Artière Professeur, Université
d’Aix-Marseille
Examinateur
Younes Bennani Professeur, Université Paris
Nord
Rapporteur
Faicel Chamroukhi Maitre de Conférences,
Université de Toulon
Examinateur
Philippe Leray Professeur, Université de
Nantes
Rapporteur
Mohamed Quafafou Professeur, Université
d’Aix-Marseille
Directeur de Thèse
Jean Sallantin Directeur de Recherche,
Université de Montpellier
Examinateur
École doctorale et spécialité :
Ecole Doctorale en Mathématiques et Informatiques de Marseille
Unité de Recherche :
Laboratoire des Sciences de l’Information et des Systèmes (LSIS)
A la mémoire de mon grand-père.
2
3
Résumé
En apprentissage automatique supervisé, obtenir les réels labels pour un ensemble de
données peut s’avérer être une étape très fastidieuse et très longue. De plus, les données
collectées peuvent être contaminées d’erreurs, caractérisées par la présence de valeurs
manquantes, etc. Ainsi, de nombreuses méthodes ont été développées pour faire face à
l’imperfection aussi bien des données de description d’instances que de leurs étiquettes
(labels). Aujourd’hui, les récentes avancées d’Internet ont permis le développement de
nombreux services d’annotations en ligne, faisant alors appel au crowdsourcing pour
collecter facilement et rapidement des labels. Néanmoins, le principal inconvénient de
ces services réside dans le fait que les annotateurs peuvent avoir des niveaux d’expertise
très hétérogènes. Ainsi, le spectre des annotateurs varie des experts, peu nombreux,
jusqu’aux incompétents, en passant par une majorité d’annotateurs qui n’ont qu’une
connaissance partielle du problème. De telles données ne sont forcément pas fiables,
de plus quelques annotateurs peuvent même être des spammers. Par conséquent, la
gestion de l’incertitude des annotateurs est un élément clé pour l’apprentissage à partir
de multiples annotateurs de niveaux de compétences très hétérogènes.
Dans cette thèse, nous proposons des algorithmes probabilistes qui traitent l’incer-
titude des annotateurs et la qualité des données durant la phase d’apprentissage. Pour
cela, nous donnons la possibilité aux annotateurs d’exprimer leur incertitude durant le
processus de labellisation. On se restreint aux deux cas suivants : (1) Ignorance totale,
l’annotateur utilise le symbole « ? » lorsqu’il ne peut quantifier son incertitude et (2)
Ignorance partielle, l’annotateur est capable d’expliciter un degré de certitude associé au
label qu’il propose. Les trois modèles proposés dans cette thèse sont des modèles d’ap-
prentissage en présence de multiples annotateurs incertains, et permettent de classer
une nouvelle instance tout en réalisant une tâche additionnelle particulière. Ces modèles
adoptent une approche probabiliste Bayésienne et se basent sur les modèles graphiques
et des méthodes d’optimisation telles que Newton-Raphson et LBFGS quasi Newton. Le
modèle IGNORE permet de classer de nouvelles instances tout en évaluant les annota-
teurs en terme de performance d’annotation qui dépend de leur incertitude. Il devient
alors possible d’exhiber un classement des annotateurs. Le modèle, X-IGNORE, intègre
la qualité des données en plus de l’incertitude des juges. En effet, X-IGNORE suppose
que la performance des annotateurs dépend non seulement de leur incertitude mais aussi
de la qualité des données qu’ils annotent. Par ailleurs, ce modèle permet d’évaluer la
qualité des données en terme de leur difficulté à être annotées, et permet de prédire la
4
qualité d’une nouvelle instance. Enfin, le modèle ExpertS répond au problème de sé-
lection d’annotateurs durant l’apprentissage. ExpertS élimine les annotateurs les moins
performants, et se base ainsi uniquement sur les labels des bons annotateurs (experts)
lors de l’étape d’apprentissage. De nombreuses expérimentations, effectuées sur des don-
nées synthétiques, montrent la performance et la stabilité de nos modèles par rapport
à différents algorithmes de la littérature. Nous avons aussi exploité nos modèles dans
une application médicale réelle qui consiste en la reconnaissance du mélanome à partir
d’images annotées par de multiples dermatologues.
5
1 / 209 100%