Résumé
En apprentissage automatique supervisé, obtenir les réels labels pour un ensemble de
données peut s’avérer être une étape très fastidieuse et très longue. De plus, les données
collectées peuvent être contaminées d’erreurs, caractérisées par la présence de valeurs
manquantes, etc. Ainsi, de nombreuses méthodes ont été développées pour faire face à
l’imperfection aussi bien des données de description d’instances que de leurs étiquettes
(labels). Aujourd’hui, les récentes avancées d’Internet ont permis le développement de
nombreux services d’annotations en ligne, faisant alors appel au crowdsourcing pour
collecter facilement et rapidement des labels. Néanmoins, le principal inconvénient de
ces services réside dans le fait que les annotateurs peuvent avoir des niveaux d’expertise
très hétérogènes. Ainsi, le spectre des annotateurs varie des experts, peu nombreux,
jusqu’aux incompétents, en passant par une majorité d’annotateurs qui n’ont qu’une
connaissance partielle du problème. De telles données ne sont forcément pas fiables,
de plus quelques annotateurs peuvent même être des spammers. Par conséquent, la
gestion de l’incertitude des annotateurs est un élément clé pour l’apprentissage à partir
de multiples annotateurs de niveaux de compétences très hétérogènes.
Dans cette thèse, nous proposons des algorithmes probabilistes qui traitent l’incer-
titude des annotateurs et la qualité des données durant la phase d’apprentissage. Pour
cela, nous donnons la possibilité aux annotateurs d’exprimer leur incertitude durant le
processus de labellisation. On se restreint aux deux cas suivants : (1) Ignorance totale,
l’annotateur utilise le symbole « ? » lorsqu’il ne peut quantifier son incertitude et (2)
Ignorance partielle, l’annotateur est capable d’expliciter un degré de certitude associé au
label qu’il propose. Les trois modèles proposés dans cette thèse sont des modèles d’ap-
prentissage en présence de multiples annotateurs incertains, et permettent de classer
une nouvelle instance tout en réalisant une tâche additionnelle particulière. Ces modèles
adoptent une approche probabiliste Bayésienne et se basent sur les modèles graphiques
et des méthodes d’optimisation telles que Newton-Raphson et LBFGS quasi Newton. Le
modèle IGNORE permet de classer de nouvelles instances tout en évaluant les annota-
teurs en terme de performance d’annotation qui dépend de leur incertitude. Il devient
alors possible d’exhiber un classement des annotateurs. Le modèle, X-IGNORE, intègre
la qualité des données en plus de l’incertitude des juges. En effet, X-IGNORE suppose
que la performance des annotateurs dépend non seulement de leur incertitude mais aussi
de la qualité des données qu’ils annotent. Par ailleurs, ce modèle permet d’évaluer la
qualité des données en terme de leur difficulté à être annotées, et permet de prédire la
4