Résumé
Avec le développement des technologies d’information on assiste depuis quelques années à une
nouvelle impulsion pour la conception de nouveaux cadres d’apprentissage automatique.
C’est le cas par exemple du paradigme semi-supervisé qui a vu le jour vers la fin des années
90 dans la communauté apprentissage. Les premiers travaux dans ce cadre ont été motivés par le
développement du web qui a entraîné une production massive de données textuelles très hétéro-
gènes. Ces masses de données sont généralement livrées sous forme brute, sans étiquetage a priori
et pour les exploiter on était alors réduit à utiliser des techniques non-supervisées. Ces approches
bien que totalement génériques ne permettent cependant qu’une analyse limitée des informations
de contenu et ne répondent pas ainsi aux demandes de nombreuses tâches de Recherche d’Infor-
mation (RI). L’idée pragmatique développée pour l’apprentissage semi-supervisé était née de la
question; "comment réduire l’effort d’étiquetage et utiliser simultanément une petite quantité de
données étiquetées avec la masse de données non-étiquetées disponible pour apprendre?"
Un autre exemple de l’émergence de nouveaux cadres d’apprentissage concerne le dévelop-
pement de méthodes automatiques pour la recherche et l’ordonnancement d’entités d’informa-
tion sur des corpus de grandes tailles. Récemment beaucoup de travaux se sont intéressés à la
formulation des différentes formes de la tâche d’ordonnancement. Ces travaux ont proposé des
algorithmes et développé des cadres théoriques pour la prédiction d’ordres totaux ou partiels sur
les exemples. La Recherche d’Information est une fois encore le domaine par excellence où les
modèles d’apprentissage de fonctions d’ordonnancement jouent un rôle prépondérant. Dans notre
étude nous nous sommes intéressés à deux cadres d’ordonnancement d’instances et d’alternatives.
Dans le premier cas il s’agit d’ordonner les exemples (où instances) d’une collection donnée de fa-
çon à ce que les exemples jugés pertinents soient ordonnés au–dessusdes exemples non–pertinents
et dans le second cas nous cherchons à ordonner les alternatives d’une collection donnée par rap-
port à chaque exemple d’entrée.
Ce mémoire présente mes travaux de recherche depuis ma thèse soutenue en 2001 suivant les
deux axes d’apprentissage semi-supervisé et d’apprentissage de fonctions d’ordonnancement évo-
qués plus haut. J’ai commencé à m’intéresser à la problématique d’apprentissage semi-supervisé
pour la classification à la fin de ma thèse jusqu’à fin 2003. En 2004 et 2005 j’ai abordé la pro-
blématique d’apprentissage supervisé de fonctions d’ordonnancement avec comme application
phare le résumé automatique de textes. En 2006 je me suis intéressé à l’apprentissage actif de
fonctions d’ordonnancement et nous avons été parmi les premiers à proposer un cadre théorique
pour l’apprentissage actif de fonctions d’ordonnancement d’alternatives.