Catégorisation automatique de news à l’aide de techniques d’apprentissage supervisé
2
1. Introduction
Aujourd’hui avec le développement d’internet nous sommes en présence d’une quantité énorme
d’information électronique. Le coût de plus en plus faible du stockage fait en sorte que cette quantité
augmente continuellement. Parallèlement à cela, les sources de données ne cessent de se diversifier,
aujourd’hui pour accéder à une information on peut avoir recours à des journaux électroniques, à des
sites spécialisés, à des réseaux sociaux… Pour pouvoir gérer cette quantité grandissante de données et
en tirer le plus d’information possible il devient nécessaire de l’organiser et de la catégoriser. C’est dans
ce cadre que s’inscrit le projet ZONE, c’est un projet qui a pour but de développer un serveur
d’annotation sémantique de news afin de les classer en différentes catégories, Ainsi un client intéressé
par un type particulier d’information pourra trouver facilement toutes les news qui le concernent
quelles que soient leurs provenances. Le principe de l’application est le suivant : grâce à un serveur
abonné à différents flux RSS, on extrait et annote les textes des news, chaque texte se voit donc
attribuer une ou plusieurs catégories selon son contenu, les clients n’ont donc qu’à soumettre des
requêtes SPARQL pour récupérer et filtrer les flux RSS de news.
Dans le but d’optimiser la catégorisation dans le serveur d’annotations de ZONE, les résultats de
plusieurs méthodes sont combinés (Wiki Meta, Open Calais, …), notre projet consiste à implémenter une
nouvelle méthode de classification basée sur la fouille de données et utilisant le principe
d’apprentissage supervisé et particulièrement SVM.
Ce rapport décrit le travail réalisé au cours de ce projet, la première partie présente un état de l’art de la
question de classification de documents, la partie suivante explique les différentes étapes de
l’algorithme implémenté, et la dernière partie décrit les expériences réalisées ainsi que les résultats
obtenus et leurs analyses.
2. Etat de l’art
2.1. Définition de la classification
La classification automatique de documents est un problème connu en informatique, il s’agit
d’assigner un document a une plusieurs catégories ou classes. Le problème est différent selon la nature
des documents en question, en effet la classification de textes diffère de la classification de documents
images, vidéo ou encore son. On peut aussi imaginer des classifications selon des paramètres associés
aux documents tels que par exemple l’auteur, la date de parution… Dans le cadre de ce projet et dans la
suite de rapport nous nous baserons sur la classification de documents de type texte selon leur contenu.
Toute référence ultérieure à la classification renvoie donc à cette notion.