« Approche d`apprentissage automatique pour l`annotation

publicité
Colloque international, 27-28 Octobre 2006
« Annotation automatique de relations sémantiques et recherche d’informations : vers de nouveaux accès aux savoirs »
« Approche d’apprentissage automatique pour l’annotation
automatique des événements. »
Rim Faiz, Institut des Hautes Etudes Commerciales de Carthage , Université du 7
novembre à Carthage, Tunisie
Avec la prolifération des articles de Presse sur le Web et la diversité de leurs sources (Reuters,
Aljazeera, CNN, …), un traitement automatique de leurs contenus devient de plus en plus
nécessaire. En effet, quotidiennement des milliers d’articles sont produits dans le monde entier
concernant un événement donné. Nous proposons de développer un système qui annote
automatiquement ces articles de Presse.
L’annotation est une information graphique ou textuelle attachée à un document et le plus souvent
placée dans ce même document (Desmontils et Jacquin, 2002)1. Dans notre cas l’annotation est une
description des principaux événements que contient un article de Presse. Nous proposons un
processus permettant d’extraire tous les événements ensuite de les regrouper avant de générer
l’annotation.
Les différentes étapes de ce processus sont les suivantes :
1. Dans une première étape des techniques de TAL sont appliquées aux textes pour extraire les
phrases ainsi que les marqueurs temporels qui les relient.
2. Au cours de la deuxième étape, un modèle de classification est construit automatiquement en se
basant sur un ensemble d’apprentissage, il permet de prédire si une phrase contient un événement
ou non.
Dans le cadre de notre étude, nous utilisons les attributs qui se rapportent aux événements tels que
définis par Naughton et al. (2006)2. Ces attributs sont les suivants : Longueur de la phrase, position
de la phrase dans le document, nombre de lettres capitales, nombre de caractères (stopwords),
1
2
E. Desmontils et C. Jacquin, 2002. Annotations sur le Web. Note de lecture, in AS CNRS Web Sémantique 2002.
M. Naughton, N. Kushmerick, and J. Carthy, 2006. Event extraction from heterogeneous news sources. In
Proceedings of the Workshop Event Extraction and Synthesis, AAAI.
LaLICC - 28 rue Serpente – 75006 Paris
Colloque international, 27-28 Octobre 2006
« Annotation automatique de relations sémantiques et recherche d’informations : vers de nouveaux accès aux savoirs »
nombre de noms de villes (city/town), nombre de marques numériques dans la phrase.
Nous proposons de comparer entre les PCC (Pourcentage des Classes bien Classées) issus des deux
techniques de classification : SVM et arbre de décision. Pour cette dernière, nous comparons, en
plus, les PCC obtenus par l’utilisation des algorithmes de classification classiques comme ID3 et
celui incrémental comme PT2 (Utgoff et al. 1990)3. Nous choisirons, par la suite, le modèle de
données résultant qui dispose du plus grand PCC.
Le résultat de cette étape est l’ensemble des phrases référant à des événements.
3. Dans une troisième étape, nous regroupons les phrases référant aux mêmes événements par
l’application de l’algorithme ‘Hierarchical Agglomerative Clustering (HAC)’, qui assigne
initialement chaque objet à un cluster, puis fusionne à plusieurs reprises les clusters jusqu' à ce
qu’un des critères d'arrêts soit satisfait (Manning and Schutze, 1999)4. HAC utilise une mesure de
similarité entre les objets, pour notre cas, nous utilisons une mesure de similarité entre les phrases.
Nous adoptons le critère d'arrêt qui est le "Meilleur k" qui consiste à appliquer l'algorithme HAC
pour chaque valeur de k et nous choisirons la solution qui maximise l'exactitude du cluster.
4. Au niveau de la quatrième étape, en se basant sur les clusters, les marqueurs temporels entre les
événements, leurs positions dans l’article (Zha, 2002)5 et les relations entre eux, nous générons une
description qui combine les événements et qui constituera l’annotation de l’article. Une telle
annotation peut être indexée pour améliorer la recherche d’information sur de tels articles, comme
elle peut servir pour un résumé automatique. Les événements seront structurés et stockés dans une
base de données.
3
P. E. Utgoff and C. E. Brodley, 1990. An Incremental Method for Finding Multivariate Splits for Decision Trees. In
Proceedings of the Seventh International Conference, pp. 58-65. University of Texas, Austin, Texas.
4
5
C. D. Mannig and H. Schutze, 1999. Foundations of Statistical Natural Language Processing. MIT Press.
H. Zha, 2002. Generic summarization and keyphrase extraction using mutual reinforcement principle and sentence
clustering. In Proceedings of the 25th annual international ACM SIGIR conference on Research and development in
information retrieval, pp.113–120.
LaLICC - 28 rue Serpente – 75006 Paris
Téléchargement