Colloque international, 27-28 Octobre 2006 « Annotation automatique de relations sémantiques et recherche d’informations : vers de nouveaux accès aux savoirs » « Approche d’apprentissage automatique pour l’annotation automatique des événements. » Rim Faiz, Institut des Hautes Etudes Commerciales de Carthage , Université du 7 novembre à Carthage, Tunisie Avec la prolifération des articles de Presse sur le Web et la diversité de leurs sources (Reuters, Aljazeera, CNN, …), un traitement automatique de leurs contenus devient de plus en plus nécessaire. En effet, quotidiennement des milliers d’articles sont produits dans le monde entier concernant un événement donné. Nous proposons de développer un système qui annote automatiquement ces articles de Presse. L’annotation est une information graphique ou textuelle attachée à un document et le plus souvent placée dans ce même document (Desmontils et Jacquin, 2002)1. Dans notre cas l’annotation est une description des principaux événements que contient un article de Presse. Nous proposons un processus permettant d’extraire tous les événements ensuite de les regrouper avant de générer l’annotation. Les différentes étapes de ce processus sont les suivantes : 1. Dans une première étape des techniques de TAL sont appliquées aux textes pour extraire les phrases ainsi que les marqueurs temporels qui les relient. 2. Au cours de la deuxième étape, un modèle de classification est construit automatiquement en se basant sur un ensemble d’apprentissage, il permet de prédire si une phrase contient un événement ou non. Dans le cadre de notre étude, nous utilisons les attributs qui se rapportent aux événements tels que définis par Naughton et al. (2006)2. Ces attributs sont les suivants : Longueur de la phrase, position de la phrase dans le document, nombre de lettres capitales, nombre de caractères (stopwords), 1 2 E. Desmontils et C. Jacquin, 2002. Annotations sur le Web. Note de lecture, in AS CNRS Web Sémantique 2002. M. Naughton, N. Kushmerick, and J. Carthy, 2006. Event extraction from heterogeneous news sources. In Proceedings of the Workshop Event Extraction and Synthesis, AAAI. LaLICC - 28 rue Serpente – 75006 Paris Colloque international, 27-28 Octobre 2006 « Annotation automatique de relations sémantiques et recherche d’informations : vers de nouveaux accès aux savoirs » nombre de noms de villes (city/town), nombre de marques numériques dans la phrase. Nous proposons de comparer entre les PCC (Pourcentage des Classes bien Classées) issus des deux techniques de classification : SVM et arbre de décision. Pour cette dernière, nous comparons, en plus, les PCC obtenus par l’utilisation des algorithmes de classification classiques comme ID3 et celui incrémental comme PT2 (Utgoff et al. 1990)3. Nous choisirons, par la suite, le modèle de données résultant qui dispose du plus grand PCC. Le résultat de cette étape est l’ensemble des phrases référant à des événements. 3. Dans une troisième étape, nous regroupons les phrases référant aux mêmes événements par l’application de l’algorithme ‘Hierarchical Agglomerative Clustering (HAC)’, qui assigne initialement chaque objet à un cluster, puis fusionne à plusieurs reprises les clusters jusqu' à ce qu’un des critères d'arrêts soit satisfait (Manning and Schutze, 1999)4. HAC utilise une mesure de similarité entre les objets, pour notre cas, nous utilisons une mesure de similarité entre les phrases. Nous adoptons le critère d'arrêt qui est le "Meilleur k" qui consiste à appliquer l'algorithme HAC pour chaque valeur de k et nous choisirons la solution qui maximise l'exactitude du cluster. 4. Au niveau de la quatrième étape, en se basant sur les clusters, les marqueurs temporels entre les événements, leurs positions dans l’article (Zha, 2002)5 et les relations entre eux, nous générons une description qui combine les événements et qui constituera l’annotation de l’article. Une telle annotation peut être indexée pour améliorer la recherche d’information sur de tels articles, comme elle peut servir pour un résumé automatique. Les événements seront structurés et stockés dans une base de données. 3 P. E. Utgoff and C. E. Brodley, 1990. An Incremental Method for Finding Multivariate Splits for Decision Trees. In Proceedings of the Seventh International Conference, pp. 58-65. University of Texas, Austin, Texas. 4 5 C. D. Mannig and H. Schutze, 1999. Foundations of Statistical Natural Language Processing. MIT Press. H. Zha, 2002. Generic summarization and keyphrase extraction using mutual reinforcement principle and sentence clustering. In Proceedings of the 25th annual international ACM SIGIR conference on Research and development in information retrieval, pp.113–120. LaLICC - 28 rue Serpente – 75006 Paris