« Approche d`apprentissage automatique pour l`annotation

Téléchargement

Colloque international, 27-28 Octobre 2006

« Annotation automatique de relations sémantiques et recherche d’informations : vers de nouveaux accès aux savoirs »

« Approche d’apprentissage automatique pour l’annotation

automatique des événements. »

Rim Faiz, Institut des Hautes Etudes Commerciales de Carthage , Université du 7

novembre à Carthage, Tunisie

Avec la prolifération des articles de Presse sur le Web et la diversité de leurs sources (Reuters,

Aljazeera, CNN, …), un traitement automatique de leurs contenus devient de plus en plus

nécessaire. En effet, quotidiennement des milliers d’articles sont produits dans le monde entier

concernant un événement donné. Nous proposons de développer un système qui annote

automatiquement ces articles de Presse.

L’annotation est une information graphique ou textuelle attachée à un document et le plus souvent

placée dans ce même document (Desmontils et Jacquin, 2002)1. Dans notre cas l’annotation est une

description des principaux événements que contient un article de Presse. Nous proposons un

processus permettant d’extraire tous les événements ensuite de les regrouper avant de générer

l’annotation.

Les différentes étapes de ce processus sont les suivantes :

1. Dans une première étape des techniques de TAL sont appliquées aux textes pour extraire les

phrases ainsi que les marqueurs temporels qui les relient.

2. Au cours de la deuxième étape, un modèle de classification est construit automatiquement en se

basant sur un ensemble d’apprentissage, il permet de prédire si une phrase contient un événement

ou non.

Dans le cadre de notre étude, nous utilisons les attributs qui se rapportent aux événements tels que

définis par Naughton et al. (2006)2. Ces attributs sont les suivants : Longueur de la phrase, position

de la phrase dans le document, nombre de lettres capitales, nombre de caractères (stopwords),

1 E. Desmontils et C. Jacquin, 2002. Annotations sur le Web. Note de lecture, in AS CNRS Web Sémantique 2002.

2 M. Naughton, N. Kushmerick, and J. Carthy, 2006. Event extraction from heterogeneous news sources. In

Proceedings of the Workshop Event Extraction and Synthesis, AAAI.

LaLICC - 28 rue Serpente – 75006 Paris

Colloque international, 27-28 Octobre 2006

« Annotation automatique de relations sémantiques et recherche d’informations : vers de nouveaux accès aux savoirs »

nombre de noms de villes (city/town), nombre de marques numériques dans la phrase.

Nous proposons de comparer entre les PCC (Pourcentage des Classes bien Classées) issus des deux

techniques de classification : SVM et arbre de décision. Pour cette dernière, nous comparons, en

plus, les PCC obtenus par l’utilisation des algorithmes de classification classiques comme ID3 et

celui incrémental comme PT2 (Utgoff et al. 1990)3. Nous choisirons, par la suite, le modèle de

données résultant qui dispose du plus grand PCC.

Le résultat de cette étape est l’ensemble des phrases référant à des événements.

3. Dans une troisième étape, nous regroupons les phrases référant aux mêmes événements par

l’application de l’algorithme ‘Hierarchical Agglomerative Clustering (HAC)’, qui assigne

initialement chaque objet à un cluster, puis fusionne à plusieurs reprises les clusters jusqu' à ce

qu’un des critères d'arrêts soit satisfait (Manning and Schutze, 1999)4. HAC utilise une mesure de

similarité entre les objets, pour notre cas, nous utilisons une mesure de similarité entre les phrases.

Nous adoptons le critère d'arrêt qui est le "Meilleur k" qui consiste à appliquer l'algorithme HAC

pour chaque valeur de k et nous choisirons la solution qui maximise l'exactitude du cluster.

4. Au niveau de la quatrième étape, en se basant sur les clusters, les marqueurs temporels entre les

événements, leurs positions dans l’article (Zha, 2002)5 et les relations entre eux, nous générons une

description qui combine les événements et qui constituera l’annotation de l’article. Une telle

annotation peut être indexée pour améliorer la recherche d’information sur de tels articles, comme

elle peut servir pour un résumé automatique. Les événements seront structurés et stockés dans une

base de données.

3 P. E. Utgoff and C. E. Brodley, 1990. An Incremental Method for Finding Multivariate Splits for Decision Trees. In

Proceedings of the Seventh International Conference, pp. 58-65. University of Texas, Austin, Texas.

4 C. D. Mannig and H. Schutze, 1999. Foundations of Statistical Natural Language Processing. MIT Press.

5 H. Zha, 2002. Generic summarization and keyphrase extraction using mutual reinforcement principle and sentence

clustering. In Proceedings of the 25th annual international ACM SIGIR conference on Research and development in

information retrieval, pp.113–120.

LaLICC - 28 rue Serpente – 75006 Paris

1 / 2 100%

Documents connexes

Saviez-vous que?

Progident/Clinique version 8, le pouvoir de l`information entre vos

Poster Équipe Biopuces Bionanotechnologies

Usage des Annotations Java pour Javanaise V2

Cycle "Bioinformatique par la pratique" 2017 Informatique Analyse

Les Annotations en JAVA

Convertir des analyses syntaxiques en dépendances vers les

GMOD Apollo

Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans l'interface ou les textes ? Ou savez-vous comment améliorer l'interface utilisateur de StudyLib ? N'hésitez pas à envoyer vos suggestions. C'est très important pour nous!

GDPR Confidentialité Conditions d''utilisation

« Approche d`apprentissage automatique pour l`annotation

Documents connexes

Faire une suggestion

Produits

Assistance

Produits

Assistance

« Approche d`apprentissage automatique pour l`annotation

Documents connexes

Faire une suggestion

Produits

Assistance

Ajouter ce document à la (aux) collections

Ajouter ce document à enregistré

Suggérez-nous comment améliorer StudyLib