Colloque international, 27-28 Octobre 2006
« Annotation automatique de relations sémantiques et recherche d’informations : vers de nouveaux accès aux savoirs »
nombre de noms de villes (city/town), nombre de marques numériques dans la phrase.
Nous proposons de comparer entre les PCC (Pourcentage des Classes bien Classées) issus des deux
techniques de classification : SVM et arbre de décision. Pour cette dernière, nous comparons, en
plus, les PCC obtenus par l’utilisation des algorithmes de classification classiques comme ID3 et
celui incrémental comme PT2 (Utgoff et al. 1990)3. Nous choisirons, par la suite, le modèle de
données résultant qui dispose du plus grand PCC.
Le résultat de cette étape est l’ensemble des phrases référant à des événements.
3. Dans une troisième étape, nous regroupons les phrases référant aux mêmes événements par
l’application de l’algorithme ‘Hierarchical Agglomerative Clustering (HAC)’, qui assigne
initialement chaque objet à un cluster, puis fusionne à plusieurs reprises les clusters jusqu' à ce
qu’un des critères d'arrêts soit satisfait (Manning and Schutze, 1999)4. HAC utilise une mesure de
similarité entre les objets, pour notre cas, nous utilisons une mesure de similarité entre les phrases.
Nous adoptons le critère d'arrêt qui est le "Meilleur k" qui consiste à appliquer l'algorithme HAC
pour chaque valeur de k et nous choisirons la solution qui maximise l'exactitude du cluster.
4. Au niveau de la quatrième étape, en se basant sur les clusters, les marqueurs temporels entre les
événements, leurs positions dans l’article (Zha, 2002)5 et les relations entre eux, nous générons une
description qui combine les événements et qui constituera l’annotation de l’article. Une telle
annotation peut être indexée pour améliorer la recherche d’information sur de tels articles, comme
elle peut servir pour un résumé automatique. Les événements seront structurés et stockés dans une
base de données.
3 P. E. Utgoff and C. E. Brodley, 1990. An Incremental Method for Finding Multivariate Splits for Decision Trees. In
Proceedings of the Seventh International Conference, pp. 58-65. University of Texas, Austin, Texas.
4 C. D. Mannig and H. Schutze, 1999. Foundations of Statistical Natural Language Processing. MIT Press.
5 H. Zha, 2002. Generic summarization and keyphrase extraction using mutual reinforcement principle and sentence
clustering. In Proceedings of the 25th annual international ACM SIGIR conference on Research and development in
information retrieval, pp.113–120.
LaLICC - 28 rue Serpente – 75006 Paris