Actes de l'atelier
Fouille du Web
des 6èmes journées francophones
« Extraction et Gestion des Connaissances »
17 Janvier 2006 Lille
1
Sommaire
Classification hiérarchique et visualisation de pages Web
Hanene Azzag, Christiane Guinot, Gilles Venturini
Cartes de pages Web obtenues par un automate cellulaire
Hanene Azzag, David Ratsimba, Ali Alarabi, Christiane Guinot, Gilles Venturini
Classification et visualisation des données d’usages d’Internet
Khalid Benabdeslem, Younès Bennani
Extraction des connaissances à partir des fichiers Logs
Malika Charrad, Mohamed Ben Ahmed, Yves Lechevallier
Fouille du Web pour la collecte de données linguistiques : avantages et inconvénients d’un corpus
hors-normes
Florence Duclaye, Olivier Collin, Emmanuelle Pétrier
Découverte de relations candidates à l’enrichissement d’un entrepôt thématique de données
Hélène Gagliardi, Ollivier Haemmerlé, Nathalie Pernelle, Fatiha Sais
Etude des stratégies cognitives mises en oeuvre lors de la recherche d’informations sur Internet
Emma Holder, Josette Marquer
Techniques structurelles pour l’alignement de taxonomies sur le Web
Hassen Kefi , Chantal Reynaud, Brigitte Safar
2
Comité de programme
Marie-Aude Aufaure, Supelec
Younnes Bennani, Université Paris-Nord, CNRS (LIPN)
Philippe Bretier, France-Telecom, Division R&D, Lannion, Laboratoire Easy
Valérie Camps, Université Paul Sabatier, Toulouse 3, CNRS (IRIT)
Rose Dieng, INRIA (Sophia-Antipolis)
Mohand Saïd Hacid, Université Claude Bernard, Lyon 1, CNRS (LIRIS)
Patrick Gallinari, LIP6, Université de Paris 6
Daniele Herin, Université de Montpellier, CNRS (LIRMM)
Christian Jacquemin, Université Paris-Sud, CNRS (LIMSI)
Yves Kodratoff, Université Paris-Sud, CNRS(LRI)
Nicolas Labroche, LIP6, Université de Paris 6
Sabine Loudcher, ERIC, Université de Lyon 2
Bénédicte Legrand, LIP6, Université de Paris 6
Denis Maurel, LI, Université François-Rabelais de Tours
Benjamin Nguyen, Université de Versailles, CNRS (PRiSM)
Fabien Picarougne, LINA, Polytech’Nantes
Chantal Reynaud, Université Paris-Sud, CNRS (LRI) & INRIA (Futurs)
Brigitte Safar, Université Paris-Sud, CNRS (LRI) & INRIA (Futurs)
Imad Saleh, PARAGRAPHE, Université de Paris 8
Max Silberztein, LASELDI, Université de Franche-Comté
Gilles Venturini, LI, Université François-Rabelais de Tours
Comité d'organisation
Chantal Reynaud, Université de Paris-Sud, CNRS (LRI) & INRIA (Futurs)
Gilles Venturini et Hanene Azzag, Université François-Rabelais de Tours.
Appel à communication pour un numéro spécial de RNTI :
Le but de cet atelier a été de réunir les chercheurs académiques et industriels autour de la
thématique de la fouille du Web. Les articles ont été soumis directement dans leur version
définitive, et 8 articles sur 13 ont été acceptés.
A la suite de cet atelier, nous lançons à un appel à communication s’adressant à tous et
concernant un numéro spécial Fouille du Web de la revue RNTI, qui sera relayé de manière
électronique (voir le site http://www.antsearch.univ-tours.fr/fw-egc06). La date limite de
soumission sera fixée à fin avril. Toute personne ayant participée ou non à l’atelier peut soumettre
ses travaux.
3
4
Classification hiérarchique et visualisation de pages Web
Hanene Azzag, Christiane Guinot,∗∗
Gilles Venturini
Laboratoire d’Informatique de l’Université de Tours,
École Polytechnique de l’Université de Tours - Département Informatique,
64, Avenue Jean Portalis, 37200 Tours, FRANCE.
hanene.[email protected]iv-tours.fr,venturin[email protected]
http://www.antsearch.univ-tours.fr/webrtic
∗∗CE.R.I.E.S.
20 rue Victor Noir, F-92521 Neuilly-sur-Seine Cedex.
christiane.gu[email protected]
Résumé. Nous présentons dans cet article un nouvel algorithme de classifi-
cation hiérarchique et non supervisée de documents noté AntTreeSansSeuil.
Il utilise le principe d’auto-assemblage observé chez des fourmis réelles qui
construisent des structures vivantes en se connectant progressivement les unes
aux autres. Nous adaptons ces principes pour construire un arbre de documents
permettant de générer automatiquement des sites portails. Dans un premier temps,
nous avons testé et validé AntTreeSansSeuil sur des bases de données tex-
tuelles, suivie d’une étude comparative avec la méthode CAH. Enfin, dans un
second temps, nous introduisons un affichage d’arbre dans un environnement
immersif en trois dimensions permettant d’explorer le site portail construit.
1 Introduction
La fouille de textes est l’analogue du domaine de la fouille de données mais pour le trai-
tement de données textuelles Lebart et Salem (1994). En effet, il s’agit d’extraire automa-
tiquement des connaissances à partir d’un ensemble de textes, en utilisant des méthodes de
découverte comme les statistiques, l’apprentissage, l’analyse de données. Dans notre étude,
nous nous intéressons à une problématique d’apprentissage non supervisé, dans laquelle une
classification hiérarchique de textes est nécessaire. Il s’agit de la construction automatique de
site portails pour le Web.
En effet un site portail est un moyen de recherche d’information au même titre qu’un
moteur de recherche. La différence importante entre les deux vient du fait qu’un site portail
regroupe généralement des informations sur un thème donné sous la forme d’une structure
arborescente dans laquelle l’utilisateur va pouvoir se déplacer. Une première manière simple
(d’un point de vue informatique) d’aborder la problématique de construction de sites portail
est d’utiliser une approche manuelle Kumar et al. (2001). Le portail Yahoo! utilise ce type
de construction qui fait intervenir des personnes appelées ontologistes (ou encore surfeurs
selon l’appellation de Yahoo!). Leur travail consiste à sélectionner les documents fournis par
5
1 / 95 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !