Revue des Nouvelles Technologies de l’Information Sous la direction de Djamel A. Zighed et Gilles Venturini RNTI-E-9 Extraction et gestion des connaissances : EGC'2007 Rédacteurs invités : Monique Noirhomme-Fraiture (Facultés Universitaires Notre-Dame de la Paix, Namur, Belgique) Gilles Venturini (Université François-Rabelais de Tours) Volume I CÉPADUÈS-ÉDITIONS 111, rue Vauquelin 31100 TOULOUSE – France Tél. : 05 61 40 57 36 – Fax : 05 61 41 79 89 (de l’étranger ) + 33 5 61 40 57 36 – Fax : + 33 5 61 41 79 89 www.cepadues.com courriel : [email protected] Chez le même éditeur RNTI-Revue des Nouvelles Technologies de l'Information Sous la direction de Djamel A. Zighed et Gilles Venturini n°1 : Entreposage fouille de données E1 : Mesures de qualité pour la fouille de données E2 : Extraction et gestion des connaissances EGC 2004 C1 : Classification et fouille de données E3 : Extraction et gestion des connaissances EGC 2005 B1 : 1re Journée Francophone sur les Entrepôts de Données et l’Analyse en ligne EDA 2005 E4 : Fouille de données complexes E5 : Extraction des connaissances : Etat et perspectives E6 : Extraction et gestion des connaissances EGC 2006 E7 : Visualisation en extraction des connaissances E8 : Systèmes d'Information pour l'Aide à la Décision en Ingénierie Système B2 : 2re Journée Francophone sur les Entrepôts de Données et l’Analyse en ligne EDA 2006 Ensemble composé de 2 volumes : 978 2 85428 765 3 (volume I) 978 2 85428 766 0 (volume II) © CEPAD 2007 ISBN : 978.2.85428.763.9 Le code de la propriété intellectuelle du 1 juillet 1992 interdit expressément la photocopie à usage collectif sans autorisation des ayants droit. Or, cette pratique en se généralisant provoquerait une baisse brutale des achats de livres, au point que la possibilité même pour les auteurs de créer des œuvres nouvelles et de les faire éditer correctement serait alors menacée. er Nous rappelons donc que toute reproduction, partielle ou totale, du présent ouvrage est interdite sans autorisation de l'éditeur ou du Centre français d'exploitation du droit de copie (CFC – 3, rue d'Hautefeuille – 75006 Paris). Dépôt légal : janvier 2007 N° éditeur : 76300 LE MOT DES DIRECTEURS DE LA COLLECTION RNTI Chères Lectrices, Chers Lecteurs, La Revue des Nouvelles Technologies de l’Information a publié pour l’année 2006 plus de 1800 pages d’articles scientifiques dans les domaines liés à l’Extraction de connaissances à partir des Données (ECD), la Fouille de données (FD), la Gestion des connaissances (GC). Cette revue a pour objectif d’être un outil de communication de très grande qualité et ouvert à tous. A ce titre, RNTI accueille deux types de numéros (pour lesquels une procédure d’évaluation à trois relecteurs est systématiquement mise en place) : – des numéros à thème faisant l’objet d’un appel à communication. Chaque numéro à thème est édité par un ou plusieurs rédacteurs en chef invités. Un comité de programme spécifique d’une quinzaine de personne est formé à cette occasion. Si vous avez un projet éditorial vous pouvez nous le soumettre et s’il est dans le créneau de RNTI vous serez désigné rédacteur invité et vous vous chargerez ensuite de manière libre et indépendante de la mise en place de la collecte, l’évaluation, la sélection et la publication du numéro, – des actes de conférences sélectives garantissant une haute qualité des articles. Si vous présidez une conférence proche des thématiques accueillies par RNTI, vous pouvez nous contacter. Dans le présent numéro, nous publions les papiers sélectionnés par la conférence EGC’2007 qui se tient à Namur (Belgique) du 23 au 26 janvier 2007. Nous tenons à remercier particulièrement les organisateurs de cette conférence ainsi que l’association EGC pour la confiance qu’ils accordent à cette revue et nous les félicitons pour la qualité du travail accompli. Nous espérons vivement que ce numéro vous donnera à toutes et à tous une entière satisfaction. Pour tout renseignement, nous vous invitons à consulter notre site Web et à nous contacter. Djamel A. Zighed et Gilles Venturini. http ://www.antsearch.univ-tours.fr/rnti - iii - RNTI-E-9 RNTI-E-9 PRÉFACE La sélection d’articles publiés dans le présent recueil constitue les actes des septièmes journées Extraction et Gestion des Connaissances (EGC’2007) qui se sont tenues à Namur, Belgique, du 23 au 26 janvier 2007. Comme les précédentes conférences EGC, ces journées francophones sont consacrées à toutes les problématiques, théories, méthodes et applications de la fouille de données, de l’apprentissage, de l’extraction et de la gestion de connaissances. Il s’agit de rassembler les chercheurs d’entreprises ou universitaires de ces domaines afin de communiquer des travaux de qualité, d’échanger et de fertiliser des idées nouvelles. Lors de cette septième édition, 136 propositions d’articles ou de démonstrations ont été soumises : 57 ont été acceptées en papiers longs (ou courts mais sans réduction de pages), 10 en papiers courts, 18 en posters et 8 en démonstrations. Ce volume de soumissions ainsi que le taux de sélection illustrent à la fois le dynamisme de cette communauté scientifique ainsi que la qualité des travaux menés dans ce domaine. En ce qui concerne le comité de lecture de la conférence, celui-ci a été à nouveau agrandi avec notamment une ouverture importante vers des chercheurs francophones internationaux. Les articles de ce numéro sont regroupés selon les sessions dans lesquelles ils ont été présentés, et dans l’ordre chronologique. Ces regroupements thématiques sont, d’une certaine manière, arbitraires : de nombreux autres arrangements auraient été possibles, aussi nous invitons les lecteurs à parcourir l’ensemble des titres pour se faire une idée de la couverture d’un domaine particulier, plutôt que de s’en tenir uniquement aux intitulés des sessions. Remerciements Nous tenons à remercier tous les auteurs qui ont soumis des articles à cette conférence. Nous félicitons ceux dont la proposition a été acceptée, et nous espérons que les commentaires des relecteurs auront été constructifs et encourageants pour les autres auteurs. Nous espérons que cette conférence et ce numéro seront profitables à tous. Compte tenu du grand nombre de relectures (trois relecteurs par article donnent lieu à près de 400 relectures), nous tenons à remercier tous les membres du comité de lecture pour leur travail et les commentaires qu’ils ont pu fournir aux auteurs. Nous tenons à remercier et féliciter particulièrement le comité d’organisation : un grand merci à eux pour tout le temps qu’ils ont consacré au succès de cette conférence, et en particulier Hakim Hacid pour la gestion du site de soumission, Jérôme David pour les inscriptions, Babette Di Guardia pour la réalisation du programme, Nicolas Pagès pour la réalisation et la gestion du site de la conférence, Arnaud Jasselette et Etienne Cuvelier pour l’organisation des ateliers et tutoriaux et Isabelle Daelman pour le secrétariat. Cette conférence ne pourrait voir le jour sans le soutien de l’Association EGC, soutien qui s’exprime de multiples manières : parution des actes, organisation locale, dotation de deux prix attribués lors de la conférence. Enfin, nous remercions spécialement pour leur soutien financier et logistique la société SAS, les Facultés Universitaires Notre-Dame de la Paix et la Province de Namur. Monique Noirhomme-Fraiture et Gilles Venturini. -v- RNTI-E-9 Président d’honneur d’EGC’2007 : Einoshin Suzuki, Université de Kyushu, Japon. Le Comité de lecture de ce numéro est constitué des Comités de programme EGC’2007 et de pilotage de EGC. Comité de programme EGC’2007, sous la présidence de Gilles Venturini : A. Alibrandi (U. Messine, I) M. Bécue-Bertaut (U. Polytechnique de Catalogne, E) N. Belkhiter (U. Laval, CND) S. Benbernou (LIRIS, U. Lyon 1, F) Y. Bennani (LIPN, U. Paris 13, F) G. Berio (U. Turin , I) H. Bock (U. Aachen , A) P. Bosc (IRISA/ENSSAT, U. Rennes 1, F) F. Bouali (U. Lille 2, F) S. Boucheron (LPMA, U. Paris 7, F) P. Brito (U. Porto, P.) P. Cazes (CEREMADE, U. Paris Dauphine, F) F. Chateau (U. Lyon 2, F.) M. Chavent (MAB, U. Bordeaux 1, F) F. Cloppet (CRIP5, U. Paris 5, F) A. Cornuejols (LRI, U. Paris Sud, F) B. Crémilleux (GREYC, U. Caen, F) F. D’Alché-Buc (LAMI, U. Evry-Val d’Esonne, F) J. Darmont (ERIC, U. Lyon 2, F) D. Defays (U. Liège, B) M. Delest (LaBRI, U. Bordeaux 1, F) E. Diday (CEREMADE, U. Paris 9, F) R. Dieng-Kuntz (INRIA, Sophia Antipolis, F) C. Djeraba (LIFL, U. Lille, F) S. Faiz (LTSIRS, INSAT, T) G. Falquet (CUI, U. de Genève, CH) A. M. Florea (U. Polytechnique de Bucarest, RO) C. Froidevaux (LRI, U. Paris Sud, F) P. Gallinari (LIP 6, U. Pierre et Marie Curie, F) J.-G. Ganascia (LIP 6, U. Pierre et Marie Curie, F) P. Gancarski (U. Louis Pasteur, Strasbourg, F) C. Garbay (TIMC-IMAG, Grenoble, F) G. Gardarin (PRISM, U. Versailles Saint-Quentin, F) A. Giacometti (U. Tours, antenne de Blois, F) R. Gilléron (INRIA Futurs Lille, F) C. Golbreich (LIM, U. de Rennes 1, F) G. Govaert (Heudiasyc, U. de Technologie Compiègne, F) C. Guinot (CERIES, U. Biométrie et Epidémiologie, F) A. Hardy (U. de Namur, Belgique) C. Jacquemin (LIMSI, CNRS, F) F. Jaquenet (EURISE, U. de Saint-Etienne, F) P. Kuntz (Ecole Polytechnique de l’U. de Nantes, F) L. La Tona (U. Messine, Italie) S. Lallich (ERIC, Lyon2, F) M. Lamure (U. Lyon 1, F) L. Lancieri(France Telecom R&D, F) A. Laurent (LIRMM-Polytech’Montpellier, F) A. Lazraq (ENIM, Ecole des Mines de Rabat, M) J. Le Maitre (LSIS, U. Sud Toulon-Var, F) Y. Lechevallier (INRIA Rocquencourt, F) P. Lenca (GET/ENST Bretagne, Brest, F) P. Leray (PSI / INSA Rouen, F) I.-C. Lerman (IRISA, U. Rennes 1, F) S. Loiseau (LERIA, U. d’Angers, F) R. Missaoui (DII, U. Québec en Outaouais, CND) A. Morineau (MODULAD, F) A. Napoli (LORIA, Nancy, F) S. Nugier (EDF R&D, F) M. Noirhomme-Fraiture (FUNDP, B) J.-M. Ogier (L3I, U. de La Rochelle, F) C. Pellegrini (CUI, U. de Genève, CH) S. Pinson (LAMSADE, U. Paris Dauphine, F) P. Poncelet (Ecole des Mines d’Alès/LGI2P, F) F. Poulet (ESIEA, Pôle ECD, Laval, F) J.-P. Rasson (FUNDP, B) J.-C. Régnier (SDP, U. Lyon 2, F) M. Rémon (FUNDP, B) C. Reynaud (LRI, U. Paris-Sud 11, F) G. Ritschard (U. de Genève, S) C. Roche (CONDILLAC, U. de Savoie, F) M.-C. Rousset (IMAG, Grenoble, F) L. Saitta (U. Piemonte Orientale, I) I. Saleh (Paragraphe, U. Paris 8, F) G. Saporta (CNAM, Chaire de Stat. Appl. Paris, F) M. Schneider (LIMOS, U. Clermont Ferrand II, F) M. Sebban (U. Saint-Etienne, France) F. Sèdes (IRIT U. Toulouse 3, F) F. Spagnolo (U. Palermo, I) E. G. Talbi (LIFL, U. Lille, F) M. Teisseire (LIRMM, U. Montpellier 2, F) F. Toumani (LIMOS, U. Clermont-Ferrand, F) S. Trausan-Matu (U. Polytechnique de Bucarest, RO) B. Trousse (INRIA, Sophia Antipolis, F) R. Verde (Facoltà di Studi Politici « Jean Monnet », I) M. Verleysen (U. catholique de Louvain, B) N. Vincent (CRIP5-SIP, U. Paris 5, F) C. Vrain (LIFO, U. Orléans, F) L. Wehenkel (U. de Liège, B) J. Wijsen (U. Mons-Hainaut, B) K. Zreik (GREYC, U. Caen, F) Comité de pilotage EGC, sous la présidence de Henri Briand : Danielle Boulanger (IAE, U. Lyon 3) Régis Gras (LINA, U. de Nantes) Fabrice Guillet (LINA, U. de Nantes) Mohand-Saïd Hacid (LIRIS, U. Lyon 1) Georges Hébrail (ENST, Paris) Danièle Hérin (LIRMM, U. Montpellier 2) RNTI-E-9 - vi - Yves Kodratoff (LRI, U. Paris-sud) Ludovic Lebart (ENST, Paris) Jean-Marc Petit (LIRIS, INSA Lyon) Jacques Philippé (PerfomanSe) Djamel Zighed (ERIC, U. Lyon 2) Relecteurs non membres du Comité de lecture : Hanane Azzag, Emmanuel Blanchard, Lydia Boudjeloud, Max Chevalier, Anicet Choupo, Emmanuel Coquery, MarieOdile Cordier, Fabien De Marchi, Daniel Defays, Antonio Di Leva, Thanh-Nghi Do, Benoît Encelle, David Genest, Moultazem Ghazal, Philippe Guinot, Allel Hadjali, Ollivier Haemmerlé, Céline Hébert, Hélène Jaudoin, PierreEmmanuel Jouve, Balasz Kegl, Mathieu Lafourcade, Mustapha Lebbah, Haoyuan Li, Sorin Moga, Abdenour Mokrane, Hassina Mouloudi, Noël Novelli, Brigitte Patouille, André Péninou, Bruno Pinaud, Olivier Pivert, Marc Plantevit, Saïd Radhouani, Thomas Raimbault, Chedy Raissi, Sylvie Ranwez, Daniel Rocacher, Mathieu Roche, Brigitte Safar, Arnaud Soulet, Fariza Tahi, Rafik Taouil, Benoît Vaillant, Farida Zehraoui. Comité d’organisation, sous la présidence de Monique Noirhomme-Fraiture : Maher Chemseddine (Institut d’Informatique, FUNDP, Namur, Belgique) Radu Cotet (Institut d’Informatique, FUNDP, Namur, Belgique) Etienne Cuvelier (Institut d’Informatique, FUNDP, Namur, Belgique) Jérôme David (LINA, Université de Nantes, France) Babette di Guardia (Institut d’Informatique, FUNDP, Namur, Belgique) Isabelle Daelman (Institut d’Informatique, FUNDP, Namur, Belgique) Hakim Hacid (ERIC, Université de Lyon 2, France) André Hardy (Département de Mathématiques, FUNDP, Namur, Belgique) Arnaud Jasselette (Institut d’Informatique, FUNDP, Namur, Belgique) Marc Keita (Institut d’Informatique, FUNDP, Namur, Belgique) Nedjma Meksoud (Institut d’Informatique, FUNDP, Namur, Belgique) Nicolas Pagès (Institut d’Informatique, FUNDP, Namur, Belgique) Frédéric Randolet (Institut d’Informatique, FUNDP, Namur, Belgique) Gabriel Schwanen (Institut d’Informatique, FUNDP, Namur, Belgique) Responsable des soumissions de démonstrations : Mohand-Said Hacid (LIRIS, Université de Lyon 1) - vii - RNTI-E-9 RNTI-E-9 TABLE DES MATIÈRES Conférences invitées Peut-on Capturer la Sémantique à Travers la Syntaxe ? - Découverte des Règles d’Exception Simultanée -, Einoshin Suzuki....................................................................................................1 Interestingness in Data Mining, Howard Hamilton..................................................................................................3 Finding interesting queries in relational databases, Bart Goethals.........................................................................................................5 Clustering : from model-based approaches to heuristic algorithms, Hans Hermann Bock.............................................................................................7 Session SVM et approches neuronales Une étude des algorithmes de construction d’architecture des réseaux de neurones multicouches, Norbert Tsopzé, Engelbert Mephu Nguifo, Gilbert Tindo..................................9 Régression floue et crédibiliste par SVM pour la classification des images sonar, Hicham Laanaya, Arnaud Martin, Driss Aboutajdine, Ali Khenchaf............. 21 Combinaison des cartes topologiques mixtes et des machines à vecteurs de support : Une application pour la prédiction de perte de poids chez les obèses, Mohamed Ramzi Temanni, Mustapha Lebbah, Christine Poitou-Bernert, Karine Clement, Jean-Daniel Zucker...............33 Session Web sémantique Caractérisation des transitions temporisées dans les logs de conversation de services Web, Didier Devaurs, Fabien De Marchi, Mohand-Saïd Hacid.................................45 Construction coopérative de carte de thèmes : vers une modélisation de l’activité socio-sémantique, L’Hédi Zaher, Jean-Pierre Cahier, Christophe Lejeune, Manuel Zacklad...... 57 Apport du Web sémantique dans la réalisation d’un moteur de recherche géo-localisé à usage des entreprises, Frédéric Triou, Fabien Picarougne, Henri Briand............................................69 - ix - RNTI-E-9 Session Statistiques Mesure d’entropie asymétrique et consistante, Djamel A. Zighed , Simon Marcellin, Gilbert Ritschard................................... 81 Une règle d’exception en Analyse Statistique Implicative, Régis Gras, Pascale Kuntz, Einoshin Suzuki....................................................87 Optimal histogram representation of large data sets : Fisher vs piecewise linear approximations, Antonio Irpino, Elvira Romano..........................................................................99 Une approche non paramétrique Bayesienne pour l’estimation de densité conditionnelle sur les rangs, Carine Hue, Marc Boullé................................................................................... 111 Application des réseaux bayésiens à l’analyse des facteurs impliqués dans le cancer du Naso-pharynx, Alexandre Aussem, Sergio Rodrigues de Morais, Marilys Corbex................123 Session Visualisation Construction incrémentale et visualisation de graphes de voisinage par des fourmis artificielles, Julien Lavergne, Hanene Azzag, Christiane Guinot, Gilles Venturini.........135 Visualisation de graphes avec Tulip : exploration interactive de grandes masses données en appui à la fouille de données et à l’extraction de connaissances, David Auber, Yves Chiricota, Maylis Delest, Jean-Philippe Domenger, Patrick Mary, Guy Melançon....................................................................... 147 Visualisation exploratoire des résultats d’algorithmes d’arbre de décision, Thanh-Nghi Do, Nguyen-Khang Pham, François Poulet............................... 157 Validation des visualisations de données numériques et textuelles, Ludovic Lebart...................................................................................................169 Session Démonstrations de logiciels Logiciel d’aide à l’évaluation des catégorisations, Julien Velcin, William Vacher, Jean-Gabriel Ganascia.................................. 175 Un segmenteur de texte en phrases guidé par l’utilisateur, Thomas Heitz..................................................................................................... 177 L’outil SDET pour le complètement des données descriptives liées aux bases de données géographiques, Khaoula Mahmoudi, Sami Faïz........................................................................ 179 RNTI-E-9 -x- Extraction de données sur Internet avec Retroweb, Fabrice Estiévenart, Jean-Roch Meurisse....................................................... 181 RAS : Un outil pour l’annotation de documents basée sur les liens de citation, Lylia Abrouk, Danièle Hérin.............................................................................183 Un outil pour la visualisation de relations entre gènes, Marie Agier, Jean-Marc Petit...........................................................................185 Traitement et exploration du fichier Log du Serveur Web, pour l’extraction des connaissances : Web Usage Mining, Mostafa Hanoune, Faouzia Benabbou.............................................................. 187 SyRQuS - Recherche par combinaison de graphes RDF, Adrian Tanasescu..............................................................................................189 Session Posters Une méthode d’interprétation de scores, Vincent Lemaire, Raphaël Féraud.................................................................... 191 Annotation et navigation de données archéologiques, Bernardo Lopez, Samira Hammiche, Samir Sebahi, Mohand-Saïd Hacid......................................................................................193 Utilisation de WordNet dans la catégorisation de textes multilingues, Mohamed Amine Bentaallah, Mimoun Malki.................................................195 Une nouvelle méthode d’alignement et de visualisation d’ontologies OWL-Lite, Sami Zghal, Karim Kamoun, Sadok Ben Yahia, Engelbert Mephu Nguifo..............................................................................197 Vers un algorithme multi-agents de clustering dynamique, Gaële Simon, Dominique Fournier, Bruno Mermet........................................199 Notion de conversation dans les communications interpersonnelles instantanées sur IP, Alexandre Bouchacourt, Luigi Lancieri..........................................................201 Préservation de l’Intimité dans les Protocoles de Conversations, Nawal Guermouche, Salima Benbernou, Emmanuel Coquery, Mohand-Said Hacid......................................................................................203 Calcul et représentation efficace de cubes de données pour une visualisation orientée pixel, Noël Novelli, David Auber.................................................................................205 - xi - RNTI-E-9 Génération et enrichissement automatique de listes de patrons de phrases pour des applications aux moteurs de questions-réponses, Cédric Vidrequin, Juan-Manuel Torres-Moreno, Jean-Jacques Schneider, Marc El-Beze.......................................................207 Construction d’ontologie à partir de textes, Rokia Bendaoud, Yannick Toussaint, Amedeo Napoli....................................209 WebDocEnrich : enrichissement sémantique flexible de documents semi-structurés, Mouhamadou Thiam, Nacéra Bennacer, Nathalie Pernelle........................... 211 Méthodes statistiques et modèles thermiques compacts, Grégory Mallet, Philippe Leray, Hubert Polaert............................................. 213 Détermination du niveau de consommation des abonnés en téléphonie mobile par la théorie des ensembles flous, Rachid El Meziane, Ilham Berrada, Ismail Kassou, Karim Baina............... 215 Session Entrepôt de données et règles d’association Intégration des connaissances utilisateurs pour des analyses personnalisées dans les entrepôts de données évolutifs, Cécile Favre, Fadila Bentayeb, Omar Boussaïd.............................................. 217 Des fonctions d’oubli intelligentes dans les entrepôts de données, Aliou Boly, Sabine Goutier, Georges Hébrail...................................................223 Vers une plate-forme interactive pour la visualisation de grands ensembles de règles d’association, Olivier Couturier, Tarek Hamrouni, Sadok Ben Yahia, Engelbert Mephu Nguifo..............................................................................235 Les itemsets essentiels fermés : une nouvelle représentation concise, Tarek Hamrouni, Islem Denden, Sadok Ben Yahia, Engelbert Mephu Nguifo, Yahya Slimani...................................................241 Sous-bases k-faibles pour des règles d’association valides au sens de la confiance, Jean Diatta, Régis Girard.................................................................................253 Session Données séquentielles et motifs Un cadre théorique pour la gestion de grandes bases de motifs, François Jacquenet, Baptiste Jeudy, Christine Largeron...............................259 Extraction des Top-k Motifs par Approximer-et-Pousser, Arnaud Soulet, Bruno Crémilleux....................................................................271 RNTI-E-9 - xii - Extraction de séquences multidimensionnelles convergentes et divergentes, Marc Plantevit, Anne Laurent, Maguelonne Teisseire...................................283 Découverte de chroniques à partir de séquences d’événements pour la supervision de processus dynamiques, Nabil Benayadi, Marc Le Goc, Philippe Bouché..............................................295 Vers une nouvelle approche d’extraction des motifs séquentiels non-dérivables, Chedy Raïssi, Pascal Poncelet..........................................................................307 Evaluation supervisée de métrique : application à la préparation de données séquentielles, Sylvain Ferrandiz, Marc Boullé........................................................................ 319 Session Fouille de textes Classement des fragments de documents XML par une méthode d’aide à la décision, Faïza Abbaci, Pascal Francq.............................................................................331 Filtrage des sites Web à caractère violent par analyse du contenu textuel et structurel, Radhouane Guermazi, Mohamed Hammami, Abdelmajid Ben Hamadou....343 Segmentation thématique par calcul de distance thématique, Alexandre Labadié, Jacques Chauché..............................................................355 Extension sémantique du modèle de similarité basé sur la proximité floue des termes, Zoulikha Heddadji, Nicole Vincent, Séverine Kirchner, Georges Stamon....367 Vers une base de connaissances biographique : extraction d’information et ontologie, Laurent Kevers, Cédrick Fairon....................................................................... 373 Une extension de XQuery pour la recherche textuelle d’information dans des documents XML, Nicolas Faessel, Jacques Le Maitre.................................................................. 379 Session Données complexes et applications Navigation et appariement d’objets géographiques dans une ontologie, Rémy Brisson, Omar Boussaïd, Pierre Gançarski, Anne Puissant, Nicolas Durand.............................................................................................391 Réduction de dimension pour l’analyse de données vidéo, Nicolas Verbeke, Nicole Vincent.......................................................................397 - xiii - RNTI-E-9 Classification supervisée de séquences biologiques basée sur les motifs et les matrices de substitution, Rabie Saidi, Mondher Maddouri, Engelbert Mephu Nguifo...........................409 Fusion des approches visuelles et contextuelles pour l’annotation des images médicales, Filip Florea, Valeriu Cornea, Alexandrina Rogozan, Abdelaziz Bensrhair, Stefan Darmoni........................................................421 Apprentissage actif d’émotions dans les dialogues Homme-Machine, Alexis Bondu, Vincent Lemaire, Barbara Poulain..........................................427 Vers un système hybride pour l’annotation sémantique d’images IRM du cerveau, Ammar Mechouche, Christine Golbreich, Bernard Gibaud...........................433 Approche connexionniste pour l’extraction de profils cas-témoins du cancer du Naso-pharynx à partir de données issues d’une étude épidémiologique, Khalid Benabdeslem, Mustapha Lebbah, Alexandre Aussem, Marilys Corbex............................................................445 Session Apprentissage Apprentissage statistique de la topologie d’un ensemble de données étiquetées, Pierre Gaillard, Michaël Aupetit, Gérard Govaert.........................................455 Une méthode optimale d’évaluation bivariée pour la classification supervisée, Marc Boullé........................................................................................................461 Ensemble prédicteur fondé sur les cartes auto-organisatrices adapté aux données volumineuses, Elie Prudhomme, Stéphane Lallich................................................................. 473 Choix des conclusions et validation des règles issues d’arbres de classification, Vincent Pisetta, Gilbert Ritschard, Djamel A. Zighed....................................485 Apprentissage semi-supervisé de fonctions d’ordonnancement, Vinh Truong, Massih-Reza Amini....................................................................497 Mesure non symétrique pour l’évaluation de modèles, utilisation pour les jeux de données déséquilibrés, Julien Thomas, Pierre-Emmanuel Jouve, Nicolas Nicoloyannis....................509 RNTI-E-9 - xiv - Session Données évolutives Traitement de données de consommations électriques par un Système de Gestion de Flux de Données, Talel Abdessalem, Raja Chiky, Georges Hébrail, Jean Louis Vitti................ 521 Extraction d’entités dans des collections évolutives, Thierry Despeyroux , Eduardo Fraschini, Anne-Marie Vercoustre..............533 Construction et analyse des résumes de données évolutives : application aux données d’usage du Web, Alzennyr Da Silva, Yves Lechavellier, Fabrice Rossi, Francisco De Carvalho.................................................................................539 Session Approches Sciences Humaines et Sociales Une approche sociotechnique pour le Knowledge Management (KM), Leoncio Jiménez.................................................................................................545 Cartographie de l’organisation : une approche topologique des connaissances, Marc Boyer, Marie-Françoise Canut, Max Chevalier, André Péninou, Florence Sèdes...................................................................557 Partitionnement d’un réseau de sociabilité à fort coefficient de clustering, Romain Boulet, Bertrand Jouve.......................................................................569 Session Ontologies, Sémantique Sémantique et contextes conceptuels pour la recherche d’information, Marie-Aude Aufaure, Bénédicte Le Grand, Michel Soto................................ 575 Annotation sémantique floue de tableaux guidée par une ontologie, Gaëlle Hignette, Patrice Buche, Juliette Dibie-Barthélemy , Ollivier Haemmerlé......................................................................................587 L’émergence de connaissances dans les communautés de pratique, Caroline Wintergerst, Thomas Ludwig, Danielle Boulanger.........................599 Alignement de ressources sémantiques à partir de règles, Valentina Ceausu, Sylvie Desprès.................................................................... 611 Approche logique pour la réconciliation de références, Fatiha Saïs, Nathalie Pernelle, Marie-Christine Rousset..............................623 Evolution de l’ontologie et gestion des annotations sémantiques inconsistantes, Phuc-Hiep Luong, Rose Dieng-Kuntz, Alain Boucher.....................................635 - xv - RNTI-E-9 Session Classification Un algorithme multi-agent de classification pour la construction d’ontologies dynamiques, Kévin Ottens, Nathalie Aussenac-Gilles.........................................................647 Une approche de classification non supervisée basée sur la détection de singularités et la corrélation de séries temporelles pour la recherche d’états : application à un bioprocédé fed-batch, Sébastien Régis..................................................................................................659 Evaluation d’une approche de classification conceptuelle, Marie Chavent, Yves Lechevallier.................................................................... 671 Classification de fonctions continues à l’aide d’une distribution et d’une densité définies dans un espace de dimension infinie, Etienne Cuvelier, Monique Noirhomme-Fraiture........................................... 679 OKM : une extension des k-moyennes pour la recherche de classes recouvrantes, Guillaume Cleuziou...........................................................................................691 Une nouvelle approche de la programmation DC et DCA pour la classification floue, Le Thi Hoai An, Le Hoai Minh, Pham Dinh Tao............................................703 Session plénière transversale SPoID : Extraction de motifs séquentiels pour les bases de données incomplètes, Céline Fiot, Anne Laurent, Maguelonne Teisseire......................................... 715 Ré-ordonnancement pour l’apprentissage de transformations de documents HTML, Guillaume Wisniewski, Patrick Gallinari.......................................................727 Classification de grands ensembles de données avec un nouvel algorithme de SVM, Thanh-Nghi Do, François Poulet......................................................................739 Extraction de connaissances d’adaptation par analyse de la base de cas, Fadi Badra, Jean Lieber, Amedeo Napoli........................................................ 751 RNTI-E-9 - xvi - Peut-on Capturer la Sémantique à Travers la Syntaxe ? - Découverte des Règles d’Exception Simultanée Einoshin Suzuki1 Université de Kyushu, Japon Résumé. L’objectif de la fouille de données est la découverte sophistiquée de connaissances lisibles, surprenantes et possiblement utiles. Les aspects surprenant et utile font partie de la sémantique et nécessitent l’utilisation des connaissances du domaine, ce qui cause souvent le problème d’acquisition de la connaissance. Notre découverte des règles d’exception simultanée peut être une réponse à ce problème. Nous envisageons de trouver les connaissances surprenantes et possiblement utiles à travers notre forme de paire de règles d’exception. Les autres méthodes inventées concernent l’index d’évaluation et la recherche exhaustive. Plusieurs applications médicales seront présentées sur lesquelles nos propositions ont été appliquées. Summary. The objective of data mining is sophisticated discovery of comprehensible, unexpected, and possibly useful knowledge. The unexpected and useful aspects belong to semantics and necessitate a use of domain knowledge, which often causes the problem of knowledge acquisition. Our simultaneous discovery of exception rules can be a solution to this problem. We expect to discover unexpected and possibly useful knowledge with our representation of exception rule pair. Other invented methods concern evaluation index and exhaustive search. Several medical applications to which our proposals have been applied will be presented. 1 Einoshin Suzuki a obtenu son Bachelor, son Master et son Doctorat à l’Université de Tokyo respectivement en 1988, 1990 et 1993. Il a été membre de la Faculté de l’Institut de Technologies de Tokyo (Tokyo Institute of Technology) et de l’Université Nationale de Yokohama (Yokohama National University) respectivement pendant 3 et 10 ans. Il est Professeur à l’Université de Kyushu depuis avril 2006. Il a obtenu a deux reprises la récompense du meilleure article de la Société Japonaise d’Intelligence Artificielle. Il a été Président du comité de programme de DS-04, Vice-Président du comité de ICDM-04 et dirige depuis octobre 2006 le comité de pilotage de l’International Conference on Discovery Science. -1- RNTI-E-9 Interestingness in Data Mining Howard Hamilton1 Department of Computer Science, University of Regina, 3737 Wascana Parkway, Regina, SK, Canada S4S 0A2 Summary. Interestingness measures play an important role in data mining regardless of the kind of patterns being mined. These measures are intended for selecting and ranking patterns according to their potential interest to the user. Good measures also allow the time and space cost of the mining process to be reduced. Measuring the interestingness of discovered patterns is an active and important area of data mining research. Although much work has been conducted in this area, so far there is no widespread agreement on a formal definition of interestingness in this context. Based on the diversity of definitions presented to date, interestingness is perhaps best treated as a broad concept, which emphasizes conciseness, coverage, reliability, peculiarity, diversity, novelty, surprisingness, utility, and actionability. This presentation reviews interestingness measures for rules and summaries, classifies them from several perspectives, compares their properties, identifies their roles in the data mining process, gives strategies for selecting appropriate measures for applications, and identifies opportunities for future research in this area. 1 Howard J. Hamilton is a professor in the Department of Computer Science at the University of Regina, Regina, Canada, where he has served since 1991. He received his B.Sc. and M.Sc. in Computational Science from the University of Saskatchewan, and his Ph.D. in Computing Science from Simon Fraser University. He is the Director of University of Regina's Institute for Computational Discovery. His research interests include knowledge discovery in databases, machine learning, applying artificial intelligence to computer animation and computer games, and temporal representation and reasoning. He is a co-author of _Knowledge Discovery and Measures of Interest_ and co-editor of four other books, including _Quality Measures for Data Mining_, Springer, 2007. Some issues investigated in knowledge discovery concern interestingness, peculiarity, utility based measures, domain generalization graphs, share-based itemsets, and visualization of results. -3- RNTI-E-9 Finding interesting queries in relational databases Bart Goethals1 University of Antwerp, Dept. of Math and Computer Science Middelheimlaan 1, B-2020 Antwerpen, Belgium Résumé. La découverte de motifs dans des bases de données relationnelles quelconques est un problème intéressant pour lequel il existe très peu de méthodes efficaces. Nous présentons un cadre dans lequel des paires de requêtes sur les données sont utilisées comme des motifs et nous discutons du problème de la découverte d’associations utiles entre elles. Plus spécifiquement, nous considérons des petites sous-classes de requêtes conjonctives qui nous permettent de découvrir des motifs intéressants de manière efficace. Summary. Finding patterns in arbitrary relational databases remains an interesting problem for which only very few efficient techniques exist. We present a framework in which pairs of queries over the data are used as patterns and discuss the problem of finding interesting associations between them. More specifically, we consider small subclasses of conjunctive queries that still allow us to find interesting patterns efficiently. 1 Bart Goethals obtained his PhD on Frequent Pattern Mining from the transnational University of Limburg after which he moved to the University of Helsinki for two years. His primary research interest is on efficient methods for pattern mining and the integration of data mining into database systems. He is the organizer of several workshops among which the FIMI workshops on frequent itemset mining implementations. He serves on the editorial board of the Data Mining and Knowledge Discovery Journal, he has served on almost all data mining conference program committees and is program chair of ECML/PKDD in 2008. Currently, he is a post-doctoral researcher in the Advanced Database Research and Modeling research group (ADReM) at the University of Antwerp of which he leads the Data Mining team. -5- RNTI-E-9 Clustering: from model-based approaches to heuristic algorithms Hans Hermann Bock1 Institute of Statistics, RWTH Aachen University, D-52056 Aachen, Allemagne, [email protected] Résumé. Les méthodes du 'clustering' ont pour but de diviser un ensemble (large) d'objets dans un petit nombre de groupes homogènes (clusters), basé sur des données relevées ou observées qui décrivent les (dis-)similarités qui existent entre les objets – en espérant que ces clusters soient utiles pour l'application concernée. Il existe une multitude d'approches, et cette contribution présente quelques-unes qui sont les plus importantes ou actuelles. Les approches qui sont basées sur un modèle (model-based clustering) partent d'une vue probabiliste dans laquelle il existe une classification inconnue et les données sont des variables aléatoires dont la distribution dépend de la classe des objets correspondants. Nous présenterons les modèles 'fixed-partition', 'random-partition' et le modèle de mélange. Chacun mène à un critère de classification à optimiser. Nous esquissons des algorithmes, des propriétés mathématiques, et quelques cas spéciaux, mais importants. Il est facile de définir des critères heuristiques de classification dans des cas où il n'y a pas un modèle probabiliste, et tandis que les méthodes précédentes se concentrent sur des classifications de type 'partition', on peut aussi construire des classifications hiérarchiques ou structurées. - Contrairement aux méthodes qui construisent une classification exhaustive pour l'ensemble total de tous les objets donnés, nous considérerons finalement le cas où on se contente à trouver seulement des (quelques) groupes singuliers et isolés d'objets qui sont bien plus similaires entre eux qu'en moyenne. Ces méthodes sont à la base de beaucoup d'applications en fouille des données (marketing, biotechnology, web logs). 1 Etudes de mathématiques en 1958-1965 à Karlsruhe, Paris, Freiburg (diplome) ; positions universitaires aux universités de Freiburg, Hannover, et Aachen (Aix-la-Chapelle) ; Professeur en Probabilité et Statistique à Aachen depuis 1978 ; spécialités : analyse des données, clustering et classification, fiabilité; président de la Société Allemande de Classification (GfKl; 1986-1995), président de la International Federation of Classification Societies (IFCS; 1985-1987) ; Editeur de la revue 'Advances in Data Analysis and Classification (ADAC)' et de la série 'Classification, Data Analysis, and Knowledge Organization' (Springer Verlag). -7- RNTI-E-9 Une étude des algorithmes de construction d’architecture des réseaux de neurones multicouches. Norbert Tsopzé1∗,∗∗ Engelbert Mephu Nguifo∗ Gilbert Tindo∗∗ ∗ CRIL-CNRS, IUT de Lens, SP 16 Rue de l’Université 62307 Lens Cedex {tsopze,mephu}@cril.univ-artois.fr ∗∗ Département d’Informatique - Université de Yaoundé I BP 812 Yaoundé [email protected], [email protected] Résumé. Le problème de choix d’architecture d’un réseau de neurones multicouches reste toujours très difficile à résoudre dans un processus de fouille de données. Ce papier recense quelques algorithmes de recherche d’architectures d’un réseau de neurones pour les tâches de classification. Il présente également une analyse théorique et expérimentale de ces algorithmes. Ce travail confirme les difficultés de choix des paramètres d’apprentissage (modèle, nombre de couches, nombre de neurones par couches, taux d’apprentissage, algorithme d’apprentissage,...) communs à tout processus de construction de réseaux de neurones et les difficultés de choix de paramètres propres à certains algorithmes. 1 Introduction Un réseau de neurones est un ensemble de neurones interconnectés qui communiquent entre eux et avec l’extérieur. Un réseau de neurones se présente comme un graphe où les noeuds sont les différentes unités de réseau et les arcs représentent les connexions entre ces unités. Le nombre de couches, le nombre de neurones par couche et les interconnexions entre les différentes unités du réseau définissent l’architecture (encore appelée topologie) de celui-ci. Un neurone peut être appelé unité ou cellule. Comme tout système d’apprentissage supervisé, les systèmes d’apprentissage supervisé à base des réseaux de neurones fonctionnent en deux phases : la phase d’apprentissage qui consiste à construire à partir des observations (exemples présentés sous forme (x, y) où y représente l’observation de la fonction f en x) un système capable d’approximer la fonction f dont l’expression analytique n’est pas facile à trouver ; la phase de classement qui utilise le modèle construit en phase d’apprentissage pour produire des décisions (prédire un nouvel exemple qui ne faisait pas partie des observations de la base d’apprentissage). Définir la structure du réseau pour de tel système n’est pas une tâche évidente (J.Han et Hamber, 2001; A.Cornuéjols et Miclet, 2002). En effet, il n’existe aucune méthode permettant de définir et de justifier la structure d’un réseau de neurones (J.Han et Hamber, 2001). 1 Le Service de Coopération et d’Action Culturelle (SCAC) de l’ambassade de France à Yaoundé (Cameroun) a financé le séjour du premier auteur au CRIL pendant la réalisation de ce travail. Ce travail est partiellement financé par le ministère français des affaires étrangères. -9- RNTI-E-9 Régression floue et crédibiliste par SVM pour la classification des images sonar Hicham Laanaya∗,∗∗ , Arnaud Martin∗∗ Driss Aboutajdine∗ Ali Khenchaf∗∗ ∗ GSCM-LRIT, Université Mohammed V-Agdal, Faculté des sciences de Rabat, Maroc [email protected], http://www.fsr.ac.ma/GSCM/ ∗∗ ENSIETA-E3 I2 -EA3876, 2, rue François Verny 29806 Brest cedex 9, laanayhi, Arnaud.Martin, [email protected] http://www.ensieta.fr/e3i2/ Résumé. La classification des images sonar est d’une grande importance par exemple pour la navigation sous-marine ou pour la cartographie des fonds marins. En effet, le sonar offre des capacités d’imagerie plus performantes que les capteurs optiques en milieu sous-marin. La classification de ce type de données rencontre plusieurs difficultés en raison des imprécisions et incertitudes liées au capteur et au milieu. De nombreuses approches ont été proposées sans donner de bons résultats, celles-ci ne tenant pas compte des imperfections des données. Pour modéliser ce type de données, il est judicieux d’utiliser les théories de l’incertain comme la théorie des sous-ensembles flous ou la théorie des fonctions de croyance. Les machines à vecteurs de supports sont de plus en plus utilisées pour la classification automatique aux vues leur simplicité et leurs capacités de généralisation. Il est ainsi possible de proposer une approche qui tient compte de ces imprécisions et de ces incertitudes au cœur même de l’algorithme de classification. L’approche de la régression par SVM que nous avons introduite permet cette modélisation des imperfections. Nous proposons ici une application de cette nouvelle approche sur des données réelles particulièrement complexes, dans le cadre de la classification des images sonar. 1 Introduction Les images sonar sont utilisées pour leur rapidité à imager de grandes zones là où l’optique ne peut le faire. On les retrouve ainsi dans de nombreuses applications telles que l’aide à la navigation sous-marine, ou la cartographie sous-marine. Les images sonar sont entachées de plusieurs imprécisions et incertitudes dues à l’instrumentation utilisée (le capteur sonar) et au milieu marin. Les paramètres qui entrent en jeu pour la reconstruction de ces images (géométrie du dispositif, coordonnées du bateau, mouvements du sonar,. . .) sont aussi entachés des bruits de mesure. Il s’ajoute à ceci des interférences dues à des trajets multiples des signaux utilisés, à des bruits de chatoiement ou encore à la faune et - 21 - RNTI-E-9 Combinaison des cartes topologiques mixtes et des machines à vecteurs de support : Une application pour la prédiction de perte de poids chez les obèses Mohamed Ramzi Temanni∗,∗∗ , Mustapha Lebbah∗, Christine Poitou-Bernert∗∗,∗∗∗,∗∗∗∗ Karine Clement∗∗,∗∗∗,∗∗∗∗ , Jean-Daniel Zucker∗,∗∗ ∗ Université Paris 13, UFR de Santé, Médecine et Biologie Humaine (SMBH) - Léonard de Vinci- LIM&BIO 74, rue Marcel Cachin 93017 Bobigny Cedex France [email protected], ∗∗ Inserm, U755 Nutriomique, 75004 Paris, France; ∗∗∗ University Pierre and Marie Curie-Paris 6, Faculty of Medicine, Les Cordeliers, 75004 Paris, France; ∗∗∗∗ AP-HP, Hôtel-Dieu Hospital, Nutrition department, 1 Place du parvis Notre-Dame, 75004 Paris, France pré[email protected] Résumé. Cet article présente un modèle pour aborder les problèmes de classement difficiles, en particulier dans le domaine médical. Ces problèmes ont souvent la particularité d’avoir des taux d’erreurs en généralisations très élevés et ce quelles que soient les méthodes utilisées. Pour ce genre de problèmes, nous proposons d’utiliser un modèle de classement combinant le modèle de partitionnement des cartes topologiques mixtes et les machines à vecteurs de support (SVM). Le modèle non supervisé est dédié à la visualisation et au partitionnement des données composées de variables quantitatives et/ou qualitatives. Le deuxième modèle supervisé, est dédié au classement. La combinaison de ces deux modèles permet non seulement d’améliorer la visualisation des données mais aussi en les performances en généralisation. Ce modèle (CT-SVM) consiste à entraîner des cartes auto-organisatrices pour construire une partition organisée des données, constituée de plusieurs sous-ensembles qui vont servir à reformuler le problème de classement initial en sous-problème de classement. Pour chaque sous-ensemble, on entraîne un classeur SVM spécifique. Pour la validation expérimentale de notre modèle (CT-SVM), nous avons utilisé quatre jeux de données. La première base est un extrait d’une grande base médicale sur l’étude de l’obésité réalisée à l’Hôpital Hôtel-Dieu de Paris, et les trois dernières bases sont issues de la littérature. - 33 - RNTI-E-9 Caractérisation des transitions temporisées dans les logs de conversation de services Web Didier Devaurs, Fabien De Marchi, Mohand-Saïd Hacid LIRIS, UMR 5205, CNRS / Université Claude Bernard Lyon 1 Bâtiment Nautibus, 8 boulevard Niels Bohr, F-69622 Villeurbanne, France [email protected], {fabien.demarchi, mohand-said.hacid}@liris.cnrs.fr Résumé. La connaissance du protocole de conversation d’un service Web est importante pour les utilisateurs et les fournisseurs, car il en modélise le comportement externe ; mais, il n’est souvent pas spécifié lors de la conception. Notre travail s’inscrit dans une thématique d’extraction du protocole de conversation d’un service existant à partir de ses données d’exécution. Nous en étudions un sous-problème important qui est la découverte des transitions temporisées (i.e. les changements d’état liés à des contraintes temporelles). Nous proposons un cadre formel aboutissant à la définition des expirations propres, qui représentent un équivalent dans les logs des transitions temporisées. A notre connaissance, ceci représente la première contribution à la résolution de ce problème. 1 Introduction Les services Web constituent la nouvelle génération des technologies du Web pour l’intégration d’applications. Ce sont des composants logiciels mis à disposition par des fournisseurs, invocables sur Internet par des clients (des utilisateurs ou d’autres services), et communiquant de façon asynchrone, par le biais de messages. Ils permettent de réaliser une intégration à faible couplage et à moindre coût, du fait qu’ils utilisent des standards généralistes fortement répandus (XML, HTTP). Toutefois, cette souplesse d’intégration n’est possible que si les utilisateurs d’un service savent comment interagir avec celui-ci. A un service doivent donc être associées des descriptions assez riches pour permettre de comprendre sa sémantique d’exécution. Le langage WSDL, par exemple, spécifie l’interface d’un service : les opérations, les types de messages, le format des entrées-sorties. Cependant, Benatallah et al. (2004) ont montré que ceci était insuffisant dans l’optique d’une utilisation automatique des services Web, et ont défini le protocole de conversation, qui permet de spécifier quelles sont les séquences ordonnées de messages (appelées conversations) qu’un service peut émettre ou recevoir. Benatallah et al. (2005a,b) ont ensuite ajouté des contraintes temporelles à leur modèle, rebaptisé protocole de conversation temporisé. Son utilisation offre de nombreuses applications, pour la vérification automatique de bon fonctionnement, de compatibilité, etc. Néanmoins, en pratique, de nombreux services ne possèdent pas une telle spécification. Il est donc légitime de chercher à obtenir le protocole de conversation d’un service s’il n’a pas été défini lors de la conception. Fournir le protocole d’un service à ses partenaires et clients est bien sûr l’application la plus directe de ce problème de découverte ; mais il possède un intérêt bien plus grand pour l’ingé- - 45 - RNTI-E-9 Construction coopérative de carte de thèmes : vers une modélisation de l’activité socio-sémantique L’Hédi Zaher, Jean-Pierre Cahier Christophe Lejeune, Manuel Zacklad Institut Charles Delaunay, Laboratoire Tech-CICO, Université de technologie de Troyes - FRE CNRS 2848 12 rue Marie Curie – 10 010 – Troyes cedex {zaher, cahier, lejeune, zacklad}@utt.fr Résumé. Nous présentons dans cette contribution un cadre de modélisation recourant conjointement au modèle Hypertopic (Cahier et al., 2004) pour la représentation des connaissances de domaine et au modèle SeeMe (Herrmann et al., 1999) pour la représentation de l’activité. Ces deux approches apparaissent complémentaires, et nous montrons comment elles peuvent être combinées, pour mieux ancrer, sur les plans formel et méthodologique, les approches de cartographie collective des connaissances. 1 Introduction Nous nous intéressons dans cette contribution aux applications à forte composante d’activité socio-sémantique – notion que nous définissons exemples à l’appui. Nous avons analysé ce type d’applications dans de précédents articles comme relevant du « Web sociosémantique » matérialisé en particulier par des cartes de thèmes co-construites au sein de groupes en s’appuyant sur le modèle Hypertopic (Cahier et al., 2004). L’approche proposée dans cet article vise à lever certaines difficultés qui subsistent dans la mise en œuvre effective de ces cartes de thèmes co-construites au sein de communautés réelles. Le souci de mieux modéliser l’activité socio-sémantique accompagne une série importante d’expérimentations et de travaux menés au laboratoire Tech-CICO, pour mettre en œuvre le modèle Hypertopic dans le cadre du Web socio-sémantique (applications utilisant les outils Agoræ, Porphyry ou Cassandre) ou le comparer aux modèles sous-jacents à d’autres applications (telles que l’Open Directory Project, Del.icio.us ou Flickr, en partie basées sur les folksonomies et illustrant la tendance du Web2.0). Ces applications permettent à une communauté non seulement de partager des ressources, mais aussi de s’organiser pour mettre en commun et rendre manipulable la description de ces ressources, et faciliter la recherche ou la navigation selon de multiples points de vue (Lejeune, 2002). Nous proposons une approche basée sur des modèles génériques, s’adressant non seulement aux professionnels de la modélisation (analystes, informaticiens, etc.) en termes de méthode de conception externe mais aussi – à terme – aux utilisateurs finaux en termes de conception participative. Ces modèles génériques visent la représentation des connaissances, mais aussi la représentation de l’activité socio-sémantique qui la rend possible. Pour cela nous présentons un cadre recourant conjointement au modèle Hypertopic pour la représentation des connaissances de domaine, et au modèle SeeMe (Hermann et al., 1999) pour la représentation des rôles et de l’activité. Nous montrons comment ces deux modèles - 57 - RNTI-E-9 Apport du Web sémantique dans la réalisation d’un moteur de recherche géo-localisé à usage des entreprises Frédéric Triou∗ , Fabien Picarougne∗ Henri Briand∗ ∗ LINA CNRS FRE 2729 - Équipe COD École Polytechnique de l’Université de Nantes rue Christian Pauc, 44306 NANTES Cedex 3, France {frederic.triou, fabien.picarougne, henri.briand}@univ-nantes.fr http://www.sciences.univ-nantes.fr/lina/fr/research/teams/ECD/index.html Résumé. La recherche d’une entreprise sur le Web, relative à un savoir-faire particulier, n’est pas une tâche toujours facile à mener. Les outils mis à la disposition de l’internaute ne donnent pas entièrement satisfaction. D’un côté les moteurs de recherche éprouvent des difficultés à faire ressortir clairement le résultat escompté. De l’autre côté, les annuaires spécialisés (type Pages Jaunes) sont tributaires d’une organisation figée, nuisant à leur efficacité. Face à ce constat, nous nous proposons de créer un nouveau moteur spécialisé dans la recherche d’entreprise, associant Web sémantique et géo-localisation. Cette approche novatrice nécessite l’implémentation d’une ontologie ayant pour objectif la formalisation des connaissances du domaine. Cette tâche a mis en évidence l’intérêt des structures économiques, maintenues par l’INSEE, et leur utilisation au sein de l’ontologie. Les nomenclatures économiques ont été retenues pour gérer la classification des activités et produits pouvant être dispensés par les entreprises. La structure des unités administratives, telle que gérée au sein du fichier SIRENE, s’est avérée judicieuse pour répondre à la problématique de géo-localisation des entreprises. Une opération de désambiguïsation est réalisée en associant à chaque nœud d’activité les mots clés et synonymes lui correspondant. Enfin, nous comparons les résultats obtenus par notre moteur à ceux obtenu par le principal moteur de recherche d’activités géo-localisées en France : les Pages jaunes. Que ce soit au niveau de la précision et du rappel, notre moteur obtient des résultats significativement meilleurs. 1 Introduction Les moteurs de recherche classiques sur le web ont des caractéristiques étonnantes : ils possèdent des milliards de documents dans leur index, ils peuvent traiter des millions de requêtes quotidiennement, ils donnent des réponses très volumineuses quasiment en temps réel et ils nécessitent des ressources informatiques et humaines considérables. On peut dire aujourd’hui - 69 - RNTI-E-9 Mesure d’entropie asymétrique et consistante Djamel A. Zighed∗ , Simon Marcellin∗ Gilbert Ritschard∗∗ ∗ Université Lumière Lyon 2, Laboratoire ERIC {abdelkader.zighed,simon.marcellin}@univ-lyon2.fr http://eric.univ-lyon2.fr ∗∗ Université de Genève, Département d’économétrie, Suisse [email protected] Résumé. Les mesures d’entropie, dont la plus connue est celle de Shannon, ont été proposées dans un contexte de codage et de transmission d’information. Néanmoins, dès le milieu des années soixante, elles ont été utilisées dans d’autres domaines comme l’apprentissage et plus particulièrement pour construire des graphes d’induction et des arbres de décision. L’usage brut de ces mesures n’est cependant pas toujours bien approprié pour engendrer des modèles de prédiction ou d’explication pertinents. Cette faiblesse résulte des propriétés des entropies, en particulier le maximum nécessairement atteint pour la distribution uniforme et l’insensibilité à la taille de l’échantillon. Nous commençons par rappeler ces propriétés classiques. Nous définissons ensuite une nouvelle axiomatique mieux adaptée à nos besoins et proposons une mesure empirique d’entropie plus flexible vérifiant ces axiomes. 1 Introduction Dans les méthodes qui génèrent des règles de décision du type Si condition Alors Conclusion comme les arbres de décision (Breiman et al., 1984; Quinlan, 1993), les graphes d’induction (Zighed et Rakotomalala, 2000),... les mesures d’entropie sont fréquemment utilisées. Or celles-ci reposent sur de nombreuses hypothèses implicites qui ne sont pas toujours justifiées. Les mesures d’entropie ont été définies mathématiquement par un ensemble d’axiomes en dehors du contexte de l’apprentissage machine. On peut trouver des travaux détaillés dans Rényi (1960), et Aczél et Daróczy (1975). Leur transfert vers l’apprentissage s’est fait de manière peut-être hâtive et mérite d’être revu en détail. Le présent travail examine et discute des propriétés des entropies dans le cadre des arbres d’induction. Dans la section suivante, nous fixons quelques notations et rappelons le contexte d’utilisation des mesures d’entropie. Dans la section 3, nous présentons les mesures d’entropie et discutons leurs propriétés et leurs conséquences dans les processus d’induction. Dans la section 4, nous proposons une axiomatique conduisant à une nouvelle mesure d’entropie. - 81 - RNTI-E-9 Une règle d’exception en Analyse Statistique Implicative Régis Gras *, Pascale Kuntz *, Einoshin Suzuki ** *Laboratoire d’Informatique de Nantes Atlantique FRE CNRS 2729 Equipe COD - Connaissances & Décision Site Ecole Polytechnique de l’Université de Nantes La Chantrerie BP 60601 44306 Nantes cedex ** Department of Informatics, ISEE, Kyushu University, Japan [email protected] , [email protected] [email protected] Résumé. En fouille de règles, certaines situations exceptionnelles défient le bon sens. C’est le cas de la règle R : a → c et b → c et (a et b) → non c. Une telle règle, que nous étudions dans l’article, est appelée règle d’exception. A la suite des travaux précurseurs de E. Suzuki et Y. Kodratoff (1999), qui ont étudié un autre type de règle d’exception, nous cherchons ici à caractériser les conditions d’apparition de la règle R dans le cadre de l’Analyse Statistique Implicative. 1 Introduction Depuis les travaux de Agrawal et al., (1993) les règles d’association ont été un modèle très utilisé pour extraire des tendances implicatives dans des bases de données. Rappelons que lorsqu’on dispose d’un ensemble E d’individus décrits par p variables {a, b, ….}, qui peuvent être des conjonctions de variables atomiques et que l’on supposera ici binaires, une règle d’association a → b signifie que si a est vérifiée alors généralement b l’est également. Lorsque l’on extrait un ensemble de telles règles partielles d’association, il est pertinent de s’interroger sur les « relations » que ces règles entretiennent entre elles. Cette question a été abordée dans la littérature selon différents points de vue. Dans une optique de structuration de l’ensemble des règles, différentes méthodes de classification ont été proposées (e.g. Lent et al., 1997 ; Gras et Kuntz, 2005). Des représentations visuelles bien adaptées permettent également de mettre en évidence des dépendances entre les règles (e.g. Lehn, 2000 ou Couturier et Gras, 2005). Si l’on étudie localement avec attention ces relations, on peut découvrir une situation qui défie l’intuition. Supposons que l’on ait, entre trois variables (par exemple, des attributs) a, b et c, conjonction de variables binaires dans l’étude présente et vérifiant a → c et b → c. Dans des cas exceptionnels, on n’a pas (a et b) → c, comme le bon sens nous le suggère, mais (a et b) → non c. Cette dernière règle sera appelée ici règle d’exception. Remarquons que des travaux antérieurs (Suzuki et Kodratoff, 1999 ; Suzuki et Zytkow, 2005) considèrent comme situation d’exception la situation suivante : a → c (dite règle de sens commun), non ( b→ c’) (dite règle de référence) et (a et b) → c’ (dite règle d’exception) où c ≠ c’ et où a et b sont respectivement des conjonctions( a = - 87 - RNTI-E-9 Optimal histogram representation of large data sets: Fisher vs piecewise linear approximation. Antonio Irpino*, Elvira Romano** * Dipartimento di studi europei e mediterranei Seconda Università degli Studi di Napoli Via del Setificio, 15 Complesso Monumentale Belvedere - San Leucio I-81020 Caserta (CE) [email protected] ** Dipartimento di Matematica e Statistica Universita' degli Studi di Napoli "Federico II" Via Cintia - Complesso Monte Sant'Angelo I-80126 Napoli [email protected] Summary. Histogram representation of a large set of data is a good way to summarize and visualize data and is frequently performed in order to optimize query estimation in DBMS. In this paper, we show the performance and the properties of two strategies for an optimal construction of histograms on a single real valued descriptor on the base of a prior choice of the number of buckets. The first one is based on the Fisher algorithm, while the second one is based on a geometrical procedure for the interpolation of the empirical distribution function by a piecewise linear function. The goodness of fit is computed using the Wasserstein metric between distributions. We compare the proposed method performances against some existing ones on artificial and real datasets. 1 Introduction Today’s storage information mechanism fails to capture a large amount of data and preprocess them in their entirety, while only a summary is stored. In this context histogram plays the role of a tool for producing a suitable summarizing description and quickly answering to decision support queries. Following the guide phrase "An image says more than one hundred words", the histogram represents a simple and intuitive graphical tool to describe data distribution. It smoothes the data to display the general shape of an empirical distribution. The problem is that it can give a false impression of the shape of the dataset distribution, because its construction depends on the choice of the number and the length of the subintervals - usually called buckets or bins - of the real lines on which the histogram is based. Ideally it could have the situation in which for large bins the nature of the dataset is bimodal and for small bins the plot reduces to unimodal representation. The matter at stake here concerns the kind of bin width that can take into account the best graphical representation of the underlying DBMS and how it can be constructed with minimal error approximation. - 99 - RNTI-E-9 Une approche non paramétrique Bayesienne pour l’estimation de densité conditionnelle sur les rangs Carine Hue∗ , Marc Boullé∗ ∗ France Télécom R & D; 2, avenue Pierre Marzin; 22307 Lannion cedex [email protected]; [email protected] Résumé. Nous nous intéressons à l’estimation de la distribution des rangs d’une variable cible numérique conditionnellement à un ensemble de prédicteurs numériques. Pour cela, nous proposons une nouvelle approche non paramétrique Bayesienne pour effectuer une partition rectangulaire optimale de chaque couple (cible,prédicteur) uniquement à partir des rangs des individus. Nous montrons ensuite comment les effectifs de ces grilles nous permettent de construire un estimateur univarié de la densité conditionnelle sur les rangs et un estimateur multivarié utilisant l’hypothèse Bayesienne naïve. Ces estimateurs sont comparés aux meilleures méthodes évaluées lors d’un récent Challenge sur l’estimation d’une densité prédictive. Si l’estimateur Bayésien naïf utilisant l’ensemble des prédicteurs se révèle peu performant, l’estimateur univarié et l’estimateur combinant deux prédicteurs donne de très bons résultats malgré leur simplicité. 1 Introduction Dans cette introduction, nous décrivons tout d’abord une situation particulière de l’apprentissage supervisé où l’on s’intéresse à prédire le rang d’une cible plutôt que sa valeur. Nous exposons ensuite deux approches qui permettent de passer d’une prédiction ponctuelle en régression à une description plus fine de la loi prédictive. Nous présentons ensuite notre contribution qui vise à fournir une estimation de la densité conditionnelle complète du rang d’une cible par une approche Bayesienne non paramétrique. 1.1 Régression de valeur et régression de rang En apprentissage supervisé on distingue généralement deux grands problèmes : la classification supervisée lorsque la variable à prédire est symbolique et la régression lorsqu’elle prend des valeurs numériques. Dans certains domaines tels que la recherche d’informations, l’intérêt réside cependant plus dans le rang d’un individu par rapport à une variable plutôt que dans la valeur de cette variable. Par exemple, la problématique initiale des moteurs de recherche est de classer les pages associées à une requête et la valeur intrinsèque du score n’est qu’un outil pour produire ce classement. Indépendamment de la nature du problème à traiter, utiliser les rangs plutôt que les valeurs est une pratique classique pour rendre les modèles plus robustes aux valeurs atypiques et à l’hétéroscédasticité. En régression linéaire par exemple, un estimateur utilisant les rangs centrés dans l’équation des moindres carrés à minimiser est proposé - 111 - RNTI-E-9 Application des réseaux bayésiens à l’analyse des facteurs impliqués dans le cancer du Nasopharynx Alexandre Aussem∗ , Sergio Rodrigues de Morais∗ , Marilys Corbex∗∗ ∗ Université de Lyon 1, EA 2058 PRISMa, F-69622 Villeurbanne [email protected], ∗∗ Unité d’épidémiologie génétique, Centre International de Recherche sur le Cancer (CIRC), 150 cours Albert Thomas - 69280 Lyon Cedex 08 [email protected] Résumé. L’apprentissage de la structure des réseaux bayésien à partir de données est un problème NP-difficile. Une nouvelle heuristique de complexité polynômiale, intitulée Polynomial Max-Min Skeleton (PMMS), a été proposée en 2005 par Tsamardinos et al. et validée avec succès sur de nombreux bancs d’essai. PMMS présente, en outre, l’avantage d’être performant avec des jeux de données réduits. Néanmoins, comme tous les algorithmes sous contraintes, celui-ci échoue lorsque des dépendances fonctionnelles (déterministes) existent entre des groupes de variables. Il ne s’applique, par ailleurs, qu’aux données complètes. Aussi, dans cet article, nous apportons quelques modifications pour remédier à ces deux problèmes. Après validation sur le banc d’essai Asia, nous l’appliquons aux données d’une étude épidémiologique cas-témoins du cancer du nasopharynx (NPC) de 1289 observations, 61 variables et 5% de données manquantes issues d’un questionnaire. L’objectif est de dresser un profil statistique type de la population étudiée et d’apporter un éclairage utile sur les différents facteurs impliqués dans le NPC. 1 Introduction L’apprentissage de la structure des réseaux bayésiens (RB) à partir de données est un problème ardu ; la taille de l’espace des graphes orientés sans circuits (DAG en anglais) est super-exponentielle en fonction du nombre de variables et le problème combinatoire associé est NP-difficile (Chickering et al., 2004). Deux grandes familles de méthodes existent pour l’apprentissage de la structure des RB : celles fondées sur la satisfaction de contraintes d’indépendance conditionnelle entre variables et celles à base de score fondées sur la maximisation d’un score (BIC, MDL, BDe, etc.). Les deux méthodes ont leurs avantages et leurs inconvénients. Les méthodes sous contraintes sont déterministes, relativement rapides et bénéficient des critères d’arrêt clairement définis. Les contraintes imposées à la structure du graphe proviennent des informations statistiques sur les dépendances et indépendances conditionnelles observées dans les données. Elles reposent cependant sur un niveau de signification arbitraire - 123 - RNTI-E-9 Construction incrémentale et visualisation de graphes de voisinage par des fourmis artificielles Julien Lavergne∗ , Hanene Azzag∗∗ Christiane Guinot∗,∗∗∗ , Gilles Venturini∗ ∗ Laboratoire d’Informatique, Ecole Polytechnique de l’Université de Tours, 64 avenue Jean Portalis, 37200 Tours, France {julien.lavergne,gilles.venturini}@univ-tours.fr, http://www.antsearch.univ-tours.fr/webrtic ∗∗ Laboratoire d’Informatique de l’Université Paris-Nord 99, avenue Jean-Baptiste Clément, 93430 Villetaneuse, France [email protected], http://www-lipn.univ-paris13.fr/A3/ ∗∗∗ CE.R.I.E.S, 20 rue Victor Noir, 92521 Neuilly-Sur-Seine, France [email protected], http://www.ceries.com Résumé. Cet article décrit un nouvel algorithme incrémental nommé AntGraph pour la construction de graphes de voisinage. Il s’inspire du comportement d’autoassemblage observé chez des fourmis réelles où ces dernières se fixent progressivement à un support fixe puis successivement aux fourmis déjà fixées afin de créer une structure vivante. Nous utilisons ainsi une approche à base de fourmis artificielles où chaque fourmi représente une donnée. Nous indiquons comment ce comportement peut être utilisé pour construire de manière incrémentale un graphe à partir d’une mesure de similarité entre les données. Nous montrons finalement que notre algorithme obtient de meilleurs résultats en comparaison avec le graphe de Voisins Relatifs, notamment en terme de temps de calcul. 1 Introduction Dans cet article, nous nous intéressons au problème suivant : étant donné un ensemble de n données d1 , ..., dn et une matrice de similarité M (di , dj ) entre ces données, comment permettre à un expert d’explorer cet ensemble de données de manière visuelle et avec une approche guidée par le contenu. Nous considérons que l’expert souhaite avoir une vue globale des données mais également exploiter localement les données Shneiderman (1996), et en particulier passer de l’une à l’autre par une relation de voisinage tenant compte de la similarité. Notre problème se décompose en deux parties : établir un graphe de voisinage entre les données à partir de la similarité, et visualiser ce graphe afin de permettre à l’utilisateur de l’explorer. Nous allons donc nous concentrer sur les méthodes de construction de graphes de voisinage (voir un état de l’art dans Hacid et Zighed (2005)). Ce type de structure est également appelée - 135 - RNTI-E-9 Visualisation de graphes avec Tulip : exploration interactive de grandes masses de données en appui à la fouille de données et à l’extraction de connaissances. David Auber∗ , Yves Chiricota ∗∗ Maylis Delest ∗ Jean-Philippe Domenger ∗ Patrick Mary ∗ Guy Melançon∗∗∗ ∗ LaBRI UMR 5800 Université Bordeaux I 351 Cours de la Libération 33405 Talence Cedex – France {auber,maylis,domenger,mary}@labri.fr www.labri.fr ∗∗ Département de mathématiques et d’informatique Université du Québec à Chicoutimi 555, boulevard de l’Université Chicoutimi, G7H 2B1 – Canada [email protected] wwwdim.uqac.ca ∗∗∗ INRIA Futurs & LIRMM UMR 5506 161 rue Ada 34392 Montpellier Cedex 5 – France [email protected] www.inria.fr – www.lirmm.fr Résumé. Cet article décrit une étude de cas exhibant les qualités de la plateforme de visualisation de graphes Tulip, démontrant l’apport de la visualisation à la fouille de données interactive et à l’extraction de connaissances. Le calcul dŠun graphe à partir d’indices de similarité est un exemple typique où l’exploration visuelle et interactive de graphes vient en appui au travail de fouille de données. Nous penchons sur le cas où l’on souhaite étudier une collection de documents afin d’avoir une idée des thématiques abordées dans la collection. - 147 - RNTI-E-9 Visualisation exploratoire des résultats d'algorithmes d'arbre de décision Thanh-Nghi Do*, Nguyen-Khang Pham**, François Poulet*** *Equipe InSitu, INRIA Futurs, LRI, Bat.490, Université Paris Sud 91405 Orsay Cedex [email protected] http://www.lri.fr/~dtnghi **Equipe Texmex, IRISA, 35042 Rennes Cedex [email protected] ***ESIEA-Ouest, 38, rue des Docteurs Calmette et Guérin, 53000 Laval [email protected] http://visu.egc.free.fr Résumé. Nous présentons une méthode d'exploration des résultats des algorithmes d'apprentissage par arbre de décision (comme C4.5). La méthode présentée utilise simultanément une visualisation radiale, focus+context, fisheye et hiérarchique pour la représentation et l'exploration des résultats des algorithmes d'arbre de décision. L'utilisateur peut ainsi extraire facilement des règles d'induction et élaguer l'arbre obtenu dans une phase de post-traitement. Cela lui permet d'avoir une meilleure compréhension des résultats obtenus. Les résultats des tests numériques avec des ensembles de données réelles montrent que la méthode proposée permet une bien meilleure compréhension des résultats des arbres de décision. 1 Introduction Le volume de données stocké double actuellement tous les 9 mois (Lyman et al, 2003) et donc le besoin d'extraction de connaissances dans les grandes bases de données est de plus en plus important (Fayyad et al, 2004). La fouille de données (Fayyad et al, 1996) vise à traiter des ensembles de données pour identifier des connaissances nouvelles, valides, potentiellement utilisables et compréhensibles. Cette utilisabilité est fonction des buts de l'utilisateur donc seul l'utilisateur peut déterminer si les connaissances extraites répondent à ses attentes. Les outils de fouille de données doivent donc être interactifs et anthropocentrés. Notre approche consiste à impliquer plus fortement l'utilisateur dans le processus de fouille par des méthodes graphiques interactives dans un environnement de fouille. De nombreuses méthodes de visualisation ont été développées dans différents domaines et utilisées pour l'analyse exploratoire et la fouille de données (Fayyad et al, 2001), (Keim, 2002). Les méthodes de visualisation peuvent être utilisées pour le pré-traitement de données (par exemple la sélection de données) ou en post-traitement (par exemple pour voir les résultats). Des méthodes récentes (Ankerst, 2001), (Do et Poulet, 2004a et b), (Munzner, 1997) essayent d'impliquer plus significativement l'utilisateur dans le processus de fouille de - 157 - RNTI-E-9 Validation des visualisations par axes principaux de données numériques et textuelles. Ludovic Lebart CNRS-ENST [email protected] http://www.lebart.org Résumé. Parmi les outils de visualisation de données multidimensionnelles figurent d’une part les méthodes fondées sur la décomposition aux valeurs singulières, et d’autre part les méthodes de classification, incluant les cartes auto-organisées de Kohonen. Comment valider ces visualisations ? On présente sept procédures de validation par bootstrap qui dépendent des données, des hypothèses, des outils : a) le bootstrap partiel, qui considère les réplications comme des variables supplémentaires; b) le bootstrap total de type 1, qui réanalyse les réplications avec changements éventuels de signes des axes; c) le bootstrap total de type 2 qui corrige aussi les interversions d’axes; d) le bootstrap total de type 3, sur lequel on insistera, qui corrige les réplications par rotations procrustéenne; e) le bootstrap spécifique (cas des hiérarchies d’individus statistiques et des données textuelles). f) le bootstrap sur variables. g) les extensions des procédures précédentes à certaines cartes auto-organisées. 1 Introduction On veut montrer brièvement les divers degrés d’exigence (vis-à-vis des résultats) que l’on peut avoir lorsque l’on procède à une analyse en axes principaux. Ces degrés correspondent à des modalités d’usage du bootstrap (Diaconis et Efron, 1983; Efron et Tibshirani, 1993). On examinera successivement le bootstrap partiel (section 2), trois types de bootstrap dit total (section 3), d’autres formes plus spécifiques de bootstrap (section 4). On revient ensuite sur les subtilités du bootstrap total de type 3 (section 5). On illustrera ces propos par une étape de travail extraite d’une analyse en composante principales (ACP). 2 Bootstrap partiel Les axes principaux calculés à partir des données originales, non perturbées, jouent un rôle privilégié (en ACP, par exemple, la matrice des corrélations initiale C est en effet l’espérance mathématique des matrices Ck « perturbées » par la réplication k). Pourquoi calculer des sous-espaces de représentation prenant en compte des perturbations, et donc moins exacts que le sous-espace calculé sur les données initiales? La variabilité bootstrap - 169 - RNTI-E-9 Logiciel d’Aide à l’Évaluation des Catégorisations Julien Velcin, William Vacher, Jean-Gabriel Ganascia LIP6 - 104, avenue du président Kennedy - 75016 Paris {Julien.Velcin, Jean-Gabriel.Ganascia}@lip6.fr, [email protected] http://www-poleia.lip6.fr/~velcin Les méthodes de classification automatique sont employées dans des domaines variés et de nombreux algorithmes ont été proposés dans la littérature. Au milieu de cette “jungle”, il semble parfois difficile à un simple utilisateur de choisir quel algorithme est le plus adapté à ses besoins. Depuis le milieu des années 90, une nouvelle thématique de recherches, appelée clustering validity, tente de répondre à ce genre d’interrogation en proposant des indices pour juger de la qualité des catégorisations obtenues. Mais le choix est parfois difficile entre ces indices et il peut s’avérer délicat de prendre la bonne décision. C’est pourquoi nous proposons un logiciel adapté à cette problématique d’évaluation. 1 Evaluer les catégorisations La validation manuelle n’est pas forcément toujours faisable ou souhaitable. C’est pourquoi il convient de prendre en considération des méthodes automatiques quantitatives afin de donner une idée de la qualité des catégorisations. Nous nous basons sur la distinction entre critères “externes” et “internes” faite par Halkidi et al. (2002). Alors que les premiers reposent sur l’hypothèse d’une partition idéale des données (étiquettes données par l’utilisateur, par exemple), les seconds n’utilisent aucune information a priori pour juger de la qualité des catégorisations. C’est cette seconde approche que nous avons choisi d’adopter dans notre logiciel. Contrairement à l’approche externe, aucun étiquetage préalable des données ne permet ici de comparer le résultat du clustering à un quelconque modèle idéal. De nombreux indices de validité ont été proposés et des travaux récents attestent de la vitalité de cette perspective de recherche. Ils se basent sur la recherche, thème classique en apprentissage non supervisé, d’un compromis entre les principes de similarité intra-classe et de dissimilarité inter-classes. Des indices caractéristiques de cette approche interne sont les indices de Dünn, Davies-Bouldin et Hubert modifié, qui ont été implémentés dans notre logiciel. 2 Logiciel et expérimentations L’objectif du logiciel que nous proposons est d’aider l’utilisateur à comparer différentes partitions d’un même jeu de données sur la base de critères internes. Ces partitions peuvent être les résultats obtenus à l’aide d’un ou de plusieurs algorithmes de classification automatique, tels les k-means ou EM. Les données d’entrée sont, d’une part, la définition du langage de description et des exemples d’apprentissage décrits à l’aide de ce langage, et, d’autre part, les - 175 - RNTI-E-9 Logiciel d’Aide à l’Évaluation des Catégorisations partitions qui feront l’objet de la comparaison. L’évaluation repose sur trois composantes : l’indice utilisé, la mesure de distance (ou de similarité) choisie, ainsi que la normalisation effectuée sur les attributs numériques. Le logiciel permet de lancer plusieurs évaluations en même temps et propose, en sortie, une visualisation des résultats obtenus. La visualisation est différente suivant que l’on traite un ou plusieurs critères. De plus, le caractère évolutif de notre logiciel donne l’opportunité d’ajouter très facilement de nouveaux indices ou de nouvelles distances. La figure ci-dessus présente les résultats obtenus avec quatre algorithmes (k-means, EM, Farthest-first et PRESS) sur la célèbre base “vote” du répertoire UCI. Elle permet de constater la supériorité de l’un des algorithmes dans le cas mono-critère (indice de Davies-Bouldin), ici celui qui a obtenu la plus petite des aires. Le cas multi-critères, par contre, semble indiquer deux types de résultats distincts. L’utilisation de notre logiciel peut ainsi suggérer à l’utilisateur d’étudier plus attentivement les raisons de cette différence. 3 Conclusion et perspectives Nous présentons un logiciel pour aider l’utilisateur à comparer les résultats obtenus par des algorithmes de classification. La caractéristique principale de ce travail est son caractère évolutif : ajout de nouveaux indices, de nouvelles distances, etc. Dans les perspectives à court terme, nous souhaitons étendre le logiciel aux indices externes, tels la F-mesure ou les fonctions entropiques. A plus long terme, cet outil devrait nous permettre de comparer, non plus les partitions ou les algorithmes, mais directement les critères de pertinence. Ces derniers pourraient alors être regroupées et mis en relation avec la nature des données traitées (données clairsemées, bruitées, à grande dimension, etc.). Ceci devrait mener à une contribution concernant l’évaluation des techniques d’apprentissage non supervisé, évaluation qui présente encore de réelles difficultés au jour d’aujourd’hui. Summary This paper details a software that can assist the user for clustering comparison. It gives a clear visualization of different criteria (Dunn, Silhouette, etc.) calculated on one or more partitions of the data. The main feature is its modularity in three components: a quality criterion, a comparison measure and a normalization on numerical attributes. Furthermore, it allows the user to add its own items into those components. RNTI-E-9 - 176 - Un segmenteur de texte en phrases guidé par l’utilisateur Thomas Heitz∗ ∗ Université Paris-Sud XI, 91405 Orsay CEDEX [email protected], http://www.lri.fr/∼heitz Résumé. Ce programme effectue une segmentation en phrases d’un texte. Contrairement aux procédures classiques, nous n’utilisons pas d’annotations préliminaires et tirons parti d’un apprentissage guidé par l’utilisateur. La segmentation en phrases entièrement automatisée et avec une importante proportion des corpus annotés en phrases manuellement est déjà très efficace. De même, la segmentation en phrases à l’aide de dictionnaires et de règles syntaxiques spécifiquement adaptées à un corpus donné est aussi relativement efficace. Ce qui nous intéresse ici est donc la segmentation d’un corpus en phrases sans aucune segmentation initiale et avec l’aide de l’utilisateur pour diriger les traitements et notamment l’apprentissage. Ce que nous appelons apprentissage guidé. Le but est de minimiser le temps consacré par l’utilisateur à annoter des fins de phrases. C’est pourquoi nous utilisons au maximum les connaissances générales de l’écriture du langage naturel et nous présentons à l’utilisateur les seuls cas les plus ambigus. Le but est d’annoter le mot précédent et suivant de chaque point suivi d’un espace afin de déterminer si la phrase doit être terminée sur ce point ou non. L’idée qui est utilisée dans ce segmenteur est la suivante. Le mot précédent le point peut être une abréviation et dans ce cas il est fort probable que le point ne soit pas une fin de phrase. Le mot suivant le point peut être un mot toujours capitalisé, c’est-à-dire commençant par une majuscule dans tout le texte, et dans ce cas il est fort probable que le point ne soit pas une fin de phrase. Les annotations utilisées pour classer les mots précédents et suivants les points suivis d’un espace sont les annotations certain et impossible qui correspondent aux mots que l’utilisateur considère comme étant (respectivement n’étant pas) certainement une abréviation terminée par un point ou un mot toujours capitalisé. L’annotation possible correspond aux éléments indéterminés qui deviendront certain ou impossible ultérieurement. La procédure globale de segmentation se déroule selon les étapes suivantes : ① Établissement de statistiques sur les abréviations probables et les mots capitalisés probables sur le corpus complet. Notamment le nombre d’occurrences avec et sans point final et avec et sans majuscule initiale. ② Annotation automatique sur un extrait du corpus des abréviations à l’aide de listes de mots communs, d’abréviations et de règles syntaxiques. L’utilisateur peut choisir d’avoir des résultats plus précis sur les annotations certain et impossible mais obtiendra en contrepartie une plus grande quantité d’annotations possible. L’utilisateur peut ensuite classer les abréviations restées possible en certain et impossible. - 177 - RNTI-E-9 L’outil SDET pour le complètement des données descriptives liées aux bases de données géographiques Khaoula Mahmoudi* Sami Faïz ** *** * Laboratoire URISA -Unité de Recherche en Imagerie Satellitaire et ses Applications Ecole Supérieur des communications de Tunis (SUPCOM) [email protected] ** Laboratoire de Télédétection et Systèmes d’Informations à Références Spatiales (LTSIRS) *** Institut National des Sciences Appliquées et de Technologie (INSAT) [email protected] Résumé. L’enrichissement des bases de données est un moyen visant à offrir un supplément informationnel aux utilisateurs. Dans le cas des données géographiques, cette activité représente de nos jours un problème crucial. Sa résolution permettrait de meilleures prises de décisions ne reposant pas uniquement sur les informations limitées. Notre outil SDET (Semantic Data Enrichment Tool) vient proposer une solution d’enrichissement faisant du Système d’Information Géographiques (SIG) initial une source riche d’informations. 1 Aperçu du processus d’enrichissement Le processus d’enrichissement que nous avons proposé (Faïz et Mahmoudi, 2005, Mahmoudi et Faïz, 2006b) émane d’un besoin informationnel réclamé par les utilisateurs des SIG. Pour extraire les connaissances incarnées dans les documents dans des temps raisonnables, nous procédons d’une manière distribuée en adoptant le paradigme multi-agents (Ferber, 1997). L’approche que nous proposons est modulaire, elle peut être décomposée en trois grandes phases. Il s’agit de la segmentation et de l’identification des thèmes abordés dans les documents initiaux. Suite à cette phase, un nouveau document est généré pour chaque thème regroupant les segments de textes distribués entre les différents agents et traitant le même thème. La seconde phase consiste à affecter pour chaque thème un délégué responsable de l’extraction de l’essentiel d’information de son document généré. Enfin, un filtrage textuel s’opère, il consiste à éliminer toute portion de texte qui s’avère inutile à la compréhension du thème (Mahmoudi et Faïz, 2006a). 2 SDET : Un outil pour l’enrichissement des données Notre approche a été mise en œuvre pour permettre un support informationnel pour les utilisateurs de SIG. L’implémentation de notre approche a été réalisée en utilisant le langage - 179 - RNTI-E-9 Extraction de données sur Internet avec Retroweb Fabrice Estiévenart∗, Jean-Roch Meurisse∗∗ CETIC asbl, rue Clément Ader 8, 6041 Charleroi (Belgique) [email protected], ∗∗ FUNDP, Institut d’Informatique, rue Grandgagnage 21, 5000 Namur (Belgique) [email protected] ∗ Résumé. Ce document décrit Retroweb, une boite à outils qui permet l’extraction de données structurées à partir de pages Web. Notre solution est semiautomatique car les données à extraire sont préalablement définies par l’utilisateur. L’intérêt de cette approche est qu’elle permet l’extraction de données ciblées et conformes aux besoins de l’application utilisatrice (migrateur, moteur de recherche, outil de veille). Retroweb se caractérise aussi par une grande facilité d’utilisation car il ne nécessite aucune connaissance de langage particulier, la définition des règles d’extraction se faisant directement de manière interactive dans le navigateur Internet. Ce document décrit les trois principaux processus de notre méthode. 1 Classification des pages L’objectif de cette phase est d’identifier les principaux types de pages composant le site analysé. Un type de pages est un ensemble de pages relativement similaires tant sur le plan syntaxique (code HTML) que sémantique (concept représenté par la page). Pour atteindre cet objectif, un taux de similarité est calculé entre les pages du site sur la base d’un ensemble de critères tels que ceux décrits dans Ricca et Tonella (2003). 2 Analyse sémantique des pages Lors de cette étape, l’utilisateur définit les composants qu’il souhaite extraire à partir d’un échantillon représentatif de pages d’un même type. Un composant est un concept présent au sein des pages d’un même type. Il peut être absent de certaines pages et/ou y apparaître plusieurs fois. De plus, on lui associe une indication de format (i.e. texte simple ou balisé) et de localisation. Dans Retroweb, cette dernière propriété est exprimée sous la forme d’un chemin (XPath) dans l’arborescence formée par les balises HTML. La figure 1 illustre le scénario de construction d’une règle d’extraction. (1) L’utilisateur sélectionne une instance du composant à définir et lui assigne un nom représentatif tandis que l’outil calcule son chemin d’accès XPath. (2) La règle est appliquée à chacune des pages de l’échantillon afin d’en vérifier la validité. (3) Si la valeur attendue pour chacune des pages n’a pu être extraite, la règle doit être raffinée. Pour ce faire plusieurs solutions sont proposées : - 181 - RNTI-E-9 RAS : Un outil pour l’annotation de documents basée sur les liens de citation Lylia Abrouk, Danièle Hérin LIRMM. 161 rue ada, 34392 Montpellier {abrouk,dh}@lirmm.fr Résumé. RAS (Reference Annotation System) est un outil d’annotation de documents. Cet outil est le résultat de l’implémentation de notre approche d’annotation basée sur le contexte de citation. L’approche est indépendante du contenu et utilise un regroupement thématique des références construit à partir d’une classification floue non-supervisée. L’outil présenté dans cet article a été expérimentée et évaluée avec la base de documents scientifiques Citeseer. 1 Introduction RAS1 , Reference Annotation System est un outil semi-automatique d’annotation de documents basé sur le contexte de citation, l’expert du domaine reste décideur de la fiabilité de l’annotation. L’approche d’annotation permet d’annoter un document sans connaissance préalable de son contenu, en se basant sur les références. Cet outil a été réalisé dans le contexte d’un besoin réel, celui d’une communauté souhaitant partager l’information existante et ceci sous certaines contraintes, la plus importante étant celle de l’absence de contenu des documents à partager. Afin de tester les résultats de l’annotation, nous avons utilisé une base avec un nombre important de documents qui s’inter-référencent. L’outil utilise les technologies suivantes : – Python2 comme langage de script ; – la base documentaire Citeseer3 ; – L’ontologie dmoz4 (informatique) ; – l’algorithme de classification fuzzy C-means Dunn (1973). 2 Fonctionnement et principales fonctionnalités De manière générale l’outil permet de réaliser une annotation sur un document existant dans la base. L’outil permet de visualiser le résultat de l’annotation sous forme d’une liste de concepts de l’ontologie présentés sous la forme d’une hiérarchie. Les étapes d’annotation implémentés dans RAS sont les suivantes Abrouk et al. (2006) : 1. Récupérer l’ensemble des documents cités par d dans un ensemble noté Refd . 1 www.lirmm.fr/annotation 2 http ://www.python.org/ ://citeseer.ist.psu.edu/ 4 http ://www.dmoz.org/ 3 http - 183 - RNTI-E-9 Un outil pour la visualisation de relations entre gènes Marie Agier∗ , Jean-Marc Petit∗∗ ∗ LIMOS, UMR 6158 CNRS, Univ. Clermont-Ferrand II ∗∗ LIRIS, UMR 5205 CNRS, INSA Lyon [email protected], [email protected] Résumé. La reconstruction de réseaux de gènes est un des défis majeurs de la post-génomique. A partir de données d’expression issues de puces à ADN, différentes techniques existent pour inférer des réseaux de gènes. Nous proposons dans ce papier une approche pour la visualisation de réseaux d’interactions entre gènes à partir de données d’expression. L’originalité de notre approche est de superposer des règles avec des sémantiques différentes au sein d’un même support visuel et de ne générer que les règles qui impliquent des gènes dits centraux. Ceux-ci sont spécifiés en amont par les experts et permettent de limiter la génération des règles aux seuls gènes qui intéressent les spécialistes. Une implémentation a été réalisée dans le logiciel libre MeV de l’institut TIGR. 1 Introduction Suite au succès rencontré par les techniques de puces à ADN pour mesurer l’expression des gènes à grande échelle, la reconstruction de réseaux de gènes à partir de ces données d’expression a suscité depuis quelques années un intérêt croissant. Dans des travaux antérieurs [1, 2], nous avons proposé une approche ayant pour but de découvrir différents types de règles entre gènes. Pour faciliter l’interprétation des règles par les experts, nous proposons dans ce papier une visualisation conviviale des règles générées. Nous montrons comment les règles peuvent être visualisées sous forme de graphe orienté présentant les diverses relations découvertes dans les données. L’originalité de notre proposition est de superposer différents types de règles dans un même suppport visuel. Nous proposons également aux utilisateurs de spécifier plusieurs gènes dits centraux, à partir desquels seront présentées uniquement les règles impliquant ces gènes centraux et limitant ainsi le coût de la génération des règles. 2 Approche proposée Nous souhaitons avant tout réaliser un outil convivial et proposer ainsi une méthode de visualisation intuitive pour les experts. D’autre part, nous proposons d’appliquer un filtre sur les règles générées en fonction de cinq indices de qualité (support, confiance, lift, leverage et conviction). Ne seront donc visualisées que les règles les plus intéressantes pour les experts, il est donc suffisant de pouvoir visualiser les indices pour la règle ou l’attribut sélectionnés par un simple clic. L’interprétation des règles est une étape particulièrement délicate et très difficile, puisqu’une règle entre deux gènes impliquent également divers produits associés (protéines, facteurs de transcription...). C’est pourquoi les biologistes sont rarement intéressés par - 185 - RNTI-E-9 Traitement et exploration du fichier Log du Serveur Web, pour l’extraction des connaissances : Web Usage Mining Mostafa Hanoune*, Faouzia Benabbou* * Université Hassan II- Mohammedia, Faculté des sciences Ben M’Sik, Laboratoire TIM (Technologies de l’information et Modélisation), Casablanca, Maroc [email protected], [email protected]. Résumé. Le but dans ce travail consiste à concevoir et réaliser un Outil Logiciel, en utilisant les concepts du Web Usage Mining pour offrir aux web masters l’ensemble des connaissances, y inclut les statistiques sur leurs sites, afin de prendre les décisions adéquates. Il s’agit en fait, d’extraire de l’information à partir du fichier log du serveur Web, hébergeant le site Web, et de prendre les décisions pour découvrir les habitudes des internautes, et de répondre à leurs besoins en adaptant le contenu, la forme et l’agencement des pages web. 1 Introduction L’activité sur le Web et les données résultantes ont connu une croissance très rapide, vu la croissance exponentielle du nombre des documents mis en ligne. D’après des statiques sur des sites spécialisés, le nombre des utilisateurs d’Internet dans le monde a dépassé le milliard (1 022 863 307), au mois de mars 20061, et le nombre de sites Web a atteint 74,4 millions au mois d’Octobre 20052. Ces données, en particulier celles relatives à l’usage du Web, sont traitées dans le Web Usage Mining (WUM). Dans cet article, nous décrivons les fonctionnalités majeures du logiciel que nous avons conçu et réalisé, et qui permet l’analyse des fichiers Logs afin de comprendre le comportement des internautes sur un site Web (Site de l’université Hassan II- Mohammedia www.univh2m.ac.ma Casablanca, Maroc). 2 Proposition L'apport de ce travail réside principalement dans les points suivants : 1. Connaissances sur les visiteurs : (a) Le pourcentage des visiteurs par semaine par mois et par an (b) Avoir une visibilité internationale : d’où proviennent nos visiteurs ? 2. Connaissances sur les pages : (a) Les pages les plus et les moins consultées (pages populaires et pages impopulaires) (b) Les combinaisons des pages consultées (c) Savoir quels sont les liens qui nous référencent le mieux 3. Connaissances sur les navigateurs et les OS (a) Le pourcentage des navigateurs les plus utilisés 1 2 http://www.internetworldstats.com/stats.htm http://www.netcraft.com - 187 - RNTI-E-9 SyRQuS - Recherche par combinaison de graphes RDF. Adrian Tanasescu∗ ∗ Université Lyon 1, Villeurbanne, F-69622, France, LIRIS CNRS UMR 5205 43, Bat. Nautibus, 43 Bld. du 11 Novembre 1918, 69622 Villeurbanne [email protected], http://bat710.univ-lyon1.fr/ atanases/ Résumé. Nous nous intéressons à un mécanisme permettant la construction de réponses combinés à partir de plusieurs graphes RDF. Nous imposons, par souci de cohérence, que cette combinaison soit réalisée uniquement si les graphes RDF ne se contredisent pas. Pour déterminer la non-contradiction entre deux graphes RDF nous utilisons une mesure de similarité, calculée au moment de l’ajout de documents RDF dans la base de documents. 1 La plateforme SyRQuS Même si cela fait plusieurs années que RDF est devenu un standard recommandé par W3C, le développement des langages de requête RDF a été plus long. Après l’apparition de RDF, des langages permettant d’accéder aux triplets RDF ont émergé, comme TRIPLE (Sintek et al., 2002) ou encore Squish (SquishQL, 2002). De ces premiers sont inspirés d’autre langages comme RQL, RDQL - langage d’origine de la plateforme Jena (Jen) - ou encore SeRQL langage de base de Sesame (Kampman et Broekstra). Tous ces efforts convergent aujourd’hui vers un langage SQL-like qui est en train de devenir la future recommandation W3C : SPARQL (Seaborne et Prud’hommeaux, 2006). Déjà en statut de recommandation candidate dans sa version d’avril 2006, ce langage est petit à petit adopté par les plateformes orienté vers le Web sémantique utilisant RDF. Pour cette raison nous avons orienté notre effort vers le développement d’un outil permettant d’interpréter les requêtes formulées à l’aide de ce langage. SyRQuS (Syntetizing RDF Query System) a été développé dans un environnement PHP/MySQL afin d’assurer un déploiement indépendant par rapport aux systèmes d’exploitation. Il utilise le parseur ARC RDF/XML afin d’extraire les triplets des documents RDF et l’analyseur de requêtes SPARQL de RAP (RDF API for PHP). Les fonctionnalités de la plateforme SyRQuS se décomposent en deux parties : 1. Ajout de nouveaux documents RDF. Cette fonctionnalité réalise, d’une part, l’insertion des documents RDF dans la base de données et, d’autre part, la mise à jour de la matrice de similarité pour chaque nouveau document RDF ajouté. 2. Interrogation de la base de données. Après la formulation d’un requête en SPARQL, le moteur de recherche suit les étapes suivantes : (a) Décomposition de la requête et récupération des triplets de la clause WHERE ; - 189 - RNTI-E-9 Une méthode d’interprétation de scores Vincent Lemaire, Raphaël Féraud France Telecom R&D - 2 avenue Pierre Marzin 22300 Lannion [email protected] Résumé. Cet article présente une méthode permettant d’interpréter la sortie d’un modèle de classification ou de régression. L’interprétation se base sur l’importance de la variable et l’importance de la valeur de la variable. Cette approche permet d’interpréter la sortie du modèle pour chaque instance. 1 Introduction Dans les applications de gestion de la relation clients, les scores permettent d’identifier les clients les plus susceptibles de réagir positivement à une campagne marketing. L’interprétation du score apporte alors une information supplémentaire pour améliorer l’efficacité des campagnes marketing. L’utilisation de la méthode présentée1 ici doit se faire après une étape de sélection de variable qui aura supprimer les variables redondantes pour ne pas risquer de diluer l’interprétation. L’interprétation d’un score est constituée de l’association de l’importance à l’instance (I) d’une variable d’entrée et de l’influence à l’instance d’une variable d’entrée (Iv ) présentées ci-dessous. Notations - Soit Vj : la variable explicative j, X : un vecteur de dimension J, K : le nombre d’instances, Xn : le vecteur représentant l’instance n, Xnj : la composante j du vecteur n, F : le modèle, p : la sortie p du modèle, F p (X) : la valeur de la sortie p du modèle pour le vecteur X et Fjp (Xn ; Xk ) désigne la sortie p du modèle étant donné le remplacement de la composante j de l’instance Xn par celle de l’instance Xk . 2 Importance à l’instance d’une variable d’entrée Etant donné2 le modèle F , l’instance considérée Xn , la variable explicative Vj du modèle et la variable à expliquer p du modèle, on définit la sensibilité du modèle S(Vj /F, Xn , p) par : la moyenne des variations mesurées en sortie du modèle lorsqu’on perturbe l’instance considérée Xn en fonction de la distribution de probabilité de la variable Vj . La variation mesurée, pour l’instance Xn est la différence entre la “vraie sortie” du modèle Fj (Xn ) et la “sortie perturbée” du modèle Fj (Xn , Xk ). La sensibilité du modèle pour l’exemple Xn à la variable Vj est alors la moyenne des ||Fj (Xn ) − Fj (Xn , Xk )||2 sur la distribution de probabilité (distribution empirique obser1 PK vée sur K exemples) de la variable Vj . On a alors : S(Vj |F, Xn , p)= K k=1 ||Fj (Xn ) − 1 Voir le rapport technique associé sur perso.rd.francetelecom.fr/lemaire pour plus de détails. définit ici les notions "d’importance (I) d’une variable pour une instance" et "d’influence (Iv ) d’une variable pour une instance" pour l’une des variables Vj en entrée du modèle sur l’une des variables de sortie p du modèle. Ces définitions sont rigoureusement les mêmes pour toutes les variables en entrée et en sortie du modèle. On simplifie donc les notations en remplaçant Fjp par Fj . 2 On - 191 - RNTI-E-9 Annotation et navigation de données archéologiques* Bernardo Lopez, Samira Hammiche, Samir Sebahi et Mohand-Saïd Hacid Université de Lyon, Villeurbanne, F-69622, France ; Université Lyon 1, Villeurbanne, F-69622, France ; LIRIS CNRS UMR 5205 43, boulevard du 11 novembre 1918. 69622 Villeurbanne {blopez, shammich, mshacid, ssebahi}@liris.univ-lyon1.fr Résumé. Dans cet article, nous proposons un cadre et un outil pour l’annotation et la navigation de données archéologiques. L’objectif principal est de structurer les annotations de façon à permettre une navigation incrémentale où l’utilisateur peut, à partir d’un ensemble d’objets initialement retournés par une requête, découvrir des liens approximatifs avec d’autres objets de la base. L’approche a été implémentée et est en cours de validation. 1. Introduction La fouille archéologique est un processus technique visant à recueillir toutes les informations pertinentes sur les manifestations présentes dans un site archéologique [1]. Le processus de fouille d’un site archéologique passe par les étapes suivantes [2]: (1) explorer le site pour repérer les vestiges, (2) analyser et interpréter les objets et (3) diffuser les résultats. La diffusion du savoir archéologique nécessite le développement de systèmes d’annotations et de recherche d’œuvres archéologiques numérisées (images). C’est dans ce contexte que s’inscrit notre travail. Il s’agit de concevoir un cadre d’annotation d’œuvres d’art et un outil de navigation de ces œuvres. L’objectif est d’asseoir l’annotation sur une structure qui puisse fournir une navigation par découverte de liens entre les œuvres dynamiquement 2. Annotation XML des objets archéologiques Les données archéologiques sont décrites en utilisant les informations recueillies et enregistrées. Les informations de description concernent : les aspects matériaux, le contexte de fouille et la sémantique des œuvres (c.-à-d. ce que les objets représentent). Un standard de description appelé “CIDOCICOM” est développé par le groupe de travail CIDOC-IDOC [3] sur les sites archéologiques. Ce dernier définit les catégories minimales d'informations à enregistrer sur des objets archéologiques afin d’en faciliter la recherche dans un cadre international. Notre modélisation des œuvres archéologiques s’appuie sur ce standard avec une structure XML qui permette de générer des associations de façon dynamique. L’architecture générale de notre application «musée virtuel TARCHNA» est illustrée dans la Figure 1. Les différents composants qui constituent notre application sont : le moteur de présentation, le gestionnaire de profiles utilisateurs et le processeur de sémantique. • Le moteur de présentation (“Presentation Engine”) : il gère la présentation. Son but est de supporter un maximum de technologies clients : support des différents navigateurs, type d’interfaces tout en assurant l’adaptation des structures de données renvoyées au client. • Le processeur de sémantique (“Semantic Processor”) : son rôle est d’appuyer l’exploration/navigation en fournissant des outils pour la recherche, la comparaison et la proposition dynamique d’objets archéologiques à l’utilisateur en tenant compte des relations sémantiques entre les concepts des différentes annotations. La recherche peut être faite selon plusieurs modes, à savoir : le mode exact (stricte comparaison entre concepts et leurs valeurs), le * Ce travail entre dans le cadre du projet européen TARCHNA (http://www.tarchna.org/) - 193 - RNTI-E-9 Utilisation de WordNet dans la catégorisation de textes multilingues Mohamed Amine Bentaallah∗,∗∗ Mimoun Malki∗,∗∗∗ ∗ Département d’informatique, Université Djillali Liabès, 22000 Sidi Bel Abbès, ALGERIE http://www.univ-sba.dz ∗∗ [email protected] ∗∗∗ [email protected] Résumé. Cet article est consacré au problème de la catégorisation multilingue qui consiste à catégoriser des documents de différentes langues en utilisant le même classifieur. L’approche que nous proposons est basée sur l’idée d’étendre l’utilisation de WordNet dans la catégorisation monolingue vers la catégorisation multilingue. 1 Introduction La Catégorisation de Textes (C.T) consiste à assigner une ou plusieurs catégories parmi une liste prédéfinie à un document. En d’autres termes, elle permet de chercher une liaison fonctionnelle entre un ensemble de textes et un ensemble de catégories (Sebastiani (2002)). La grande importance accordée cette dernière décennie au traitement des données multilingues, a donné naissance à un nouveau domaine de recherche. C’est la catégorisation de textes multilingues. Dans cet article, nous allons proposer une nouvelle approche qui consiste à étendre l’utilisation de WordNet en C.T pour catégoriser des documents provenant de différentes langues. L’approche proposée est basée sur la traduction des documents à catégoriser vers la langue de Shakespeare afin de pouvoir bénéficier de l’utilisation de WordNet par la suite. Cette hybridation entre l’utilisation des techniques de traduction et l’utilisation de WordNet offre les avantages suivants: – Sans l’utilisation des techniques de traduction, il devient nécessaire de construire une ontologie WordNet pour chaque langue. Cette construction est très coûteuse en terme de temps et personnels. – L’utilisation d’une ontologie bien construite et riche tel que WordNet permet de corriger certains erreurs de traduction en utilisant des relations tel que l’hypéronymie et la synonymie(Cruse (1986)). - 195 - RNTI-E-9 Une nouvelle méthode d’alignement et de visualisation d’ontologies OWL-Lite Sami Zghal∗,∗∗ , Karim Kamoun∗ , Sadok Ben Yahia∗ , Engelbert Mephu Nguifo∗∗ ∗ Département des Sciences de l’Informatique, Faculté de Sciences de Tunis, Tunisie [email protected] ∗∗ CRIL CNRS FRE 2499, Université d’Artois, IUT de Lens, France {sami.zghal, mephu}@cril.univ-artois.fr Résumé. Dans ce papier, une nouvelle plate-forme d’alignement et de visualisation des ontologies, appelée POVA1 (Prototype OWL-Lite Visual Alignment), est décrite. Le module d’alignement implémente une nouvelle approche d’alignement d’ontologies remédiant au problème de la circularité et de l’intervention de l’utilisateur. Une seule ontologie ne suffit plus pour effectuer toutes les tâches envisageables dans un environnement distribué. Les techniques d’alignement peuvent fournir un cadre dans lequel plusieurs ontologies peuvent être exploitées. Aligner deux ontologies consiste à comparer les différences ou les ressemblances définies dans celles-ci. La nouvelle méthode d’alignement proposée est intégrée dans un prototype d’alignement et de visualisation d’ontologies OWL-Lite, appelé POVA (Prototype OWL-Lite Visual Alignment). Ce prototype est constitué des trois modules : module de construction du graphe OWL-Graph, module d’alignement d’ontologies et module de visualisation. Le premier module, B UILD OWL G RAPH, permet la construction d’une nouvelle représentation, appelée OWL-Graph pour représenter l’ontologie décrite en OWL-Lite. Le graphe ainsi construit permet de décrire toutes les informations existantes dans une ontologie OWL-Lite. Le deuxième module, EDOLA (Extended Diameter OWL-Lite Alignment), implémente le nouveau algorithme automatique d’alignement. À chaque couple d’entités appartenant à une même catégorie, l’algorithme d’alignement calcule les mesures de similarité locale. Il définit un modèle global de calcul de similarité globale à travers le voisinage, tout en remédiant au problème de la circularité et de l’intervention de l’utilisateur dans le processus d’alignement. Le troisième module, OWL-Lite V ISUALIZATION, permet de visualiser les deux ontologies à aligner, ainsi que le résultat de l’alignement produit par le deuxième module. Dans le cadre des expérimentations menées pour évaluer la méthode d’alignement d’ontologies EDOLA, quelques tests fournis dans la base benchmark mise à la disposition de la communauté par la compétition EON (Evaluation of Ontology-based Tools), EON (2004)2 , sont utilisés. L’ontologie de base est constituée par un ensemble de références bibliographiques. Elle représente une version plus allégée en nombre d’entités ontologiques comparativement à des ontologies réelles. L’ontologie de base est composée en tout de 97 entités réparties comme 1 Ce travail est partiellement financé par le projet franco-tunisien CMCU 05G1412. ://oaei.ontologymatching.org/2004/Contest/ 2 http - 197 - RNTI-E-9 Vers un algorithme multi-agents de clustering dynamique Gaële Simon∗ , Dominique Fournier∗∗, Bruno Mermet∗ ∗ GREYC CNRS UMR 6072, 6 Boulevard du Maréchal Juin 14050 CAEN cedex {gaele.simon, bruno.mermet}@univ-lehavre.fr, ∗∗ LITIS EA 4051, 25 rue Philippe Lebon, BP 540 76058 Le Havre cedex [email protected] Résumé. Dans cet article, nous présentons un algorithme multi-agents de clustering dynamique. Ce type de clustering doit permettre de gérer des données évolutives et donc être capable d’adapter en permanence les clusters construits. 1 Introduction Dans cet article, nous proposons une technique de clustering dynamique de données évolutives. Cette problématique est née de l’objectif initial de nos travaux visant à permettre, au cours de l’exécution d’un système multi-agents, de détecter des groupes d’agents liés à des phénomènes d’auto-organisation. On se trouve donc face à un problème de clustering dynamique qui présente les deux particularités suivantes : le cardinal de l’ensemble de données à clusteriser n’est pas constant et des données déjà clusterisées peuvent être modifiées du fait de l’évolution des agents correspondants. Cela peut entraîner des modifications ou des réorganisations de l’ensemble existant de clusters. Ainsi, une méthode de clustering dynamique est nécessaire afin d’adapter continuellement l’ensemble des clusters afin qu’ils reflètent le mieux possible l’état courant des données. 2 Travaux connexes Il existe de nombreux travaux portant sur les techniques de clustering où l’ensemble des données à clusteriser n’est pas totalement connu dès le départ comme en clustering classique. On trouve en particulier dans cette catégorie les techniques de clustering de flux de données et de flux de données évolutifs. Malheureusement, ces algorithmes ne prennent pas en compte le fait que des données déjà clusterisées puissent elles aussi évoluer. Les travaux les plus proches de notre problématique concernent un algorithme de clustering de données mobiles présenté dans [Li et al. (2004)] : un micro-clustering est effectué en enrichissant les données d’un vecteur vitesse. Cependant, dans un deuxième temps, l’algorithme k-means doit être utilisé pour regrouper les micro-clusters, ce qui oblige à donner un nombre de clusters attendu et à ce que ce nombre soit constant. 3 Notre approche Les algorithmes fourmis de clustering semblent plus adaptés à la prise en compte de l’évolution des données. Ainsi, l’algorithme AntClass [Monmarché (2000)] associe successivement en quatre phases un algorithme de fourragement et l’algorithme k-means. Cette approche n’étant pas compatible avec l’aspect dynamique de notre problématique, nous avons décidé - 199 - RNTI-E-9 Notion de conversation dans les communications interpersonnelles instantanées sur IP Alexandre Bouchacourt*, Luigi Lancieri** *France Telecom R&D 42 Rue des coutures 14000 Caen [email protected] **France Telecom R&D 42 Rue des coutures 14000 Caen [email protected] Résumé. Dans cet article nous étudions la contribution des techniques de fouille de données à l'amélioration des services de communications instantanées sur IP tel que la messagerie instantanée (IM) et la téléphonie sur IP (ToIP). Dans cet article nous étudions les aspects temporels de traces d'activité de messagerie instantanée. Nous souhaitons pour ce faire détecter les conversations, en d'autres mots le début et la fin d'échanges de messages cohérents. Dans ce qui suit nous assimilons une conversation à un ensemble de messages consécutifs échangés entre deux interlocuteurs. Nous partons du constat que bien souvent en IM on ne dispose pas d'information sur la durée des conversations (i.e. qu'on ne sait pas quand une conversation entre deux utilisateurs débute et quand elle se termine) car chaque message est daté indépendamment des autres. Nous avons pour objectif de trouver une méthode permettant de positionner ces conversations dans le temps. Le matériau sur lequel nous nous appuyons est un corpus IPDR (Internet Protocol Detail Record). Le format IPDR enregistre des traces d'activité au niveau session (le contenu des conversations texte ou voix n'est pas accessible). De nombreuses informations peuvent en être extraites comme les identifiants des utilisateurs, des dates ou encore des tailles de messages. Le corpus que nous étudions représente 6 mois d'activité professionnelle et nous considérons les échanges de 778 couples d'utilisateurs. Nous avons abordé la question de la segmentation des conversations à l'aide de 2 méthodes statistiques différentes et qui donnent des résultats assez proches. Nous raisonnons d'abord sur les temps entre deux messages consécutifs (ou inter-temps) et sur la taille des messages. Nous avons ainsi calculé la distribution des inter-temps et tracé en parallèle la taille moyenne de ces inter-temps (comme taille du 1er ou du 2nd message, ou comme moyenne de ces deux tailles). On observe que la taille des messages augmente pour des inter-temps compris entre 0 et 2 minutes et qu'ensuite elle décroit. Nous l'expliquons par la probabilité qu'au-delà d'un inter-temps de 2 minutes les messages correspondent à des conversations distinctes. Nous raisonnons ensuite sur la taille des conversations. En prenant un seuil d'inter-temps en deçà duquel on reste dans la conversation et au-delà duquel on en sort on peut extraire les conversations. Suivant le seuil d'inter-temps choisi elles ne seront pas toutes constituées du même nombre de messages. Nous traçons donc la taille moyenne (en nombre de messages) des conversations extraites en fonctions du seuil d'inter-temps choisi. La courbe est bien entendu croissante. On observe qu'entre 0 et 3 minutes de seuil d'inter-temps la taille des - 201 - RNTI-E-9 Préservation de l’Intimité dans les Protocoles de Conversations Nawal Guermouche∗ , Salima Benbernou∗∗ Emmanuel Coquery∗∗ , Mohand-Said Hacid∗∗ ∗ LORIA, INRIA Lorraine, Campus scientifique, BP 239, 54506 Villiers-Lès-Nancy. [email protected], ∗∗ LIRIS - UFR d’Informatique, Université Claude Bernard Lyon 1, 43, boulevard du 11 Novembre 1918, 69622 Villeurbanne cedex. {salima.benbernou,emmanuel.coquery,mshacid}@liris.cnrs.fr Résumé. Le travail présenté dans cet article, rentre dans le cadre de la gestion des données privées en vue de la substitution, appelée remplaçabilité, dynamique des services Web. Trois contributions sont apportées, (1) modélisation des politiques privées spécifiant les règles d’utilisation des données privées, prenant en compte des aspects se rapportant aux services Web, (2) étendre les protocoles de conversations des services Web par le modèle proposé, afin d’apporter les primitives nécessaires pour l’analyse des protocoles en présence de ces règles, (3) définition d’un mécanisme d’analyse de la remplaçabilité d’un service par un autre en vue de ses politiques privées. En se reposant sur des standards, les services Web sont devenus le candidat naturel à une architecture d’échange inter-applications, à la fois au sein d’une entreprise et également en B2B. Pour réaliser des services, les entreprises ont souvent besoin de collecter des données privées de leurs clients. La sensibilité de l’échange des données privées a fait naître le besoin de définir des règles guidant l’utilisation de ces données. Dans cette optique, plusieurs travaux ont été développés visant à fournir des mécanismes et des modèles expressifs [Agrawal et al. (2005), Kagal et al. (2004)]. Principalement nous citons la plate-forme P3P qui est une plateforme de standardisation et de spécification des politiques privées pour les sites Web [Agrawal et al. (2003)]. Dans cet article, nous introduisons le modèle des règles privées que nous avons proposé ainsi que son intégration aux protocoles de conversation [Benatallah et al. (2004)]. Ceci afin d’apporter les primitives nécessaires pour l’analyse de la remplaçabilité des services Web en vue de ces règles. Sachant qu’un service Web peut être un client ou un fournisseur, nous distinguons deux types de règles : (1) Les règles spécifiées par le service fournisseur appelées politiques privées [Agrawal et al. (2003)], et (2) Les règles spécifiées par le service client appelées préférences privées [Agrawal et al. (2003)]. - 203 - RNTI-E-9 Calcul et Représentation Efficace de Cubes de Données pour une Visualisation Orientée Pixel Noël Novelli∗ , David Auber∗∗ ∗ Université de la Méditerranée ; Faculté des Sciences de Luminy 163, av. de Luminy - Case 901 - LIF ; F-13288 Marseille cedex 9 ; France [email protected] http://www.lif.univ-mrs.fr ∗∗ Université de Bordeaux I ; Bât A30, LaBRI 351, cours de la Libération ; F-33405 Talence cedex ; France [email protected] http://www.labri.fr/∼auber Résumé. Les cubes de données fournissent une aide non négligeable lorsqu’il s’agit d’interroger des entrepôts de données. Un cube de données représente un pré-calcul de toutes les requêtes OLAP et ainsi améliore leur temps de réponses. Les approches proposées jusqu’à présent réduisent les temps de calcul et d’entrée sortie mais leur utilisation reste très coûteuse. D’autres travaux de recherche se sont intéressés à la visualisation de données pour les exploiter de façon interactive. Nous proposons une adaptation de la représentation condensée des cubes de données basée sur le modèle partitionnel. Cette technique nous permet de calculer efficacement un cube de données et de représenter les liens entre les données pour la visualisation. La visualisation proposée dans cet article est basée sur des techniques de visualisation orientée pixel et sur des techniques de diagramme de liens entre nœuds pour offrir à la fois une vision globale et locale pour l’exploitation. Cette nouvelle approche utilise d’une part les calculs efficaces de cubes de données et d’autre part les techniques avancées de visualisation. Contribution Notre objectif est de fournir aux analystes un outil de visualisation interactive de cubes de données (Gray et al. (1996)). Pour cela, nous proposons une technique à la fois globale et locale à l’aide de deux représentations. Notre visualisation permet non seulement de visualiser le cube mais aussi les liens entre ses éléments. Pour réduire les besoins mémoire, la visualisation n’utilise pas de mémoire pour les calculs de représentation ou d’interaction. Pour les calculs liés aux cubes de données et à leurs manipulations, nous proposons un algorithme (extension de P CUBE (Casali et al. (2006)) basé sur la notion de partition (Cosmadakis et al. (1986)) pour calculer le cube et retrouver les connexions entre les éléments du cube. - 205 - RNTI-E-9 Génération et enrichissement automatique de listes de patrons de phrases pour les moteurs de questions-réponses Co-financé par l'Association Nationale de la Recherche Technologique Cédric Vidrequin*, Juan-Manuel Torres-Moreno* Jean-Jacques Schneider**, Marc El-Beze* * Laboratoire Informatique d'Avignon, Agroparc BP1228, 84911 Avignon CEDEX 9, France {cedric.vidrequin, marc.elbeze, juan-manuel.torres}@univ-avignon.fr ** Société SEMANTIA 30 avenue du château de Jouques, Parc d'activité de Gémenos, 13420 Gémenos, France [email protected] Résumé. Nous utilisons un algorithme d'amorce mutuelle (Riloff et Jones 99), entre des couples de termes d'une relation et des patrons de phrase. À partir de couples d'amorce, le système génère des listes de patrons qui sont ensuite enrichies de façon semi-supervisée, puis utilisées pour trouver de nouveaux couples. Ces couples sont à leur tour réutilisés pour générer, par itérations successives, de nouveaux patrons. L'originalité de l'étude réside dans l'interprétation du rappel, estimé comme la couverture d'un patron sur l'ensemble des exemples auxquels il s'applique. Summary. We use a mutual bootstrapping algorithm (Riloff & Jones 99), between couples of terms of a relation and pattern phrases. Starting from bootstrap couples, the system generates lists of patterns, which are then enriched in a semi-supervised way and used to find new couples. These couples are used iterativly to find new patterns. The originality of the study lies in the interpretation of recall, estimated as the overlap of the pattern with the set of examples to which it applies. 1 Méthode Constitution de l'amorce. Actuellement, nous construisons manuellement l'amorce sous la forme d'une dizaine de couples de termes pour lesquels nous sommes sûrs de leur lien à travers la relation qui les unit (Brin 99). Mais cette amorce peut également se trouver dans des mini bases de connaissances ou dans toute table de base de données disponible. Génération de patrons. Tout d'abord, nous sélectionnons les termes de la base de connaissance qui seront utilisés pour la génération des patrons. Dans le but d'en générer le plus possible de nouveaux, nous utilisons les termes a) générés lors de la dernière itération ou lors des précédentes ; b) de l'amorce : choisis en dernier lieu ou pour la première itération. Nous réalisons ensuite la recherche d'information qui renvoie les données textuelles parmi lesquelles nous recherchons les plus petits segments contenant les deux termes de la relation. Ces patrons de base sont étendus à gauche et à droite, en gardant l’ensemble des patrons intermédiaires. Afin d'en améliorer la couverture, tout en essayant de ne pas diminuer leur précision, nous factorisons si possible les nouveaux patrons avec des patrons déjà existants, si et seulement si ceux-ci ne diffèrent que d'un seul mot. - 207 - RNTI-E-9 Construction d’ontologie à partir de corpus de textes Rokia Bendaoud ∗ , Yannick Toussaint ∗ Amedeo Napoli ∗ ∗ LORIA - Campus scientifique BP 239 54506 Vandoeuvre-Lès-Nancy, CEDEX. {bendaoud,napoli,yannick}@loria.fr Résumé. Cet article présente une méthode semi-automatique de construction d’ontologie à partir de corpus de textes sur un domaine spécifique. Cette méthode repose en premier lieu sur un analyseur syntaxique partiel et robuste des textes, et en second lieu, sur l’utilisation de l’analyse formelle de concepts "FCA" pour la construction de classes d’objets en un treillis de Galois. La construction de l’ontologie, c’est à dire d’une hiérarchie de concepts et d’instances, est réalisée par une transformation formelle de la structure du treillis. Cette méthode s’applique dans le domaine de l’astronomie. 1 Introduction Une ontologie est une structure formelle dans laquelle les concepts d’un domaine et les relations entre ces concepts sont définis (Gruber (1993)). Notre ontologie porte sur l’astronomie : dans leurs articles scientifiques, les astronomes identifient manuellement les caractéristiques des objets célestes, afin de les associer ensuite à une catégorie (galaxie, étoile, ...). Les catégories sont pré-définies et l’astronome détermine la classe correspondant le mieux à l’objet étudié. Cette classification a permis de catégoriser 3.751.128 objets célestes. Pourtant, il reste encore des milliards d’objets à classifier et à caractériser de la manière la plus exhaustive possible. L’utilisation des articles scientifiques, très facilement accessibles sous format électronique, permettent de répondre à ces attentes. Nous proposons une méthode semi-automatique de construction d’une ontologie sur le domaine de l’astronomie. Les concepts de l’ontologie sont des classes dont les instances sont les objets célestes. Les propriétés de chaque classe sont partagées par toutes ses instances. Ces propriétés sont extraites automatiquement des textes par un analyseur syntaxique partiel et robuste "Enju" de Miyao et Tsujii (2005). Objets et propriétés sont classés dans un treillis de Galois selon l’analyse formelle des concepts : FCA présentée dans Ganter (1999). Le résultat de cette méthode est fourni aux astronomes afin d’étiqueter chaque classe d’après les propriétés partagées par les instances de la classe. Notre méthode présente plusieurs avantages : – elle peut être appliquée quelque soit le corpus de textes et le domaine spécifique sur lequel elle est utilisée, – elle est formalisée par la FCA, – elle est rapide comparée à une ontologie construite manuellement, – et elle permet d’enrichir l’ontologie résultante par la mise à jour du corpus de textes. - 209 - RNTI-E-9 WebDocEnrich : Enrichissement Sémantique Flexible de Documents Semi-Structurés Mouhamadou Thiam ∗ , Nacéra Bennacer ∗∗ , Nathalie Pernelle ∗ ∗ LRI, Université Paris-Sud 11, F-91405 Orsay Cedex, INRIA Futurs, 2-4 rue Jacques Monod, F-91893 Orsay Cedex, France {prenom.nom}@lri.fr ∗∗ Supélec, Plateau du Moulon, 91192 Gif-sur-Yvette Cedex, France {prenom.nom}@supelec.fr Résumé. WebdocEnrich est une approche d’enrichissement sémantique automatique de documents HTML hétérogènes qui exploite une description du domaine pour enrichir le contenu des documents et les représenter en XML. Notre Approche d’Enrichissement Sémantique Une grande partie des informations en provenance du web est disponible en HTML et donc sous une forme peu structurée. De nombreux travaux issus de champs disciplinaires complémentaires tels que l’intelligence artificielle, l’ingénierie des connaissances et la linguistique s’intéressent au problème d’enrichissement sémantique, d’organisation et d’interrogation de tels documents [Gagliardi et al. (2005), Davulcu et al. (2005), Crescenzi et al. (2001), Alani et al. (2004), Cimiano et al. (2005), Borislav et al. (2004)]. Notre approche d’enrichissement sémantique de documents HTML est automatique et exploite une description du domaine, plus précisément un ensemble de concepts, leurs propriétés, leurs relations et les cardinalités associées pour enrichir sémantiquement le contenu des documents. Le processus d’enrichissement consiste à repérer des instances de concepts et de propriétés tout en gardant l’intégralité des documents selon leur structure initiale. L’enrichissement est également guidée par la structure arborescente du document HTML dans laquelle chaque sous arbre est appelé unité structurelle. La difficulté réside dans la structuration hétérogène des documents et dans le fait que les instances de concepts et de propriétés sont parfois difficilement repérables et dissociables. Nous avons défini un ensemble de règles de repérage et d’annotation permettant de s’adapter à cette hétérogénéité. Les documents ainsi enrichis sont représentés par un modèle sémantique XML utilisant la description du domaine et sur lequel se basera l’interrogation. La figure 1 présente l’architecture de notre système. WebDocEnrich a été appliqué à un corpus d’appels à participation à des conférences (33 sites, 444 documents HTML). Le but de cette première expérimentation est d’évaluer notre approche sur le concept multivalué topic qui peut apparaître dans trois types de structuration différentes : des topics bien structurés, un ensemble de topics indissociables ou des topics mêlés à d’autres sortes d’instances dans une même unité structurelle. Nous avons obtenu un rappel de 65,1% et une précision de 84,3% sur les deux premiers cas. Nous avons montré qu’une requête utilisateur peut être réécrite afin de bénéficier de ces différents types de structuration. - 211 - RNTI-E-9 Méthodes statistiques et modèles thermiques compacts Grégory Mallet∗,∗∗ , Philippe Leray∗ , Hubert Polaert∗∗ [email protected] ∗ Laboratoire LITIS - EA 4051, INSA de Rouen Avenue de l’Université - BP 8 - 76801 Saint-Étienne-du-Rouvray Cedex ∗∗ Thales Air Defence (TAD), Site de Rouen Z.I. du Mont Jarret - 76520 Boos Résumé. Dans le domaine thermique, la plupart des études reposent sur des modèles à éléments finis. Cependant, le coût en calcul et donc en temps de ces méthodes ont renforcé le besoin de modèles plus compacts. Le réseau RC équivalent est la solution la plus souvent utilisée. Toutefois, ses paramètres doivent souvent être ajustés à l’aide de mesures ou de simulation. Dans ce contexte d’identification de système, les méthodes statistiques seront comparées aux méthodes classiquement utilisées pour la prédiction thermique. Le contrôle de la température de jonction des composants est l’un des enjeux majeurs de l’évolution actuelle de l’électronique du fait qu’elle influe sur leur fiabilité et leurs caractéristiques. L’analyse par éléments finis apporte une solution numérique à ce problème mais ne peut pas être utilisée concrètement du fait d’un nombre de calculs trop important. C’est dans ce contexte que les CTM (Compact Thermal Model) ont été developpés (Lasance (2003)). Toutefois, en se rapprochant de l’identification de système, ces modèles ont ouvert la voie aux méthodes statistiques, et notamment à celles pouvant être utilisées dans des cas non-linéaires. Le problème de la prédiction thermique en trois dimensions peut se résumer à trouver la fonction u(x, y, z, t), représentant la température du système à un instant donné. En discrétisant le système, via un maillage, l’équation de diffusion thermique peut être ré-écrite sous forme matricielle (Bergheau et Fortunier (2004)) : C du + Ku = F dt (1) où u(t) est un vecteur représentant la température aux différents points du maillage, C la matrice élémentaire de masse et K la matrice élémentaire de rigidité. F (t) représente toujours la puissance dissipée mais discrétisée. Le système est alors représenté sous la forme de plusieurs blocs de matériaux homogènes mis bout à bout pour obtenir une structure réaliste. Si le flux de chaleur est supposé être unidirectionnel, alors un bloc peut être remplacé par un circuit électrique équivalent de type RC. Le modèle se trouve donc mis sous la forme d’un réseau RC correspondant aux différents "étages" du système. Toutefois, les conditions de cette simplification étant rarement respectées, les paramètres doivent souvent être ajustés à l’aide de simulations ou de mesures. Les équations d’un réseau RC sont mal adaptées pour identifier numériquement des paramètres. Or, les équations différentielles mises en jeu sont équivalentes - 213 - RNTI-E-9 Détermination du niveau de consommation des abonnés en téléphonie mobile par la théorie des ensembles flous Rachid El Meziane (*), Ilham Berrada (*), Ismail Kassou (*), Karim Baina (*) Laboratoire Al Khawarizmi - ENSIAS - BP 713 - Agdal - Rabat - Maroc (*){meziane, iberrada, kassou, [email protected]} Résumé. La détermination du niveau de consommation chez les clients est essentielle pour tout objectif de segmentation stratégique et de churn. Nous présentons sur un cas réel l’utilisation de la théorie des ensembles flous pour la définition d’une fonction d’appartenance permettant d’évaluer, de manière précise, le niveau de consommation, des abonnés en téléphonie mobile. 1 Contexte Notre travail s’inscrit dans le contexte d’un projet de fouille de données mis en oeuvre à Maroc Telecom et visant à mieux connaître la clientèle de la téléphonie mobile. Le niveau de consommation d’un abonné est souvent calculé à partir de la durée facturée qui s’avère insuffisante pour la plupart des cas. En effet, deux abonnés peuvent avoir la même durée d’appel pour des services différents mais sans avoir le même degré de consommation. D’où la nécessité d’introduire d’autres critères dans la détermination du niveau de consommation. 2 Problématique et approche de résolution préconisée La problématique à laquelle on s’intéresse consiste à établir une échelle de mesure permettant de quantifier les niveaux de consommation afin discriminer entre les abonnés (Viertl, R. (2005)). L’approche de résolution proposée comporte trois étapes principales. Son originalité réside dans l’utilisation de la théorie des ensembles flous à travers la définition expérimentale d’une fonction d’appartenance (Mitaim, S. et B, Kosko. (2001)). Dans une première étape, on attribue un score aux abonnés par rapport aux critères de type catégoriels (trafic, produits, services, plage horaire) caractérisant le niveau de consommation. La binarisation de chaque modalité de ces critères induit la création de plus de 60 variables indicatrices dans notre exemple qui traite 2 millions d’enregistrements. Afin de réduire la taille de ces indicatrices, l’Analyse des Correspondances Multiples (ACM) a été utilisée fournissant ainsi 10 facteurs expliquant 80,62% d’inertie totale. L’objectif de l’étape 2 est la segmentation des abonnés par produits et services afin de discriminer entre les abonnés en se basant sur le comportement d’utilisation des produits et services. Les facteurs obtenus par l’ACM ont été utilisés comme variables d’entrée des différents algorithmes non supervisés (K-means, Two Step, Réseau de Kohonen) qui ont été comparés. Le réseau de Kohonen a été plus concluant en terme d’homogénéité entre les classes. Les inerties intra classes de chaque facteur ont ensuite été utilisées dans l’étape 3 comme indicateur de la variation du niveau de consommation au sein de chaque classe. Un tel indicateur a permis d’établir une mesure du niveau de consommation tenant compte de la durée facturée en appliquant la théorie des ensembles flous (Masson, M. H. (2003)). - 215 - RNTI-E-9 Intégration des connaissances utilisateurs pour des analyses personnalisées dans les entrepôts de données évolutifs Cécile Favre, Fadila Bentayeb, Omar Boussaïd ERIC, Université Lumière Lyon 2 5 avenue Pierre Mendès-France 69676 Bron Cedex {cfavre|bentayeb}@eric.univ-lyon2.fr, [email protected] Résumé. Dans cet article, nous proposons une approche d’évolution de schéma dans les entrepôts de données qui permet aux utilisateurs d’intégrer leurs propres connaissances du domaine afin d’enrichir les possibilités d’analyse de l’entrepôt. Nous représentons cette connaissance sous la forme de règles de type «si-alors». Ces règles sont utilisées pour créer de nouveaux axes d’analyse en générant de nouveaux niveaux de granularité dans les hiérarchies de dimension. Notre approche est fondée sur un modèle formel d’entrepôts de données évolutif qui permet de gérer la mise à jour des hiérarchies de dimension. 1 Introduction Les entrepôts de données centralisent des données provenant de différentes sources pour répondre aux besoins d’analyse des utilisateurs. Le schéma de l’entrepôt est défini avec l’objectif d’analyser des mesures qui caractérisent des faits, en fonction de dimensions qui peuvent être organisées sous forme de hiérarchies, composées de différents niveaux de granularité, déterminant la manière selon laquelle sont agrégées les données. Pour concevoir le schéma d’un entrepôt, nous distinguons dans la littérature différents types d’approches : celles guidées par les sources de données (Golfarelli et al., 1998), celles guidées par les besoins d’analyse (Kimball, 1996) et les approches mixtes qui combinent les deux approches précédentes, mettant en adéquation des schémas candidats générés à partir des sources de données avec les besoins d’analyse exprimés par les utilisateurs (Nabli et al., 2005). Cependant, en pratique, les sources de données, tout comme les besoins d’analyse sont amenés à évoluer. Dans la littérature, il existe deux alternatives qui permettent l’évolution de schéma nécessaire suite à ces modifications. D’une part la mise à jour de schéma qui est réalisée grâce à des opérateurs qui font évoluer un schéma donné (Hurtado et al., 1999). D’autre part, la modélisation temporelle qui consiste à garder la trace de ces évolutions en utilisant des labels de validité temporelle. Ces labels sont apposés soit au niveau des instances (Bliujute et al., 1998), soit au niveau des liens d’agrégation (Mendelzon et Vaisman, 2000), ou encore au niveau des versions du schéma (Morzy et Wrembel, 2004). L’inconvénient de ce type de solutions est la nécessité d’une réimplémentation des outils d’analyse, de chargement, ... afin de gérer les particularités de ces modèles. Les deux alternatives sont intéressantes pour répondre au problème de l’évolution de schéma suite à une modification dans les sources de données, puisque ce sont des solutions techniques - 217 - RNTI-E-9 Des fonctions d’oubli intelligentes dans les entrepôts de données Aliou Boly*, Sabine Goutier**, Georges Hébrail*,** *46, Rue Barrault, 75634 PARIS Cedex 13 - FRANCE [email protected], [email protected] **1, Av. du Général de Gaulle, 92141 CLAMART Cedex - FRANCE [email protected], [email protected] Résumé. Les entrepôts de données stockent des quantités de données de plus en plus massives et arrivent vite à saturation. Un langage de spécifications de fonctions d’oubli est défini pour résoudre ce problème. Dans le but d’offrir la possibilité d’effectuer des analyses sur l’historique des données, les spécifications définissent des résumés par agrégation et par échantillonnage à conserver parmi les données à ‘oublier’. Cette communication présente le langage de spécifications ainsi que les principes et les algorithmes pour assurer de façon mécanique la gestion des fonctions d’oubli. 1 Introduction De nos jours, bien que les moyens de stockage soient de plus en plus performants et de moins en moins chers, les entrepôts de données arrivent vite à saturation et la question des données à conserver sous forme d’historique va se poser rapidement. Il faut donc choisir quelles données doivent être archivées, et quelles données doivent être conservées actives dans les entrepôts de données. La solution qui est appliquée en général est d’assurer un archivage périodique des données les plus anciennes. Cette solution n’est pas satisfaisante car l’archivage et la remise en ligne des données sont des opérations coûteuses au point que l’on peut considérer que des données archivées sont des données perdues (en pratique inutilisables dans le futur) du point de vue de leur utilisation dans le cadre d’une analyse des données. Dans cette communication, nous proposons une solution pour éviter la saturation des entrepôts de données. Un langage de spécifications de fonctions d’oubli des données anciennes est défini pour déterminer les données qui doivent être présentes dans l’entrepôt de données à chaque instant. Ces spécifications de fonctions d’oubli conduisent à supprimer de façon mécanique les données à ‘oublier’, tout en conservant un résumé de celles-ci par agrégation et par échantillonnage. L’agrégation et l’échantillonnage constituent deux techniques standard et complémentaires pour résumer des données. Considérons un entrepôt de données d’analyse des click-stream sur les sites web. Avec le temps, les données détaillées anciennes deviennent de moins en moins ‘utiles’ et peuvent donc être agrégées par jour ou par mois par exemple. En plus d’agréger des données, on peut conserver certaines données jugées intéressantes ou choisies de façon aléatoire dans le but de pouvoir effectuer des analyses sur les données de l’entrepôt. Le langage de spécifications est défini dans le cadre du modèle relationnel : sur chaque table, est défini au moyen de spécifications un ensemble de n-uplets à archiver. Pour des raisons applicatives, parmi les n-uplets à archiver, des échantillons peuvent être conservés dans le cadre de l’utilisation de l’entrepôt. De plus, des algorithmes pour mettre à jour le - 223 - RNTI-E-9 Vers une plate-forme interactive pour la visualisation de grands ensembles de règles d’association Olivier Couturier∗, Tarek Hamrouni∗∗, Sadok Ben Yahia∗∗ , Engelbert Mephu Nguifo∗ ∗ CRIL CNRS FRE 2499, IUT de Lens Rue Jean Souvraz, SP-18 62307 Lens Cedex France {couturier,mephu}@cril.univ-artois.fr ∗∗ Faculté des Sciences de Tunis, Université El-Manar Campus Universitaire 1060 Tunis, Tunisie {tarek.hamrouni,sadok.benyahia}@fst.rnu.tn Résumé. La recherche de règles d’association est une question centrale en Extraction de Connaissances dans les Données (ECD). Dans cet article, nous nous intéressons plus particulièrement à la restitution visuelle de règles pertinentes dans un corpus très important. Nous proposons ainsi un prototype basé sur une approche de type "wrapper" par intégration des phases d’extraction et de visualisation de l’ECD. Tout d’abord, le processus d’extraction génère une base générique de règles et dans un second temps, la tâche de visualisation s’appuie sur un processus de regroupement (“clustering”) permettant de grouper et de visualiser un sous-ensemble de règles d’association génériques. Le rendu visuel à l’écran exploite une représentation de type “Fisheye view” de manière à obtenir simultanément une représentation globale des différents groupes de règles et une vue détaillée du groupe sélectionné. 1 Introduction L’Extraction de Connaissances dans les Données (ECD) a été proposée afin d’aider les utilisateurs à mieux comprendre et appréhender des quantités de données de plus en plus volumineuses. La recherche de règles d’association constitue une question centrale de l’ECD. La plupart des travaux se sont focalisés sur la tâche d’extraction de règles d’association alors que les aspects visualisation de ces règles et interaction avec l’utilisateur-expert sont très peu représentés. De manière générale, le nombre de règles générées croît de manière exponentielle avec la taille des données. En situation réelle, un expert n’a ni le temps, ni les capacités cognitives de traiter ces flots d’information. Pour l’aider à y faire face, différents travaux proposés dans la littérature tournent autour de deux axes complémentaires : la réduction du nombre de règles d’association extraites et le développement d’outils de visualisation interactive. Dans ce papier, nous focalisons notre intérêt sur les méthodes de visualisation. Un état de l’art des différentes techniques de visualisation de règles d’association est décrit dans Couturier et Mephu-Nguifo (2007). La limitation commune qui en ressort est que lorsque le nombre de règles est élévé, l’interaction avec l’utilisateur devient difficile. Partant - 235 - RNTI-E-9 Les itemsets essentiels fermés : une nouvelle représentation concise Tarek Hamrouni∗ , Islem Denden∗ Sadok Ben Yahia∗ , Engelbert Mephu Nguifo∗∗ , Yahya Slimani∗ ∗ Département des Sciences de l’Informatique Faculté des Sciences de Tunis Campus Universitaire 1060 Tunis, Tunisie {tarek.hamrouni, sadok.benyahia, yahya.slimani}@fst.rnu.tn ∗∗ CRIL CNRS FRE 2499 Université d’Artois, IUT de Lens Rue Jean Souvraz, SP-18 F-62307 Lens Cedex France [email protected] Résumé. Devant l’accroissement constant des grandes bases de données, plusieurs travaux de recherche en fouille de données s’orientent vers le développement de techniques de représentation compacte. Ces recherches se développent suivant deux axes complémentaires : l’extraction de bases génériques de règles d’association et l’extraction de représentations concises d’itemsets fréquents. Dans ce papier, nous introduisons une nouvelle représentation concise exacte des itemsets fréquents. Elle se situe au croisement de chemins de deux autres représentations concises, à savoir les itemsets fermés et ceux dits essentiels. L’idée intuitive est de profiter du fait que tout opérateur de fermeture induit une fonction surjective. Dans ce contexte, nous introduisons un nouvel opérateur de fermeture permettant de calculer les fermetures des itemsets essentiels. Ceci a pour but d’avoir une représentation concise de taille réduite tout en permettant l’extraction des supports négatif et disjonctif d’un itemset en plus de son support conjonctif. Un nouvel algorithme appelé D-C LOSURE permettant d’extraire les itemsets essentiels fermés est aussi présenté. L’étude expérimentale que nous avons menée a permis de confirmer que la nouvelle approche présente un bon taux de compacité comparativement aux autres représentations concises exactes. 1 Introduction L’apparition de la "fouille de connaissances" a été un tournant dans les intérêts prioritaires de la communauté de la fouille de données. En effet, les efforts ne sont plus seulement déployés dans la réduction des temps d’extraction des motifs fréquents mais de plus en plus de travaux s’intéressent à l’extraction d’une connaissance de meilleure qualité tout en préservant la vertu de la compacité. Dans ce registre, nous relevons les travaux visant l’extraction des représentations concises. Ainsi, parmi les représentations exactes les plus connues, nous citons - 241 - RNTI-E-9 Sous-bases k-faibles pour des règles d’association valides au sens de la confiance Jean Diatta, Régis Girard IREMIA, Université La Réunion 15, Avenue Réné Cassin- 97715-St Denis, FRANCE { jean.diatta, rgirard}@univ-reunion.fr Résumé. Nous introduisons la notion de sous-base k-faible pour les règles d’association valides au sens de la confiance. Ces sous-bases k-faibles sont caractérisées en termes d’opérateurs de fermeture correspondant à des familles de Moore k-faiblement hiérarchiques. 1 Introduction L’un des problèmes majeurs rencontrés dans la fouille des règles d’association valides au sens de la confiance est le nombre souvent très élevé de ces règles. Plusieurs solutions à ce problème ont été proposées ou considérées dans la littérature. Parmi ces solutions figurent les bases, c’est-à-dire, des familles génératrices minimales (Zaki et Ogihara, 1998; Pasquier et al., 1999). La plupart de ces bases se caractérisent en terme d’un opérateur de fermeture de Galois sur l’ensemble des motifs du contexte considéré. Or, cet opérateur de fermeture correspond à une famille de Moore m-faiblement hiérarchique, où m ≥ 2 est un entier (Diatta, 2004). Plus précisément, les fermés de cet opérateur de fermeture coïncident avec les classes faibles associées à une certaine mesure de dissimilarité m-voies et forment donc, de ce fait, la hiérarchie m-faible associée à cette mesure de dissimilarité. Dans cet article, nous considérons la caractérisation de ces bases pour les règles d’association, en remplaçant l’opérateur de fermeture de Galois par un opérateur de fermeture correspondant à la hiérarchie k-faible associée à une mesure de dissimilarité k-voies donnée, où 2 ≤ k ≤ m. Pour chaque valeur de k, l’ensemble de règles ainsi caractérisé sera appelé sousbase k-faible. Ces sous-bases k-faibles offrent une approximation de l’ensemble des règles valides, relativement à des ensembles d’items (classes k-faibles) ayant un certain degré d’homogénéité exprimé par le biais d’un indice d’isolation. Par ailleurs, la possibilité d’associer une sous-base (k−) faible à une mesure de dissimilarité (k-voies) permet d’intégrer la sémantique de cette mesure de dissimilarité dans le choix des règles à générer. 2 Règles d’association 2.1 Définition générale Étant donné un contexte binaire K = (E, V), où E désigne un ensemble fini d’entités et V un ensemble fini de variables booléennes (ou attributs) définies sur E. On appelle motifs les - 253 - RNTI-E-9 Un cadre théorique pour la gestion de grandes bases de motifs1 François Jacquenet, Baptiste Jeudy et Christine Largeron Laboratoire Hubert Curien, UMR CNRS 5516, St-Etienne [email protected] Résumé. Les algorithmes de fouille de données sont maintenant capables de traiter de grands volumes de données mais les utilisateurs sont souvent submergés par la quantité de motifs générés. En outre, dans certains cas, que ce soit pour des raisons de confidentialité ou de coûts, les utilisateurs peuvent ne pas avoir accès directement aux données et ne disposer que des motifs. Les utilisateurs n’ont plus alors la possibilité d’approfondir à partir des données initiales le processus de fouille de façon à extraire des motifs plus spécifiques. Pour remédier à cette situation, une solution consiste à gérer les motifs. Ainsi, dans cet article, nous présentons un cadre théorique permettant à un utilisateur de manipuler, en post-traitement, une collection de motifs préalablement extraite. Nous proposons de représenter la collection sous la forme d’un graphe qu’un utilisateur pourra ensuite exploiter à l’aide d’opérateurs algébriques pour y retrouver des motifs ou en chercher de nouveaux. 1 Introduction La quantité d’information stockée dans les bases de données du monde entier n’a cessé de croître au cours du temps. Afin d’explorer ces mines potentielles de connaissance, des outils de fouille de données ont été conçus depuis plusieurs années. Ainsi, il est maintenant possible de fouiller de très grandes bases de données afin d’en extraire toute sorte de motifs modélisant de la connaissance. Selon les outils utilisés par les utilisateurs finaux pour leurs besoins, les motifs extraits peuvent être très variés. On peut citer par exemple les arbres de décision, les règles d’association, les concepts formels, etc. Toutefois, alors que la fouille de très grandes bases de données est devenue une tâche relativement aisée pour les utilisateurs finaux, ceux-ci sont maintenant confrontés à un nouveau problème : comment vont-ils pouvoir exploiter les grandes masses de motifs couramment extraites par les outils de fouille de données ? En fait, de la même façon qu’il était impossible il y a quelques années d’extraire manuellement de la connaissance à partir de grandes bases de données, il est de nos jours impossible de gérer de très grands volumes de motifs et les utilisateurs finaux sont donc en attente de nouveaux outils pour résoudre ce problème. 1 Ce travail a été partiellement soutenu par le projet BINGO de l’ACI Masse de données 2004 - 2007, financé par le ministère de la recherche. - 259 - RNTI-E-9 Extraction des Top-k Motifs par Approximer-et-Pousser Arnaud Soulet et Bruno Crémilleux GREYC, CNRS - UMR 6072, Université de Caen Campus Côte de Nacre 14032 Caen Cedex France {Prenom.Nom}@info.unicaen.fr Résumé. Cet article porte sur l’extraction de motifs sous contraintes globales. Contrairement aux contraintes usuelles comme celle de fréquence minimale, leur vérification est problématique car elle entraine de multiples comparaisons entre les motifs. Typiquement, la localisation des k motifs maximisant une mesure d’intérêt, i.e. satisfaisant la contrainte top-k, est difficile. Pourtant, cette contrainte globale se révèle très utile pour trouver les motifs les plus significatifs au regard d’un critère choisi par l’utilisateur. Dans cet article, nous proposons une méthode générale d’extraction de motifs sous contraintes globales, appelée Approximer-et-Pousser. Cette méthode peut être vue comme une méthode de relaxation d’une contrainte globale en une contrainte locale évolutive. Nous appliquons alors cette approche à l’extraction des top-k motifs selon une mesure d’intérêt. Les expérimentations montrent l’efficacité de l’approche Approximeret-Pousser. Mots clés : extraction de motifs, contraintes. 1 Introduction L’extraction de motifs contraints est un champ significatif de l’Extraction de Connaissances dans les Bases de Données, notamment pour dériver des règles d’association. L’intérêt des motifs extraits est garanti par le point de vue de l’analyste exprimé à travers la sémantique de la contrainte. Par ailleurs, la complétude de l’extraction assure qu’aucun motif jugé pertinent par l’utilisateur ne sera manqué. La contrainte la plus populaire est certainement celle de fréquence minimale (Agrawal et al., 1993) qui permet de rechercher des régularités au sein d’une base de données. Malheureusement, le nombre de motifs fréquents est souvent prohibitif. Les motifs les plus pertinents sont alors noyés au milieu d’informations triviales ou redondantes que même d’autres contraintes d’agrégats (Ng et al., 1998) n’arrivent pas davantage à isoler. Dans ces conditions, plusieurs approches proposent de comparer les motifs entre eux pour ne sélectionner que les meilleurs (Fu et al., 2000) ou une couverture (Mannila et Toivonen, 1997; Pasquier et al., 1999). De tels motifs révèlent alors une structure globale au sein des données. Le critère d’appartenance ou non à cette structure s’apparente à une contrainte globale. L’extraction de motifs satisfaisant une contrainte globale présente donc une finalité importante pour les utilisateurs. Cependant, leur extraction s’avère souvent ardue car leur localisation dans l’espace de recherche est loin d’être triviale. En particulier, trouver les k motifs maximisant - 271 - RNTI-E-9 Extraction de Séquences Multidimensionnelles Convergentes et Divergentes Marc Plantevit, Anne Laurent, Maguelonne Teisseire LIRMM, Université Montpellier 2, CNRS, 161 Rue Ada 34392 Montpellier, France [email protected], http://www.lirmm.fr Résumé. Les motifs séquentiels sont un domaine de la fouille de données très étudié depuis leur introduction par Agrawal et Srikant. Même s’il existe de nombreux travaux (algorithmes, domaines d’application), peu d’entre eux se situent dans un contexte multidimensionnel avec la prise en compte de ses spécificités : plusieurs dimensions, relations hiérarchiques entre les éléments de chaque dimension, etc. Dans cet article, nous proposons une méthode originale pour extraire des connaissances multidimensionnelles définies sur plusieurs niveaux de hiérarchies mais selon un certain point de vue : du général au particulier ou vice et versa. Nous définissons ainsi le concept de séquences multidimensionnelles convergentes ou divergentes ainsi que l’algorithme associé, M2S_CD, basé sur le paradigme "pattern growth". Des expérimentations, sur des jeux de données synthétiques et réelles, montrent l’intérêt de notre approche aussi bien en terme de robustesse des algorithmes que de pertinence des motifs extraits. 1 Introduction Les motifs séquentiels sont étudiés depuis plus de dix ans (Agrawal et Srikant (1995)), ils permettent de mettre en exergue des corrélations entre événements suivant leur chronologie d’apparition. Les motifs séquentiels ont été récemment étendus dans un contexte multidimensionnel par Pinto et al. (2001), Plantevit et al. (2005) et Yu et Chen (2005). Ils permettent ainsi de découvrir des motifs définis sur plusieurs dimensions et ordonnés par une relation d’ordre (e.g. temporelle). Par exemple, dans Plantevit et al. (2005), des motifs de la forme "La plupart des consommateurs achètent une planche de surf et un sac à N.Y., puis ensuite une combinaison à SF" sont découverts. Les motifs séquentiels multidimensionnels sont bien adaptés aux contextes de stockage et de gestion des données actuels (entrepôts de données). En effet, les motifs ou règles obtenus permettent une autre appréhension des données sources. Cependant leur découverte nécessite certains paramètres dont en particulier le support minimal. Celui-ci correspond à la fréquence minimale d’apparition des motifs au sein de la base considérée. Si le support minimal choisi est trop élevé, le nombre de règles découvertes est faible mais si le support est trop bas, le nombre de règles obtenues est très important et rend difficile l’analyse de celles-ci. Un autre problème est la longueur des motifs extraits. Comment ajuster au mieux le support afin d’obtenir des séquences suffisamment longues pour être réellement utilisables ? L’utilisateur est alors confronté au problème suivant : comment baisser le support minimal sans - 283 - RNTI-E-9 Découverte de chroniques à partir de séquences d’événements pour la supervision de processus dynamiques Nabil Benayadi∗ , Marc Le Goc∗ , Philippe Bouché∗ ∗ LSIS, UMR CNRS 6168, Université Paul Cézanne, Domaine Universitaire St Jérôme, 13397 Marseille cedex 20, France {nabil.benayadi,marc.legoc,philippe.bouche}@lsis.org Résumé. Ce papier adresse le problème de la découverte de connaissances temporelles à partir des données datées, générées par le système de supervision d’un processus de fabrication. Par rapport aux approches existantes qui s’appliquent directement aux données, notre méthode d’extraction des connaissances se base sur un modèle global construit à partir des données. L’approche de modélisation adoptée, dite stochastique, considère les données datées comme une séquence d’occurrences de classes d’événements discrets. Cette séquence est représentée sous les formes duales d’une chaîne de Markov homogène et d’une superposition de processus de Poisson. L’algorithme proposé, appelé BJT4R, permet d’identifier les motifs séquentiels, les plus probables entre deux classes d’événements discrets et les représentent sous la forme de modèles de chroniques. Ce papier présente les premiers résultats de l’application de cet algorithme sur des données générées par un processus de fabrication de semi-conducteur d’un site de production du groupe STMicroelectronics1 . 1 Introduction Le problème de la découverte des modèles temporels caractérisant le comportement des systèmes dynamiques est un enjeu majeur pour les tâches de contrôle et de surveillance. La raison de base réside dans la difficulté des experts humains d’apprendre et de formuler leurs connaissances sur la dynamique de ces processus. La surveillance est effectuée à partir d’un ensemble d’observations (séquences d’occurrences d’événements discret) produites par le système de pilotage. Les séquences d’observations remontées par le système de supervision sont porteuses de connaissances temporelles sur les relations causales entre les différentes variables du processus. Notre approche est centrée sur la découverte des séquences particulières d’événements signe d’un comportement particulier. Nous proposons de représenter le comportement du systèmes sous la forme de chroniques (un formalisme graphique pour la représentation des motifs 1 Ce papier a été effectué sous l’aide financière de la Communauté du Pays d’Aix, de conseil général de Bouches du Rhône, conseil régional de Provence Alpes Côte d’Azur et du STMicroelectronics. Zone Industrielle de Rousset 13106 ROUSSET cedex, France. - 295 - RNTI-E-9 Vers une nouvelle approche d’extraction des motifs séquentiels non-dérivables Chedy Raïssi∗,∗∗ , Pascal Poncelet∗∗ ∗ LIRMM, 161 rue Ada,34392 Montpellier Cedex 5, France [email protected], ∗∗ EMA-LGI2P, Parc Scientifique Georges Besse, 30035 Nîmes Cedex, France pré[email protected] Résumé. L’extraction de motifs séquentiels est un défi important pour la communauté fouille de données. Même si les représentations condensées ont montré leur intérêt dans le domaine des itemsets, à l’heure actuelle peu de travaux considèrent ce type de représentation pour extraire des motifs. Cet article propose d’établir les premières bases formelles pour obtenir les bornes inférieures et supérieures du support d’une séquence S. Nous démontrons que ces bornes peuvent être dérivées à partir des sous-séquences de S et prouvons que ces règles de dérivation permettent la construction d’une nouvelle représentation condensée de l’ensembles des motifs fréquents. Les différentes expérimentations menées montrent que notre approche offre une meilleure représentation condensée que celles des motifs clos et cela sans perte d’information. 1 Introduction Motivée par de nombreux domaines d’applications (e.g. marketing web, analyses financières, détections d’anomalies dans les réseaux, traitements de données médicales), l’extraction de motifs séquentiels fréquents est un domaine de recherche très actif Mobasher et al. (2002); Ramirez et al. (2000); Lattner et al. (2005). Les travaux menés ces dernières années ont montré que toutes les approches qui visent à extraire l’ensemble des motifs séquentiels deviennent cependant inefficaces dès que le support minimal spécifié par l’utilisateur est trop bas ou lorsque les données sont fortement corrélées. En effet, dans ce cas, et plus encore que pour les itemsets, les recherches sont pénalisées par un espace de recherche trop important. Par exemple, avec i attributs (appelés aussi items), il y a potentiellement O(ik ) séquences fréquentes de taille k Zaki (2001). Pour essayer de gérer au mieux ces problèmes de complexités spatiale et temporelle, deux grandes tendances se distinguent à l’heure actuelle. Dans le premier cas, les propositions comme PrefixSPAN Pei et al. (2004) ou SPADE Zaki (2001) se basent sur de nouvelles structures de données et une génération de candidats efficace. Les approches de la seconde tendance considèrent l’extraction d’une représentation condensée Mannila et Toivonen (1996). Même si l’utilisation d’une représentation compacte a montré son intérêt dans le domaine de l’extraction d’itemsets, la complexité structurelle des motifs séquentiels fait qu’il existe cependant peu de travaux utilisant une représentation condensée dans ce contexte. - 307 - RNTI-E-9 Evaluation supervisée de métrique : application à la préparation de données séquentielles Sylvain Ferrandiz∗,∗∗ , Marc Boullé∗ ∗ France Télécom R&D 2, avenue Pierre Marzin, 22300 Lannion [email protected] [email protected] ∗∗ GREYC, Université de Caen boulevard du Maréchal Juin, BP 5186, 14032 Caen Cedex Résumé. De nos jours, le statisticien n’a plus nécessairement le contrôle sur la récolte des données. Le besoin d’une analyse statistique vient dans un second temps, une fois les données récoltées. Par conséquent, un travail est à fournir lors de la phase de préparation des données afin de passer d’une représentation informatique à une représentation statistique adaptée au problème considéré. Dans cet article, nous étudions un procédé de sélection d’une bonne représentation en nous basant sur des travaux antérieurs. Nous proposons un protocole d’évaluation de la pertinence d’une représentation par l’intermédiaire d’une métrique, dans le cas de la classification supervisée. Ce protocole exploite une méthode de classification non paramétrique régularisée, garantissant l’automaticité et la fiabilité de l’évaluation. Nous illustrons le fonctionnement et les apports de ce protocole par un problème réel de préparation de données de consommation téléphonique. Nous montrons également la fiabilité et l’interprétabilité des décisions qui en résultent. 1 Préparation de données Avec l’émergence des systèmes d’information au tournant des années 90, la récolte des données brutes a été rendue complètement indépendante de toute finalité statistique. L’analyse de ces données est un objectif qui intervient dans un second temps. La phase de préparation, dont le but est de construire à partir des données brutes une table de données pour modélisation, est donc devenue une partie critique et souvent coûteuse en temps du processus de fouille de données (Chapman et al., 2000). L’analyste se trouve dans la situation suivante. D’une part, il dispose d’un entrepôt de données mis en place et alimenté dans un autre but que celui d’une quelconque analyse statistique. D’autre part, le propriétaire de l’entrepôt envisage d’exploiter ses données afin de compléter ses connaissances et pose une question à l’analyste. Celui-ci doit alors tourner la question en un problème d’analyse statistique, extraire de l’entrepôt les données susceptibles d’être pertinentes vis-à-vis de la question posée, les mettre sous forme d’une table, procéder à la modélisation et interpréter les résultats afin de répondre à la question initiale. - 319 - RNTI-E-9 Classement des fragments de documents XML par une méthode d’aide à la décision Faïza Abbaci∗ , Pascal Francq∗∗ ∗ Departement de sciences de l’information et de la communication, Université Libre de Bruxelles. 50, Av. F. D. Roosevelt, CP 123,B-1050 Bruxelles, Belgique [email protected] http://homepages.ulb.ac.be/ fabbaci ∗∗ Departement de sciences de l’information et de la communication, Université Libre de Bruxelles. 50, Av. F. D. Roosevelt, CP 123,B-1050 Bruxelles, Belgique [email protected] Résumé. Vu l’accroissement constant du volume d’information accessible en ligne sous format XML, il devient primordial de proposer des modèles adaptés à la recherche d’information dans les documents XML. Tandis que la recherche d’information classique repose sur l’indexation du contenu des documents, la recherche d’information dans les documents XML tente d’améliorer la qualité des résultats en tirant profit de la sémantique véhiculée par la structure des documents. Dans cet article, nous présentons une méthode de classement des items (éléments XML) retournés lors d’une recherche dans une collection de documents XML. Le classement repose sur la prise en compte d’un ensemble de critères discriminants. La particularité de notre approche réside dans la façon dont nous les utilisons : Nous employons une méthode décisionnelle pour classer les items en les comparant deux-à-deux là où en général une fonction de scoring globale est utilisée. 1 Introduction L’une des conséquences de la prolifération de l’information en ligne de nos jours est la diversité des données. XML se distingue comme le format par excellence pour la représentation, le stockage et l’échange de données sur Internet. Les systèmes de recherche d’information dans les documents XML (RI-XML) utilisent soit le paradigme de l’appariement exact soit celui de l’appariement approximatif (ou appariement par classement). Dans le premier cas, la requête doit vérifier les contraintes sur le contenu et la structure spécifiées dans la requête, ainsi chaque item (document, fragment de document ou élément XML) sur lesquels la recherche est effectuée et jugé pertinent ou non. Dans le second cas, les items sont classés selon leur pertinence à la requête. Dans le contexte du Web, l’appariement approximatif est plus approprié. En effet, l’appariement exact nécessite un langage - 331 - RNTI-E-9 Filtrage des sites Web à caractère violent par analyse du contenu textuel et structurel Radhouane Guermazi∗ , Mohamed Hammami∗∗ et Abdelmajid Ben Hamadou∗ ∗ MIRACL-ISIMS, Route Mharza Km 1 BP 1030 Sfax Tunisie [email protected] [email protected] http://www.isimsf.rnu.tn/ ∗∗ MIRACL-FSS, Route Sokra Km 3 BP 802, 3018 Sfax Tunisie [email protected] Résumé. Dans cet article, nous proposons une solution pour la classification et le filtrage des sites Web à caractère violent. A la différence de la majorité de systèmes commerciaux basés essentiellement sur la détection de mots indicatifs ou l’utilisation d’une liste noire manuellement collectée, notre solution baptisée, « WebAngels Filter », s’appuie sur un apprentissage automatique par des techniques de data mining et une analyse conjointe du contenu textuel et structurel de la page Web. Les résultats expérimentaux obtenus lors de l’évaluation de notre approche sur une base de test sont assez bons. Comparé avec des logiciels, parmi les plus populaires, « WebAngels Filter » montre sa performance en terme de classification. 1 Introduction L’Internet représente un extraordinaire outil d’accès à un ensemble quasi infini de ressources et un puissant outil de communication. Elle prend une place grandissante dans la vie quotidienne et dans le monde professionnel. Le public qui y a accès est de plus en plus large, mais aussi de plus en plus jeune. Les enfants trouvent chaque jour un accès plus facile à la toile. Cet accès de plus en plus large ne va pas sans inconvénients, les sites à caractère adulte, violent, raciste exposent les enfants à des contenus qui peuvent heurter leur sensibilité, voire les choquer. En effet, ces sites sont souvent en accès libre, ce qui pose un problème évident vis à vis des enfants. Ces utilisations litigieuses de l’Internet, par des individus mal intentionnés, n’ont pas occulté les énormes possibilités de progrès personnel et social, d’enrichissement culturel et éducatif offertes par ce réseau. Ainsi, un ensemble de produits commerciaux sur le marché proposent des solutions de filtrage de sites Web. La majorité de ces produits traitent principalement le caractère adulte, alors que les autres caractères, comme le caractère néonazie, raciste et violent, ont été marginalisé. C’est ce dernier caractère qui sera traité dans cet article. La section suivante présente une revue de littérature sur les travaux qui ont porté sur le filtrage de sites web. Nous décrivons dans la section 3 notre approche de classification des sites Web à caractère violent par une analyse du contenu textuel et structurel des pages Web. Les résultats de l’expérimentation de l’approche proposée seront détaillés dans la section 4. La section 5 - 343 - RNTI-E-9 Segmentation thématique par calcul de distance thématique Alexandre Labadié∗ , Jacques Chauché∗ ∗ LIRMM, Université Montpellier 2 UMR 5506 161 rue Ada 34392 Montpellier Cedex 5 - France [email protected], [email protected] Résumé. Dans cet article, nous présentons une approche de la segmentation thématique fondée sur une représentation en vecteurs sémantiques des phrases et des calculs de distance entre ces vecteurs. Les vecteurs sémantiques sont générés par le système SYGFRAN, un analyseur morpho-syntaxique et conceptuel de la langue française. La segmentation thématique s’effectue elle en recherchant des zones de transition au sein du texte grâce aux vecteurs sémantiques. L’évaluation de cette méthode s’est faite sur les données du défi DEFT’06. 1 Introduction Le volume toujours plus important de textes rend l’exploitation de ces derniers par des méthodes automatiques de plus en plus complexes. Face à ce problème, la segmentation thématique offre la possibilité d’isoler dans un texte, des segments cohérents du point de vue de leur contenu informationnel. Ainsi, d’autres tâches telles que le résumé automatique ou la recherche d’information par exemple s’en trouve simplifiées. Mais l’on peut imaginer des tâches plus spécifiques telles que la création automatique de table des matières ou de plans à partir d’un gros volume de données non structurées. Nous présentons ici une approche originale de la segmentation thématique en nous appuyant sur les données du défi DEFT’06, Azé et al. (2006). Pour son édition 2006, DEFT a fixé comme tâche de retrouver les différents segments thématiques d’un grand volume de textes. Trois catégories de textes nous ont été soumises : – un ensemble de discours politiques. – un ensemble d’articles de loi. – un extrait d’un livre à teneur scientifique. Chacune de ces catégories a été divisées en deux corpus distincts : – Un corpus d’apprentissage, fourni au début du défi avec les segments thématiques étiquetés, afin d’entraîner nos méthodes. – Un corpus de test, fourni à la fin du défi, sur lequel nous avons été évalués. Un calcul de F score sur les phrases frontières rapportées par les méthodes a permis l’évaluation des résultats. Les modalités du calcul du F score, et du couple rappel / précision qui lui est lié, dans le cadre de ce défi sont explicités par Azé et al. (2006). - 355 - RNTI-E-9 Extension sémantique du modèle de similarité basé sur la proximité floue des termes Zoulikha Heddadji*,**, Nicole Vincent* Séverine Kirchner**, Georges Stamon* * Université René Descartes 45, rue des Saints Pères 75270 Paris CEDEX06 ** CSTB-84, avenue Jean Jaurès Champs-sur-Marne 77421 Marne-la-Vallée CEDEX2 {zoulikha.heddadji, kirchner}@cstb.fr {nicole.vincent, Georges.Stamon}@math-info.univ-pris5.fr Résumé. Le modèle flou de proximité repose sur l'hypothèse que plus les occurrences des termes d'une requête se trouvent proches dans un document, plus ce dernier est pertinent. Cette mesure floue est très avantageuse dans le traitement des documents à textes courts, toutefois elle ne tient pas compte de la sémantique des termes. Nous présentons dans cet article l'intégration d'une métrique conceptuelle au modèle de proximité floue des termes pour la formalisation de notre propre modèle. 1 Introduction Dans le cadre de la modélisation des étapes du raisonnement à partir de cas pour la réalisation d’un outil logiciel qui fera office d’un tuteur d’aide pour l’évitement des circonstances de pollution domestique exprimées dans des plaintes (Z. Bellia, 2004), nous souhaitons améliorer la méthode de tri basée sur la contiguïté des termes de la requête dans le texte d’un document source. À l’évidence, il est dans l’intérêt de l’usager du système de retrouver les cas les plus pertinents parmi les plaintes déjà traitées. Généralement, lorsqu’un utilisateur formule une requête au système, il compte retrouver les documents dont la signification du contenu se rapproche le plus de sa demande. Par exemple, pour la résolution d’une nouvelle plainte comportant le terme «couverture », il sera judicieux de retrouver les anciens cas de la mémoire archive relatifs non seulement au terme « couverture » lui-même, mais aussi aux «couettes », aux « duvets », aux « édredons », etc. Les documents contenant ces termes sont sans doute pertinents pour la plainte courante, néanmoins, ils ne seront pas sélectionnés par un modèle de recherche basé uniquement sur les occurrences directes des termes. Une solution incontournable est l’utilisation d’un réseau sémantique pour gérer le vocabulaire très variés qui peut être employé dans les plaintes. Dans l’étape de l’« élaboration » des cas en RàPC nous avons opté pour un modèle semi-structuré pour la constitution de la base. L’interface usager de notre système propose une série d'indexes sous forme de questions, dont les réponses apportent de l'information pour la description du problème. Nous avons proposé de traduire ces indexes sous forme de modèles de balise dans - 367 - RNTI-E-9 Vers une base de connaissances biographiques : extraction d’information et ontologie Laurent Kevers∗ et Cédrick Fairon∗ ∗ Cental, Université catholique de Louvain (UCL) Place Blaise Pascal, 1 - 1348 Louvain-la-Neuve - Belgique [email protected] - [email protected] Résumé. Le projet B-Ontology a pour but l’extraction, l’organisation et l’exploitation de connaissances biographiques à partir de dépêches de presse. Sa réalisation requiert l’intégration de diverses technologies, principalement l’extraction d’information, les ontologies et bases de connaissances, les techniques de data mining. Cet article propose un aperçu des choix réalisés dans le cadre du projet. Cette démarche permet également de définir un environnement d’outils utiles pour les applications d’extraction et de gestion de connaissances. 1 Introduction B-Ontology est un projet de recherche appliquée dont l’objectif est de construire le prototype d’une application capable d’extraire et d’organiser de l’information biographique. Cette information sera exploitée dans le cadre du processus de rédaction d’une agence de presse. L’agence Belga diffuse quotidiennement plus de 250 dépêches en deux langues (français et néerlandais). Cette masse textuelle représente environ 70.000 mots par jour (25 millions de mots en un an) par langue. Dans ce projet, nous nous intéresserons aux informations qui concernent les personnes, les organisations et les événements dans lesquels elles interviennent. Le résultat est stocké dans un ensemble de données structurées facilement consultable. Des systèmes comparables existent déjà (NewsExplorer1 , KIM 2 ) mais ne couvrent cependant pas toutes les fonctionnalités désirées ici et sont souvent uniquement adaptés aux textes en anglais. La première partie exposera les méthodes d’extraction d’information. La deuxième s’attardera sur le choix de l’organisation des données. Une troisième partie, présentera une réalisation concrète, mais limitée, de la base de connaissances et quelques aspects de data mining. 2 Extraction d’information 2.1 Définitions des entités et du formalisme d’annotation L’extraction d’information passe par l’annotation sémantique du texte. Cette tâche nécessite avant tout une bonne définition des types d’entités recherchées. On définit le concept 1 http 2 http ://press.jrc.it/NewsExplorer/home/en/latest.html ://www.ontotext.com/kim/index.html - 373 - RNTI-E-9 Une extension de XQuery pour la recherche textuelle d’information dans des documents XML Nicolas Faessel*, Jacques Le Maitre** *LSIS (UMR CNRS 6168) Université Paul CézanneDomaine Universitaire de Saint-Jérôme Avenue Escadrille Normandie-Niemen 13397 Marseille Cedex 20 [email protected] **LSIS (UMR CNRS 6168) Université du Sud Toulon-Var BP 20132, 83957 La Garde [email protected] Résumé. Nous présentons dans cet article une extension de XQuery que nous avons développée pour interroger le contenu et la structure de documents XML. Cette extension consiste à intégrer dans XQuery le langage NEXI, un sous-ensemble de XPath, défini dans le cadre de l’initiative INEX. Notre proposition est double : (i) équiper NEXI d’une sémantique floue, (ii) intégrer NEXI dans XQuery au moyen d’une métafonction appelée nexi, ayant une requête NEXI comme paramètre, et d’une extension de la clause for de l’opérateur FLWOR de XQuery. De plus, nous décrivons le prototype paramétrable que nous avons développé au dessus de deux moteurs XQuery classiques : Galax et Saxon. 1 Introduction Il y a deux visions d’un document XML : une vision « centrée données » et une vision « centrée document ». Les documents XML « centrés données » sont constitués d’un ensemble d’éléments ayant une structure régulière : un ensemble de fiches bibliographiques, par exemple. Les documents XML « centrés document » décrivent des textes plus ou moins structurés : des livres scientifiques, par exemple. Pour interroger des documents XML « centrés données », le langage de requêtes XQuery (le SQL de XML), défini par le W3C (W3C, 2006b), est tout à fait bien adapté. Par contre, pour interroger des documents XML « centrés document » XQuery n’est pas suffisant lorsque l’interrogation est de nature sémantique, comme par exemple, la recherche des chapitres de livres qui concernent un certain sujet. De telles requêtes sont traitées traditionnellement par les systèmes de recherche d’information (Baeza-Yates et Ribeiro-Neto, 1999). Ce constat a conduit le W3C à proposer une extension de XQuery, XQuery Full-Text (W3C, 2006a), pourvue de fonctionnalités de recherche plein-texte. Le cœur de XQuery Full-Text est une fonction nommée ftcontains qui permet de tester si le contenu textuel d’un élément est conforme à une requête exprimée à l’aide d’opérateurs spécifiques : troncatures, connecteurs logiques, calcul de distance entre - 379 - RNTI-E-9