Revue des Nouvelles Technologies de l’Information Sous la direction de Djamel A. Zighed et Gilles Venturini RNTI-E-6 Extraction et gestion des connaissances : EGC'2006 Rédacteurs invités : Gilbert Ritschard (Département d’économétrie, Université de Genève) Chabane Djeraba (LIFL, Université des Sciences et Technologies de Lille) Volume II CÉPADUÈS-ÉDITIONS 111, rue Vauquelin 31100 TOULOUSE – France Tél. : 05 61 40 57 36 – Fax : 05 61 41 79 89 (de l’étranger ) + 33 5 61 40 57 36 – Fax : + 33 5 61 41 79 89 www.cepadues.com courriel : [email protected] Chez le même éditeur RNTI-Revue des Nouvelles Technologies de l'Information Sous la direction de Djamel A. Zighed et Gilles Venturini n°1 : Entreposage fouille de données E1 : Mesures de qualité pour la fouille de données E2 : Extraction et gestion des connaissances EGC 2004 C1 : Classification et fouille de données E3 : Extraction et gestion des connaissances EGC 2005 B1 : 1re Journée Francophone sur les Entrepôts de Données et l’Analyse en ligne EDA 2005 E4 : Fouille de données complexes E5 : Extraction des connaissances : Etat et perspectives Ensemble composé de 2 volumes : 2 85428 722 3 (volume I) 2 85428 723 1 (volume II) ISBN : 2.85428.718.5 © CEPAD 2006 Le code de la propriété intellectuelle du 1 juillet 1992 interdit expressément la photocopie à usage collectif sans autorisation des ayants droit. Or, cette pratique en se généralisant provoquerait une baisse brutale des achats de livres, au point que la possibilité même pour les auteurs de créer des œuvres nouvelles et de les faire éditer correctement serait alors menacée. er Nous rappelons donc que toute reproduction, partielle ou totale, du présent ouvrage est interdite sans autorisation de l'éditeur ou du Centre français d'exploitation du droit de copie (CFC – 3, rue d'Hautefeuille – 75006 Paris). Dépôt légal : janvier 2006 N° éditeur : 71800 LE MOT DES DIRECTEURS DE LA COLLECTION RNTI Chères Lectrices, Chers Lecteurs, La Revue des Nouvelles Technologies de l’Information existe depuis 2003 et vient de dépasser le cap de 3800 pages de publications dans les domaines liés à l’Extraction de connaissances à partir des Données (ECD), la Fouille de données (FD), la Gestion des connaissances (GC). Cette revue a pour objectif d’être un outil de communication de très grande qualité et ouvert à tous. A ce titre, RNTI accueille deux types de numéros : – des numéros à thème faisant l’objet d’un appel à communication. Chaque numéro à thème est édité par un ou plusieurs rédacteurs en chef invités. Un comité de programme spécifique d’une quinzaine de personne est formé à cette occasion. Plusieurs numéros sont ainsi en cours de finalisation et seront disponibles début 2006 (Visualisation en extraction des connaissances, P. Kuntz, F. Poulet ; Systèmes d’information pour l’aide à la décision en ingénierie système, A. Kenchaf). Est également paru tout récemment un numéro spécial sur la fouille de données complexes (O. Boussaid, P. Gançarski, F. Masséglia, B. Trousse), – des actes de conférences sélectives garantissant une haute qualité des articles (nous demandons, par exemple, à ce que trois relecteurs émettent un avis sur les articles soumis). Ainsi le numéro RNTI-B-1 a concerné les actes de EDA’2005 (F. Bentayeb, O. Boussaïd, J. Darmont, S. Loudcher). Aujourd’hui nous avons donc le plaisir d’accueillir pour la troisième fois ce numéro consacré à la conférence EGC. Nous tenons à remercier les organisateurs de cette conférence pour la confiance qu’ils accordent à cette revue. Nous adressons en particulier toutes nos chaleureuses félicitations à Gilbert Ritschard qui a beaucoup œuvrer pour la qualité de ce numéro EGC’2006, à la fois du point de vue scientifique comme président du comité de programme et du point de édition comme rédacteur invité. Nous espérons vivement que ce numéro vous donnera à toutes et à tous une entière satisfaction. Pour tout renseignement, nous vous invitons à consulter notre site Web et à nous contacter. En particulier, nous sommes à votre écoute pour toute proposition de nouveaux numéros spéciaux. Djamel A. Zighed et Gilles Venturini. http ://www.antsearch.univ-tours.fr/rnti iii iv PRÉFACE La sélection d’articles publiés dans le présent recueil constitue les actes des sixièmes journées Extraction et Gestion des Connaissances (EGC’2006) qui se sont tenues à Lille du 17 au 20 janvier 2006. Les conférences EGC ambitionnent de regrouper chercheurs, industriels et utilisateurs francophones issus des communautés Bases de Données, Apprentissage, Représentation des Connaissances, Gestion de Connaissances, Statistique et Fouille de données. Aujourd’hui, de grandes masses de données structurées ou semi-structurées sont accessibles dans les bases de données d’entreprises, d’administrations ainsi que sur la toile. Aussi les entreprises et administrations ont-elles besoin de méthodes et d’outils capables de les acquérir, de les stocker, de les représenter, de les indexer, de les intégrer, de les classifier, d’extraire les connaissances pertinentes pour les décideurs et de les visualiser. Pour répondre à cette attente, de nombreux projets de recherche se développent autour de l’extraction de connaissances à partir de données (Knowledge Discovery in Data), ainsi que sur la gestion de connaissances (Knowledge Management). Les articles réunis dans ce numéro spécial de RNTI rendent compte des développements les plus récents dans les multiples disciplines concernées par cette double problématiques, ainsi que du déploiement de méthodes d’extraction et de gestion des connaissances par des spécialistes d’entreprises. En particulier on constate dans les travaux rapportés ici une place grandissante accordée aux formes diverses que peuvent prendre tant les données que les connaissances et à la nécessité de structurer les informations pour mieux les appréhender. Ainsi, les données considérées vont de données numériques classiques aux données symboliques, au multi-média, des images aux textes, de données statiques aux séquences et flots dynamiques. Les connaissances s’expriment quant à elles en termes de structure, de sémantique, d’ontologies, de règles, etc. On constate également que, dans le processus de gestion, les connaissances extraites deviennent à leur tour des données qu’il s’agit de maîtriser et d’exploiter efficacement pour l’action et la prise de décisions. On relève également l’émergence de nouveaux domaines d’application qui de la gestion d’entreprise, des télécommunications ou du biomédical s’étendent aux domaine juridique, au domaine social, à la chimie, aux sciences du vivant, au contrôle de l’environnement et du territoire, ou encore à la gestion industrielle pour n’en citer que quelques uns. Les articles sont regroupés en chapitres. Les regroupements ont été faits soit selon la problématique abordée (gestion des connaissances, indexation, ontologies, sémantique, apprentissage, règles d’association, visualisation) ou selon le type de données considérées (complexes et/ou volumineuses, séquences, textes). Un chapitre est plus spécifiquement consacré aux applications, et un autre rend compte des logiciels démontrés pendant les journées. En raison de la forte interrelation entre les thèmes, les regroupements comprennent cependant une part d’arbitraire, la plupart des articles ayant leur place dans plusieurs chapitres. Le recueil inclut également les résumés des conférences des invités prestigieux que sont Heikki Mannila, l’un des pères de l’extraction de motifs fréquents, Gilbert Saporta statisticien mondialement connu et expert de l’apprentissage statistique et Michael Ley le fondateur du célèbre site de référence bibliographique DBLP. v Sur 152 soumissions, 42 articles longs (12 pages), 32 articles courts (6 pages) et les résumés (2 pages) de 27 posters ont été sélectionnés par le comité de programme sur la base des rapports des relecteurs lors de sa réunion des 8 et 9 novembre 2005 à Paris. On rappellera qu’au minimum trois avis de relecteurs ont été sollicités pour chaque soumission. Les descriptifs (2 pages) de 5 démonstrations de logiciels ont par ailleurs été retenus sur proposition du Comité “démonstrations logiciels” de EGC’2006 présidé par Mohand-Said Hacid. Finalement, les auteurs d’un papier long et de 4 posters ayant renoncé à être publiés, ce recueil totalise, en incluant les résumés des conférences invitées, un total de 104 articles ou résumés. Remerciements Nos vifs remerciements vont tout d’abord aux auteurs pour leurs excellentes contributions, mais aussi aux relecteurs (voir liste page vii), membres du comité de lecture ou sollicités par ces membres, dont les rapports d’évaluation circonstanciés et constructifs ont contribué à améliorer significativement la qualité des articles. Nos remerciements vont également à toute l’équipe du Comité d’organisation présidé par Chabane Djeraba pour leur travail et leur mobilisation permanente. Merci donc à Fatima Belkouche, Fatma Bouali, Anne-Cécile Caron, Jérôme David, Denis Debarbieux, Régis Gras, Hakim Hacid, Nacim Ihaddadene, Laetitia Jourdan, Said Mahmoudi, Sylvain Mongy, Philippe Preux, Thierry Urruty. Parmi ces derniers, Nacim Ihaddadene qui a créé les affiches et le site web de la Conférence www-rech.enic.fr/egc2006 mérite une mention particulière. Merci également à Philippe Rigaux pour son “cyberchair” MyReview et surtout à Hakim Hacid pour l’avoir configuré et géré parfaitement. Merci à l’Association EGC pour son soutien et la dotation du prix de la meilleure communication. Enfin, nous remercions spécialement pour leur soutien financier et aides diverses le Laboratoire d’Informatique Fondamentale de Lille (UMR USTL/CNRS 8022), l’Université des Sciences et Technologies de Lille, l’INRIA - Futurs, l’ENIC Télécom Lille 1, le Groupement des Ecoles Télécom et la Ville de Lille. Sans leur soutien, ni la Conférence EGC 2006, ni ce recueil n’auraient vu le jour. Gilbert Ritschard et Chabane Djeraba vi Le Comité de lecture de ce numéro est constitué des Comités de programme EGC’2006 et de pilotage de EGC. Comité de programme EGC’2006, sous la présidence de G. Ritschard : N. Belkhiter (U. Laval, CND) S. Benbernou (LIRIS, U. Lyon 1, F) S. Bengio (IDIAP, Martigny, CH) G. Berio (U. de Turin , I) P. Bosc (IRISA/ENSSAT, U. Rennes 1, F) F. Cloppet (CRIP5, U. Paris 5, F) J. Darmont (ERIC, U. Lyon 2, F) E. Diday (CEREMADE, U. Paris 9, F) R. Dieng-Kuntz (INRIA, Sophia Antipolis, F) C. Djeraba (LIFL, U. Lille, F) J.-L. Ermine (Inst. Nat. des Télécommunications INT, F) G. Falquet (CUI, U. de Genève, CH) C. Froidevaux (LRI, U. Paris Sud, F) A. Magda Florea (U. Polytechnique de Bucarest, RO) P. Gallinari (LIP 6, U. Pierre et Marie Curie, F) J.-G. Ganascia (LIP 6, U. Pierre et Marie Curie, F) P. Gancarski (U. Louis Pasteur, Strasbourg, F) C. Garbay (TIMC-IMAG, Grenoble, F) A. Giacometti (U. Tours, antenne de Blois, F) R. Gilléron (INRIA Futurs Lille, F) G. Govaert (Heudiasyc, U. de Technologie Compiègne, F) C. Guinot (CERIES, U. Biométrie et Epidémiologie, F) A. Hardy (U. de Namur, Belgique) F. Jaquenet (EURISE, U. de Saint-Etienne, F) P. Kuntz (Ecole Polytechnique de l’U. de Nantes, F) S. Lallich (ERIC, Lyon2, F) A. Laurent (LIRMM, Montpelier, F) A. Lazraq (ENIM, Ecole des Mines de Rabat, Maroc) Y. Lechevallier (INRIA Rocquencourt, F) P. Lenca (GET/ENST Bretagne, Brest, F) P. Leray (PSI / INSA Rouen, F) I.-C. Lerman (IRISA, U. Rennes 1, F) S. Loiseau (LERIA, U. d’Angers, F) R. Missaoui (DII, U. du Québec en Outaouais, CND) A. Napoli (LORIA, Nancy, F) M. Noirhomme-Fraiture ( U. de Namur, B) J.-M. Ogier (L3I, U. de La Rochelle, F) C. Pellegrini (CUI, U. de Genève, CH) S. Pinson (LAMSADE, U. Paris Dauphine, F) P. Poncelet (Ecole des Mines d’Alès/LGI2P, F) F. Poulet (ESIEA, Pôle ECD, Laval, F) C. Roche (Equipe CONDILLAC, U. de Savoie, F) M.-C. Rousset (IMAG, Grenoble, F) G. Saporta (CNAM, Chaire de Stat. Appl. Paris, F) M. Schneider (LIMOS, U. Clermont Ferrand II, F) M. Sebag (LRI, U. Paris Sud, F) F. Sèdes (IRIT Toulouse, F) D. Simovici (U. of Massachusetts Boston, USA) E. Ghazali Talbi (LIFL, Lille, F) M. Teisseire (LIRMM, U. Montpellier 2, F) F. Toumani (LIMOS, Clermont-Ferrand, F) S. Trausan-Matu (U. Polytechnique de Bucarest, RO) B. Trousse (INRIA, Sophia Antipolis, F) G. Venturini (LI, U. de Tours, F) J.-P. Vert (Ecole des Mines de Paris, F) N. Vincent (CRIP5-SIP, U. Paris 5, F) L. Wehenkel (U. de Liège, Belgique) M. Zacklad (Tech-CICO, U. de Troyes, F) Comité de pilotage EGC, sous la présidence de Henri Briand : Danielle Boulanger (IAE, U. Lyon 3) Régis Gras (LINA, U. de Nantes) Fabrice Guillet (LINA, U. de Nantes) Mohand-Saïd Hacid (LIRIS, U. Lyon 1) Georges Hébrail (ENST, Paris) Danièle Hérin (LIRMM, U. Montpellier 2) Yves Kodratoff (LRI, U. Paris-sud) Ludovic Lebart (ENST, Paris) Jean-Marc Petit (LIRIS, INSA Lyon) Jacques Philippé (PerfomanSe) Djamel Zighed (ERIC, U. Lyon 2) Relecteurs non membres du Comité de lecture : Salem Benferhat, Alexandre Blansché, Marc Boyer, François Bret, Philippe Caillou, Marie Françoise Canut, Marc Chastan, Max Chevalier, Gilles Coppin, Fabien De Marchi, Gérard Dray, Amandine Duffoux, Béatrice Duval, Joyce El Haddad, Céline Fiot, David Genest, Jacques Guyot, Benjamin Habegger, Alle Hadjali, Athmane Hamel, Samira Hammiche, Christine Largeron, Ludovic Liétard, Nicolas Lomenie, Patrick Marcel, Abdenour Mokrane, Hassina Mouloudi, André Peniou, Fabien Picarougne, Bruno Pinaud, Olivier Pivert, Marc Plantevit, Saïd Radhouani, Chedy Raissi, Chantal Reynaud, Daniel Rocacher, David Sheeren, Laszlo Szathmary, Isabelle Tellier, Franck Thollard, Marc Tommasi, Fabien Torre, Benoît Vaillant, Julien Velcin. Comité démonstrations logiciels : Mohan-Said Hacid (président), Djamel Benslimane, Jean-Marc Petit, Farouk Toumani vii viii TABLE DES MATIÈRES Conférences invitées Finding fragments of orders and total orders from 0-1 data, Heikki Mannila . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 Credit scoring, statistique et apprentissage, Gilbert Saporta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 Maintaining an Online Bibliographical Database : The Problem of Data Quality, Michael Ley, Patrick Reuther . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 Chapitre 1 : Données complexes et/ou volumineuses Graphes de voisinage pour l’Indexation et l’Interrogation d’Images par le contenu, Hakim Hacid, Abdelkader Djamel Zighed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 Extraction automatique de champs numériques dans des documents manuscrits, Clément Chatelain, Laurent Heutte, Thierry Paquet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Clustering dynamique d’un flot de données : un algorithme incrémental et optimal de détection des maxima de densité, Alain Lelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 Extraction d’objets vidéo : une approche combinant les contours actifs et le flot optique, Youssef Zinbi, Youssef Chahir, Abder Elmoatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 SVM incrémental, parallèle et distribué pour le traitement de grandes quantités de données, Thanh-Nghi Do, François Poulet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 Recherche en temps réel de préfixes massifs hiérarchiques dans un réseau IP à l’aide de techniques de stream mining, Pascal Cheung-Mon-Chan, Fabrice Clérot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 Prétraitement de grands ensembles de données pour la fouille visuelle, Edwige Fangseu Badjio, François Poulet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 Chapitre 2 : Gestion de connaissances et indexation Indexation de vues virtuelles dans un médiateur XML pour le traitement de XQuery Text, Clément Jamard, Georges Gardarin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 Techniques de fouille de données pour la réécriture de requêtes en présence de contraintes de valeurs, Hélène Jaudoin, Frédéric Flouvat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 ix Un Index de jointure pour les entrepôts de données XML, Hadj Mahboubi, Kamel Aouiche, Jérôme Darmont . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89 Le forage distribué des données : une méthode simple, rapide et efficace, Mohamed Aounallah, Guy Mineau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 Une approche distribuée pour l’extraction de connaissances : application à l’enrichissement de l’aspect factuel des BDG, Khaoula Mahmoudi, Sami Faïz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 Modèle conceptuel pour bases de données multidimensionnelles annotées, Guillaume Cabanac, Max Chevalier, Franck Ravat, Olivier Teste . . . . . . . . . . . . . . . . . . . . 119 Comparaison de deux modes de représentation de données faiblement structurées en sciences du vivant, Rallou Thomopoulos, Patrice Buche, Ollivier Haemmerlé, Frédéric Mabille, Nongyao Mueangdee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 Reconnaissance automatique d’évènements survenant sur patients en réanimation à l’aide d’une méthode adaptative d’extraction en ligne d’épisodes temporels, Sylvie Charbonnier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137 Une approche multi-agent adaptative pour la simulation de schémas tactiques, Aydano Machado, Yann Chevaleyre, Jean-Daniel Zucker . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 Gestion de connaissances : compétences et ressources pédagogiques, Olivier Gerbé, Thierno Diarra, Jacques Raynauld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 Chapitre 3 : Ontologies Alignement extensionnel et asymétrique de hiérarchies conceptuelles par découverte d’implications entre concepts, Jérôme David, Fabrice Guillet, Régis Gras, Henri Briand . . . . . . . . . . . . . . . . . . . . . . . . . . 151 Une mesure de proximité et une méthode de regroupement pour l’aide à l’acquisition d’ontologies spécialisées, Guillaume Cleuziou, Sylvie Billot, Stanislas Lew, Lionel Martin, Christel Vrain . . . . . . . 163 Web sémantique pour la mémoire d’expériences d’une communauté scientifique : le projet MEAT, Khaled Khelif, Rose Dieng-Kuntz, Pascal Barbry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 Interrogation et vérification de documents OWL dans le modèle des Graphes Conceptuels, Thomas Raimbault, Henri Briand, Rémi Lehn, Stéphane Loiseau . . . . . . . . . . . . . . . . . . . . 187 Une nouvelle mesure sémantique pour le calcul de la similarité entre deux concepts d’une même ontologie, Emmanuel Blanchard, Mounira Harzallah, Pascale Kuntz, Henri Briand . . . . . . . . . . . . . 193 Classification des compte-rendus mammographiques à partir d’une ontologie radiologique en OWL, Amel Boustil, Sahnoun Zaidi, Ziad Mansouri, Christine Golbreich . . . . . . . . . . . . . . . . . . 199 x Chapitre 4 : Fouille de textes Choix du taux d’élagage pour l’extraction de la terminologie. Une approche fondée sur les courbes ROC, Mathieu Roche, Yves Kodratoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205 Fast-MGB : Nouvelle base générique minimale de règles associatives, Chiraz Latiri, Lamia Ben Ghezaiel, Mohamed Ben Ahmed . . . . . . . . . . . . . . . . . . . . . . . . . . 217 Extraction et identification d’entités complexes à partir de textes biomédicaux, Julien Lorec, Gérard Ramstein, Yannick Jacques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 Reconnaissance automatique de concepts à partir d’une ontologie, Valentina Ceausu, Sylvie Desprès . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229 Multi-catégorisation de textes juridiques et retour de pertinence, Vincent Pisetta, Hakim Hacid, Djamel. A Zighed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235 Combinaison de l’approche inductive (progressive) et linguistique pour l’étiquetage morphosyntaxique des corpus de spécialité, Ahmed Amrani, Yves Kodratoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247 Un automate pour évaluer la nature des textes, Hubert Marteau, Nicole Vincent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259 Extraction multilingue de termes à partir de leur structure morphologique, Delphine Bernhard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271 Accès aux connaissances orales par le résumé automatique, Benoît Favre, Jean-François Bonastre, Patrice Bellot, François Capman . . . . . . . . . . . . . 273 Chapitre 5 : Sémantique Exploration des paramètres discriminants pour les représentations vectorielles de la sémantique des mots, Frank Meyer, Vincent Dubois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 Exploration interactive de bases de connaissances : un retour d’expérience, Christophe Tricot, Christophe Roche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287 Un modèle de qualité de l’information, Rami Harrathi, Sylvie Calabretto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299 Annotation sémantique de pages web, Sylvain Tenier, Amedeo Napoli, Xavier Polanco, Yannick Toussaint . . . . . . . . . . . . . . . . . . 305 Chapitre 6 : Visualisation Visualisation en Gestion des Connaissances : développement d’un nouveau modèle graphique Graph’Atanor, Bruno Pinaud, Pascale Kuntz, Fabrice Guillet, Vincent Philippé . . . . . . . . . . . . . . . . . . . . . 311 xi Algorithme semi-interactif pour la sélection de dimensions, Lydia Boudjeloud, François Poulet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323 Visualisation interactive de données avec des méthodes à base de points d’intérêt, David Da Costa, Gilles Venturini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335 Modélisation informationnelle : un cadre méthodologique pour visualiser des connaissances évolutives spatialisables, Jean-Yves Blaise, Iwona Dudek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347 Chapitre 7 : Annalyse de données et classification Typicalité et contribution des sujets et des variables supplémentaires en Analyse Statistique Implicative, Régis Gras, Jérôme David, Jean-Claude Régnier, Fabrice Guillet . . . . . . . . . . . . . . . . . . . 359 Utilisation de métadonnées pour l’aide à l’interprétation de classes et de partitions, Abdourahamane Baldé, Yves Lechevallier, Brigitte Trousse, Marie-Aude Aufaure . . . . . 371 Affectation pondérée sur des données de type intervalle, Chérif Mballo, Edwin Diday . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377 Classifications hiérarchiques factorielles de variables, Sergio Camiz, Jean-Jacques Denimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383 Classification non-supervisée de données relationnelles, Jérôme Maloberti, Shin Ando, Einoshin Suzuki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389 Chapitre 8 : Apprentissage Analyse du comportement des utilisateurs exploitant une base de données vidéo, Sylvain Mongy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391 Web Usage Mining : extraction de périodes denses à partir des logs, Florent Masseglia, Pascal Poncelet, Maguelonne Teisseire, Alice Marascu . . . . . . . . . . . 403 Comparaison de dissimilarité pour l’analyse de l’usage d’un site web, Fabrice Rossi, Francisco De Carvalho, Yves Lechevallier, Alzennyr Da Silva . . . . . . . . . 409 Extraction de relations dans les documents Web, Rémi Gilléron, Patrick Marty, Marc Tommasi, Fabien Torre . . . . . . . . . . . . . . . . . . . . . . . . . 415 Sélection supervisée d’instances : une approche descriptive, Sylvain Ferrandiz, Marc Boullé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421 Classification de documents XML à partir d’une représentation linéaire des arbres de ces documents, Anne-Marie Vercoustre, Mounir Fegas, Yves Lechevallier, Thierry Despeyroux . . . . . . . . 433 Carte auto-organisatrice probabiliste sur données binaires, Rodolphe Priam, Mohamed Nadif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445 Classification d’un tableau de contingence et modèle probabiliste, Gérard Govaert, Mohamed Nadif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457 xii Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair, Raja Chiky, Bruno Defude, Georges Hébrail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463 Fouille de données dans les systèmes Pair-à-Pair pour améliorer la recherche de ressources, Florent Masseglia, Pascal Poncelet, Maguelonne Teisseire . . . . . . . . . . . . . . . . . . . . . . . . . . 469 Une approche simple inspirée des réseaux sociaux pour la hiérarchisation des systèmes autonomes de l’Internet, Fabrice Clérot, Quang Nguyen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475 Recherche de sous-structures fréquentes pour l’intégration de schémas XML, Federico Del Razo López, Anne Laurent, Pascal Poncelet, Maguelonne Teisseire . . . . . . 487 Vers l’extraction de motifs rares, Laszlo Szathmary, Sandy Maumus, Pierre Petronin, Yannick Toussaint, Amedeo Napoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499 Approche entropique pour l’analyse de modèle de chroniques, Nabil Benayadi, Marc Le Goc, Philippe Bouché . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511 La fouille de graphes dans les bases de données réactionnelles au service de la synthèse en chimie organique, Frédéric Pennerath, Amedeo Napoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517 Fouille de données spatiales. Approche basée sur la programmation logique inductive, Nadjim Chelghoum, Karine Zeitouni, Thierry Laugier, Annie Fiandrino, Lionel Loubersac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529 Arbres de Décision Multi-Modes et Multi-Cibles, Frank Meyer, Fabrice Clérot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541 Extension de l’algorithme CURE aux fouilles de données, Jerzy Korczak, Aurélie Bertaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547 Chapitre 9 : Règles d’association Comparaison des mesures d’intérêt de règles d’association : une approche basée sur des graphes de corrélation, Xuan-Hiep Huynh, Fabrice Guillet, Henri Briand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549 Une comparaison de certains indices de pertinence des règles d’association, Marie Plasse, Ndeye Niang, Gilbert Saporta, Laurent Leblond . . . . . . . . . . . . . . . . . . . . . . 561 Utilisation des réseaux bayésiens dans le cadre de l’extraction de règles d’association, Clément Fauré, Sylvie Delprat, Alain Mille, Jean-François Boulicaut . . . . . . . . . . . . . . . . 569 Critère VT100 de sélection des règles d’association, Alain Morineau, Ricco Rakotomalala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 581 Modèle décisionnel basé sur la qualité des données pour sélectionner les règles d’associations légitimement intéressantes, Laure Berti-Equille . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593 Règles d’association avec une prémisse composée : mesure du gain d’information, Martine Cadot, Pascal Cuxac, Claire François . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 599 xiii Recherche de règles non redondantes par vecteurs de bits dans des grandes bases de motifs, François Jacquenet, Christine Largeron, Cédric Udréa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 601 Chapitre 10 : Données séquentielles Des motifs séquentiels généralisés aux contraintes de temps étendues, Céline Fiot, Anne Laurent, Maguelonne Teisseire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603 Bordure statistique pour la fouille incrémentale de données dans les Data Streams, Jean-Emile Symphor, Pierre-Alain Laur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 615 Extraction de motifs séquentiels dans les flots de données d’usage du Web, Alice Marascu, Florent Masseglia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627 Champs de Markov conditionnels pour le traitement de séquences, Trinh Minh Tri Do, Thierry Artières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 639 Chapitre 11 : Applications Apprentissage de la structure des réseaux bayésiens à partir des motifs fréquents corrélés : application à l’identification des facteurs environnementaux du cancer du Nasopharynx, Alexandre Aussem, Zahra Kebaili, Marilys Corbex, Fabien De Marchi . . . . . . . . . . . . . . . 651 De l’analyse didactique à la modélisation informatique pour la conception d’un EIAH en chirurgie orthopédique, Vanda Luengo, Lucile Vadcard, Dima Mufti-Alchawafa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663 Prédiction de la solubilité d’une molécule à partir des seules données relationnelles, Sébastien Derivaux, Agnès Braud, Nicolas Lachiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 669 Préparation des données Radar pour la reconnaissance/identification de cibles aériennes, Abdelmalek Toumi, Brigitte Hoeltzener, Ali Khenchaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675 Biclustering of Gene Expression Data Based on Local Nearness, Jesus Aguilar-Ruiz, Domingo Savio Rodriguez, Dan A. Simovici . . . . . . . . . . . . . . . . . . . . 681 Amélioration des indicateurs techniques pour l’analyse du marché financier, Hunor Albert-Lorincz, Jean-François Boulicaut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693 EDA : algorithme de désuffixation du langage médical, Didier Nakache, Elisabeth Métais, Annabelle Dierstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705 Aide en gestion hospitalière par visualisation des composantes de non-pertinence, Bernard Huet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 707 Enrichissement d’ontologies dans le secteur de l’eau douce en environnement Internet distribué et multilingue, Lylia Abrouk, Mathieu Lafourcade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 709 Comparaison des mammographies par des méthodes d’apprentissage, Irina Diana Coman, Djamel Abdelkader Zighed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 711 xiv Représentation d’expertise psychologique sous la forme de graphes orientés, codés en RDF, Yves Fossé, Stéphane Daviet, Henri Briand, Fabrice Guillet . . . . . . . . . . . . . . . . . . . . . . . . 713 Représentation des connaissances appliquées à la géotechnique : une approche, Nicolas Faure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 715 Sélection de variables et modélisation d’expressions d’émotions dans des dialogues Homme-Machine, Barbara Poulain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 717 Comment formaliser les connaissances tacites d’une organisation ? Le cas de la conduite du changement à la SNCF, Anne Remillieux, Christian Blatter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719 I-Semantec : une plateforme collaborative de capitalisation des connaissances métier en conception de produits industriels, Mohamed-Foued Sriti, Phillipe Boutinaud, Nada Matta, Manuel Zacklad . . . . . . . . . . . . 721 Outil de datamining spatial appliqué à l’analyse des risques liés au territoire, Schahrazed Zeghache, Farida Admane, Kamel Elarabia Ziane . . . . . . . . . . . . . . . . . . . . . . 723 Confrontation de points de vue dans le système Porhyry, Samuel Gesche, Sylvie Calabretto, Guy Caplat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725 Système d’aide à la décision pour la surveillance de la qualité de l’air intérieur, Zoulikha Heddadji, Nicole Vincent, Severine Kirchner, Georges Stamon . . . . . . . . . . . . . . 727 FaBR-CL : méthode de classification croisée de protéines, Walid Erray, Faouzi Mhamdi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 729 Un modèle extensible adapté à la gestion de dépêches d’agences de presse, Frédéric Bertrand, Cyril Faucher, Marie-Christine Lafaye, Jean-Yves Lafaye, Alain Bouju . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 731 ARABASE : base de données Web pour l’exploitation en reconnaissance optique de l’écriture arabe, Noura Bouzrara, Nacéra Madani Aissaoui, Najoua Essoukri Ben Amara . . . . . . . . . . . . . 733 Archiview, un outil de visualisation topographique des paramètres d’un hôpital, Pierre P. Lévy, Jean-Philippe Villaréal, Pierre-Paul Couka, Fabrice Gallois, Laurence Herbin, Antoine Flahault . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 735 Chapitre 12 : Logiciels Faire vivre un référentiel métier dans l’industrie : le système de gestion de connaissances ICARE, Alain Berger, Pierre Mariot, Christophe Coppens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 737 ESIEA Datalab Logiciel de Nettoyage et Préparation de Données , Christopher Corsia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 739 Méthode de récolte de traces de navigation sur interface graphique et visualisation de parcours, Marc Damez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 741 xv Teximus Expertise : un logiciel de gestion de connaissances, Olivier Gerbé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 743 Un logiciel permettant d’apprendre des règles et leurs exceptions : Area, Sylvain Lagrue, Jérémie Lussiez, Julien Rossit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 745 xvi Typicalité et contribution des sujets et des variables supplémentaires en Analyse Statistique Implicative Régis Gras *, Jérôme David*, Jean-Claude Régnier**, Fabrice Guillet* * LINA– Ecole Polytechnique de l’Université de Nantes La Chantrerie BP 60601 44306 Nantes cedex [email protected], jerome.david, [email protected] http://www.sciences.univ-nantes.fr/lina/ **EA 3727 Savoirs, Diversité et Professionnalisation, Lyon 2 86, rue Pasteur 69365 Lyon cedex 07 [email protected] Résumé. L’analyse statistique implicative traite des tableaux sujets x variables afin d’extraire règles et métarègles statistiques entre les variables. L’article interroge les structures obtenues représentées par graphe et hiérarchie orientés afin de dégager la responsabilité des sujets ou des groupes de sujets (variables supplémentaires) dans la constitution des chemins du graphe ou des classes de la hiérarchie. On distingue les concepts de typicalité pour signifier la proximité des sujets avec le comportement moyen de la population envers les règles statistiques extraites, puis de contribution pour quantifier le rôle qu’auraient les sujets par rapport aux règles strictes associées. Un exemple de données réelles, traité à l’aide du logiciel CHIC, illustre et montre l’intérêt de ces deux concepts. 1 Introduction Les données traitées par l’analyse statistique implicative (en abrégé : A.S.I.) se présentent sous forme de tableaux numériques croisant une population E de sujets, ou individus ou objets, associé chacun à une ligne, et un ensemble V de variables simples ou conjointes (attributs binaires, variables numériques, rang, intervalle) chacune associée à une colonne. A l’intersection de la ligne x et de la colonne j figure la valeur prise par le sujet x selon la variable j. La finalité première de l’A.S.I. vise à dégager de V ou de l’ensemble de toutes les conjonctions d’éléments de V1, des règles d’association non symétrique, contrairement à la similarité, sur une base statistique, du type : « si la variable ou une conjonction de variables a est observée sur E alors la variable b a tendance à être observée », règle notée a ⇒ b. Une mesure de qualité, non symétrique, de telles règles2 est définie par : 1 Dorénavant nous continuerons à noter V, pour éviter des notations excessives, aussi bien l’ensemble des variables que celui de toutes les conjonctions de ses éléments. 2 D’autres mesures existent comme celle d’(Agrawal et al.,1993) basée sur les deux paramètres : support (fréquence de a et b) et confiance (fréquence conditionnelle de b sachant a) - 359 - RNTI-E-6 Utilisation de métadonnées pour l’aide à l’interprétation de classes et de partitions Abdourahamane Baldé*, Yves Lechevallier*, Brigitte Trousse**, Marie-Aude Aufaure*** * INRIA Rocquencourt (Projet AxIS) Domaine de Voluceau Rocquencourt, B.P. 105, F-78153 Le Chesnay Cedex, France {abdourahamane.balde, yves.lechevallier}@inria.fr ** INRIA Sophia Antipolis (Projet AxIS) Route des Lucioles, B.P. 93, F-06902 Sophia Antipolis Cedex, France [email protected] ***Supélec - Plateau du Moulon - Service Informatique F-91192 Gif-sur-Yvette Cedex [email protected] Résumé. Les résultats des méthodes de fouille de données sont difficilement interprétables par un utilisateur n'ayant pas l’expertise requise. Dans ce papier nous proposons un outil permettant aux utilisateurs d’interpréter les résultats issus des méthodes de classification non supervisée. Cet outil est basé sur des métadonnées utilisées pour formaliser le processus d’interprétation automatique. Ces métadonnées vont servir à l’utilisateur pour comprendre dans quelles circonstances les données originales ont été collectées et de quelle manière elles ont été agrégées puis classifiées. L’intérêt de ce travail porte sur la souplesse qu’auront les utilisateurs à pouvoir interpréter facilement les classes obtenues. Nous développons notre approche basée sur l’utilisation des métadonnées. Nous traduirons notre méthodologie par un exemple concret. 1 Introduction La fouille de données définie comme étant l'extraction à partir de données brutes de connaissances potentiellement exploitables, n’en demeure pas moins un processus complexe dès lors qu’il s’agit d’interpréter les résultats fournis. Les techniques de fouille de données représentent une étape fondamentale du processus d’Extraction de Connaissances dans les Bases de Données connu sous le nom ECD ou KDD (Knowledge Discovery in Databases) (Han 2001). Dans ce papier nous nous intéressons à l’une de ces techniques : la classification non supervisée. Celle-ci est définie comme un ensemble de processus aptes à être exécutés sur ordinateur pour constituer des hiérarchies de classes ou de simples partitions établies à partir de tableaux de données (Jambu 1978). Les règles d’interprétation des structures classificatoires obtenues (hiérarchies, partitions, etc.) à l’issue de ces classifications n’ont pas la simplicité des méthodes descriptives uni-dimensionnelles. - 371 - RNTI-E-6 ! " - # $% $ . $ ! & $% / &' . ()(() $ &' 0 $1 % $$ 2 $%& % 3 $ $ $ 4& $ %' % &% $ % %5 7 - 6 ! 8 &$ ' ' $ $ & '' ' &2 $ &* &* 9& $ $ 6 $ ' ' 9& %&% %% - % $% ' ' $% - % 2 $$ ' '' %2 $6 $' $; < ∈ ℑ ℑ 3 $$ % % = > : ; : ;= ?%$ # $% %' $ - $ 4& $ ' % $ Ω & :@ A % * +, $& $ $ &' 6 %% % 3 % & %% - % 3& -'% $ & &'& ℜ: $ $ - BCCC; $ $ 3 - $ &$ & : ; = >α β = D α β ∈ ℜ %α ≤ β %$ - % $ $%& % 1 $ $& $ $$ 4& $ %' % % % ' ' $ $ :: - - BCC); / : +EE,;; &% $ % %5 F % A 8 &$ ' 6 $ %5 &' 6 7 - 6 ! % 7 $ $&% %5 % % &% ' : +E((; ' & & ' %% 2 *' 4& $& $ $ % &$ % % & &* $ 4& %% $ $$ 4& $ ' : $$ +EEG; 8 &$ $ * $ '%% &* $$ 4& $ %' % :: % BCCH; : % BCC) ;; - $ $ %% '' & & $% % %5 - %2& 9& 3 $ 8 &$ ' ' $ $ $ ' ' & '' ' - %% % 3 % & &2 $ &* &* 9& $ $ 6 $' &' 6 3& 9& %8 &$ % $ ' & * -' ' & &$% %% '' ∀ ∈Ω $ &'' $ $ 4& 3 $ Ω ?%$ $% $ 2 I% $$ $ ' & $< $ %' % ' -- % $%& ' '& % $ $ ?%$ $ % + - 377 - B : $ *' % 4& %$ ' : + +; % $; %& RNTI-E-6 Classifications hiérarchiques factorielles de variables Sergio Camiz**, Jean-Jacques Denimal* ** Dipartimento di Matematica Guido Castelnuovo Università di Roma La Sapienza Piazzale Aldo Moro, 2 – I 00186 Roma Italie [email protected] http://www.camiz.net * U.F.R. de Mathématiques Université des Sciences et Technologies de Lille F 59655 Villeneuve d’Ascq France [email protected] Résumé. On présente deux méthodes de classification hiérarchique ascendante de variables quantitatives et de fréquences. Chaque noeud de ces hiérarchies regroupe deux classes de variables à partir d’une analyse factorielle particulière basée sur les variables représentatives de ces deux classes. Par cette méthode, on dispose, à chaque pas, d'un plan factoriel permettant de représenter à la fois les variables des deux classes fusionnées et l’ensemble des individus. Ces derniers se positionnent dans ce plan suivant leurs valeurs pour les variables considérées. Ainsi, l’interprétation des nœuds obtenus s’effectue facilement à partir de l’examen de ces représentations factorielles. La répartition des individus observée dans chacun de ces plans factoriels permet également de définir une segmentation des individus en total accord avec la hiérarchie des variables obtenues. On montre le fonctionnement des méthodes sur des exemples réels. 1 Introduction L'analyse exploratoire d'un tableau de données, que ce soit un tableau classique croisant unités statistiques et caractères quantitatifs, ou un tableau de contingence croisant les modalités de deux caractères qualitatifs, est généralement réalisée par les quatre étapes de la procédure suivante : 1. Analyse factorielle exploratoire : selon le type de tableau, il s’agit d’une Analyse en Composantes Principales (ACP) ou une Analyse des Correspondances (AFC) ; 2. classification des lignes, à savoir des individus ou des modalités en ligne ; 3. interprétation des classes obtenues à l’aide du comportement des caractères originaux dans chaque classe ; 4. Étude des liaisons entre classes et axes factoriels. L’originalité de l’approche proposée dans cet article est d’unifier, dans une même méthode, l’analyse factorielle du tableau et les classifications des lignes et des colonnes. En effet, les plans factoriels obtenus sont directement associés aux nœuds des hiérarchies construites. Ce qui permet d’obtenir une interprétation conjointe des nœuds et des axes factoriels facilitant la synthèse des résultats. Les approches classiques résumées par les quatre étapes - 383 - RNTI-E-6 Classification non-supervisée de données relationnelles Jérôme Maloberti∗,∗∗ , Shin Ando∗∗ Einoshin Suzuki∗∗ ∗ 1 Université Paris-Sud, Laboratoire de Recherche en Informatique (LRI), Bât 490, F-91405 Orsay Cedex, France ∗∗ Electrical and Computer Engineering, Yokohama National University, 79-5 Tokiwadai, Hodogaya, Yokohama 240-8501, Japan Introduction La classification, ou clustering (Jain et al., 1999), consiste à associer une classe à chaque élément d’un ensemble, les éléments similaires devant être regroupés dans une classe en n’utilisant que la similarité (ou distance) entre deux éléments ou groupes d’éléments. Le formalisme attributs-valeurs ne permettant pas de représenter les domaines complexes, l’apprentissage en logique du premier ordre, ou Programmation Logique Inductive (PLI), a attiré une attention croissante. Le language utilisé en PLI, DATALOG, est un formalisme relationnel ne permettant pas les fonctions, et dont le test de couverture, la θ-subsomption, est une restriction décidable mais NP-difficile de l’implication logique. Cet article présente une méthode permettant l’utilisation d’algorithmes de clustering sur des données relationnelles, en recherchant préliminairement tous les motifs relationnels existant et en les utilisant pour définir une distance entre des clauses en DATALOG. 2 Présentation de l’algorithme L’algorithme proposé consiste en trois étapes : la recherche de tous les motifs relationnels de la base, l’élimination des motifs inintéressants et le clustering des clauses DATALOG, en utilisant les motifs pour calculer la distance entre les exemples. La recherche des motifs relationnels est effectuée par J IMI (Maloberti et Suzuki (2003)) qui est une version relationnelle d’un algorithme de recherche en largeur d’itemset fréquents. Chaque exemple est tranformé en un vecteur booléen dont les valeurs correspondent au test de θ-subsomption1 des motifs contre cet exemple, ces vecteurs permettant d’utiliser les distances existantes. Différents paramètres peuvent être utilisés : différents poids sur les motifs durant le calcul de la distance, tels que la taille des motifs ou l’inverse de la fréquence, utilisation des n premiers niveaux trouvés par J IMI plutôt que tous les niveaux, utilisation d’une partie des motifs (tous les motifs maximaux, i.e. fermés, ou les motifs minimaux). Notre méthode a été testée sur 2 ensembles de données réelles avec un algorithme de clustering hiérarchique ascendant et une distance euclidienne. Le premier test concerne la détection 1 La version utilisée vérifie l’Identité d’Objet, toutes les variables sont substituées par des termes différents. - 389 - RNTI-E-6 Classification non-supervisée de données relationnelles d’accès hostiles sur le site web “www.slab.dnj.ynu.ac.jp”. Les données, dont des résultats ont déjà été publiés dans Narahashi et Suzuki (2003) et Hirose et Suzuki (2005), correspondant à deux ans d’accès et contiennent : 205, 590 requêtes, 32, 425 sessions 2 , dont 2, 243 hostiles. Notre méthode a obtenu (sur 10.000 sessions) une précision de 0.991 avec 12 clusters, Narahashi et Suzuki (2003) obtenant 0.981, avec 5 clusters et Hirose et Suzuki (2005) 0.719 avec 2 clusters. Ce problème n’étant pas relationnel, les 2 premiers niveaux ont les meilleurs résultats, l’utilisation de plus de niveaux n’a conduit qu’à la création de plus de clusters. Le second ensemble de données, décrit dans King et al. (1995), concerne la détection de capacité à provoquer des mutations et représente 230 molécules, dont 138 positives et 92 négatives. Les résultats ont été médiocres, une précision de 0.51, car seule la description des atomes et de leurs relations a été utilisée, ce qui est insuffisant pour obtenir des motifs discriminants. 3 Conclusion et perspectives Nous avons proposé une nouvelle méthode permettant le clustering de données relationnelles et nous avons utilisé ce système sur deux ensembles de données. Les résultats préliminaires montrent que ce système peut égaler les autres algorithmes sur des données non relationnelles, l’expérimentation sur des données relationnelles n’ayant pas permis de conclure. Parmi les perspectives, l’utilisation d’un algorithme de clustering pouvant gérer de grandes dimensions, tel que le subspace clustering, serait intéressante car le grand nombre de motifs rend les distances très instables mathématiquement. Références Hirose, N. et E. Suzuki (2005). Detecting hostile accesses to a web site using a visualization method based on probabilistic clustering. In Proc. 1st WSEAS Intern. Symp. on Datamining. Jain, A. K., M. N. Murty, et P. J. Flynn (1999). Data clustering : a review. ACM Computing Surveys 31(3), 264–323. King, R., A. Srinivasan, et M. Stenberg (1995). Relating chemical activity to structure : an examination of ILP successes. New Generation Computing 13. Maloberti, J. et E. Suzuki (2003). Improving efficiency of frequent query discovery by eliminating non-relevant candidates. In Proc. 6th Inter. Conf. on Discovery Science. Narahashi, M. et E. Suzuki (2003). Detecting hostile accesses through incremental subspace clustering. In IEEE/WIC International Conference on Web Intelligence, pp. 337–343. Summary This paper presents an algorithm for clustering of relational data in DATALOG formalism which searches all relational patterns in the base, then transforms each example in a boolean vector corresponding to the results of its covering tests against the patterns. 2 Une session est une séquence de requêtes d’un même ordinateur avec délai entre deux requêtes successives inférieur à une heure RNTI-E-6 - 390 - Analyse du Comportement des utilisateurs exploitant une base de données vidéo Sylvain Mongy∗ ∗ Univ. de Lille1, Bât. M3 59655 Villeneuve d’Ascq Cedex FRANCE [email protected], http://www-rech.enic.fr/MIIRE Résumé. Dans cet article, nous présentons un modèle de fouille des usages de la vidéo pour améliorer la qualité de l’indexation. Nous proposons une approche basée sur un modèle à deux niveaux représentant le comportement des utilisateurs exploitant un moteur de recherche vidéo. Le premier niveau consiste à modéliser le comportement lors de la lecture d’une vidéo unique (comportement intra vidéo), le second à modéliser le comportement sur l’ensemble d’une session (comportement inter video). A partir de cette représentation, nous avons développé un algorithme de regroupement, adapté à la nature particulière de ces données. L’analyse des usages de la vidéo nous permet d’affiner l’indexation vidéo sur la base de l’intérêt des utilisateurs. 1 Introduction De par le développement rapide des techniques de stockage et de diffusion, les vidéos, notamment digitalisées, sont de plus en plus nombreuses et accessibles. En particulier, les agences de presse, les diffuseurs TV, les agences de publicité travaillent sur des ressources vidéo grandissantes. Pour être à même de travailler sur de tels volumes, des technologies adaptées doivent être mises en oeuvre. La « fouille des usages de la vidéo », qui cherche à analyser les comportements des utilisateurs sur des ensembles de vidéo est l’une des techniques clé émergentes pour optimiser les accès aux vidéos. Dans cet article, nous proposons d’analyser le comportements des utilisateurs d’un moteur de recherche vidéo pour améliorer la qualité de l’indexation textuelle. Notre objectif est de comprendre pourquoi et comment chacune des séquences vidéo est visionnée. Par exemple, les utilisateurs recherchant des vidéos concernant le mot-clé « montagne » visionnent successivement les vidéos (18, 73, 29) qui sont retournées dans cet ordre par le moteur de recherche. Si l’on note que dans la majeure partie des cas, la vidéo 29 est visionnée totalement alors que les vidéos 18 et 73 ne le sont que partiellement, on en déduit que, selon l’utilisateur, le concept de « montagne » est mieux exprimé par la vidéo 29 que par les vidéos 18 et 73. En conclusion, la vidéo 29 doit être proposée en premier aux utilisateurs lors des futures recherches sur le concept « montagne ». Son poids dans la vidéo 29 s’en trouve augmenté et celui des vidéos 18 et 73 réduit. Dans ce papier nous présentons une approche qui combine usage intra-vidéo et usage intervidéo pour générer des profils de visite sur un moteur de recherche vidéo dans le contexte de - 391 - RNTI-E-6 Web Usage Mining : extraction de périodes denses à partir des logs Florent Masseglia ∗ , Pascal Poncelet∗∗ , Maguelonne Teisseire∗∗∗ , Alice Marascu ∗ ∗ INRIA Sophia Antipolis, 2004 route des Lucioles - BP 93, 06902 Sophia Antipolis, France {Alice.Marascu,Florent.Masseglia}@sophia.inria.fr ∗∗ EMA-LGI2P/Site EERIE, Parc Scientifique Georges Besse, 30035 Nîmes Cedex, France {Pascal.Poncelet}@ema.fr ∗∗∗ LIRMM UMR CNRS 5506, 161 Rue Ada, 34392 Montpellier cedex 5 - France {teisseire}@lirmm.fr Résumé. Les techniques de Web Usage Mining existantes sont actuellement basées sur un découpage des données arbitraire (e.g. "un log par mois") ou guidé par des résultats supposés (e.g. "quels sont les comportements des clients pour la période des achats de Noël ? "). Ces approches souffrent des deux problèmes suivants. D’une part, elles dépendent de cette organisation arbitraire des données au cours du temps. D’autre part elles ne peuvent pas extraire automatiquement des "pics saisonniers" dans les données stockées. Nous proposons d’exploiter les données pour découvrir de manière automatique des périodes "denses" de comportements. Une période sera considérée comme "dense" si elle contient au moins un motif séquentiel fréquent pour l’ensemble des utilisateurs qui étaient connectés sur le site à cette période. 1 Introduction L’analyse du comportement des utilisateurs d’un site Web, également connue sous le nom de Web Usage Mining, est un domaine de recherche qui consiste à adapter des techniques de fouille de données sur les enregistrements contenus dans les fichiers logs d’accès Web (ou fichiers “access log”) afin d’en extraire des relations entre les différentes données stockées Cooley et al. (1999), Masseglia et al. (2003), Mobasher et al. (2002), Spiliopoulou et al. (1999). Ces derniers regroupent des informations sur l’adresse IP de la machine, l’URL demandée, la date, et d’autres renseignements concernant la navigation de l’utilisateur. Parmi les méthodes développées, celles qui consistent à extraire des motifs séquentiels Agrawal et Srikant (1995) s’adaptent particulièrement bien au cas des logs mais dépendent du découpage qui est fait des données. Ce découpage provient soit d’une décision arbitraire de produire un log tous les x jours (e.g. un log par mois), soit d’un désir de trouver des comportements particuliers (e.g. les comportements des internautes du 15 novembre au 23 décembre lors des achats de Noël). Pour comprendre l’enjeu de ces travaux, prenons l’exemple d’étudiants connectés lors d’une séance de TP. Imaginons que ces étudiants soient répartis en 2 groupes. Le groupe 1 était en TP le lundi 31 janvier. Le groupe 2 en revanche était en TP le mardi 1er février. Chacun de ces - 403 - RNTI-E-6 Comparaison de dissimilarités pour l’analyse de l’usage d’un site web Fabrice Rossi∗ , Francisco De Carvalho∗∗ , Yves Lechevallier∗ , Alzennyr Da Silva∗,∗∗ ∗ Projet AxIS, INRIA Rocquencourt Domaine de Voluceau, Rocquencourt, B.P. 105, 78153 Le Chesnay Cedex – France ∗∗ Centro de Informatica - CIn/UFPE Caixa Postal 7851, CEP 50732-970, Recife (PE) – Brésil Résumé. L’obtention d’une classification des pages d’un site web en fonction des navigations extraites des fichiers "logs" du serveur peut s’avérer très utile pour évaluer l’adéquation entre la structure du site et l’attente des utilisateurs. On construit une telle typologie en s’appuyant une mesure de dissimilarité entre les pages, définie à partir des navigations. Le choix de la mesure la plus appropriée à l’analyse du site est donc fondamental. Dans cet article, nous présentons un site de petite taille dont les pages sont classées en catégories sémantiques par un expert. Nous confrontons ce classement aux partitions obtenues à partir de diverses dissimilarités afin d’en étudier les avantages et inconvénients. 1 Introduction La conception, la réalisation et la maintenance d’un site web volumineux sont des tâches difficiles, en particulier quand le site est écrit par plusieurs rédacteurs. Pour améliorer le site, il est alors important d’analyser les comportements de ses utilisateurs, afin de découvrir notamment les incohérences entre sa structure a priori et les schémas d’utilisation dominants. Les utilisateurs contournent en effet souvent les limitations du site en navigant (parfois laborieusement) entre les parties qui les intéressent, alors que celles-ci ne sont pas directement liées aux yeux des concepteurs. A l’opposée, certains liens sont très peu utilisés et ne font qu’encombrer la structure hyper textuelle du site. Une méthode d’analyse dirigée par l’usage consiste à réaliser une classification du contenu du site à partir des navigations enregistrées dans les logs du serveur. Les classes ainsi obtenues sont constituées de pages qui ont tendance à être visitées ensembles. Elles traduisent donc les préférences des utilisateurs. La principale difficulté de cette approche réside dans la nature des observations (les navigations). Comme celles-ci sont de taille variable, on peut en déduire de nombreuses mesures de dissimilarité entre les pages visitées, selon qu’on tient compte de la durée de la visite, du nombre de fois que la page est vue, etc. Dans le contexte de la classification, il est alors difficile de choisir a priori quelle mesure de dissimilarité est la plus adaptée à l’analyse du site. Dans cet article, nous étudions un site web peu volumineux (91 pages), très bien structuré, et au contenu sémantique bien défini. Grâce à cet exemple de référence, nous comparons différentes dissimilarités afin de mesurer leur aptitude à révéler ce contenu sémantique. - 409 - RNTI-E-6 Extraction de relations dans les documents Web Rémi Gilleron ∗ , Patrick Marty ∗ , Marc Tommasi ∗ , Fabien Torre∗ ∗ Projet Mostrare Inria Futurs & Université de Charles de Gaulle - Lille III 59653 Villeneuve d’Ascq CEDEX FRANCE [email protected] Résumé. Nous présentons un système pour l’inférence de programmes d’extraction de relations dans les documents Web. Il utilise les vues textuelle et structurelle sur les documents. L’extraction des relations est incrémentale et utilise des méthodes de composition et d’enrichissement. Nous montrons que notre système est capable d’extraire des relations pour les organisations existantes dans les documents Web (listes, tables, tables tournées, tables croisées). 1 Introduction Le développement d’Internet comme source d’informations a conduit à l’élaboration de programmes nommés wrappers pour collecter de l’information sur les sites Web. Ces programmes sont difficiles à concevoir et à maintenir. Deux approches sont alors envisageables : la première consiste à assister l’utilisateur, c’est le cas du système Lixto (Baumgartner et al., 2001) dans lequel on spécifie le wrapper dans un langage logique avec l’aide d’un environnement visuel ; la seconde consiste à générer automatiquement le wrapper en limitant l’intervention de l’utilisateur à l’annotation des informations à extraire sur quelques documents. Cette approche est fondée sur le fait que la plupart des documents sur Internet sont générés par programme et présentent des régularités exploitables par les méthodes d’apprentissage automatique. Les premiers systèmes d’induction de wrappers n’utilisaient que l’aspect textuel des documents (Hsu et Dung, 1998; Kushmerick, 1997). Avec l’apparition de XML, ces approches textuelles sont devenues insuffisantes. Les systèmes actuels utilisent la structure arborescente des documents du Web (Carme et al., 2005; Cohen et al., 2003; Kosala et al., 2002; Muslea et al., 2003; Thomas, 2003). Nous nous inscrivons dans cette démarche en proposant un système d’induction qui utilise à la fois les vues textuelle et arborescente. Beaucoup de systèmes d’induction de wrappers sont conçus pour des tâches unaires. Un wrapper unaire extrait un ensemble de valeurs, par exemple l’ensemble des noms de produits disponibles sur un site marchand. Un wrapper n-aire extrait les instances d’une relation n-aire, par exemple les couples (nom du produit, prix). Il existe deux approches pour induire un wrapper n-aire : soit combiner n wrappers unaires, soit apprendre directement le wrapper n-aire. La première approche nécessite l’obtention d’un modèle pour la combinaison, ou une intervention de la part de l’utilisateur (Jensen et Cohen, 2001; Muslea et al., 2003), ou encore l’utilisation d’heuristiques. La seconde approche est illustrée par les systèmes WIEN (Kushmerick, 1997) et SOFT MEALY (Hsu et Dung, 1998) utilisant des délimiteurs textuels pour repérer les composantes des tuples et le système LIPX (Thomas, 2003) basé sur la logique du premier ordre. - 415 - RNTI-E-6 Sélection supervisée d’instances : une approche descriptive Sylvain Ferrandiz∗,∗∗ , Marc Boullé∗ ∗ France Télécom R&D, 2, avenue Pierre Marzin, 22300 Lannion [email protected], [email protected], ∗∗ GREYC, Université de Caen, boulevard du Maréchal Juin, BP 5186, 14032 Caen Cedex, Résumé. La classification suivant le plus proche voisin est une règle simple et performante. Sa mise en oeuvre pratique nécessite, tant pour des raisons de coût de calcul que de robustesse, de sélectionner les instances à conserver. La partition de Voronoi induite par les prototypes constitue la structure sous-jacente à cette règle. Dans cet article, on introduit un critère descriptif d’évaluation d’une telle partition, quantifiant le compromis entre nombre de cellules et discrimination de la variable cible entre les cellules. Une heuristique d’optimisation est proposée, tirant partie des propriétés des partitions de Voronoi et du critère. La méthode obtenue est comparée avec les standards sur une vingtaine de jeux de données de l’UCI. Notre technique ne souffre d’aucun défaut de performance prédictive, tout en sélectionnant un minimum d’instances. De plus, elle ne surapprend pas. 1 Introduction La classification supervisée constitue un problème d’apprentissage classique. On dispose dans ce cas, en plus des variables descriptives (ou endogènes), d’une variable cible (ou exogène). En phase d’exploration des données, c’est la dépendance de la variable cible vis-à-vis des variables descriptives qu’on vise à expliciter. En phase de modélisation, le but est de fournir la meilleure prédiction possible pour toute nouvelle instance à classifier. Quelle que soit la situation, la connaissance est à extraire d’un échantillon de N instances étiquetées. Une méthode de classification usuelle est la règle de classification suivant le plus proche voisin introduite par Fix et Hodges (1951). Elle consiste à attribuer à une instance l’étiquette de l’instance la plus proche parmi celles constituant l’échantillon. La mise en œuvre de cette modélisation soulève deux questions fondamentales : – Quelle mesure de similitude employer ? – Quelles instances de l’échantillon conserver ? La première question couvre plusieurs champs d’investigation : gestion de la présence jointe de variables continues et symboliques, normalisation des variables continues, prétraitement des variables symboliques, pondération de la contribution des variables, etc. Dans le cas continu, l’usage a consacré l’emploi de la distance euclidienne et des distances L p (p ≥ 1) - 421 - RNTI-E-6 Classification de documents XML à partir d’une représentation linéaire des arbres de ces documents Anne-Marie Vercoustre∗ , Mounir Fegas∗ Yves Lechevallier∗ , Thierry Despeyroux∗ ∗ INRIA Rocquencourt B.P. 105 78153 Le Chesnay Cedex France Pré[email protected], http://www-rocq.inria.fr Résumé. Cet article présente un nouveau modèle de représentation pour la classification de documents XML. Notre approche permet de prendre en compte soit la structure seule, soit la structure et le contenu de ces documents. L’idée est de représenter un document par l’ensemble des sous-chemins de l’arbre XML de longueur comprise entre n et m, deux valeurs fixées a priori. Ces chemins sont ensuite considérés comme de simples mots sur lesquels on peut appliquer des méthodes standards de classification, par exemple K-means. Nous évaluons notre méthode sur deux collections: la collection INEX et les rapports d’activité de l’INRIA. Nous utilisons un ensemble de mesures bien connues dans le domaine de la recherche d’information lorsque les classes sont connues a priori. Lorsqu’elles ne sont pas connues, nous proposons une analyse qualitative des résultats qui s’appuie sur les mots (chemins) les plus caractéristiques des classes générées. 1 Introduction XML est devenu un standard pour la représentation et l’échange de données. Le nombre de documents XML échangés augmente de plus en plus, et la quantité d’information accessible aujourd’hui est telle que les outils, même sophistiqués, utilisés pour rechercher l’information dans les documents ne suffisent plus. D’autres outils permettant de synthétiser ou classer de larges collections de documents sont devenus indispensables. Dans ce contexte, de nombreux travaux proposent des méthodes de classification, supervisées ou non, pour organiser ou analyser de larges collections de documents XML. (Denoyer et al. (2003)) combinent plusieurs fonctions d’affectation (classifiers) pour classer des documents XML multimédia, (Despeyroux et al. (2005)) identifient, pour une collection homogène donnée, les types d’éléments XML les plus pertinents pour un objectif de classification. La similarité entre documents peut être définie en étendant le modèle vectoriel pour tenir compte de la structure (Doucet et Ahonen-Myka (2002), Yi et Sundaresan (2000)), ou seulement à partir de la structure d’arbre des documents, selon l’objectif visé ou l’hétérogénéité de la collection. Ainsi, la similarité structurelle peut être basée sur la distance entre arbres (Francesca et al. (2003), Nierman et Jagadish (2002), Dalamagas et al. (2004)), ou sur la détection de - 433 - RNTI-E-6 Carte auto-organisatrice probabiliste sur données binaires Rodolphe Priam, Mohamed Nadif LITA, Université de Metz Ile du Saulcy, 57045 Metz Résumé. Les méthodes factorielles d’analyse exploratoire statistique définissent des directions orthogonales informatives à partir d’un ensemble de données. Elles conduisent par exemple à expliquer les proximités entre individus à l’aide d’un groupe de variables caractéristiques. Dans le contexte du datamining lorsque les tableaux de données sont de grande taille, une méthode de cartographie synthétique s’avère intéressante. Ainsi une carte auto-organisatrice (SOM) est une méthode de partitionnement munie d’une structure de graphe de voisinage -sur les classes- le plus souvent planaire. Des travaux récents sont développés pour étendre le SOM probabiliste Generative Topographic Mapping (GTM) aux modèles de mélanges classiques pour données discrètes. Dans ce papier nous présentons et étudions un modèle génératif symétrique de carte auto-organisatrice pour données binaires que nous appelons Bernoulli Aspect Topological Model (BATM). Nous introduisons un nouveau lissage et accélérons la convergence de l’estimation par une initialisation originale des probabilités en jeu. 1 Introduction La visualisation des corrélations et similarités principales dans un échantillon de données est l’objectif des méthodes factorielles (Lebart et al., 1984). Ces méthodes cherchent souvent des directions informatives orthogonales dans un nuage de données. Ces directions concentrent l’essentiel de la variance projetée car l’inertie est porteuse de sens. Une décomposition pertinente de l’inertie sur des plans de projection révèle quels individus sont similaires et quelles variables sont dépendantes. Bien que ces méthodes soient très pertinentes, les grands échantillons de données demandent de nouvelles méthodes efficaces pour leur analyse. Dans ce contexte, les cartes de Kohonen (1997) sont connues dans le domaine de l’analyse exploratoire des données pour généraliser les méthodes factorielles telles que la méthode d’Analyse en Composantes Principales ou ACP (Lebart et al., 1984) pour les données continues. Plus généralement, les cartes auto-organisatrices ou SOM (Kohonen, 1997) sont des méthodes de classification avec une contrainte de voisinage sur les classes conférant un sens topologique à la partition finale. Le GTM ou Generative Topographic Mapping (Bishop et al., 1998) est une carte auto-organisatrice probabiliste avec des contraintes sur les moyennes d’un mélange gaussien pour données continues, mais ce modèle est inopérant pour des données catégorielles ou binaires. Des modèles récents (Girolami, 2001; Kabán et Girolami, 2001; Tipping, 1999) ont été proposés pour étendre le GTM aux modèles de mélanges classiques pour données discrètes. Hofmann et Puzicha (1998) ont par contre proposé l’approche du modèle symétrique à aspects - 445 - RNTI-E-6 Classification d’un tableau de contingence et modèle probabiliste Gérard Govaert ∗,Mohamed Nadif ∗∗ ∗ Heudiasyc, UMR CNRS 6599, Université de Technologie de Compiègne, BP 20529, 60205 Compiègne Cedex, France [email protected] ∗∗ LITA, Université de Metz, Ile du Saulcy, 57045 Metz Cedex, France [email protected] Résumé. Ces dernières années, la classification croisée ou classification par blocs, c’est-à-dire la recherche simultanée d’une partition des lignes et d’une partition des colonnes d’un tableau de données, est devenue un outil très utilisé en fouille de données. Dans ce domaine, l’information se présente souvent sous forme de tableaux de contingence ou tableaux de co-occurrence croisant les modalités de deux variables qualitatives. Dans cet article, nous étudions le problème de la classification croisée de ce type de données en nous appuyant sur un modèle de mélange probabiliste. En utilisant l’approche vraisemblance classifiante, nous proposons un algorithme de classification croisée basé sur la maximisation alternée de la vraisemblance associée à deux mélanges multinomiaux classiques et nous montrons alors que sous certaines contraintes restrictives, on retrouve les critères du Chi2 et de l’information mutuelle. Des résultats sur des données simulées et des données réelles illustrent et confirment l’efficacité et l’intérêt de cette approche. 1 Introduction La classification automatique, comme la plupart des méthodes d’analyse de données peut être considérée comme une méthode de réduction et de simplification des données. Dans le cas où les données mettent en jeu deux ensembles I et J, ce qui est le cas le plus fréquent, la classification automatique en ne faisant porter la structure recherchée que sur un seul des deux ensembles, agit de façon dissymétrique et privilégie un des deux ensembles, contrairement par exemple à l’analyse factorielle des correspondances qui obtient simultanément des résultats sur les deux ensembles ; il est alors intéressant de rechercher simultanément une partition des deux ensembles. Ce type d’approche a suscité récemment beaucoup d’intérêt dans divers domaines tels que celui des biopuces où l’objectif est de caractériser des groupes de gènes par des groupes de conditions expérimentales ou encore celui de l’analyse textuelle où l’objectif est de caractériser des classes de documents par des classes de mots. Notons que dans ce domaine, les données se présentent généralement sous forme d’un tableau de contingence où chaque cellule correspond au nombre d’occurrences d’un mot dans un document. - 457 - RNTI-E-6 Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky∗ , Bruno Defude∗∗ , Georges Hébrail∗ ∗ GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux 46 rue Barrault, 75634 Paris Cedex 13 Email: [email protected], [email protected] ∗∗ GET-INT Département Informatique 9 rue Charles Fourier, 91011 Évry cedex Email: [email protected] Résumé. Les systèmes pair-à-pair (peer-to-peer, P2P, égal-à-égal) se sont popularisés ces dernières années avec les systèmes de partage de fichiers sur Internet. De nombreuses recherches concernant l’optimisation de la localisation des données ont émergé et constituent un axe de recherche très actif. La prise en compte de la sémantique du contenu des pairs dans le routage des requêtes permet d’améliorer considérablement la localisation des données. Nous nous concentrons sur l’approche PlanetP, faisant usage de la notion de filtre de Bloom, qui consiste à propager une signature sémantique des pairs (filtres de Bloom) à travers le réseau. Nous présentons cette approche et en proposons une amélioration : la création de filtres de Bloom dynamiques, dans le sens où leur taille dépend de la charge des pairs (nombre de documents partagés). 1 Introduction Pour la recherche, le partage et l’échange de ressources (données, programmes, services), le modèle pair-à-pair constitue une alternative au modèle client/serveur. Les pairs peuvent à la fois offrir (rôle serveur) et demander (rôle client) des ressources. Il existe de nombreuses architectures des systèmes pair-à-pair, se basant sur des techniques différentes de localisation des données, qui se traduisent par des méthodes différentes de routage des requêtes. Pour améliorer la localisation d’une ressource recherchée par un pair, on ajoute de l’information aux tables de routage des requêtes : il peut s’agir du contenu des pairs, de l’historique de leurs requêtes, ou des concepts qu’ils traitent... La difficulté rencontrée lors de l’intégration de la sémantique du contenu des pairs, est de déterminer un espace de représentation commun à tous les pairs du réseau. Quelques systèmes tels que SON (Semantic Overlay Network)(Crespo et al., 2002) utilisent des concepts définis à priori pour résoudre ce problème. Mais cette solution ne s’applique qu’à un domaine précis. - 463 - RNTI-E-6 Fouille de données dans les systèmes Pair-à-Pair pour améliorer la recherche de ressources Florent Masseglia∗ , Pascal Poncelet∗∗ , Maguelonne Teisseire∗∗∗ ∗ INRIA Sophia Antipolis, Axis Project-Team, BP93 06802 Sophia Antipolis - France [email protected] ∗∗ EMA-LGI2P/Site EERIE, Parc Scientifique Georges Besse, 30035 Nîmes Cedex, France {Pascal.Poncelet}@ema.fr ∗∗∗ LIRMM UMR CNRS 5506, 161 Rue Ada, 34392 Montpellier cedex 5 - France {teisseire}@lirmm.fr Résumé. La quantité de sources d’information disponible sur Internet fait des systèmes d’échanges pair-à-pair (P2P) un genre nouveau d’architecture qui offre à une large communauté des applications pour partager des fichiers, des calculs, dialoguer ou communiquer en temps réel. Dans cet article, nous proposons une nouvelle approche pour améliorer la localisation d’une ressource sur un réseau P2P non structuré. En utilisant une nouvelle heuristique, nous proposons d’extraire des motifs qui apparaissent dans un grand nombre de noeuds du réseau. Cette connaissance est très utile pour proposer aux utilisateurs des fichiers souvent demandés (en requête ou en téléchargement) et éviter une trop grande consommation de la bande passante. 1 Introduction La quantité de sources d’information disponible sur Internet fait des systèmes d’échanges pair-à-pair (P2P) un genre nouveau d’architecture qui offre à une large communauté des applications pour partager des fichiers, partager des calculs, dialoguer ou communiquer en temps réel, etc (Miller (2001), Ngan et al. (2003)). Les applications P2P fournissent également une bonne infrastructure pour les opérations sur de grandes masses de données ou avec de très nombreux calculs, comme la fouille de données. Dans ce cadre, nous considérons une nouvelle approche pour améliorer la localisation de ressources dans un environnement P2P non structuré selon deux aspects principaux pour extraire des comportements fréquents : 1. L’ordre des séquences entre les actions réalisées sur les nœuds (requête ou téléchargement) est pris en compte pour améliorer les résultats. 2. Les résultats des calculs distribués sont maintenus via un “Pair centralisé” pour réduire le nombre de communications entre les pairs connectés. Connaître l’ordre des séquences des actions réalisées sur les pairs offre une connaissance importante. Par exemple, en examinant les actions réalisées, nous pouvons savoir que pour 77% des nœuds pour lesquels il y a une requête concernant "Mandriva Linux", le fichier "Mandriva Linux 2005 CD1 i585-Limited-Edition-Mini.iso" est choisi et téléchargé. Cette requête - 469 - RNTI-E-6 Une approche simple inspirée des réseaux sociaux pour la hiérarchisation des systèmes autonomes de l'Internet Fabrice Clérot*, Quang Nguyen** * France Télécom Division R&D, 2 avenue Pierre Marzin, 22307 Lannion Cedex, France [email protected] ** France Télécom Division R&D, 38 rue du Général Leclerc, 92794 Issy-les-Moulineaux Cedex, France [email protected] Résumé. Le transit des flux d'information dans le réseau Internet à l'échelle mondiale est régi par des accords commerciaux entre systèmes autonomes, accords qui sont mis en œuvre via le protocole de routage BGP. La négociation de ces accords commerciaux repose implicitement sur une hiérarchie des systèmes autonomes et la position relative de deux systèmes débouche sur un accord de type client/fournisseur (un des systèmes, le client, est nettement mieux classé que l'autre, le fournisseur, et le client paye le fournisseur pour le transit des flux d'information) ou sur un accord de type "peering" (transit gratuit du trafic entre les deux systèmes). En dépit de son importance, il n'existe pas de hiérarchie officielle de l'Internet (les clauses commerciales des accords entre systèmes autonomes ne sont pas nécessairement publiques) ni de consensus sur la façon d'établir une telle hiérarchie. Nous proposons une heuristique simple inspirée de la notion de "centralité spectrale" issue de l'analyse des réseaux sociaux pour analyser la position relative des systèmes autonomes de l'Internet à partir des informations des seules informations de connectivité entre systèmes autonomes. 1 Introduction Le transit des flux d'information dans le réseau Internet à l'échelle mondiale est régi par des accords commerciaux entre systèmes autonomes. La négociation de ces accords commerciaux repose implicitement sur une hiérarchie des systèmes autonomes et la position relative de deux systèmes débouche sur un accord de type client/fournisseur (un des systèmes, le client, est nettement mieux classé que l'autre, le fournisseur, et le client paye le fournisseur pour le transit des flux d'information) ou sur un accord de type "peering" (transit gratuit du trafic entre les deux systèmes). Les politiques de routage déduites de ces accords commerciaux sont ensuite mises en œuvre via le protocole de routage BGP (Border Gateway Protocol). Ainsi, l'établissement des routes à l'échelle mondiale obéit à des règles d'efficacité économique déduites d'une hiérarchisation entre systèmes autonomes (une route ne peut pas, par exemple, "descendre" d'un fournisseur à son client pour "remonter" vers un autre fournisseur : quel client accepterait de - 475 - RNTI-E-6 Recherche de sous-structures fréquentes pour l’intégration de schémas XML Federico Del Razo López∗ , Anne Laurent∗ Pascal Poncelet∗∗, Maguelonne Teisseire∗ ∗ LIRMM - Université Montpellier II, 161 rue Ada 34392 Montpellier cedex 5 {delrazo,laurent,teisseire}@lirmm.fr ∗∗ EMA - LGI2P/Site EERIE, Parc Georges Besse 30035 Nîmes cedex 1 [email protected] Résumé. La recherche d’un schéma médiateur à partir d’un ensemble de schémas XML est une problématique actuelle où les résultats de recherche issus de la fouille de données arborescentes peuvent être adoptés. Dans ce contexte, plusieurs propositions ont été réalisées mais les méthodes de représentation des arborescences sont souvent trop coûteuses pour permettre un véritable passage à l’échelle. Dans cet article, nous proposons des algorithmes de recherche de sous-schémas fréquents basés sur une méthode originale de représentation de schémas XML. Nous décrivons brièvement la structure adoptée pour ensuite détailler les algorithmes de recherche de sous-arbres fréquents s’appuyant sur une telle structure. La représentation proposée et les algorithmes associés ont été évalués sur différentes bases synthétiques de schémas XML montrant ainsi l’intérêt de l’approche proposée. 1 Introduction Étant donné l’explosion du volume de données disponibles sur Internet, il devient indispensable de proposer de nouvelles approches pour faciliter l’interrogation de ces grandes masses d’information afin de retrouver les informations souhaitées. L’une des conditions sine qua non pour permettre d’interroger des données hétérogènes est de disposer d’un (ou de plusieurs) “schéma général” que l’utilisateur pourra interroger et à partir duquel les données sources pourront être directement accédées. Malheureusement les utilisateurs ne disposent pas de moyen de connaître les modèles sous-jacents des données qu’ils souhaitent accéder et l’un des challenges dans ce contexte est donc de fournir des outils pour extraire, de manière automatique, ces schémas médiateurs. Un schéma médiateur est alors considéré comme une interface permettant à l’utilisateur l’interrogation des sources de données : l’utilisateur pose ses requêtes de manière transparente et n’a pas à tenir compte de l’hétérogénéité et de la répartition des données. XML étant maintenant prépondérant sur Internet, la recherche de moyens d’intégration de tels schémas est un domaine de recherche actif. Si les recherches permettant l’accès aux données, quand un schéma d’interrogation est connu, sont maintenant bien avancées (Xylème, 2001), les recherches concernant la définition automatique d’un schéma médiateur restent incomplètes et non satisfaisantes (Tranier et al., 2004). Il est alors intéressant de considérer les - 487 - RNTI-E-6 Vers l’extraction de motifs rares Laszlo Szathmary∗ , Sandy Maumus∗,∗∗ , Pierre Petronin∗∗∗ Yannick Toussaint∗ , Amedeo Napoli∗ ∗ LORIA, 54506 Vandoeuvre-lès-Nancy {szathmar, maumus, yannick, napoli}@loria.fr ∗∗ INSERM U525, 54000 Nancy [email protected] ∗∗∗ ENSAI, 35172 Bruz Cedex [email protected] Résumé. Un certain nombre de travaux en fouille de données se sont intéressés à l’extraction de motifs et à la génération de règles d’association à partir de ces motifs. Cependant, ces travaux se sont jusqu’à présent, centrés sur la notion de motifs fréquents. Le premier algorithme à avoir permis l’extraction de tous les motifs fréquents est Apriori mais d’autres ont été mis au point par la suite, certains n’extrayant que des sous-ensembles de ces motifs (motifs fermés fréquents, motifs fréquents maximaux, générateurs minimaux). Dans cet article, nous nous intéressons aux motifs rares qui peuvent également véhiculer des informations importantes. Les motifs rares correspondent au complémentaire des motifs fréquents. A notre connaissance, ces motifs n’ont pas encore été étudiés, malgré l’intérêt que certains domaines pourraient tirer de ce genre de modèle. C’est en particulier le cas de la médecine, où par exemple, il est important pour un praticien de repérer les symptômes non usuels ou les effets indésirables exceptionnels qui peuvent se déclarer chez un patient pour une pathologie ou un traitement donné. 1 Introduction La fouille de données a pour objectif d’identifier des relations cachées entre les motifs de grandes bases de données. La recherche de règles d’association est une des tâches les plus importantes de la fouille de données. L’extraction de règles d’association est un domaine de l’extraction de connaissances dans les bases de données (ECBD), qui se définit comme un procédé pour trouver des motifs valides, utiles et compréhensibles dans les données (Fayyad et al., 1996). Une règle d’association est une proposition de la forme “80% des étudiants qui suivent le cours Introduction à Unix suivent également Programmation en C” (Han et Kamber, 2001). Jusqu’à présent, la littérature s’est intéressée à la recherche des règles d’association valides fréquentes (c’est-à-dire les règles d’association avec un support et une confiance suffisamment élevés). Cela requiert d’abord l’extraction des motifs fréquents de l’ensemble des données. Le problème de l’extraction des motifs fréquents était au départ un sous-problème de la fouille de - 499 - RNTI-E-6 Approche entropique pour l’analyse de modèle de chroniques Nabil Benayadi*, Marc Le Goc*, Philippe Bouché*. *Laboratoire des Sciences de l'Information et des Systèmes - LSIS UMR CNRS 6168 - Université Paul Cézanne Avenue Escadrille Normandie Niemen13397 Marseille Cedex 20 – France {nabil.benayadi, marc.legoc, philippe.bouche}@lsis.org Résumé. Cet article propose d’utiliser l’entropie informationnelle pour analyser des modèles de chroniques découverts selon une approche stochastique (Bouché et Le Goc, 2005). Il décrit une adaptation de l’algorithme TemporalID3 (Console et Picardi, 2003) permettant de découvrir des modèles de chroniques à partir d’un ensemble d’apprentissage contenant des séquences d’occurrences d’événements discrets. Ces séquences représentent des suites d’alarmes générées par un système à base de connaissance de monitoring et de diagnostic de systèmes dynamiques. On montre sur un exemple que l’approche entropique complète l’approche stochastique en identifiant les classes d’événements qui contribuent le plus significativement à la prédiction d’une occurrence d’une classe particulière. 1 Introduction La découverte de connaissances temporelles est un enjeu majeur pour le diagnostic de systèmes dynamiques (Das et al., 1998), (Dousson et Vu Duong, 1999), (Keogh et Smyth, 1997), (Agrawal et al., 1995), (Faloutsos et al, 1994). Récemment, Bouché P. et Le Goc M. (2005) ont proposés une approche stochastique pour découvrir des modèles de chroniques à partir d’une séquence d’événements discrets. Nos travaux visent à compléter cette approche pour identifier les classes d’événements contribuant le plus significativement à la prédiction de l’occurrence d’une classe particulière. Les arbres de décisions (Breiman, 1984), (Murthy, 1998), sont largement utilisés pour classer des séquences de données (Kadous, 1999), (Geurts, 2001), (Drucker et Hubner, 2002), (Rodriguez et Alonso, 2004). Récemment, l’algorithme ID3 (Quinlan, 1986) a été adapté pour construire des arbres temporels de décision (Console et al., 2003) à partir d’un ensemble de situations. Cette adaptation montre que l’entropie informationnelle permet d’identifier les variables contribuant le plus significativement à une prise de décision. Nous proposons donc d’utiliser un critère entropique pour analyser des modèles de chroniques. Après un bref rappel sur les arbres temporels de décision, cet article présente une adaptation de l’algorithme proposée par Console pour la déduction de modèles de chroniques à partir d’un ensemble de séquences d’occurrences d’événements discrets et montre sur un exemple comment l’approche entropique peut être utilisée pour compléter l’approche stochastique. - 511 - RNTI-E-6 La fouille de graphes dans les bases de données réactionnelles au service de la synthèse en chimie organique Frédéric Pennerath∗,∗∗ , Amedeo Napoli∗∗ ∗ Supélec, Campus de Metz, 2 rue Edouard Belin 57070 Metz [email protected] ∗∗ Equipe Orpailleur, Loria Campus Scientifique, BP 239, 54506 Vandoeuvre-lès-Nancy Cedex [email protected] Résumé. La synthèse en chimie organique consiste à concevoir de nouvelles molécules à partir de réactifs et de réactions. Les experts de la synthèse s’appuient sur de très grandes bases de données de réactions qu’ils consultent à travers des procédures d’interrogation standard. Un processus de découverte de nouvelles réactions leur permettrait de mettre au point de nouveaux procédés de synthèse. Cet article présente une modélisation des réactions par des graphes et introduit une méthode de fouille de ces graphes de réaction qui permet de faire émerger des motifs génériques utiles à la prédiction de nouvelles réactions. Enfin l’article fait le point sur l’état actuel de ce travail de recherche en présentant le modèle général dans lequel s’intégrera un nouvel algorithme de fouille de réactions chimiques. 1 Introduction Le problème auquel s’intéresse cet article est la découverte de nouvelles familles de réactions chimiques à partir de bases de données de réactions. Cet article montre en quoi ce problème peut se reformuler en un problème particulier de fouille de graphes. La découverte de nouvelles réactions présente un grand intérêt pour la synthèse en chimie organique, discipline dont le but est la conception de molécules complexes à partir de composants chimiques usuels et de réactions. En effet, plus un expert de la synthèse a de réactions à sa disposition, plus il peut créer de nouveaux produits à partir d’un ensemble donné de molécules et plus il peut optimiser le plan de synthèse d’une molécule cible donnée. Par ailleurs, la découverte de dizaines de millions de réactions a vite rendu leur recensement nécessaire à travers la constitution de très grandes bases de données de réactions. Ces bases de données réactionnelles sont plus particulièrement exploitées par les experts de la rétrosynthèse. Cette méthode consiste à inférer le plan de synthèse d’une molécule cible en recherchant les réactions qui permettent d’aboutir à la cible, puis à réitérer récursivement le processus en prenant pour cibles les réactifs des réactions ainsi trouvées et ce jusqu’à l’obtention de réactifs de départ jugés ordinaires. La rétrosynthèse peut donc tirer un excellent parti de tout modèle prédictif capable de propo- - 517 - RNTI-E-6 # ( 17 ( A = !: " = ! $ E $ ! " : ! : A " A : ! = A ! ! (; # : = A B !! = : : ! ! : $!: B A (; = !! $ : ; = ! : : : A G& " : !: : ! !: ! (: ! : : A ! & C4' 2333' &D A : -666' ! : 5 A ; :! ! A F A ! : ! : & : & #%# ' & # * ' , 4% > ( : ? # )> .8307 ? $ * $@ &3'- 0627 13 19*&3'- 0627 13 7. !: ; <! ; ( A;= A ! : ! "#$! % ) +, -.- + ( / % 01230 45 $ * $&3'1 667.02 80*&3'1 667.02 69 !: ; < = ;= ( "! ! 5 ; ! ) !! A !! : : B !! A = 233-' &4 4 :! & ! = : ! = : -6.6'; C ! : ! !: = : : 5 - 529 - ( ! : = : ! : : " B : ; : ; ! ; ) ) ! ) ; ; : $ ) 2330'; ) -686' & ) ( ; , : ! ! =: ! ( ( ( & B ) ; ) RNTI-E-6 !" # $ $ ' ( ) !( "! ( )) ! " ( "+ )) (( . (% ' ( ) !( " "! ( % ' ( ( . ( (( 1 % % % &$ &$ ( % % !* " "+ " "+ ,) " ( ( ) ( ) (! ( ) (! ( ) (!/) ( ( ( ( " $$! ( ) ) ( ! (( () ! ( ( ( ( ( ( (" "! ( " !* " ) )) / " "! ( " ( ( 0 + )) * (( 1 ) "! ( ) 2 ' ( ( ( " )( ) 2 ' ( ( ) 2 ( "!) " ( "+ ( "2 ) / #) 1 % +* ) *2( ( ( 3 / "! ) ( ( +* ) *2( "+ "!) " " ( ( ( (% (" # ( ," ! ( () ( " !( ( 0! 1 ( %%%* ) *2( ( $ (( % 4 !* " .! ! ( "2 ) " ) !" ) ( ( ( ( / $ ( ) 0 5 ) ( ) $ 1+ !* " ) ( ( "2 ( ()! (!( ) 64 !* " ) 0 5 (! !. ) + )) (( . ( ) (! 6 0 ( " " ( ( " "! ( !) !( ) $$ ! ( !) ( !* " 6 )) " ( !) ( ( / ( " $$! (1 ( (% 7 #( " 2( ( ( !* " ( "+ " "+ " "! ( % ( !* " ( ( ) ( ( ( ) " ( ) (! ,8 (( 9:; - ,< 9:;=- ,4 . $$ 9::9,> 9:: - , * 9::=) " ( ) (! , * 9::;- , -% (( !* " "+ " "+ ( " "! ( ) " .! ! " ( "2 ( / $ ( ) " "+ )) (( . ( ) (! ( ) (! 0 (% + 3 $ " ( " $ ) ) .! ! " ( "+ ( " "! ( ) ( " ( "+ )) (( . ( ) (! ( ) (! ) ( ) ( "+ ( (, !1 ( ( 1 (-% 7 "! (( " ( ) (! 0 (% "! - 541 - RNTI-E-6 a Extension de l’algorithme CURE aux fouilles de données volumineuses Jerzy Korczak et Aurélie Bertaux LSIIT, Bd. Sébastien Brant, 67412 Illkirch cedex France <korczak, bertaux>@lsiit.u-strasbg.fr Dans ce poster, nous allons proposer une démarche pour découvrir le fonctionnement du cerveau en se basant sur un concept de fouille de données. Ce concept peut se définir comme l’extraction de connaissances potentiellement exploitables à partir d’images IRMf. C’est une approche interactive qui intègre directement l’expert-médecin dans le processus de découverte et d’apprentissage de concepts pour mettre en évidence les zones fonctionnelles du cerveau et leur organisation. CURE selon Guha et al. (1998) est un algorithme de classification, mais il est robuste face aux outliers et permet d’identifier des groupes non sphériques et d’une grande variance de taille. CURE réalise ceci en représentant chaque groupe par un nombre fixé de points qui sont générés en sélectionnant des points bien dispersés du groupe, et ensuite rapprochés du point moyen au centre du groupe en le multipliant par un coefficient. Le fait d’avoir plus d’un point représentatif permet à CURE de bien s’ajuster à la géométrie des clusters non sphériques et l’opération de rapprochement de ses points permet de diminuer les effets des outliers. Pour manipuler de grandes volumes de données, CURE emploie une combinaison d’échantillonnage aléatoire et de partitionnement. Un échantillon tiré de l’ensemble des données et tout d’abord partitionné et chaque partition est partiellement mise en cluster. Chacun de ces groupes partiels sera à nouveau regroupé lors d’une seconde passe de l’algorithme pour extraire les clusters désirés. Une force de CURE, selon les auteurs, est de pouvoir s’adapter à de grandes bases de données pour un algorithme hiérarchique. L’implémentation de la version originale a démontré certaines faiblesses de performances de la classification de signaux tels que ceux de l’IRMf est très lourde car il s’agit de voxels à laquelle s’ajoute la quatrième dimension de leur évolution dans le temps. Pour réduire le temps de classification, nous avons proposé quelques améliorations. Tirage aléatoire. Un tirage aléatoire des données est utilisé ayant pour vertu d’améliorer la qualité de la classification car les signaux sont enregistrés selon l’ordre dans lequel l’IRM les balayent, ce qui fait que deux signaux qui sont issus de zones voisines peuvent être séparés lors de l’enregistrement. En effet, toute une couche est balayée dans un sens avant de passer à la couche inférieure. Echantillonnage. Cela permet de déterminer les classes, avec moins de signaux. Ce cas est extrêment important car CURE fonctionnant de manière hiérarchique plus le nombre de signaux est important, plus il génère de classes et plus les calculs entre toutes les classes prennent du temps et des ressources. - 547 - RNTI-E-6 Extension de l’algorithme CURE aux fouilles de données volumineuses Partitionnement. Sur cette même constation, un système de rechargement en signaux a été réalisé. CURE classant les clusters par ordre croissant de leur distance au cluster qui leur est le plus proche, impose donc un calcul de distance entre chaque paire de clusters, et pour chaque paire, leur distance est la distance minimale entre toutes les paires des signaux représentatifs des deux classes. Nous avons déterminé expérimentalement un nombre fixe maximum de clusters à traiter ensemble. Pas à pas l’algorithme fusionne deux à deux les clusters jusqu’à atteindre un seuil fixé à partir duquel nous effectuons un rechargement en nouveaux clusters pour réatteindre le nombre maximal fixé. Ce procédé est répété jusqu’à épuisement du nombre de signaux. a La plateforme d’expérimentation de fouille d’images IRMf a été développée par Korczak et al. (2005) comprenant des algorithmes de classification de signaux IRMf et permettant une fouille visuelle interactive en temps quasi réel. Plusieurs algorithmes ont déjà été implémentés notamment : K-means, LGB, SOM et GNG. L’algorithme CURE a été testé sur des données simples bi-dimmensionnelles et sur des données synthétiques et comparés aux autres algorithmes déjà implémentés suivant les protocoles décrits par Hommet (2005). Les classifications ont été réalisées par variation respective des paramètres que sont le nombre de classes, le rapport de dilution des voxels activés et le rapport signal sur bruit. Si sur les données simples, CURE obtient une très bonne performance cependant, il s’avère que sur les données synthétiques, il présente des performances moyennes, mais reste de bonne robustesse. Cette constatation ne concerne que des données synthétiques ne lui permettant pas de mettre en avant ses qualités d’adaptation à des clusters d’une morphologie non sphérique. En tant qu’algorithme hiérarchique, CURE est extrêment gourmand en ressources. Nos améliorations ont réduit la complexité algorithmique et en conséquence ont réduit les temps de calculs. Selon la simulation on peut envisager une utilisation d’algorithme CURE étendue avec des contraintes de temps réel. Références Guha, R. Rastogi, K. Shim (1998). CURE : An Efficient Clustering Algorithm for Large Databases. SIGMOD 1998, pages 73-84. Hommet, J (2005). Fouille interactive de séquences d’images 3D d’IRMf. Rapport de LSIIT, CNRS, Illkirch. Korczak, J., C. Scheiber, J. Hommet, N. Lachiche (2005). Fouille interactive en temps réel de séquences d’images IRMf. Numéro Spécial RNTI. Summary In this poster, an extended unsupervised data mining algorithm CURE is briefly described and evaluated. CURE is used to extract active voxels from brain images and is compared with several other unsupervised algorithms on fMRI images. RNTI-E-6 - 548 - Comparaison des mesures d’intérêt de règles d’association : une approche basée sur des graphes de corrélation Xuan-Hiep Huynh∗ , Fabrice Guillet∗ , Henri Briand∗ ∗ LINA CNRS FRE 2729 - Ecole polytechnique de l’université de Nantes La Chantrerie, BP 50609, 44306 Nantes cedex 3, France {xuan-hiep.huynh,fabrice.guillet,henri.briand}@univ-nantes.fr Résumé. Le choix des mesures d’intérêt (MI) afin d’évaluer les règles d’association est devenu une question importante pour le post-traitement des connaissance en ECD. Dans la littérature, de nombreux auteurs ont discuté et comparé les propriétés des MI afin d’améliorer le choix des meilleures mesures. Cependant, il s’avère que la qualité d’une règle est contextuelle : elle dépend à la fois de la structure de données et des buts du décideur. Ainsi, certaines mesures peuvent être appropriées dans un certain contexte, mais pas dans d’autres. Dans cet article, nous présentons une nouvelle approche contextuelle mise en application par un nouvel outil, ARQAT, permettant à un décideur d’évaluer et de comparer le comportement des MI sur ses jeux de données spécifiques. Cette approche est basée sur l’analyse visuelle d’un graphe de corrélation entre des MI objectives. Nous employons ensuite cette approche afin de comparer et de discuter le comportement de trente-six mesures d’intérêt sur deux ensembles de données a priori très opposés : un premier dont les données sont fortement corrélées et un second aux données faiblement corrélées. Alors que nous attendions des différences importantes entre les graphes de corrélation de ces deux jeux d’essai, nous avons pu observer des stabilités de corrélation entre certaines MI qui sont révélatrices de propriétés indépendantes de la nature des données observées. Ces stabilités sont récapitulées et analysées. 1 Introduction Dans la dernière décennie, la conception de mesures d’intérêt adaptées à l’évaluation de la qualité des règles d’association est devenue un défi important dans le contexte d’ECD. Bien que le modèle des règles d’association (Agrawal et al., 1993) permette une extraction non supervisée de tendances implicatives dans les données, il produit malheureusement de grandes quantités de règles, ce qui les rend inexploitables sans la mise en oeuvre d’une étape lourde de post-traitement. Le post-traitement doit aider l’utilisateur (un décideur ou un analyste) à choisir les meilleures règles en fonction de ses préférences. Une manière de faciliter la tâche de choix de l’utilisateur consiste à lui offrir des indicateurs numériques sur la qualité des règles d’association : des mesures d’intérêt adaptées à ses buts et aux données étudiées. Dans les travaux précurseurs sur les règles d’association (Agrawal et al., 1993; Agrawal et Srikant, 1994) , deux premières mesures statistiques sont introduites : le support et la confiance. - 549 - RNTI-E-6 Une comparaison de certains indices de pertinence des règles d'association Marie Plasse* **, Ndeye Niang* Gilbert Saporta*, Laurent Leblond** * CNAM Laboratoire CEDRIC 292 Rue St Martin Case 441 Paris Cedex 03 [email protected], [email protected] ** PSA Peugeot Citroën 45 rue Jean-Pierre Timbaud 78307 Poissy Cedex [email protected], [email protected] Résumé. Cet article propose une comparaison graphique de certains indices de pertinence pour évaluer l'intérêt des règles d'association. Nous nous sommes appuyés sur une étude existante pour sélectionner quelques indices auxquels nous avons ajouté l'indice de Jaccard et l'indice d'accords désaccords (IAD). Ces deux derniers nous semblent plus adaptés pour discriminer les règles intéressantes dans le cas où les items sont des événements peu fréquents. Une application est réalisée sur des données réelles issues du secteur automobile. 1 Introduction Notre étude a été motivée par le problème suivant : nous disposons de données concernant plusieurs dizaines de milliers d'individus décrits par quelques milliers d'attributs binaires assez rares et nous recherchons les éventuels liens entre certains attributs ou groupes d'attributs. La similitude de nos données avec des données de transactions nous a naturellement amenés à utiliser un algorithme de recherche de règles d'association. Cependant, le nombre élevé d'attributs conjugué à leur rareté conduit à un très grand nombre de règles dont les supports sont très faibles et les confiances très élevées. C'est pourquoi nous avons cherché à compléter l'approche support-confiance pour extraire les règles les plus pertinentes. De nombreux indices ont été proposés dans la littérature pour évaluer l'intérêt des règles d'association. Quelques uns font l'objet d'une analyse graphique à l'aide de courbes de niveaux. Nous exposons ensuite une application sur données industrielles. 2 Contexte Ce travail est issu d'un projet industriel où l'objectif est d'exploiter une partie de l'informationnel d'un grand constructeur automobile afin d'extraire de nouvelles connaissances. Les données, issues du process de fabrication des véhicules, sont sous la forme d'une matrice où chaque véhicule est décrit par la présence ou l'absence d'attributs binaires. La connaissance d'éventuelles corrélations entre certains attributs ou groupes d'attributs représente un avantage non négligeable pour le constructeur automobile qui met un point d'honneur à améliorer - 561 - RNTI-E-6 Utilisation des réseaux bayésiens dans le cadre de l’extraction de règles d’association Clément Fauré∗,∗∗ , Sylvie Delprat∗ Alain Mille∗∗∗ , Jean-François Boulicaut∗∗ ∗ EADS CCR, Centreda 1, F-31700 Blagnac {clement.faure, sylvie.delprat}@eads.net ∗∗ LIRIS UMR 5205, INSA Lyon, Bâtiment Blaise Pascal, F-69621 Villeurbanne cedex ∗∗∗ LIRIS UMR 5205, Université Lyon 1, Nautibus, F-69622 Villeurbanne cedex {amille, jboulica}@liris.cnrs.fr Résumé. Cet article aborde le problème de l’utilisation d’un modèle de connaissance dans un contexte de fouille de données. L’approche méthodologique proposée montre l’intérêt de la mise en œuvre de réseaux bayésiens couplée à l’extraction de règles d’association dites delta-fortes (membre gauche minimal, fréquence minimale et niveau de confiance contrôlé). La découverte de règles potentiellement utiles est alors facilitée par l’exploitation des connaissances décrites par l’expert et représentées dans le réseau bayésien. Cette approche est validée sur un cas d’application concernant la fouille de données d’interruptions opérationnelles dans l’industrie aéronautique. 1 Introduction Un des objectifs de l’extraction de connaissances à partir de données consiste à fournir des énoncés valides et utiles aux utilisateurs propriétaires de ces données. L’utilité de ces énoncés est d’autant plus grande qu’ils décrivent une réalité du domaine non encore explicitée jusqu’ici, autrement dit, une nouvelle connaissance. Nous nous intéressons à l’extraction de connaissances au moyen de règles descriptives comme les règles d’association (Agrawal et al., 1993). Les problèmes posés par l’extraction de telles règles ont été étudiés intensivement ces dix dernières années. Bien que l’extraction de toutes les règles fréquentes et valides soit difficile dans de grands jeux de données, des dizaines d’algorithmes efficaces ont été proposés (Goethals et Zaki, 2003, par exemple). Un second problème concerne le nombre considérable de règles qui peuvent être fréquentes et valides et donc extraites. Une première solution consiste à rechercher des couvertures des ensembles de règles, ou si l’on préfère, à éliminer des règles redondantes. Des travaux importants dans cette direction concernent l’exploitation de représentations condensées des ensembles fréquents comme les ensembles fermés (Pasquier et al., 1999; Boulicaut et al., 2000) ou bien les ensembles δlibres (Boulicaut et al., 2003). (Jeudy, 2002) est une étude assez complète de ces propositions. - 569 - RNTI-E-6 Critère VT100 de sélection des règles d’association Alain Morineau*, Ricco Rakotomalala** *MODULAD, Paris [email protected] http://www.modulad.fr **Laboratoire ERIC – Université Lyon 2 [email protected] http://eric.univ-lyon2.fr/~ricco Résumé. L’extraction de règles d’association génère souvent un grand nombre de règles. Pour les classer et les valider, de nombreuses mesures statistiques ont été proposées ; elles permettent de mettre en avant telles ou telles caractéristiques des règles extraites. Elles ont pour point commun d’être fonction croissante du nombre de transactions et aboutissent bien souvent à l’acceptation de toutes les règles lorsque la base de données est de grande taille. Dans cet article, nous proposons une mesure inspirée de la notion de valeur-test. Elle présente comme principale caractéristique d’être insensible à la taille de la base, évitant ainsi l’écueil des règles fallacieusement significatives. Elle permet également de mettre sur un même pied, et donc de les comparer, des règles qui auront été extraites de bases de données différentes. Elle permet enfin de gérer différents seuils de signification des règles. Le comportement de la mesure est détaillé sur un exemple. 1 Introduction 1.1 Les valeurs-tests Pour faire un test de l’hypothèse nulle H0, le statisticien calcule une « probabilité critique » (ou p-value). C’est la probabilité, calculée sous H0, d’un événement au moins aussi extrême que l’événement observé. De façon intuitive, on comprend que cette probabilité est d’autant plus faible qu’on est loin de l’hypothèse nulle. Si l’événement observé est très improbable sous l’hypothèse nulle, on jugera que les observations sont vraisemblablement régies par un mécanisme non nul. Il est donc tentant d’utiliser cette valeur numérique pour évaluer l’écart entre ce qu’on a observé et la situation « sans intérêt » correspondant à ce qu’on aurait observé sous H0. Dans ce contexte, plus l’évaluation de l’écart est forte (plus la probabilité critique est faible), plus ce qu’on a observé est intéressant (Gras et al., 2002 ; Lerman et Azé, 2003 ; Lallich et Teytaud, 2004). Dans la pratique, on se rend compte que la p-value est difficile à manipuler ; elle peut atteindre des valeurs très faibles, très peu lisibles ; pire, dans certains cas, elle est inutilisable car on se heurte aux limites de l’approximation - 581 - RNTI-E-6 Modèle décisionnel basé sur la qualité des données pour sélectionner les règles d’associations légitimement intéressantes Laure Berti-Équille IRISA, Campus Universitaire de Beaulieu, 35042 Rennes, France [email protected] Résumé. Dans cet article nous proposons d’exploiter des mesures décrivant la qualité des données pour définir la qualité des règles d'associations résultant d’un processus de fouille. Nous proposons un modèle décisionnel probabiliste basé sur le coût de la sélection de règles légitimement, potentiellement intéressantes ou inintéressantes si la qualité des données à l’origine de leur calcul est bonne, moyenne ou douteuse. Les expériences sur les données de KDD-CUP98 montrent que les 10 meilleures règles sélectionnées d’après leurs mesures de support et confiance ne sont intéressantes que dans le cas où la qualité de leurs données est correcte voire améliorée. 1 Introduction La qualité des règles d'association est généralement évaluée par des mesures d’intérêt (classiquement le support et la confiance) et de nombreuses autres mesures ont été proposées (Tan et al., 2002). Mais, on peut légitimement se demander quel est l’intérêt de telles règles, notées LHS Æ RHS, si 30 % des données de LHS sont obsolètes, 20% des données de RHS sont imprécises, et 15% des données de LHS proviennent d’une source réputée peu fiable. La thèse défendue dans cet article est que les mesures d'intérêt pour la découverte de règles d’associations ne sont pas autosuffisantes pour représenter effectivement la qualité des règles. Des mesures décrivant la qualité des données à partir desquelles sont calculées les règles doivent être intégrées au processus de découverte, de même que le coût d’une décision de choisir (ou non) ces règles « supposées intéressantes » doit être également considéré. Ceci a motivé donc nos travaux que nous formalisons dans les sections suivantes. 2 Caractérisation de la qualité des règles d’association à partir de la qualité des données d’origine Soit I un ensemble d’items. Une règle d’association R est une implication de la forme: LHS Æ RHS où LHS ⊆ I, RHS ⊆ I et LHS ∩ RHS =∅. LHS et RHS sont des conjonctions de variables telles que l’extension de LHS est : g(LHS)= x1∧x2 ∧…∧xn et l’extension de Y est g(RHS)= y1∧y2∧…∧ yn' . Soit j (j=1, 2,…, k) une dimension décrivant un aspect de la qualité des données (i.e., complétude, fraîcheur, précision, cohérence, crédibilité, etc.). Soit qj(Ii)∈[minij, maxij] le score de la dimension de qualité j pour le sous-ensemble de données Ii - 593 - RNTI-E-6 Règles d'association avec une prémisse composée : Mesure du gain d'information. Martine Cadot*, Pascal Cuxac**, Claire François ** * UHP/LORIA, Département Informatique, BP239, 54506 Vandoeuvre-lès-Nancy cedex [email protected] http://www.loria.fr /~cadot/ **INIST-CNRS, 2 allée du Parc de Brabois, 54154 Vandoeuvre-lès-Nancy cedex [email protected] ; [email protected] La communauté de fouille de données a développé un grand nombre d’indices permettant de mesurer la qualité des règles d’association (RA) selon diverses sémantiques (Guillet, 2004). Cependant ces sémantiques, qui permettent d’interpréter les règles simples, s’avèrent d’utilisation trop complexe pour un expert dans le cas de règles à prémisse composée. Notre objectif est donc de sélectionner les règles à prémisse composée de type AB→C qui apportent une information supplémentaire à celle des règles simples A→C et B→C. Pour cela nous définissons un indice de gain d’une règle composée par rapport aux règles simples. Dans l’application présentée, nous extrayons des RA de résultats de classifications pour en faciliter l’analyse . Le gain a permis de filtrer des règles d’interprétation simple. 1 Calcul du gain Afin de mesurer le gain d’information d’une règle, nous nous appuyons sur les variations possibles du support du motif M obtenu en réunissant les propriétés des parties gauches et droites sans que les supports des sous-motifs ne changent. L’intervalle de variations obtenu a un centre, et nous décidons que le gain d’information correspondant aux motifs de support central est nul. Plus le support du motif s’éloigne de ce centre, plus la valeur absolue du gain augmente. Cela donne la formule suivante pour le gain : g=2^(L-1)*(s-c), où s est le support du motif M, L la longueur de ce motif et c le centre de l'intervalle de variation. Le gain de la règle fait partie des indices de qualité au même titre que le support, la confiance et la plupart de ceux dont on peut trouver la définition dans Guillet (2004). Toutefois, il ne mesure pas comme les autres indices la qualité intrinsèque d’une règle, mais la valeur additionnelle d’une règle avec prémisse composée par rapport à celles avec prémisses plus simples. Nous avons défini précédemment des RA floues sur des propriétés numériques (Cadot et Napoli, 2004). Le calcul du gain se prolonge sans problème à ces RA floues, les valeurs du support et du centre n’étant plus nécessairement entières. 2 Application Le corpus traité est constitué de 3203 notices bibliographiques extraites de la base PASCAL sur le thème de la géotechnique et indexées manuellement. Nous avons calculé - 599 - RNTI-E-6 Règles d'association avec prémisse composée : Mesure du gain d'information. quatre classifications avec la méthode des K-means axiales (Lelu et François 1992) en paramétrant 20, 30, 40, 50 classes. Si nous calculons toutes les RA à prémisse composée d’une même classification, nous avons 1548 règles. Avec un gain supérieur à 30, il reste 12 règles aisément interprétables. Par exemple la règle : C50 Pression pores, C50 Champ pétrole Æ C20 Inélasticité de support 16,83 de confiance 0,91, et de gain 30,04, constituée des règles simples suivantes : C50 Pression Pores Æ C20 Inélasticité C50 Champ pétrole Æ C20 Inélasticité A première vue l'intitulé "Champ pétrole" peut paraître surprenant. L'analyse des données qui sont regroupées dans ces classes (titre des articles, résumés, indexation) permet de comprendre cette règle. En effet la classe "Champ pétrole" est essentiellement consacrée aux roches magasins et aux distributions des contraintes dans ces roches. La classe "Inélasticité" est dominée par des aspects liés à l'élastoplasticité et à l'analyse des champs de contraintes. Cette règle apporte ainsi un gain d’information par rapport aux règles simples puisqu'elle lie les notions de pression de pores (donc de roches poreuses plus ou moins saturées) et de distribution des contraintes dans des roches magasins (roches poreuses plus ou moins saturées) avec la notion de champ de contraintes dans le domaine élastoplastique. 3 Conclusion Le gain que nous proposons combine les avantages des indices de qualité des RA, et de l’élagage du jeu de RA. Il garde les règles simples, construites sur deux propriétés qui ont été extraites à l’aide d’un indice de qualité choisi pour sa valeur sémantique, et sont donc aisément interprétables. Les autres règles, qui ne sont gardées que si leur gain est significatif, sont également simples d’interprétation car elles renforcent l’information tirée des premières. Au final, l’ensemble des règles obtenu est de taille réduite. Malgré tout, le filtrage par ce gain laisse quelques règles incohérentes. La construction d’un test permettant d’établir la significativité du gain est en cours afin de les éliminer. Références Cadot M., A. Napoli (2004) Règles d’association et codage flou des données. SFC'04. Bordeaux, 130-133. Guillet F. (2004) Mesure de qualité des connaissances en ECD, Cours donné lors des journées de la conférence EGC 2004, Clermont-ferrand, 20 janvier 2004. Lelu A., C. François (1992). Information retrieval based on a neural unsupervised extraction of thematic fussy clusters, Neuro-Nîmes 92, Nîmes, France. Summary In order to filter set of Association Rules with complex premises, we define a criteria which measures the improvement of information supported by the rule ABÆC compared to the simple rules AÆC or BÆC. Application to clustering results. RNTI-E-6 - 600 - Recherche de règles non redondantes par vecteurs de bits dans des grandes bases de motifs 1 François Jacquenet, Christine Largeron, Cédric Udréa Laboratoire EURISE – Université Jean Monnet 23 rue du Docteur Michelon – 42023 Saint-Etienne Cedex 2 – France {Francois.Jacquenet,Christine.Largeron,Cedric.Udrea}@univ-st-etienne.fr Deux voies sont envisageables pour limiter le nombre de motifs extraits dans un processus de fouille de données. La première s’efforce, lors de la génération des motifs, de ne conserver que les seuls motifs semblant présenter un intérêt immédiat pour l’utilisateur (Boulicaut, 2005), tandis que la seconde voie consiste à stocker tous les motifs extraits par les algorithmes de fouille de données dans des structures de données efficaces et à développer des outils d’interrogation et de manipulation permettant de les traiter (Grossman et al., 1999; Tuzhilin et Liu, 2002; Zaki et al., 2005). C’est en suivant cette démarche que nous nous sommes intéressés à la recherche de règles d’association non redondantes alors que la plupart des travaux antérieurs consacrés à ce problème se sont plutôt attachés à l’extraction de règles non redondantes directement à partir des données (Zaki, 2000; Bastide et al., 2000; Li et al., 2004; Li et Hamilton, 2004; Goethals et al., 2005). Dans la suite, en nous inspirant d’une définition de (Bastide et al., 2000), nous considérons qu’une règle d’association B → H est non redondante si et seulement si il n’existe pas de règle de la forme B 0 → H 0 telle que B 0 ⊆ B et H ⊆ H 0 . Chaque partie de la règle d’association peut être représentée par un vecteur qui possède autant de bits qu’il existe d’items dans la base de transactions (Morzy et Zakrzewicz, 1998). Chaque bit est alors associé à un item particulier et la valeur du bit est de ’1’ si et seulement si l’item correspondant est présent dans la partie de la règle associée au vecteur de bits. En utilisant ce codage, nous proposons de déterminer la redondance d’une règle R = B → H vis-à-vis d’une autre règle R0 = B 0 → H 0 , en exploitant la propriété suivante : Etant donné IBX = {IB1X ,...,IBkX } (respectivement IHX = {H1X ,...,IHkX }) le vecteur de bits correspondant à la partie gauche (respectivement droite) de la règle X où IBiX (respectivement IHiX ) est égal à 1 si l’item i est présent dans la partie gauche (respectivement droite) de la règle X, 0 sinon. Nous démontrons alors que la règle R est redondante par rapport à la règle R0 si et seulement si Nb (R AND R0 )=Nb (R0 ) et Nh (R AND R0 )=Nh (R) où Nb (X) désigne le nombre de ’1’ dans IBX , Nh (X) le nombre de ’1’ dans IHX et (R AND R0 ) désigne la règle ayant en partie gauche l’intersection des parties gauches des règles R et R0 et en partie droite l’intersection des parties droites des règles R et R0 . Nous avons développé un algorithme, basé sur cette propriété, et réalisé plusieurs tests pour comparer les temps nécessaires pour extraire les règles non redondantes d’un ensemble 1. Ce travail a été partiellement soutenu par le projet BINGO de l’ACI Masses de Données 2004-2007, financé par le Ministère de la Recherche - 601 - RNTI-E-6 Recherche de règles non redondantes par vecteurs de bits de règles en utilisant des vecteurs de bits par rapport à l’approche faisant appel à un mode de stockage plus classique nécessitant une table comportant trois attributs : l’identifiant de la règle, l’identifiant de la partie concernée (gauche ou droite) et l’identifiant de l’item. Ces expérimentations, menées en faisant varier le nombre global de règles ainsi que le nombre de règles redondantes, ont confirmé l’intérêt de l’approche par vecteurs de bits. Références Bastide, Y., N. Pasquier, R. Taouil, G. Stumme, et L. Lakhal (2000). Mining minimal nonredundant association rules using frequent closed itemsets. In Proceedings of the first International Conference on Computational Logic, LNCS 1861, pp. 972–986. Boulicaut, J. F. (2005). Condensed representations for data mining. In Encyclopedia of Data Warehousing and Mining, pp. 207–211. Idea Group Reference. Goethals, B., J. Muhonen, et H. Toivonen (2005). Mining non-derivable association rules. In Proceedings of the fifth International Conference on Data Mining. Grossman, R. L., S. Bailey, A. Ramu, B. Malhi, P. Hallstrom, I. Pulleyn, et X. Qin (1999). The management and mining of multiple predictive models using the predictive model markup language (pmml). In Information and Software Technology, Volume 41, pp. 589–595. Li, G. et H. Hamilton (2004). Basic association rules. In Proceedings of the fourth SIAM International Conference on Data Mining. SIAM. Li, Y., Z. T. Liu, L. Chen, W. Cheng, et C. H. Xie (2004). Extracting minimal non-redundant association rules from QCIL. In International Conference on Computer and Information Technology, pp. 986–991. IEEE Computer Society. Morzy, T. et M. Zakrzewicz (1998). Group bitmap index: A structure for association rules retrieval. In Proceedings of the Fourth International Conference on Knowledge Discovery and Data Mining, pp. 284–288. AAAI Press. Tuzhilin, A. et B. Liu (2002). Querying multiple sets of discovered rules. In Proceedings of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, pp. 52–60. ACM. Zaki, M. J. (2000). Generating non-redundant association rules. In Proceedings of the International Conference on Knowledge Discovery and Data Mining, pp. 34–43. Zaki, M. J., N. Parimi, N. De, F. Gao, B. Phoophakdee, J. Urban, V. Chaoji, M. A. Hasan, et S. Salem (2005). Towards generic pattern mining. In Proceedings of the Third International Conference on Formal Concept Analysis, pp. 1–20. Summary The management of large pattern databases rapidly becomes untractable. This paper presents the way we have efficiently implemented the search for non redundant rules, in post treatment, thanks to a representation of rules in the form of bit strings. RNTI-E-6 - 602 - Des motifs séquentiels généralisés aux contraintes de temps étendues Céline Fiot, Anne Laurent, Maguelonne Teisseire Laboratoire d’Informatique de Robotique et de Microélectronique de Montpellier 161 rue Ada 34392 Montpellier Cedex 5 {fiot, laurent, teisseire}@lirmm.fr Résumé. Dans de nombreux domaines, la recherche de connaissances temporelles est très appréciée. Des techniques ont été proposées aussi bien en fouille de données qu’en apprentissage, afin d’extraire et de gérer de telles connaissances, en les associant également à la spécification de contraintes temporelles (e.g.: fenêtre temporelle maximale), notamment dans le contexte de la recherche de motifs séquentiels. Cependant, ces contraintes sont souvent trop rigides ou nécessitent une bonne connaissance du domaine pour ne pas extraire des informations erronées. C’est pourquoi nous proposons une approche basée sur la construction de graphes de séquences afin de prendre en compte des contraintes de temps plus souples. Ces contraintes sont relâchées par rapport aux contraintes de temps précédemment proposées. Elles permettent donc d’extraire plus de motifs pertinents. Afin de guider l’analyse des motifs obtenus, nous proposons également un niveau de précision des contraintes temporelles pour les motifs extraits. 1 Introduction Dans un certain nombre de domaines (détection de fraudes, de défaillances, analyse de comportements), la recherche de connaissances temporelles est non seulement utile mais nécessaire. Certaines techniques d’apprentissage permettent de gérer et de raisonner sur de telles connaissances, (Allen, 1990) a notamment défini des opérations sur des règles associées à des intervalles de temps. Des techniques d’extraction de connaissances cherchent quant à elles à extraire des épisodes récurrents à partir d’une longue séquence (Mannila et al., 1997), (Raissi et al., 2005) ou de bases de séquences (Agrawal et Srikant, 1995), (Masseglia et al., 1998). La recherche de telles informations devient d’autant plus intéressante qu’elle permet de prendre en compte un certain nombre de contraintes entre les évènements comme par exemple la durée minimale ou maximale séparant deux évènements. C’est dans ce cadre qu’a été introduite la recherche de motifs séquentiels généralisés dans (Srikant et Agrawal, 1996). Cette technique de fouille de données permet d’obtenir des séquences fréquentes respectant des contraintes spécifiées par l’utilisateur, à partir d’une base de données de séquences (par exemple les achats successifs de différents clients d’un supermarché). Différents algorithmes ont été proposés afin de gérer ces contraintes soit directement dans - 603 - RNTI-E-6 Bordures statistiques pour la fouille incrémentale de données dans les Data Streams Jean-Emile Symphor∗, Pierre-Alain Laur∗ G RIMAAG-Dépt Scientifique Interfacultaire, Université des Antilles et de la Guyane, Campus de Schoelcher, B.P. 7209, 97275 Schoelcher Cedex, Martinique, France {je.symphor,palaur}@martinique.univ-ag.fr. ∗ Résumé. Récemment la communauté Extraction de Connaissances s’est intéressée à de nouveaux modèles où les données arrivent séquentiellement sous la forme d’un flot rapide et continu, i.e. les data streams. L’une des particularités importantes de ces flots est que seule une quantité d’information partielle est disponible au cours du temps. Ainsi après différentes mises à jour successives, il devient indispensable de considérer l’incertitude inhérente à l’information retenue. Dans cet article, nous introduisons une nouvelle approche statistique en biaisant les valeurs supports pour les motifs fréquents. Cette dernière a l’avantage de maximiser l’un des deux paramètres (précision ou rappel) déterminés par l’utilisateur tout en limitant la dégradation sur le paramètre non choisi. Pour cela, nous définissons les notions de bordures statistiques. Celles-ci constituent les ensembles de motifs candidats qui s’avèrent très pertinents à utiliser dans le cas de la mise à jour incrémentale des streams. Les différentes expérimentations effectuées dans le cadre de recherche de motifs séquentiels ont montré l’intérêt de l’approche et le potentiel des techniques utilisées. 1 Introduction Ces dix dernières années un grand nombre de travaux ont été proposés pour rechercher des motifs fréquents dans de grandes bases de données. En fonction des domaines d’applications les motifs extraits sont soit des itemsets (Srikant, 1995; Zaki, 2001; Pei et al., 2001; Ayres et al., 2002) soit des séquences (Agrawal et al., 1993; Han et al., 2000). Récemment les travaux issus de la communauté des chercheurs en base de données et en fouille de données considèrent le cas des data streams où l’acquisition des données s’effectue de façon régulière, continue ou incrémentalement et cela sur une durée longue voire éventuellement illimitée. Compte tenu de la grande quantité d’information mise en jeu dans le cas des data streams, le problème de l’extraction de motifs fréquents est toujours d’actualité ((Li et al., 2004; Jin et al., 2003; Demaine et al., 2002; Manku et Motwani, 2002; Golab et Ozsu, 2003; Karp et al., 2003)). Dans ce contexte, un motif est dit θ-fréquent s’il est observé au moins une fraction θ, appelée support du motif, sur tout le stream. Le paramètre theta, tel que 0 < θ < 1, est fixé par l’utilisateur. - 615 - RNTI-E-6 Extraction de motifs séquentiels dans les flots de données d’usage du Web Alice Marascu, Florent Masseglia INRIA Sophia Antipolis, 2004 route des Lucioles - BP 93, 06902 Sophia Antipolis, France {Alice.Marascu,Florent.Masseglia}@sophia.inria.fr Résumé. Ces dernières années, de nouvelles contraintes sont apparues pour les techniques de fouille de données. Ces contraintes sont typiques d’un nouveau genre de données : les “data streams”. Dans un processus de fouille appliqué sur un data stream, l’utilisation de la mémoire est limitée, de nouveaux éléments sont générés en permanence et doivent être traités le plus rapidement possible, aucun opérateur bloquant ne peut être appliqué sur les données et celles-ci ne peuvent être observées qu’une seule fois. A l’heure actuelle, la majorité des travaux relatifs à l’extraction de motifs dans les data streams ne concernent pas les motifs temporels. Nous montrons dans cet article que cela est principalement dû au phénomène combinatoire qui est lié à l’extraction de motifs séquentiels. Nous proposons alors un algorithme basé sur l’alignement de séquences pour extraire les motifs séquentiels dans les data streams. Afin de respecter la contrainte d’une passe unique sur les données, une heuristique gloutonne est proposée pour segmenter les séquences. Nous montrons enfin que notre proposition est capable d’extraire des motifs pertinents avec un support très faible. 1 Introduction Le problème de l’extraction de motifs séquentiels dans un grand ensemble de données statiques a été largement étudié ces dernières années (Agrawal et Srikant (1995), Masseglia et al. (1998), Pei et al. (2001), Wang et Han (2004), Kum et al. (2003)). Les schémas extraits sont utiles dans de nombreuses applications comme le marketing, l’aide à la décision, l’analyse des usages, etc. Depuis peu, des applications émergentes comme (entre autres) l’analyse du trafic réseaux, la détection de fraude ou d’intrusion, la fouille de clickstream1 ou encore l’analyse des données issues de capteurs ont introduits de nouveaux types de contraintes pour les méthodes de fouille. Ces applications ont donné lieu à une forme de données connues sous le nom de “data streams”. Dans le contexte des data streams l’utilisation de la mémoire doit être réduite, les données sont générées de manière continue et très rapide, les opérations bloquantes ne sont pas envisageables et, enfin, les nouvelles données doivent être prises en compte aussi vite que possible. Ainsi, de nombreuses méthodes ont été proposées pour extraire des items ou des motifs dans les data streams (Datar et al. (2002), Chang et Lee (2003), Cormode et Muthukrishnan 1 clickstream : flot de requêtes d’un utilisateur sur un site Web - 627 - RNTI-E-6 Champs de Markov conditionnels pour le traitement de séquences 1 Trinh Minh Tri Do*, Thierry Artières* *LIP6, Université Paris 6 8 rue du capitaine Scott 75015 Paris France [email protected], [email protected] Résumé. Les modèles conditionnels du type modèles de Markov d’entropie maximale et champs de Markov conditionnels apportent des réponses aux lacunes des modèles de Markov cachés traditionnellement employés pour la classification et la segmentation de séquences. Ces modèles conditionnels ont été essentiellement utilisés jusqu’à présent dans des tâches d’extraction d’information ou d’étiquetage morphosyntaxique. Cette contribution explore l’emploi de ces modèles pour des données de nature différente, de type « signal », telles que la parole ou l’écriture en ligne. Nous proposons des architectures de modèles adaptées à ces tâches pour lesquelles nous avons dérivé les algorithmes d’inférence et d’apprentissage correspondant. Nous fournissons des résultats expérimentaux pour deux tâches de classification et d’étiquetage de séquences. 1 Introduction La classification, la segmentation et l’étiquetage de données séquentielles sont des problématiques au cœur de nombreux domaines comme la bioinformatique, la reconnaissance de l’écriture, l'extraction d'information. Une des problématiques principales dans ce type de domaine consiste en effet à transformer une séquence observée (un signal écrit par exemple) en une séquence d’étiquettes (on utilise également le terme de labels). Cette tâche peut être réalisée à différents niveaux. On cherche à segmenter le signal écrit d’une phrase en une séquence de mots, de même que le signal écrit de chaque mot doit être segmenté en une séquence de caractères, etc. Les modèles Markoviens cachés (MMC) constituent l’approche la plus utilisée pour résoudre ce type de tâches bien qu’ils reposent sur des hypothèses d’indépendance fortes sur les données et qu’ils soient appris de façon non discriminante. Ce dernier point vient du fait que ce sont des modèles génératifs et qu’ils définissent une loi de probabilité conjointe P( X , Y ) sur la séquence d’observations X et la séquence d’étiquettes associée Y. Diverses 1 Ce travail est en partie financé par le programme IST de la communauté européenne, à travers le réseau d’Excellence PASCAL IST-2002-506778. - 639 - RNTI-E-6 Apprentissage de la structure des réseaux bayésiens à partir des motifs fréquents corrélés : application à l’identification des facteurs environnementaux du cancer du Nasopharynx Alexandre Aussem∗ , Zahra Kebaili∗ , Marilys Corbex∗∗ , Fabien De Marchi∗∗∗ ∗ Equipe COMAD, Lab. PRISMa, Université Lyon 1, [email protected], ∗∗ Unité d’épidémiologie génétique, Centre International de Recherche sur le Cancer (CIRC), Lyon, [email protected], ∗∗∗ LIRIS UMR CNRS 5205, Université Lyon 1, [email protected] Résumé. L’apprentissage de structure des réseaux bayésien à partir de données est un problème NP-difficile pour lequel de nombreuses heuristiques ont été proposées. Dans cet article, nous proposons une nouvelle méthode inspirée des travaux sur la recherche de motifs fréquents corrélés pour identifier les causalités entre les variables. L’algorithme opère en quatre temps : (1) la découverte par niveau des motifs fréquents corrélés minimaux ; (2) la construction d’un graphe non orienté à partir de ces motifs ; (3) la détection des V_structures et l’orientation partielle du graphe ; (4) l’élimination des arêtes superflues par des tests d’indépendance conditionnelle. La méthode, appliquée au réseau Asia, permet de retrouver la structure du graphe initial. Nous l’appliquons ensuite aux données d’une étude épidémiologique cas-témoins du cancer du nasopharynx (NPC). L’objectif est de dresser un profil statistique type de la population étudiée et d’apporter un éclairage utile sur les différents facteurs impliqués dans le NPC. 1 Introduction Les réseaux d’inférence bayésiens (RB) sont des outils d’apprentissage numérique qui permettent de rendre compte de relations causales entre des variables aléatoires et de construire un raisonnement probabiliste à partir de connaissances, parfois incertaines et incomplètes, consignées dans les bases de données. L’apprentissage automatique des valeurs numériques des probabilités conditionnelles s’opère d’ordinaire à partir d’un ensemble d’apprentissage, même incomplet, si la structure du réseau est connue. En revanche, l’apprentissage de la structure du RB à partir de données est plus problématique ; la taille de l’espace de recherche est super-exponentielle en fonction du nombre de variables et le problème combinatoire associé est NP-difficile. Deux grandes familles de méthodes existent : celles fondées sur la recherche de causalités via des tests d’indépendance conditionnelle et celles fondées sur la maximisation d’un score. Avec les méthodes à base de score, l’ajout d’un arc repose sur un compromis entre - 651 - RNTI-E-6 De l’analyse didactique à la modélisation informatique pour la conception d’un EIAH en chirurgie orthopédique Vanda Luengo, Lucile Vadcard, Dima Mufti-Alchawafa CLIPS-IMAG et MeTAH BP 53, 38041 Grenoble cedex 9 [email protected], [email protected], [email protected] Résumé. L’objet de la recherche présentée est de concevoir un environnement informatique d’apprentissage qui permette de réduire l’écart entre la formation théorique des chirurgiens et leur formation pratique, qui se déroule principalement sur le mode du compagnonnage. L’article expose la méthodologie et quelques illustrations du travail didactique d’analyse des connaissances et du système d’enseignement / apprentissage en milieu hospitalier (chirurgie orthopédique) ainsi que partie de la formalisation informatique de cette connaissance. Cette modélisation permet la prise en compte dans l’environnement informatique de connaissances pragmatiques pour le diagnostic des connaissances de l’utilisateur en fonction des actions qu’il effectue à l’interface pendant la résolution d’un problème (pose de vis dans le bassin), et la prise de décision didactique qui suit : quelle rétroaction fournir pour affiner le diagnostic, et/ou permettre l’apprentissage souhaité. 1 Introduction En France, l’apprentissage de la chirurgie orthopédique se déroule selon différentes modalités d'enseignement comme le compagnonnage (apprentissage en situation réelle), les travaux pratiques en laboratoire d’anatomie et quelquefois sur des simulateurs. Un travail antérieur que nous avons mené sur l’enseignement du métier de chirurgien nous a permis de montrer l’écart qui existe entre les contenus de la formation théorique et les besoins de la pratique (Vadcard, 2003). La formation théorique n’est pas orientée vers la résolution de problèmes en situation, et la situation réelle, n’étant pas construite à des fins didactiques, ne permet pas à l’apprenant de prendre le temps qu’il lui faut pour comprendre la résolution du problème qui se déroule (Bisseret, 1995). Car les connaissances du chirurgien ne se limitent pas à une partie déclarative et une partie gestuelle. Nous avons pointé l’existence et la valeur opératoire de connaissances pragmatiques, souvent implicites, qui permettent l’activité en situation. Ces connaissances, dont nous avons montré l’absence de prise en charge dans le système d’enseignement, nous semblent être un élément important à prendre en compte pour réduire l’écart entre la formation théorique, qui transmet des connaissances de nature prédicative et la formation pratique, qui transmet des connaissances gestuelles opératoires. Notre objectif est ainsi de concevoir un environnement informatique qui constitue une étape intermédiaire entre les enseignements formels et le compagnonnage, et permet une - 663 - RNTI-E-6 Prédiction de solubilité de molécules à partir des seules données relationnelles Sébastien Derivaux, Agnès Braud, Nicolas Lachiche LSIIT, ULP/CNRS UMR 7005 Pôle API, Bd Sébastien Brant - 67412 Illkirch, France {derivaux,braud,lachiche}@lsiit.u-strasbg.fr Résumé. La recherche de médicaments passe par la synthèse de molécules candidates dont l’efficacité est ensuite testée. Ce processus peut être accéléré en identifiant les molécules non solubles, car celles-ci ne peuvent entrer dans la composition d’un médicament et ne devraient donc pas être étudiées. Des techniques ont été développées pour induire un modèle de prédiction de l’indice de solubilité, utilisant principalement des réseaux de neurones ou des régressions linéaires multiples. La plupart des travaux actuels visent à enrichir les données de caractéristiques supplémentaires sur les molécules. Dans cet article, nous étudions l’intérêt de la construction automatique d’attributs basée sur la structure intrinsèquement multi-relationnelle des données. Les attributs obtenus sont utilisés dans un algorithme d’arbre de modèles, auquel on associe une méthode de bagging. Les tests réalisés montrent que ces méthodes donnent des résultats comparables aux meilleures méthodes du domaine qui travaillent sur des attributs construits par les experts. 1 Introduction Pour créer un nouveau médicament, la pharmacologie opère en deux temps. Tout d’abord elle synthétise un grand nombre de molécules. Ces molécules sont ensuite appliquées sur un substrat simulant la pathologie que le médicament recherché doit combattre. Le débit de molécules synthétisées puis testées a grandement augmenté ces dernières décénnies avec l’introduction de la synthèse combinatoire et le criblage à haut débit (Hou et al., 2004). Ce processus peut néanmoins être encore amélioré. En effet, une propriété essentielle des médicaments est de pouvoir être solubles pour circuler à travers le système sanguin afin d’atteindre la partie malade de l’organisme, or cette propriété n’est pas vérifiée par toutes les molécules. Idéalement, les molécules non solubles ne devraient être ni testées ni même synthétisées afin d’accélérer le processus. La solubilité d’une molécule est représentée par un attribut numérique nommé indice de solubilité. Les laboratoires pharmacologiques connaissent cette valeur pour un grand nombre de molécules. Ceci motive l’utilisation de méthodes issues de la fouille de données pour induire un modèle qui, à partir de la structure d’une molécule, prédit son indice de solubilité. Dans le cadre de cette application, une base de données permet de décrire les molécules à partir de trois tables : - 669 - RNTI-E-6 Préparation des données Radar pour la reconnaissance/identification de cibles aériennes Abdelmalek Toumi*, Brigitte Hoeltzener*, Ali Khenchaf* *Laboratoire E3I2 – EA 3876 Ecole Nationale Supérieure d'Ingénieurs des Etudes et Techniques d'Armement (ENSIETA) 2 rue François Verny 29806 Brest Cedex 9, France {toumiab, hoeltzbr, Ali.khenchaf,@ensieta.fr } Résumé. La problématique générale présentée dans ce papier concerne les systèmes intelligents, dédiés pour l’aide à la prise de décision dans le domaine radar. Les premiers travaux ont donc consisté après avoir adapté le processus d’extraction de connaissances à partir de données (ECD) au domaine radar, à mettre en œuvre les étapes en amont de la phase de fouille de données. Nous nous limitons dans ce papier à la phase de préparation des données (images ISAR : Inverse Synthetic Aperture Radar). Nous introduisons ainsi la notion de qualité comme moyen d’évaluer l’imperfection dans les données radars expérimentales. 1 Introduction Depuis plusieurs années, des travaux de recherche importants sont déployés pour permettre aux radars de réaliser des tâches liées à l’intelligence artificielle, telle que la reconnaissance des cibles. Pour l'homme, l'acquisition des images et l'identification de cibles s'effectuent par l'intermédiaire du système visuel. L'œil humain peut être défini comme un capteur qui va transmettre ses données au cerveau de façon à traiter les informations et prendre une décision. Le système de perception visuel humain « œil-cerveau » est régi par des mécanismes très complexes, qui ont toutefois des limitations. Par exemple, l’œil n’est sensible qu’à certaines longueurs d’ondes, son spectre de visibilité est limité et sa sensibilité diminue avec l’obscurité. Pour résoudre ces problèmes, des systèmes d'aide à la décision ont été développés. Ils sont capables de percevoir l'environnement au-delà du système sensoriel et de réaliser des étapes de perception de plus en plus fines. Pour répondre à ce besoin, dans le domaine militaire, différentes technologies ont été mises au point par l'intermédiaire de capteurs spécifiques tel que le radar. En contrepartie les quantités d'informations à gérer sont devenues gigantesques et délicates voire impossible à traiter rapidement pour prendre une décision. Ainsi que la sensibilité des signaux radar aux conditions opérationnelles, sujettes aux perturbations environnementales et aux conditions de mesure, exige une prise en compte. Le problème traité dans ce papier s’insère dans le cadre général de l’identification noncoopérative d’une cible aérienne à partir de la rétrodiffusion d’un signal radar multifréquentiel (Toumi et al., 2005)( Hoeltzener et al., 2003). - 675 - RNTI-E-6 Biclustering of Gene Expression Data Based on Local Nearness Jesus S. Aguilar-Ruiz∗, Domingo Savio Rodriguez∗ Dan A. Simovici∗∗ ∗ BIGS BioInformatics Group Seville, University of Seville, Spain [email protected], ∗∗ Univ. of Massachusetts Boston, Massachusetts 02125, USA [email protected] Abstract. The analysis of gene expression data in DNA chips is an important tool used in genomic research whose main objectives range from the study of the functionality of specific genes and their participation in biological process to the reconstruction of diseases’s conditions and their subsequent prognosis. Gene expression data are arranged in matrices where each gene corresponds to one row and every column represents one specific experimental condition. The biclustering techniques have the purpose of finding subsets of genes that show similar activity patterns under a subset of conditions. Our approach consists of a biclustering algorithm based on local nearness. The algorithm searches for biclusters in a greedy fashion, starting with two–genes biclusters and including as much as possible depending on a distance threshold which guarantees the similarity of gene behaviors. 1 Introduction The DNA Microarray technology represents a great opportunity of studying the genomic information as a whole, so we can analyze the relations among thousands of genes simultaneously. The experiments carried out on genes under different conditions produce the expression levels of their transcribed mRNA and this information is stored in DNA chips. A bicluster is a subset of genes that show similar activity patterns under a subset of conditions. The research on biclustering started in 1972 with Hartigan’s work, in which the way of dividing a matrix in sub–matrices with the minimum variance was studied (Hartigan et al., 1972). In that approach the perfect bicluster was the submatrix formed by constant values, i.e., with variance equal to zero. Hartigan’s algorithm, named direct clustering, divides the data matrix into a certain number of biclusters, with the minimum variance value, so the fact of finding a number of sub-matrices equal to the number of elements of the matrix is avoided. Another way of searching biclusters is to measure the coherence between their genes and conditions. Cheng & Church (Cheng et al., 2000) introduced a measure, the mean squared residue (MSR), that computes the similarity among the expression values within the bicluster. The ideas of Cheng and Church were further developed by Yang (Yang et al., 2002, 2003) who dealt with missing values in the matrices. As a result of this approach an algorithm named - 681 - RNTI-E-6 Amélioration des indicateurs techniques pour l’analyse du marché financier Hunor Albert-Lorincz*,**, Jean-François Boulicaut** * CIC Recherche Quantitative Structurés de Taux 6, avenue de Provence, 75009 Paris, France [email protected] http://liris.cnrs.fr/~halbertl/ ** INSA Lyon, LIRIS CNRS UMR 5205 Batiment Blaise Pascal F-69621 Villeurbanne cedex, France [email protected] http://liris.cnrs.fr/~jboulica/ Résumé. La technique des motifs fréquents a été utilisée pour améliorer le pouvoir prédictif des stratégies quantitatives. Innovant dans le contexte des marchés financiers, notre méthode associe une signature aux configurations de marché fréquentes. Un système de « trading » automatique sélectionne les meilleures signatures par une procédure de « back testing » itérative et les utilise en combinaison avec l’indicateur technique pour améliorer sa performance. L’application des motifs fréquents à cette problématique des indicateurs techniques est une contribution originale. Au sens du test t de Student, notre méthode améliore nettement les approches sans signatures. La technique a été testé sur des données journalières type taux d’intérêt et actions. Notre analyse des indicateurs (Williams%R, BN et croisement des moments) a montré que qu'une approche par signatures est particulièrement bien adaptée aux stratégies à mémoire courte. 1 Introduction Les indicateurs techniques sont des fonctions des données de marché, historiques et actuelles, qui produisent un signal d'achat ou de vente. Ce sont les « briques » qui permettent de construire des stratégies de « trading » en réaction aux indicateurs et en fonction de la composition du portefeuille de l'investisseur. Certaines techniques de fouille de données permettent d'attribuer une signature aux configurations de marché précédant le déclenchement d'un indicateur technique. La comparaison des performances de l'indicateur seul et du même indicateur précédé d'une signature permet de choisir les signatures qui améliorent les performances de l'indicateur. La stratégie de « trading » peut donc exploiter un filtrage pour se restreindre aux transactions qui se - 693 - RNTI-E-6 EDA : algorithme de désuffixation du langage médical1 Didier Nakache*,**, Elisabeth Metais*, Annabelle Dierstein* *CEDRIC CNAM: 292 rue Saint Martin - 75003 Paris, France **CRAMIF: 17 / 19 rue de Flandre - 75019 Paris, France [email protected] , [email protected] 1 Introduction Pour améliorer l'efficacité des algorithmes de classification, il existe plusieurs algorithmes de préparation des données, dont la désuffixation. Cependant, le langage médical, et les comptes rendus hospitaliers sont rédigés dans un langage très technique, avec peu de formes flexionnelles. Nous nous sommes demandés si l'implémentation d'un algorithme de désuffixation dans ce contexte pouvait améliorer significativement les résultats obtenus. Nous avons mis en évidence qu'il était possible d'obtenir de meilleurs résultats que les algorithmes actuels d'une part en développant un algorithme spécifique basé sur un large corpus de documents, d'autre part en enrichissant ces derniers en fonction des racines lexicales des termes médicaux. Plusieurs algorithmes de désuffixation ont été proposés, les plus célèbres d'entre eux étant Porter (1980), Lovins (1968) et Paice (1996). Malheureusement, il s'agit d'algorithmes de désuffixation pour la langue anglaise, dont les dérivés morphologiques se prêtent facilement à ce type d'adaptation. 2 Présentation de l'algorithme EDA et résultats Afin d'améliorer les performances des algorithmes de classification de comptes rendus hospitaliers (projet Rhea), nous proposons une technique de désuffixation qui donne des résultats intéressants dans le contexte médical. Nous nous sommes constitué une base de 29 393 comptes rendus, tous utilisés dans cette étude. Par ailleurs, la terminologie médicale possède une structure sémantique forte. Jujols (1991). L'algorithme EDA fonctionne en deux phases. La première phase consiste à préparer le mot en appliquant quelques modifications (transformation en minuscules, séparation des caractères ligaturés, suppression des signes diacritiques, etc.). La seconde phase consiste à enrichir le corpus de textes en fonction des structures sémantiques des termes (par exemple : foie=hépat, langue=glosso, rate=spléno, cœur=cardio,…). 1 Ce travail a été partiellement financé par le MENRT dans le cadre du projet RNTS Rhéa. - 705 - RNTI-E-6 EDA : algorithme de désuffixation du langage médical Pour expérimenter nos résultats, nous avons choisi d'utiliser Naïve Bayes comme algorithme de classification, et la F-mesure pour l’évaluation. Ce qui donne les résultats suivants : Désuffixation Aucune désuffixation Désuffixation avec Carry Désuffixation avec EDA Résultat (F-mesure) 69.23% 72.27% 74.72% TAB. 1 – Gains sur la F-mesure selon la méthode utilisée. 3 Conclusion et perspectives Sur 25 275 termes différents présents dans 30 000 comptes rendus, 10 602 ont été regroupés, soit 42%. L'utilisation de cet algorithme de désuffixation nous a permis de mesurer une amélioration de 5.49 %. Les deux tiers du gain résultent de la désuffixation, le dernier tiers de l'enrichissement des documents par la recherche de racines lexicales des termes médicaux. Références Jujols P, Aubas P, Baylon C et al. (1991) Morphosemantic Analysis and Translation of Medical Compound Terms. Meth Inform Med; 30:30-5. Lovins J.B. (1968) Development of a Stemming Algorithm, Mechanical Translation and Computational Linguistics, 11 (1-2), 22-31. Paice C. (1996) Method for evaluation of stemming algorithms based on error counting, Journal of the American Society for Information Science. Porter M. (1980) An algorithm for suffix stripping, Program, 14 (3), 130-137. Summary Desuffixing is an easy technique for textual data processing. We apply it to French medical report for automatic classification. This paper proposes a new desuffixer algorithm adapted to the medical language. RNTI-E-6 - 706 - Aide en gestion hospitalière par visualisation des composantes de non-pertinence Bernard Huet*,**,*** * Laboratoire d’Informatique de Paris 6 (lip6) CNRS UMR 7606, Université P. et M. Curie, 8 rue du Commandant Scott, 75015, Paris, France ** Hôpital Avicenne (A.P. – H.P.) / ***Université Paris XIII, UFR Médecine [email protected] 1 Introduction Notre idée-clé est de s’attaquer au problème de la réduction des files d’attente à partir de l’analyse des journées d’hospitalisation non-pertinentes. Les études effectuées jusqu’ici ont été trop spécialisées (Vardi A., 1996). L’objectif de cette communication est de proposer un outil efficace, de haute qualité, accessible à un non-spécialiste d’aide à la décision pour réduire les files d’attente des patients, basé sur la visualisation des composantes des journées d’hospitalisation nonpertinentes dans les services cliniques aigus. 477 patients ont été inclus à partir de 3 spécialités différentes soit 4834 journées en soins aigus évaluées dans 4 services cliniques répartis dans 3 hôpitaux. Après avoir mis en évidence des associations (à facteur constant) de variables liées à la non–pertinence (Huet B., 2005), nous avons fait des analyses en correspondances multiples (sous SAS V8.2 / PC). 2 Les données visualisées L’analyse des « processus de gestion médicale » (PGMs) de tous les patients (477) de tous les services a montré que 84% de la variance des données peuvent être modélisés en deux axes (figure1). Le 1er axe (70%) dépend essentiellement du nombre de journées nonpertinentes (30%), des causes de non-pertinence (25%), du taux de non-pertinence (jnp/jtot) (24%), durée de séjour (21%) tandis que le second axe (14%) dépend essentiellement de la durée de séjour (35%), du taux de non-pertinence (jnp/jtot) (28%), du nombre de journées non-pertinentes (24%), des causes de non-pertinence (13%). Ces 2 axes classent les PGMs selon une hyperbole classique, par leur « poids composé de non-pertinence »: du plus « léger » au plus « lourd » : blessures cutanéo-muqueuses, ablation de matériel opératoire, désintoxication alcoolique, fracture simple, chirurgie de courte durée, gastro-entérologie, médecine interne (non gériatrique), fracture complexe, chirurgie longue durée, médecine interne (gériatrique), démence et médecine interne, démence et troubles neuro-psychiques. - 707 - RNTI-E-6 Aide en gestion hospitalière FIG. 1 – Projection d’analyse des Processus de Gestion médicale classés selon leur « poids composé de non-pertinence ». 3 Discussion et Conclusion Cette visualisation permet une lecture immédiate d’une information hautement significative, l’utilisation opérationnelle de ces données est parfaitement valable elle permet des non-spécialistes d’avoir accès à ces données hautement spécialisées. Références (A.N.A.E.S.) Agence Nationale pour l’Accréditation et l’Evaluation en Santé, Guide méthodologique sur l’évaluation des pratiques de soins, septembre 2005 Huet B., Cauterman M. (2005) Real association of factors with inappropriate hospital days Proc. XIXth International Conference on Medical Informatics in Europe 2005, Geneva, CH, Aug. 28 – Sept 1, 2005, IOS press Inc., Amsterdam, NL, 1021 – 1026 Vardi A, Modan B, Blumstein Z, Lusky A, Schiff E, et Z. Barzilay (1996) A controlled intervention in reduction of redundant hospital days. Int. J. Epidemiol. , 25: 604 – 608 Summary : We present the visualizing of components associated with inappropriate hospital days with their causes and their queues. It is a highly significant information whose interpretation can be made by a non-specialist (hospital manager,…). RNTI-E-6 - 708 - Enrichissement d’ontologies dans le secteur de l’eau douce en environnement Internet distribué et multilingue Lylia Abrouk∗,∗∗ Mathieu Lafourcade∗ ∗ LIRMM, 161 rue Ada, Montpellier {abrouk,lafourcade}@lirmm.fr ∗∗ SEMIDE, 2229 route des crêtes, Valbonne [email protected] 1 Introduction Notre travail s’inscrit dans le contexte du projet européen SEMIDE (Système euro méditerranéen d’information sur les savoir-faire dans le domaine de l’eau). Le SEMIDE vise à développer une ontologie spécifique aux connaissances dans le domaine de l’eau. Ce travail s’est basé dans un premier temps sur un thésaurus du domaine de l’eau, or les ressources d’informations ne cessent de s’accroître de sources hétérogènes dans les formats, mais aussi dans le vocabulaire employé (agences de l’eau, ministères,...) engendrant une ontologie insuffisante et peu structurée. Cette ontologie doit pouvoir s’enrichir au fur et à mesure que de nouveaux documents apparaissent, mais également rester cohérente. Nous nous intéressons à deux grandes parties : lŠannotation des ressources et l’enrichissement de l’ontologie globale définie par la communauté du SEMIDE. Ces deux grandes parties ne sont pas indépendantes étant donné que l’enrichissement de l’ontologie est fonction des nouvelles ressources et des concepts obtenus lors de l’annotation. La suite de cet article traitera la deuxième partie. Notre hypothèse est qu’il serait intéressant de rajouter des relations ontologiques (est-un, partie-de, etc.) à l’ontologie du SEMIDE. Celle-ci prendrait donc la forme d’un pseudo-réseau sémantique ou les noeuds seraient des acceptions. Cependant, nous ne concevons la mise en place d’un tel réseau sémantique que via une automatisation poussée. La validation de certaines occurrences de relations entre acceptions pouvant être éventuellement l’objet d’un travail manuel d’un expert. Cette automatisation peut être envisagée à partir de deux types de sources : des corpus monolingues d’un même domaine technique, et des collections de bi (ou tri)-textes (textes traductions l’un de l’autres). Ce faisant, les occurrences de relations doivent d’abord être identifiées dans les parties monolingues avant d’être migrées dans la partie interlingue. Nous attaquons le problème de l’enrichissement ontologique selon deux biais. La premier, via l’exploitation de paires de textes traduits, est la mise en correspondance directe de terme identifiés contre traduction mutuelle. Une acception (un sens de mot) peut être artificiellement créée, mais le problème des doublons potentiels et de l’identification et élimination n’est pas directement résolu. La seconde approche, à partir de corpus monolingue, consiste pour des termes cibles, à extraire le plus grand nombre des relations qu’ils peuvent entretenir avec d’autres mots. Les termes cibles sont identifiés comme tels via des méthodes classique de - 709 - RNTI-E-6 Enrichissement d’ontologies fréquences et de cooccurrences. Les informations obtenues sont projetées sur l’ontologie monolingue, celle-ci servant également de filtre et de support quant à l’identification des acception concernées. Le processus est itératif à la fois sur les corpus et sur l’ontologie, les informations récurrentes étant progressivement recopiées dans la partie interlingue. Inversement, les relations de la partie interlingue sont progressivement recopiées vers la partie monolingue ainsi les informations extraites d’un corpus d’une langue donnée peuvent participer à l’affinement des informations dans d’autres langues. 2 Extraction de nouvelles relations - patrons d’extraction Notre travail a consisté dans un premier temps à analyser des documents du Semide afin d’extraire des mots clés qui définiront nos règles d’extraction, cette analyse a donné une liste d’hypothèses d’extraction de relations entre les termes que nous définissons dans ce qui suit. Hypothèse 1 : Si l’expression A est un B où A appartient à l’ontologie du Semide alors B est une spécialisation de A dans l’ontologie. Si par ailleurs, B appartient à l’ontologie globale alors B est une généralisation de A. Hypothèse 2 : Si l’expression C qui a la forme suivante : A de B où A appartient à l’ontologie du Semide alors C est une spécialisation de A dans l’ontologie. Si, par ailleurs, C appartient à l’ontologie globale alors A est une généralisation de C. Hypothèse 3 : Si l’expression C qui a la forme suivante : A B où A appartient à l’ontologie du Semide alors C est une spécialisation de A dans l’ontologie. Si par ailleurs, C appartient à l’ontologie globale alors A est une généralisation de C. Hypothèse 4 : Si on a l’expression C avec la forme suivante A non B où A appartient à l’ontologie du Semide alors C est une spécialisation de A dans l’ontologie. Et si C appartient à l’ontologie globale alors A est une généralisation de C. Les quelques patrons d’extraction présentés ci-dessus ne sont qu’indicatifs de la méthode employée. D’autres patrons sont utilisés, en particulier pour extraire des relations d’autres natures. Par exemple, la relation de méronymie (partie de) est extraite des corpus afin de structurer l’ontologie, et de déterminer le plus finement possible les cas de doublons. Les doublons sont des termes identifiés comme des concepts synonymes et doivent être représentés comme tels dans l’ontologie. Summary The description of resources inside a community (or domain) must follow a controlled vocabulary. This is precisely a set of terms defined by a working group in order to tag contents and describe documents. Our problem at hand is slightly different from classical issues in controlled vocabulary as we focus ourselves on relations that may exist between concepts. Still, our resource description is based on ontology. The ontology is the backbone of a controlled and organized vocabulary and corresponds to the formalization of explicit relations created between terms of the vocabulary. Our work sticks to two main directions which are the resources annotations and the global ontology enhancement as defined by the SEMIDE community. The EMWIS (SEMIDE) is an organization viewed as a tool for exchanging information and knowledge on water between countries of the Euro-Mediterranean Partnership. RNTI-E-6 - 710 - Comparaison des mammographies par des méthodes d’apprentissage Irina Diana Coman∗ , Djamel Abdelkader Zighed∗∗ ∗ Laboratoire ERIC, 5 avenue Pierre Mendes-France, 69676 Bron, France [email protected] http://eric.univ-lyon2.fr ∗∗ Laboratoire ERIC, 5 avenue Pierre Mendes-France, 69676 Bron, France [email protected] http://eric.univ-lyon2.fr 1 Introduction et etat de l’art Les mammographies sont le moyen le plus répandu pour la détection du cancer du sein. Des études ont démontré qu’une lecture double des mammographies augmente la sensitivité du diagnostic jusqu’à 15% (Bird et al., 1992) et de plus, (Destounis et al., 2004), que les outils d’aide au diagnostic automatique du cancer du sein (ADACS) peuvent améliorer même les résultats d’une double lecture des mammographies. Pourtant, les techniques existantes d’ADACS ont une série d’inconvénients. Les méthodes existantes d’ADACS peuvent être classées dans deux classes : celles qui essayent d’identifier des signes de cancer (Pluim et al., 2003) et celles qui essayent une classification des mammographies (Zaiane et al., 2002). Dans le premier cas, les inconvénients principals sont le coût, dû au traitement d’images et à la classification des signes trouvés et le fait que les signes des phases de début de cancer sont plus subtiles que ceux recherchés par ces méthodes. Dans le deuxième cas, l’inconvénient principal est le taux de réussite plus faible (qui baisse parfois jusqu’à 56,25%) et sa forte variation selon le jeu de données considéré pour la validation. 2 Contribution Par rapport aux autres techniques existantes dans le domaine d’ADACS, notre approche est basée sur les techniques des médecins et se propose d’utiliser moins le traitement d’images et plus des techniques d’apprentissage automatique afin d’obtenir une classification des clichés dans deux classes : symétriques et non symétriques. Dans une première étape, nous comparons des zones des clichés pour obtenir une mesure quantitative de la similitude. Pour obtenir les zones, nous avons proposé trois méthodes issues de la pratique des médecins, plus précisément la méthode maillage (qui propose une segmentation tenant compte de la structure de symétrie du sein), la méthode fenêtre (qui représente un balayage vertical ou horizontal de l’image avec une zone de taille fixe) et la méthode rideau (qui propose un traitement progressif du cliché, soit en direction verticale soit horizontale). - 711 - RNTI-E-6 Comparaison des mammographies Le graphique des différences entre les zones des deux clichés, met en évidence, par des piques, les éventuelles asymétries. La hauteur des piques est une mesure de la taille des différences, tandis que la largeur des piques est une mesure de la localisation. Tenant compte du fait que les dissemblances naturelles sont normalement répandues sur une zone plus large, en temps que les asymétries dues au cancer sont plus localisées, nous avons choisi de prendre en compte la hauteur et la largeur des plus grands piques pour l’étape suivante de classification des clichés dans les deux classes : symétriques et non symétriques. Pour la classification nous avons utilisé les arbres de décision (Breiman et al., 1984), plus précisément des arbres C4.5(Quinlan, 1993). Nous avons testé les trois méthodes sur un jeu de données de 202 couples de clichés, en utilisant 73% de données pour l’apprentissage et le reste de 27% pour la validation. La méthode rideau a eu un taux de réussite de 62% et la méthode maillage un taux de réussite de 68%. Les meilleurs résultats ont été obtenus par la méthode fenêtre, avec un taux de réussite de 70%. Conclusions et perspectives Les résultats que nous avons obtenu, (un taux de réussite de 70%), sont des résultats préliminaires. Tenant compte du fait que l’approche proposée est nouvelle dans le domaine et aussi du fait que nous avons eu une base de données spécialement annotées seulement sur les aspects de cancer, nous considérons les résultats encourageants. Nous envisageons de continuer les tests sur une base de données mieux annotée, spécialement sur les aspects d’asymétrie. Nous envisageons aussi d’effectuer plusieurs tests afin de trouver les meilleurs paramètres des trois méthodes, la meilleure représentation des clichés et les méthodes de classification les plus adéquates. Références Bird, R., T. Wallace, et B. Yankaskas (1992). Analysis of cancers missed at screening mammography. Radiology 184, 613–617. Breiman, L., J. Friedman, R. Olshen, et C. Stone (1984). Classification and Regression Trees. Wadsworth. Destounis, S. V., P. DiNitto, W. Logan-Young, E. Bonaccio, M. L. Zuley, Kathleen, et M. Willison (2004). Can computer-aided detection with double reading of screening mammograms help decrease the false-negative rate?initial experience. Radiology 232, 578–584. Pluim, J. P. W., J. A. Maintz, et M. A. Viergever (2003). Mutual information based registration of medical images: A survey. IEEE Transactions On Medical Imaging. Quinlan, J. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann. Zaiane, O. R., M.-L. Antonie, et A. Coman (2002). Mammography classification by an association rule-based classifier. International Workshop on Multimedia Data Mining. Summary This article proposes a new approach in the field of computer aided diagnosis of breast cancer, based on clinical practice and using bilateral comparative analysis and machine learning techniques in order to classify mammograms as symetrical or asymetrical. RNTI-E-6 - 712 - Représentation d'expertise psychologique sous la forme de graphes orientés, codés en RDF Yves Fossé, Stéphane Daviet Henri Briand, Fabrice Guillet Laboratoire d'Informatique de Nantes Atlantique (LINA) Rue Christian Pauc - La Chantrerie BP 50609 - 44306 Nantes Cedex 03 {yves.fosse, stephane.daviet, henri.briand, fabrice.guillet}@univ-nantes.fr 1 Introduction La conception de personnages virtuels simulant un comportement humain réaliste, y compris d'un point de vue émotionnel (Aylett et Luck, 2000), connaît un engouement croissant. Dans ce contexte, il est alors nécessaire de doter des agents intelligents virtuels de caractéristiques psychologiques humaines. Pour ce faire, les informaticiens sont amenés à recueillir l'expertise de psychologues. Notre travail s'inscrit dans ce processus et consiste à modéliser l’expertise psychologique de spécialistes dans le but d’appliquer leurs connaissances à l’élaboration d’agents intelligents. Nous montrerons donc comment les graphes orientés et RDF peuvent permettre d'accomplir cette tâche. 2 La modélisation des interactions Différents concepts psychologiques sont exploités dans ce projet. Tout d’abord, le comportement définit par l’ensemble des réactions observables chez une personne. Il est propre à chaque individu. La société PerformanSe en a développé un modèle selon 10 dimensions bipolaires : couples de traits de personnalité antagonistes. Ensuite, les émotions qui caractérisent un ressenti à plus court terme. Le modèle OCC (Orthony et al., 1988), conçu par des psychologues, offre une modélisation facilement implémentable. Enfin, les interactions sociales qui sont une des notions clés dans les comportements collectifs d'individus. Elles représentent la faculté de ressentir, d’exprimer et d’interpréter les émotions. C’est l’expertise de la société PerformanSe concernant la perception de l’état émotionnel d’autrui, qui a été transposée en langage naturel semi-structuré, que nous cherchons à modéliser. La recherche d'une solution permettant la représentation formelle et l'exploitation de ces connaissances fait l'objet de notre étude. L’expertise psychologique des spécialistes a été exprimée sous la forme d’un ensemble de règles. Chacune d’entre elles se compose d’un ensemble d’actions dont l’exécution est conditionnée par une condition booléenne. Une règle peut s’exprimer sous la forme : - 713 - RNTI-E-6 Représentation d’expertise psychologique condition → {action1, action2, …, actioni} En initiant le concept de Web Sémantique, Tim Berners Lee (Berners, 1999) a jeté les bases des langages rendant possibles la représentation sémantique des contenus. Parmi ces langages fédérés par le W3C et organisés en couches, nous avons choisi d’utiliser RDF (Resource Description Framework), car il propose un niveau de complexité adapté à notre projet. Un document RDF pouvant se représenter sous la forme d’un graphe orienté et étiqueté, nous avons été amenés à adapter les formalismes existants (graphes ET/OU et hypergraphes) afin de représenter une condition booléenne sous cette forme. Les actions associées aux règles d’interactions sociales consistent à faire évoluer un composant émotionnel de l’agent, ce qui se concrétise par l’évolution d’un attribut. Ceci ce représente facilement sous la forme de graphe, de plus RDF propose une classe nommée "sac" (bag), permettant de stocker l’ensemble des actions associées à une règle. 3 Conclusion L'avantage majeur du codage en RDF des règles d'interactions sociales est sa simplicité de mise en oeuvre. En effet, grâce à la disponibilité de bibliothèques spécialisées dans ce domaine (comme JENA), il est relativement simple d'exploiter ces connaissances. De plus, la solution proposée offre la possibilité d'exprimer les règles sous la forme d'expressions dont la syntaxe est facilement maîtrisable par un non-informaticien. Ce dernier point est primordial dans notre projet car la manipulation des connaissances psychologiques doit être accessible aux psychologues travaillant sur le projet. L'enrichissement de la base de connaissances nous permettra à terme de valider le modèle. Références Aylett R. et M. Luck (2000). Applying Artificial Intelligence to Virtual Reality : Intelligent Virtual Environments. Angleterre : Applied Artificial Intelligence. Berners-Lee T. (1999), Weaving the Web, San Fransico, Harpur. Ortony A., G. Clore et A. Collins (1988). The cognitive structure of emotion. New-York : Cambridge University Press. Summary Designing an emotional intelligent agent implies to model the expertise of psychologists in term of emotions, cognition and social interactions. This poster presents our work for modeling this knowledge thanks to directed graphs expressed in the RDF language. RNTI-E-6 - 714 - Représentation des connaissances appliquées à la géotechnique : une approche Nicolas Faure MODEME – Centre de Recherche de l’IAE Université J. Moulin – Lyon III 6 cours Albert Thomas 69008 Lyon [email protected] 1 Introduction Le projet RAMCESH est un projet dans lequel sont impliquées diverses organisations ayant trait à la géotechnique. Son objectif est de réaliser un système d’aide à la conception pour les projets géotechniques. 2 Une approche de la géotechnique On définit la géotechnique comme l’étude l’interaction d’un sol et d’un construit, qu’il soit ouvrage d’art, bâtiment ou route. Le sol est un système qui défie l’étude en ce qu’il est majoritairement invisible et demande certaines approximations pour être appréhendé : on lui applique le résultats de sondages qu’on estime représentatifs. Le construit lui-même est, en phase de conception de projet, hypothétique, et ses interactions avec le sol sont donc d’autant plus difficiles à évaluer. De surcroît, la géotechnique est un domaine hétérogène à deux titres : elle dépend de conditions régionales, et rassemble des spécialités différentes (chimie, mécanique, géologie, etc…). Cette hétérogénéité ajoute à l’inconnaissabilité une complexité méthodologique et terminologique discernable dans les documents du domaine. Dans un tel contexte, le spécialiste géotechnicien adopte une attitude pragmatique se reposant sur un ensemble de savoirs et de savoir-faire très souvent tacites, mais essentiellement construits par analogie d’un contexte vis-à-vis d’un autre. 3 Un modèle pour la géotechnique Qui veut modéliser le domaine géotechnique est donc confronté à un problème de grande ampleur ; cependant, la communauté géotechnique aurait l’utilité d’outils informatiques qui puisse l’assister dans la gestion quotidienne de cette complexité. Il faut un modèle flexible qui puisse s’adapter aux diversités du domaine et rendre compte des disparités d’usage pour faciliter un accès pertinent aux connaissances du système. De plus, l’expérience du domaine des années 1980 et 1990 avec les systèmes - 715 - RNTI-E-6 Représentation des connaissances en géotechnique experts a enseigné qu’un système réellement utile aux spécialistes est un système qui serait maîtrisé et implémenté par les spécialistes eux-mêmes, sans passer par un intermédiaire. Une solution est donc de choisir un modèle supportant une sémantique riche, mais peu formalisé afin de ne pas dérouter les spécialistes-utilisateurs. Une première approche de la modélisation du domaine est donc envisagée à l’aide d’une ontologie informelle structurée qui tienne compte des variations terminologiques au moyens d’ensembles de synonymes et cas d’usage spécifiques fondés sur des emplois métaphoriques (métonymies, synecdoques, etc…) très courants dans la documentation du domaine. Cette ontologie repose sur deux hiérarchies, subsomption et agrégation, et supporte un formalisme nommé granule de connaissances, dont le rôle est de représenter la connaissance contextuellement, en situation. 4 Le granule de connaissances Le granule de connaissances rassemble des concepts définis dans l’ontologie en plus de relations spécifiques. Articulé autour de deux clauses (prémisses et conclusions) liées par une relation d’implication (qui peut servir à définir une hiérarchie de causalité au niveau des granules eux-mêmes), il subdivise les concepts ontologiques en fonction d’un rôle thématique et d’un rôle prédicatif. Le thème, obligatoire, est représenté par un concept unique et correspond à la définition sommaire « ce dont il s’agit ». Le prédicat peut être vide ou rassembler autant de concepts que nécessaire et correspond à la définition « ce qui est dit du thème ». Chaque ensemble thème-prédicat définit ce qu’on appelle une phrase, liée à d’autres phrases au sein de la même clause par un ensemble de booléens. Les prémisses définissent un contexte spécifique, les conclusions décrivent leur implication. Cet ensemble est extrait des documents du domaine. Un granule rassemble également les instances et valeurs associées au contexte décrit. L’approximation d’un contexte s’opère avec la variation des éléments conceptuels du granule selon les hiérarchies de l’ontologie (opération baptisée « glissement sémantique »). L’agrégation de granules de connaissances autorise également la représentation de projets géotechniques complets. La méthode utilisée pour agréger des granules est similaire à celle de l’agrégation des knowledge components. Les travaux en cours concernent les premiers développements collaboratifs de granules de connaissance par les spécialistes du domaine et l’utilisation d’une ontologie descriptive d’environ 5000 mots. Références Clark P., B. Porter (1997), Building concept representation from reusable components, Proceedings of AAAI 97 Guarino N. (1998), Formal ontology and information systems. Volume 46 Frontiers in Artificial Intelligence and Applications. IOS Press Summary This paper briefly depicts the “granule de connaissance”, a formalism for representation of geotechnical knowledge, built from ontological concepts and allowing knowledge sorting in an uncertain environment. RNTI-E-6 - 716 - ! " ! #$% &! # # # %' ! ( ) #! # * # # !" + !* ,- + . / #! % ' + + ! !' # # ! %# ! ! ## * ! " ! '# ' ) # + 0 + ! #! 1 #' # # !# # ! # ' ' ! ! # % ## # '" ! # # ! !# # ! # #! !# ! !* ! "2! ' "!' #!'" ' # % ! #' # # ! '# #& ' ! ' ! ! '" ! '" ! ! ' #! ! ! !* ' # # '! ! # ! '$!' '& # ' # ! ' #! ! ! ! '# # ! '# ! ! ! # % ! # #! ! )3 # ! 1# 4 /-5 , 6. !%! '"!' #! ' '! ! !' ! # ! ' # % ## # ! #' # '"! # ! # ' # # % ! ! # " ! 7!' '! ! # ! # % # 8 ! ' ## !' ) ' ) ! # ! + # ' 8 ( % ! + * , #1#! 8 ' # ' ' ' "! # ! . !' ! ' " ! ' , #1#! 8 " ! #' # # !# # ! & ' ' ' "! # ! . # ' 8 # ' # ' ) ' ! !! ! ) ! '! ! ! '" !' ' #' !# ' + # ' #1#! 8 ! '" ! ! '" ! # # ' ! & ' ' ! 9 ' # ' ! ' !' ' ) , # ! !' ' ' # ! # ! # , ! .. : )! # 8 ' ! !* ! ! ' * !& + # & ! !! ! # # ! ! + # '$!' #! #!! ' ;< 6! # ' ## # ' ' ) # # # ! ' # !#! # + # ! + = ' ) #! # * ! ! ' ! #' #1#! 8 9! # ! # # ' "!' # !' ! # ' !# > # #& " #!* # ! #' ? ! !* '# ! # ' # ) % # % ! # ! # # ! $ !) ! ' # # '$ ' ) #!* # '* ' )* / # # ! # ! # ! #!!#! !'$ # ) ! ! !* ' ! '" ! ! ' # # , ! ! !;. #! # ! # ! ,' !' # # ' # ! !* # ! ' ! ' #! # # #. # ! ' '8 ! @! ' '# # #! + + A + #! # ! /-5 * " + # ! ' 1# 4 , ) 1 !- ) BCC<. % ! ! ! +' ! ' '# !# ! ' 1# , A , ;.. ! ! # ' ! # % # ! ' # # # - 717 - RNTI-E-6 !! '$ ! ' # '# ' ) #D 0 + ' !A ! ! # # ! # *" ! %' + ! !!# 5 # # + ! # # ' # @! # # ' # # # # # ' # ! # 2 ! ! !& # # @! # # % ! 8 #' # ! ! # #( EF ,E% F # ' ! ! ! " # # ' ! !" # # # B, G # G 9, # H .. # # IB' '# B ! !' ' ! % # # ' EF !' # B + ! ' ! # "# JI IBK # # #!) ! ## ! # # # # JI IBI K JI IBI I K # ## ! 2#* " & # ! ! # !! ! ' # # = '8 # @! # # #! 0 & '8 # ! ! # L>$#!" ! # * ' ! !! ' ' ! '" ) ' # % # ' ! ' # ' !! & "' !* ' # ' "! # ! & 7 * #! ! !' # * # 8 ! ! !# A '! ! ' @! # * ## ! ' ' ## ' % # '" ! # ' # ! !* ' # #) ! #' # ! # ! '" ! ' # ! ! ! # % * #! !' # ' $!' #! # # ! ' ' # ) , ## !' $ ! # ! #' ' ) # ' ! '# ! > : ! # + E , ! < ( BBN0B< , ) & , ) 1 B! +> -+ E ! 5 # # # # ! F ' !. ' ! #I ' '# # ! # # ## # ! ## ! ! ! # !' # # ! ' ' #1#! 8 # ! ! #! %!7 ! # ## ! #!! % ' # ' #M. . ) - + O ! 6. %! ! !- ) '! # - ,BCC<. F = ! ! 1 I < + #!'1 %! # # + 0 + RNTI-E-6 # ;. + ! ' ! !" ! ': ! # ,P 1 :! ! N0 ;6 ! & ! F ! ) ! ( : # % !1 ## ! 4 1# Q ! + ! + ' )# !%! - 718 - O !. F ) Q ! + # ' ) ' )# E # + ') # ! # % ## # # ' ! # Comment formaliser les connaissances tacites d’une organisation ? Le cas de la conduite du changement à la SNCF Anne Remillieux*,**, Christian Blatter*,**1 *Institut National des Télécommunications, 9 rue Charles Fourier, 91011 Evry Cedex **SNCF, Dir. de l’Innovation et de la Recherche, 45 rue de Londres, 75379 Paris Cedex 08 {anne.remillieux, christian.blatter}@sncf.fr La SNCF souhaite mettre à la disposition de ses personnels un outil qui leur permette de partager et de développer leurs connaissances et expériences en matière de conduite du changement, c’est-à-dire de prise en compte des facteurs humains pour la réussite d’un projet..Ces connaissances sont, pour la plupart des acteurs, empiriques, particulièrement ancrées dans leur action et donc tacites. Comment recueillir puis formaliser ce type de connaissances en vue de leur partage ? Nous utilisons deux types de techniques de recueil des connaissances tacites : celle de l’observation de situations de travail, que nous avons mise en œuvre en assistant aux échanges entre acteurs d’une équipe projet dans l’entreprise ; et celle de l’entretien d’explicitation, diffusée en France par Vermersch (1994), dont nous expérimenterons prochainement l’apport pour une problématique de gestion des connaissances. Deux catégories de résultats sont issues de la première observation : B a s e d e c o n n a is s a n c e s C o n n a iss a n c e s s y n c h ro n iq u e s C o n n a is s a n c e s d ia c h r o n iq u e s S u r l’ a c tio n S u r le m o n d e E s t u ti lis é p a r A c te u r ( s ) R e sso u rc e s S o u lè v e o u r é s o u t P ro b lè m e (s ) P a r a m è tre s S u r l’a c tio n S u r le m o n d e A p o u r c o n te x te C h a n g e m e n t (s) FIG.1 – Orientations générales pour la spécification structurelle - La première identifie les différents types de connaissances utilisées par les acteurs observés et fournit ainsi de premières orientations concernant la structure du futur outil. Parmi les catégories apparues, nous noterons celle des connaissances sur l’action (fournir aux destinataires une illustration du futur changement le plus tôt possible), opposée à celle des connaissances sur le monde, qui portent sur l’environnement au sein duquel les sujets agissent (Les destinataires du changement redoutent surtout la première mise en main du changement). Par ailleurs, les connaissances « diachroniques » descriptibles sous la forme d’une succession d’étapes dans le temps (la description des étapes à suivre pour concevoir un document de communication «concret») se sont distinguées de celles, « synchroniques », qui 1 Nous remercions Claire Petitmengin et Jean-Louis Ermine, de l’INT, pour leur soutien et leur conseil. - 719 - RNTI-E-6 La conduite du changement à la SNCF s’énoncent indépendamment d’un facteur temporel (la communication auprès des agents doit être concrète). - La seconde catégorie de résultats décrit le « processus de co-construction des choix » de conduite du changement, c’est-à-dire les 7 phases génériques que mènent collectivement les acteurs observés pour aboutir à la mise en place de solutions de conduite du changement. La description de ces phases, mais aussi des acteurs, des connaissances requises et des ressources (non décrites ici) auxquels elles sont associées, permet d’orienter la spécification fonctionnelle de l’outil. FIG.2 – Le processus de co-construction des choix de conduite du changement à la SNCF Pour conclure, précisons que les résultats présentés, destinés à fournir un cadre générique pour notre travail de formalisation, ne rendent pas compte de la seule spécificité de la conduite du changement à la SNCF. En ce sens, ils pourraient vraisemblablement convenir à d’autres types d’activité (comme la conduite de projet par exemple). La particularité des connaissances qui nous intéressent apparaîtra au moment d’insérer des contenus dans le cadre défini. Références Nonaka, I. (1994), A dynamic theory of organizational knowledge creation, Organization Science Vol. 5, n°1, 14-37. Vermersch, P. (1994), L’entretien d’explicitation, ESF éditeur, Paris. Summary Our research deals with elicitation, formalization and sharing of tacit knowledge about change management at the SNCF. The observation of the work of a project team in the company enabled us to make first assumptions about this knowledge. RNTI-E-6 - 720 - I-Semantec : une plateforme collaborative de capitalisation des connaissances métier en conception de produits industriels Mohamed-Foued Sriti*, Philippe Boutinaud* Nada Matta**, Manuel Zacklad** *CADeSIS – 142/176 avenue de Stalingrad – 92700 Colombes {mfsriti, pboutinaud}@cadesis.com http://www.cadesis.com ** Laboratoire Tech-CICO – Université de Technologie de Troyes 12, rue de Marie Curie – 10010 Troyes cedex {nada.matta, manuel.zacklad}@utt.fr http://www.utt.fr/labos/TECH-CICO 1 La gestion des connaissances en conception La réutilisation des connaissances métier produites lors des projets antérieurs est une stratégie majeure pour améliorer les processus de conception. Actuellement, il est critique de mettre à la disposition des concepteurs les ressources documentaires et bases de données représentant ces connaissances. Les sources des connaissances métier auxquelles nous nous intéressons sont les Systèmes de Gestion des Données Techniques (SGDT). Ces outils sont considérés parfois comme des systèmes de gestion des connaissances quand il s’agit d’optimiser les liens et les relations entre ressources produites par les différents collaborateurs (Cattan, 2001). Pour rendre les ressources disponibles dans les SGDT au service des concepteurs, il faut prendre en compte non seulement les SGDT de l’entreprise mais aussi les SGDT des partenaires (sous-traitants, clients, fournisseurs…). Dans des travaux précédents (projets industriels), nous avons mis en place des solutions de gestion des connaissances autour des SGDT et nous avons rencontré les obstacles suivants : rigidité des structure des données, difficulté de migration et d’interopérabilité, pauvreté des fonctions de recherches. Pour dépasser ces limites, nous avons fait appel à l’approche du Web Socio-Sémantique. 2 Le Web Socio-Sémantique en support des SGDT Dans le cadre de la conception de produits industriels, notre préoccupation principale est de doter les connaissances métier d’une représentation formelle pour rechercher et réutiliser plus pertinemment ces connaissances. Le contenu des ressources SGDT représentant les connaissances à réutiliser doit être ainsi interprétables par les outils informatiques pour qu’ils soient capables de répondre aux requêtes des utilisateurs. D’où notre recours au Web Sémantique qui vise, selon Tim Berners-Lee, rapporté par (Dieng et al., 2004), à rendre le contenu sémantique des ressources du Web interprétables non seulement par l’homme mais aussi par des programmes, pour une meilleure coopération entre humains et machines. - 721 - RNTI-E-6 I-Semantec – Plateforme de capitalisation des connaissances métier Notre étude se restreint à une organisation limitée ce qui simplifie beaucoup la tâche. Dans ce cadre, (Dieng et al. 2004) proposent le Web sémantique d’entreprise (ou organisationnel) pour capitaliser les connaissances d’entreprise en reposant sur le concept de la mémoire d’entreprise, qui est la matérialisation des connaissances cruciales d’une organisation. Cependant, nous jugeons que cette approche est très générique et moins structurée pour mieux capitaliser les connaissances métier. Par ailleurs, l’approche du Web SocioSémantique (W2S) définit par (Cahier et al., 2004) est plus adaptée à notre besoin du fait qu’elle soutient les activités de coopération dans lesquelles les interactions s’appuient également sur des informations ou des documents partagés. Le W2S nous aide mieux à construire une représentation structurée et commune tant du domaine que du collectif. 3 Un modèle d’architecture extensible pour la capitalisation L’avancement actuel de notre étude nous a permis de concevoir l’architecture de la plateforme I-Semantec (cf. FIG.1) adoptant une méthode de capitalisation de connaissances générique (identifier, recueillir, formaliser, valider, stocker, distribuer et maintenir). Les principes sur lesquelles nous avons bâti notre plateforme résident au niveau de sa flexibilité (représentation en RDF), extensibilité (architecture modulaire) et le degré d’interopérabilité avec d’autres outils. Dans cette perspective, I-Semantec intègre les aspects du W2S et doit répondre à des critères précis de robustesse, performance et être support à une forte collaboration. Stockage EXTRACTION Données + modèle formalisés en RDF RECONCILIATION Modèle réconcilié + mappings INTEGRATION Requêtes Données + modèle (métadonnées) VISUALISATION & RECHERCHE Résultats Données mises à jour SGDT BASE DE CONNAISSANCES RDF MAINTENANCE Mise à jour FIG. 1 – Processus de capitalisation en utilisant la plateforme I-Semantec Références Cattan, M. (2001). L’entreprise et ses données techniques : méthodes pour une documentation maîtrisée, Afnor, Paris La Défense, chap. 11, p. 111. Dieng-Kuntz, R., O. Corby, F. Gandon et J. Golebiowska (2004). Ontologies pour la construction d'un Web sémantique d'entreprise, in: Gestion dynamique des connaissances industrielles, B. Eynard, M. Lombard, N. Matta, J. Renaud, Hermès, chap. 1, p. 27-43. Cahier, J.-P., M. Zacklad and A. Monceaux (2004). Une application du Web SocioSémantique à la définition d’un annuaire métier en ingénierie, in Actes de IC’2004. Summary In this paper we discuss an approach based on the Socio-Semantic Web concept enabling knowledge reuse through an extensible infrastructure, in the product development process. RNTI-E-6 - 722 - Outil de datamining spatial appliqué à l’analyse des risques liés au territoire Schahrazed Zeghache* , Farida Admane* , Kamel Elaraba Ziane* * Division Systèmes d’Information, CERIST Rue des trois frères Aissiou Ben Aknoun, Alger, Algérie [email protected], [email protected], [email protected] 1 Problématique Tout géographe s’accorde à dire que tout phénomène à un endroit est lié à l’influence du voisinage (première loi en géographie). Ceci revient à dire que les données spatiales ne sont pas indépendantes et que leurs analyses nécessitent, en plus des caractéristiques des objets à analyser, la prise en compte des caractéristiques des objets du voisinage et des relations spatiales qui les relient. 2 Approche proposée Dans notre état de l’art, nous avons recensé des insuffisances dans les outils d’analyses spatiales ; et afin d’y remédier, nous avons proposé une méthodologie pragmatique fondée sur des bases théoriques en tenant compte : de l’inexistence des entrepôts de données dans la majorité des organismes ; de la nature complexe des données à référence spatiale ; des limites des fonctionnalités analytiques des outils existants entre autre Systèmes d’Informations Géographiques (SIG) et datamining ; etc. Afin de résoudre cette problématique, nous proposons la combinaison d’un SIG avec un ensemble de techniques de datamining. Dans un premier temps, nous avons proposé le cadre conceptuel permettant de définir la manière selon laquelle la combinaison devrait s’opérer. Ce cadre a été illustré par la présentation d’un enchaînement de phases devant constituer le processus décisionnel incluant un SIG et un ensemble de techniques d’extraction. Ce processus se présente comme suit : Préparation des données : Consiste à préparer la base de données géographiques . Consultation des données : Consiste à analyser les données préparées pour vérifier si les critères du problème posé ont été respectés. Création d’un index de jointure : Cette étape est définie comme la spécificité du datamining spatial par rapport au datamining classique. Elle permet de pré-calculer la relation spatiale exacte entre les objets spatiaux de deux collections puis de les stocker dans une table, pour y appliquer les techniques de datamining pour une meilleure exploitation. La - 723 - RNTI-E-6 Outil de datamining spatial méthode que nous avons développée pour la création des index de jointures est une méthode proposée par Zeitouni (2000). Cette méthode est une extension de l’index de jointure qui stocke la valeur de distance entre les objets. Contrairement aux anciennes méthodes proposées pour la jointure basée sur la distance, seuls les objets ayant une distance raisonnable (définie par le concepteur de l’index) sont stockés dans cet index. Ce qui optimise à la fois la construction et l’utilisation de l’index. Dans le cadre de cette étude, une attention particulière a été portée au paramétrage du critère de jointure. Choix de l’algorithme de calcul : Notre étude porte sur une seule technique de datamining spatial qui est la classification supervisée par les arbres de décisions. Un arbre de décision a pour but de trouver les attributs explicatifs et les critères précis donnant le meilleur classement. L’arbre est construit par l’application successive de critères de subdivision sur une population d’apprentissage afin d’obtenir des sous populations plus homogènes. Dans le cadre de notre étude, nous proposons une extension de la méthode CART Zeitouni (2000) ainsi qu’une extension de la méthode ID3 Zeitouni (2000). Ces deux dernières reposent sur le calcul d’un gain informationnel pour apprécier la subdivision. Exécution de l’algorithme de calcul : Une fois que l’index de jointure est créé, nous pouvons lancer l’exécution de l’algorithme de classification par arbre de décision. 3 Etude de cas : « Analyse des risques liés au territoire » L’objectif de cette étude de cas est d'expliquer et de prédire la dangerosité des routes en tenant compte de leurs positionnements ainsi que leurs voisinages. Cet objectif consiste à classifier les données sur les accidents par rapport aux objets voisins (administration, école, cité, etc.) afin d’anticiper les aménagements correspondants. Références Boulmakoul, A., N. Chelghoum, et K. Zeitouni (2001). Arbres de décisions spatiales multi thèmes. 8ème rencontres de la Société Francophone de Classification, 17-21 Décembre. Laboratoire PRISM (Versailles). Chelghoum, N., K. Zeitouni, and A. Boulmakoul (2002). A Decision tree for multi-layered spatial data. Joint International Symposium on Geospatial Theory, Processing and Applications, Ottawa, Canada, 8-12 juillet. Zeitouni, K., M. A. Aufaure, and L. Yeh (2000). Join indices as a tool for spatial datamining. International Workshop on Temporal, Spatial and Spatio-Temporal Data Mining, Lecture Notes in Artificial Intelligence n° 2007, Springer, pp 102-114, Lyon, France. Summary Our objective is to provide a tool allowing to explore the spatial databases in order to find there knowledge hidden and to create and manage the spatial relations between the data and to effectively assist the analyst in his resolution of the problems . RNTI-E-6 - 724 - Confrontation de Points de Vue dans le système Porphyry Samuel Gesche*, Sylvie Calabretto* Guy Caplat** * LIRIS – INSA de LYON 69621 Villeurbanne Cedex – France ** Dept. IF. – INSA de LYON 69621 Villeurbanne Cedex – France Pré[email protected] 1 Contexte Nos travaux s’insèrent dans un projet du réseau ARTCADHi visant à offrir aux chercheurs en Sciences Humaines des assistants à la construction du sens dans des bibliothèques numériques spécialisées. Dans ce cadre, limiter la description des documents à une indexation unique, fixe et effectuée par un tiers, revient à nier leur expertise. Porphyry propose l’instrumentation du travail des chercheurs par l’enrichissement itératif du corpus par des structures hypermédias. Ces structures sont construites par les spécialistes en fonction de leurs problématiques et de leurs spécialisations. Elles sont exprimées sous forme de réseaux de description, une variante des réseaux sémantiques dans laquelle seule existe la relation de composition (Benel A., 2003). Dans son état actuel, Porphyry offre un moyen de visualiser des points de vue lorsqu’ils sont appliqués aux même cas expérimentaux. Cependant, ce n’est que la première étape dans le processus de confrontation mené par le chercheur, et les réseaux de description ne sont qu’un formalisme parmi d’autres. Nous proposons donc de spécifier un atelier multiformalisme d’aide à la construction de sens par confrontation de points de vue. Du fait que Porphyry est adressé à des chercheurs en Sciences Humaines, le désaccord entre deux experts est matière à réflexion et à enrichissement. La confrontation des points de vue va donc au-delà de l’intégration de travaux réalisés de manière transversale dans le but d’en faire un tout unique et cohérent. L’accent est mis sur le partage des idées, la confrontation devant permettre d’outiller l’étude des différents points de vue pour que de nouvelles idées puissent voir le jour plus facilement. 2 Proposition Nous envisageons cette démarche dans un cadre très général, bien que la plate-forme Porphyry en soit un élément principal. Nous travaillons sur des points de vue exprimés par leur saisie dans un système informatique, mais nous ne limitons pas ce système à Porphyry seulement. Dans ce cadre, nous définissons un point de vue comme une théorie sur un sujet d’étude exprimée par un modèle dans un langage. Nous regroupons sous le terme « langage » aussi bien la langue ou le formalisme que le modèle du document, qui clarifie les règles diverses auxquelles l’écriture se plie. Nous considérerons cependant de manière plus approfondie le cas des langages formels. - 725 - RNTI-E-6 Confrontation de Points de Vue En se limitant à des langages dont on peut construire un modèle, on est en mesure de construire un modèle de la confrontation. On a besoin d’un langage spécialisé, le langage de confrontation, pour permettre l’expression des actions de confrontation. écrit en écrit en ML : Langage MM1 : Modèle spécifie MM2 : Modèle S1 : Sujet d’Etude L1 : Langage S2 : Sujet d’Etude écrit en spécifie L2 : Langage écrit en porte sur porte sur M1 : Modèle M2 : Modèle Mc : Modèle de confrontation confronte écrit en confronte Lc : Langage de confrontation FIG.1 – Modèle d’une confrontation multi-formalisme Etant donné ce modèle de la confrontation, nous avons dégagé un certain nombre d’axes de recherches : - Quelle est l’influence du langage choisi dans la représentation d’un point de vue ? - Quel est l’impact du sujet d’études sur la « confrontabilité » des points de vue ? - Quelles sont les primitives du langage de confrontation ? - Quelle algèbre utiliser pour la comparaison des points de vue, et notamment pour la notion de distance entre points de vue ? Références ARTCADHi, réseau (2005) Site du Projet Porphyry, http://www.porphyry.org Benel, A. (2003) Consultation assistée par ordinateur de la documentation en Sciences Humaines – Considérations épistémologiques, solutions opératoires et applications à l’archéologie. Thèse de doctorat, INSA de Lyon. Summary Porphyry today allows experts to express their points of view in a formal context. The next stage, which is discussed here, is to make possible to match these points of view. RNTI-E-6 - 726 - Système d’aide à la décision pour la surveillance de la qualité de l’air intérieur Zoulikha Heddadji*,**, Nicole Vincent*, Severine Kirchner**, Georges Stamon* *Université René Descartes-Crip5-Équipe SIP-UFR Mathématiques et Informatique 45, rue des Saints Pères 75006 Paris {nicole.vincent,georges.stamon}@math-info.univ-paris5.fr **CSTB-84, avenue Jean Jaurès Champs-sur-Marne 77421 Marne-La-Vallée Cedex2 [email protected], [email protected] 1 Contexte L’ensemble des mandats d’intervention en lien avec une mauvaise qualité de l’air dans les espaces fermés et leurs différentes solutions constitue notre base documentaire qui symbolise l’image représentative de la connaissance et du savoir faire des experts. Le raisonnement que nous mobilisons autour de cette base pour notre système d’aide à la décision est le raisonnement à partir de cas. L’interface interactive que nous avons développée nous permet de sauvegarder l’ensemble des cas dans un formalisme XML reproduisant la structure logique des plaintes. Les modèles de balises correspondent aux différentes rubriques citées dans les textes des plaintes (antécédents, symptômes, environnement, etc.). Le RàPC s’appuie d’abord sur le module de remémoration des cas de pollution similaires au contexte de la plainte courante. Ce module est fortement lié au contenu et à la structure des cas situés en mémoire. Le RàPC repose aussi sur le module d’adaptation qui ajuste le rapport du cas jugé le plus similaire au contexte du cas courant. Il est constitué également du module de consensus assurant la validation humaine multi-experte des cas, et du module d’apprentissage du nouveau cas pour capitaliser la nouvelle expérience en mémoire. 2 Phase de remémoration Nous nous basons sur la mesure de similarité conceptuelle de (Zarga et Salotti, 2004) pour établir ensuite une distance sémantique entre le problème énoncé dans la plainte cible et les problèmes sources. Inspirées des travaux de (Wu et Palmer, 1994) Zarga et Salotti utilisent une mesure de spécificité qui favorise les liens père-fils par rapport aux autres liens : Spec(C1 , C2 ) = Depthbtm ( PPS(C1 , C2 )) Dis( PPS(C1 , C2 ), C1 ) Dis( PPS(C1 , C2 ), C2 ) SimZS (C1 , C2 ) = 2 depth PPSC1 ,C2 depthPPSC1 ,C2 (C1 ) + depthPPS C1 ,C2 (C2 ) + Spec(C1 , C2 ) où Depthbtm (PPS(C1, C2)) est le nombre maximum d’arcs séparant le concept bottom ( le concept le plus bas du réseau conceptuel) du plus petit subsumant de C1 et C2 ; PPS(C1, C2). Dis(C1, C2) est la distance en nombre d’arcs entre C1 de C2. - 727 - RNTI-E-6 Système d’aide à la décision : surveillance des ambiances intérieures 2.1 Modèle de proximité flou (Mercier & Beigbeder, 2004) estiment que plus les termes de la requête apparaissent proches au niveau d’un élément de la base plus ce dernier est pertinent par rapport à la requête cible. Le modèle de proximité flou du terme A par rapport au terme B est formalisé par: µ NEAR ( A, B ) (d ) = Maxi∈d −1 ( A) ( Max( j∈d −1 ( B ) k− | j − i | ,0) ) k -1 Où d (t) désigne l’ensemble des positions prises par le terme t, et k une constante fixe choisie représentant la taille de la fenêtre glissante des cooccurrences des termes. 2.2 Notre nouveau modèle: le modèle de proximité flou sémantique La mesure de (Mercier & Beigbeder, 2004) est très intéressante, néanmoins elle ne tient pas compte de la sémantique des termes (dans le cas où des termes sémantiquement proches des termes utilisés dans la requête apparaissent directement proches au niveau d’un élément de la base). En effet, ce modèle est limité par la relation de cooccurrence directe des termes qui ne permet pas de capturer la proximité sémantique entre les mots. L’équation présentée dans le modèle de Mercier et Beigbeder devient : µNEAR ( A,B ) (d ) = Maxi∈d −1 ( Simens( A)) ( Max( j∈d −1 ( Simens( B )) (k − | j − i | ) SimZS (ti, A) SimZS (tj, B) ,0)) k Simens(A) est l’ensemble des termes proches de A suivant la mesure d’appariement conceptuelle utilisée. Notre nouveau modèle apporte la connaissance de la sémantique au modèle existant. les résultats des degrés de proximité que nous avons obtenus à l’étape d’expérimentation sur des données réelles et sur des données simulées sont très améliorés à l’aide de l’augmentation sémantique. Références Zargayouna, H et S. Salotti (2004). « Mesure de similarité dans une ontologie pour l'indexation sémantique de documents XML ». IC'2004. Wu, Z. et M. Palmer (1994). « Verb Semantics and Lexical Selection ». Proceedings of the 32nd Annual Meetings of the Associations for Computational Linguistics, 133-138. Beigbeder, M. et A. Mercier (2004). « Fuzzy set theory applied to a proximity model for information retrieval ». Nantes, France. LFA, 231-237. Summary We present a new information retrieval model based on the semantic proximity level of term occurrences by using a conceptual network to identify the closest cases of the used request. Using this framework, we aim to implement a case based reasoning approach to help decision making in situations where indoor air is suspected to be responsible of health effects. RNTI-E-6 - 728 - FaBR-CL : méthode de classification croisée de protéines Walid Erray∗ , Faouzi Mhamdi∗∗ ∗ Laboratoire ERIC, Université Lumière Lyon 2 69500 Bron France [email protected], http://eric.univ-lyon2.fr ∗∗ URPAH, faculté des Sciences de Tunis,Université d’El Manar 1060 Tunis Tunisie [email protected], http://www.mes.tn/fst/index.html Résumé. Dans cet article, nous proposons une méthode de classification croisée permettant de classer des protéines, d’une part, et de classer des descripteurs (3grammes) selon leurs pertinences par rapport aux groupes de protéines obtenus, d’autres part. 1 Classification croisée de données biologiques Afin d’étudier les séquences d’acides aminés représentant les protéines, nous avons utilisé des techniques de text mining afin d’extraire des descripteurs. Ces descripteurs nous permettrons de construire un tableau de données Protéines × Descripteurs. L’une des techniques les plus utilisées est l’extraction des x-grammes (Miller et al. (1999), Mhamdi et al. (2004)), x étant la taille d’un descripteur. Plusieurs méthodes de classification croisée ont été proposées (Govaert (1977), Ritschard et Nicoloyannis (2000)). Récemment, des méthodes de classification croisée ont été appliquées aux données biologiques (Cheng et Church (2000)). Cependant, plusieurs de ces méthodes restent très coûteuses en temps de calcul. 2 FaBR-CL : méthode de classification croisée Afin d’effectuer une classification croisée, nous nous sommes basé sur une méthode de classification peu coûteuse en temps de calcul (Erray (2005)). La méthode proposée, FaBRCL, utilise FaUR dans une approche "Combinaison itérative de regroupement des lignes et des colonnes" afin d’obtenir un regroupement complet des protéines et des 3-grammes. Ainsi, nous effectuons le regroupement des protéines, dans un premier temps, et le regroupement des 3-grammes dans un deuxième temps. La complexité de cette méthodes est en O(l log l + p log p), l étant le nombre de protéines et p le nombre de descripteurs. - 729 - RNTI-E-6 Un modèle métier extensible adapté à la gestion de dépêches d’agences de presse Frédéric Bertrand , Cyril Faucher , Marie-Christine Lafaye , Jean-Yves Lafaye , Alain Bouju Laboratoire Informatique, Image, Interaction Université de La Rochelle Avenue Michel Crépeau, 17042 La Rochelle Cedex 1 [email protected] http://www-l3i.univ-lr.fr 1 Présentation Dans le cadre du projet RIAM 1 « Relaxmultimédia » mené conjointement avec deux agences de presse (AFP et Relaxnews) nous présentons une approche destinée à gérer deux aspects d’un modèle métier défini avec UML : son extensibilité et la possibilité de naviguer entre les classes et les instances définies à partir de ce modèle. Nous montrons que la transformation du modèle UML en un schéma RDF sur lequel est utilisable SeRQL, un langage d’interrogation, présente des caractéristiques intéressantes pour gérer de tels aspects. 2 Extensibilité et navigation dans le modèle métier Une dépêche fait généralement référence à un ensemble d’entités nommées qui ont été classées par l’IPTC2 en quatre catégories génériques : Party (se scindant en deux sous-catégories Person et Organisation ), Location représentant les lieux, Event représentant les différents types d’événement, et Artifact décrivant les objets (physiques ou virtuels) cités dans une dépêche. Pour affiner l’information il est possible de définir des sous-catégories à partir des catégories précédentes. De plus, chaque type d’entité peut être rattaché à un domaine, ceci pour traduire la notion de contexte associé à chaque information. Comme exemple, dans la dépêche (simplifiée) suivante : Le film « La Guerre des Mondes », avec Tom Cruise, sort le 6 juillet 2005 en France. on identifie le type Movie (sous-type d’Artifact, instance « La Guerre des Mondes »), le type Country (sous type de Location, instance « France »), le type Release (sous-type d’Event, instance « Sortie du film G. D. M. »), le type Actor (sous-type de Person, instance « Tom Cruise »). 1 Recherche et Innovation en Audiovisuel et Multimédia. Press Telecommunications Council 2 International - 731 - RNTI-E-6 Extensibilité d’un modèle UML métier Les types Movie, Release et Actor sont associés au domaine « Arts, culture and entertainment ». Des relations sémantiques peuvent également être établies entre entités. La conséquence de cette richesse sémantique est que, d’une part, le nombre de classes à définir pour prendre en compte les différentes entités ne peut être connu de manière exhaustive et, d’autre part, ce nombre est beaucoup trop important pour apparaître directement dans le modèle. L’approche que nous avons développée consiste à utiliser le mécanisme d’extension d’UML, les stéréotypes, pour créer un modèle métier générique en « marquant » les classes fondamentales Party, Location, Event et Artifact ainsi que les associations entre ces classes. La sémantique associée à ce marquage est que la classe possède sous-types pouvant être créés dynamiquement. Cette sémantique est conservée lors de la traduction de notre modèle vers un schéma RDF (RDFS) définissant un modèle de navigation entre les dépêches. La raison principale qui a guidé notre choix vers la création d’un modèle RDF/RDFS est la disponibilité d’outils permettant d’interroger notre modèle aussi bien au niveau instance qu’au niveau classe. La traduction UML RDFS a été conduite selon un processus décrit par Cranefield (2001) en utilisant une feuille de style XSLT pour convertir le format XMI 3 représentant le modèle UML en un document RDFS/XML. Le modèle obtenu est géré par une base RDF, Sesame Broekstra et al. (2002), possédant un langage d’interrogation, SeRQL, fondé sur des expressions de chemin, permettant au sein d’une même requête d’exprimer des conditions sur les associations entre classes et les instances de ces classes et ces associations. Le peuplement de cette base a été réalisé par un outil de saisie s’interfaçant avec Sesame. L’organisation de l’information sous forme de triplets RDF et la présence de SeRQL permettent d’exprimer des requêtes qu’il est très complexe (voir impossible) d’exprimer avec SQL sur un modèle relationnel. La navigation a été développée avec une interface graphique permettant une visualisation modulaire (par déploiement partiel) du graphe de connaissance formé par les dépêches. Pour conclure, nous soulignerons que l’utilisation d’UML permet de définir précisément le modèle de base et les points d’extension grâce à l’utilisation de stéréotypes. Il n’offre cependant pas de possibilités sur l’interrogation du modèle. Un modèle fondé sur RDFS, associé au langage SeRQL, permet cette interrogation à la fois sur les classes et les instances ce qui est utile pour permettre une navigation conjointe dans le modèle et dans les données. Références Broekstra, J., A. Kampman, et F. V. Harmelen (2002). Sesame : A Generic Architecture for Storing and Querying RDF and RDF Schema. In Proceedings of International Semantic Web Conference, Sardinia, Italy, pp. 54–68. Cranefield, S. (2001). Networked Knowledge Representation and Exchange using UML and RDF. Journal of Digital Information 1(8). Summary We present an approach intended to manage two aspects of a model defined with UML: its extensibility and the possibility of navigate between the classes and instances created from this model. We show that the transformation of UML model into a RDF schema on which is usable SeRQL, a request language, shows interesting features to manage such aspects. 3 XML Metadata Interchange RNTI-E-6 - 732 - ARABASE : Base de données Web pour l’exploitation en reconnaissance optique de l’écriture Arabe Noura Bouzrara*, Nacéra Madani Aissaoui**, Najoua Essoukri Ben Amara*** *Ecole Nationale d’Ingénieurs de Tunis (ENIT) [email protected] **Faculté des Sciences de Monastir (FSM) [email protected] ***Ecole nationale d’Ingénieurs de Sousse (ENISO) [email protected] Nous proposons dans ce travail ARABASE une base de données d’images d’échantillons d’écriture arabe pour l’exploitation en reconnaissance optique de l’écriture (OCR-Optical Character Recognition). Cette base est implémentée sur un réseau à longue distance. L’étude des particularités morphologiques de l’écriture arabe, dans sa forme imprimée et manuscrite (en ligne et hors ligne), et les différents problèmes liés à l’OCR arabe, nous ont conduit aux choix retenus au niveau de notre base de données. Le contexte de ARABASE est diversifié (montant littéraux, noms de villes, texte libres, ligatures, nombres, signatures...), il correspond aux différents modes d’écritures : imprimé et manuscrit (hors ligne et en ligne). Pour chacune des classes du contexte correspondent des sous classes associées aux mots, pseudo-mots et aux caractères qui composent l’entité considérée. Des informations relatives à l’origine du document source et aux différents modes d’acquisition des données sont également disponibles dans ARABASE. Un document est produit par un périphérique d’entrée (un scanner, une tablette graphique, une imprimante…). Dans le cas du manuscrit, nous considérons un contexte multi-scripteurs (Essoukri Ben Amara, 2005). L’ensemble des informations de ARABASE est organisé dans le diagramme de classe statique selon la méthode orientée objet UML- Unified Modelling Language (Roques, 2002), la figure 1 donne un extrait de ce diagramme. Plusieurs fonctionnalités sont offertes par cette application, nous citons en particulier : - La consultation des différentes entités du contexte et des informations relatives aux outils d’acquisition. - Les recherches selon des critères spécifiés par l’utilisateur, qui peut être administrateur ou client. - La possibilité d’effectuer diverses statistiques relatives aux différents types d’informations En plus de ces fonctionnalités classiques, ARABASE offre la possibilité d’enrichir le contexte de la base de données par l’ajout d’une nouvelle classe au modèle conceptuel, c'està-dire l’ajout de nouveaux vocabulaires au contexte de la base. L’application est réalisée sous l’environnement SQL Server- Microsoft Structured Query Language Server (Spenik et Sledge, 2001) ce qui assure la sécurité des données. - 733 - RNTI-E-6 ARABASE : base de données web pour AOCR L’interface de l’application se présente sous forme de pages WEB, elle est développée avec le langage de script PHP- Hypertext Pre-Processor Defrance (2004), constituant le site « ARABASE ». 1 est identifié a document u_nombre ref_doc contient 0..n path_nbr 1..n se compose de nature_doc 1 type_doc cd_nbr qualité 1..n contexte_doc 1..n 0..1 ordre_nbr code_nombre 0..n u_montant_littéral path_montant_littéral path_montant_littéral_seg 0..1 cd_montant_littéral app_montant_littéral ordre_mot_montant montant_littéral num_mot_montant num_nbr ordre_ps_mot num_ps_mot ordre_carac num_carac 1..n 0..n 1..n se divise en code_mot 1..n 1..n cd_mot mot nbr_ps_mot code_nbr associé 1..n est constitué 1..n code_pseudo_mot cd_pseudo_mot pseudo_mot nbr_carac code_caractère cd_carac caractère 1..n 1..n diviser FIG. 1 – Extrait du diagramme de classe de « ARABASE». Références Essoukri Ben Amara, N., O. Mazhoud, N. Bouzrara, N. Ellouze (2005). Arabase : a relational database for Arabic OCR systems. IAJIT, 2(4) , October 2005, pp.259-266. Defrance, J.M. (2004). PHP/MySQL avec Dreamweaver MX, Paris: Eyrolles. Roques, P. (2002). UML par la pratique, Paris: Eyrolles. Spenik, M. et O. Sledge (2001). SQL Server DBA, CampusPress. Summary In this Paper, we present a database of Arabic image writing for the use in Arabic OCR systems. The topics addressed by ARABASE concern different styles of documents: machine printed text, off line and on line handwriting. Data corresponds to a variety of context: city names, literal amounts, isolated characters, digits, free texts, words/sub-words, isolated characters. ARABASE contains also information describing the process of data acquisition. Therefore, we use the method oriented object UML for modelling the system. ARABASE provides multiple functionalities to their users (webmaster and clients). RNTI-E-6 - 734 - Archiview, un outil de visualisation topographique des paramètres d’un hôpital Pierre P. Lévy, Jean-Philippe Villaréal, Pierre-Paul Couka, Fabrice Gallois, Laurence Herbin, Antoine Flahault Hôpital Tenon, INSERM U 707, 4 rue de la Chine, 75970 Paris Cedex 20 [email protected] 1 Introduction Certains hôpitaux sont des entités complexes faites de plusieurs bâtiments plus ou moins dispersés. Des informations importantes sont rattachées à ces bâtiments et des décisions doivent être prises. Or habituellement toutes ces informations sont éparpillées dans des schémas et des tableaux de chiffres de telle sorte que les décideurs qui utilisent ces données ont une représentation fragmentée de la réalité sous-jacente. C’est dans ce contexte que nous avons décidé d’utiliser la méthode Caseview généralisé pour créer un support permettant de convoyer de façon synthétique des informations à la fois topographiques et quantitatives concernant un hôpital. 2 Méthode La méthode Archiview est une méthode issue de la méthode Caseview généralisé (Lévy, 2004). Cette dernière consiste à visualiser des données au moyen d’un référentiel bidimensionnel construit en identifiant un pixel avec une entité informationnelle. Les pseudo pixels sont alors ordonnés selon 3 critères : un critère binaire, un critère nominal et un critère ordinal. Nominal 2 4 2 1 13 Bat1 1 1 6 4 2 1 1 6 7 Bat3 Bat2 Bat5 Bat4 Bat9 1 3 0 Bat8 Bat7 Bat6 Ordinal 2 1 1 2 Bat12 Bat11 Bat10 1 1 3 1 2 6 3 2 2 1 Bat13 Bat17 Bat16 Bat15 Bat14 Bat18 Bat19 Bat20 0 1-5 6-10 11-15 FIG.1 – Nombre de points d’archivage. La partie inférieure contient les bâtiments. - 735 - RNTI-E-6 Archiview, un outil de visualisation topographique Une fois le référentiel construit on l’utilise pour visualiser des paramètres variés : chaque valeur associée à chaque entité informationnelle est placée dans le pseudo pixel lui correspondant dans le référentiel. Puis la définition d’une échelle de couleurs permet de visualiser le paramètre étudié. Dans la méthode Archiview les entités informationnelles sont les étages des bâtiments d’un hôpital. Le critère nominal est un critère topographique : chaque colonne du référentiel contient les « pixels-étages », regroupés par bâtiment, appartenant à des bâtiments proches. Le critère ordinal est l’ordre des étages : dans la zone correspondant à chaque bâtiment les « pixels-étages » sont ordonnés de bas en haut par rapport à la base. Il n’y a pas de critère binaire. 3 Résultats L’exemple choisi est la visualisation du nombre de points d’archivage d’un hôpital (FIG.1). On voit que ces points sont dispersés dans tout l’hôpital, le bâtiment 1 en ayant le plus grand nombre. 4 Discussion L’intérêt de la méthode est essentiellement communicationnel : cela permet à des groupes de personnes travaillant ensemble sur un projet de pouvoir être en prise directe avec la réalité d’un projet déclinée de façon topographique. Sur le plan formel, noter que cette méthode a permis de transformer les trois dimensions de l’espace en 2 dimensions : la dimension Ox a été globalement respectée grâce à la projection et la dimension Oy contient à la fois la dimension Oz de l’espace hospitalier (les bâtiments sont « couchés ») et sa dimension Oy qui apparaît dans l’individualisation des bâtiments (les bâtiments empilés dans le référentiel archiview sont effectivement alignés selon l’axe Oy au niveau de l’hôpital). 5 Conclusion La méthode Archiview n’est pas spécifique d’un hôpital elle peut être appliquée en architecture, en urbanisme ainsi qu’à tout problème mettant en œuvre des données topographiques tridimensionnelles et pouvant tirer profit d’une représentation compacte. References Lévy P. P. (2004) The case view a generic method of visualization of the case mix. International Journal of Medical Informatics, 73: 713-718. Summary Identifying a floor with a pixel Archiview method stands in two steps: defining a two dimensional reference frame and using it to visualize various data. For example this allows giving a global view of the archive areas of a hospital. RNTI-E-6 - 736 - Faire vivre un référentiel métier dans l’industrie : le système de gestion de connaissances ICARE Alain Berger *, Pierre Mariot*, Christophe Coppens & Julien Laroque Malbert** *Ardans sas 2,rue Héléne Boucher 78286 Guyancourt cedex [email protected] & [email protected] http://www.ardans.com **PSA Peugeot Citroën – DINQ/DSIN/SIPP VVB Route de Gisy 78140 Vélizy Villacoublay [email protected] & [email protected] http://www.psa-peugeot-citroen.com Résumé. La gestion des connaissances, enjeu majeur pour l’industrie, est entrée dans une phase concrète de déploiement. La conjonction d’une maturité des organisations dans la maîtrise de leur métier, la consolidation de méthodes et les outils évolutifs pour faire vivre un patrimoine de connaissances favorisent l’émergence de projets significatifs et leur diffusion opérationnelle au sein de grands groupes industriels. ICARE chez PSA Peugeot Citroën réalisé avec l’environnement Ardans Knowledge Maker en est ici l’exemple. Au sein de la Direction Plates-formes, Techniques et Achats (DPTA) qui définit les orientations du groupe pour répondre aux enjeux actuels majeurs du développement automobile, et qui vise le partage et la réutilisation d'un nombre maximum de pièces, de sousensembles (et de méthodes de travail) dans les projets (concept de plate-forme), la direction de l’Ingénierie des Flux des Sites Industriels (IFSI) étudie et met en œuvre l’ensemble des moyens logistiques du flux véhicules et du flux constituants des usines terminales du groupe. La logique Qualité / Coût / Délai nécessite de mettre en place des organisations, des méthodes et des outils afin de travailler mieux et plus vite. Il est acquis qu’un des axes de progrès consiste à formaliser les savoir-faire à travers de recueils de connaissances. Dans l’exemple qui nous préoccupe les attentes du métier sont bien établies : - Capitaliser et faire partager le savoir-faire au quotidien - Concevoir bien plus rapidement - Gagner le temps perdu sur les reprises de dossier - Partager les documents « métier » dans un référentiel unique - Promouvoir la mise en œuvre de solutions « référentiel ». Les managers sont très soucieux de réaliser une opération ICARE (Interface des bases de Connaissances Appliquées et des Référentiels) dont la cible est ambitieuse. En effet, les enjeux sont très clairs : respect des coûts et charges, adhésion et implication des acteurs (Chargé d’Etudes Référentiel), pertinence de la connaissance mise à disposition des utilisateurs, accès simple à la connaissance pertinente pour décider, exhaustivité du contenu sur un périmètre clairement défini, robustesse d’une solution industrielle. Le slogan qui accompagne le nom du projet porte toute la dynamique attendu pour l’organisation : « partageons et enrichissons nos connaissances ». - 737 - RNTI-E-6 ESIEA Datalab Logiciel de Nettoyage et Préparation de Données Christopher Corsia* *ESIEA pôle ECD, 9 rue vésale, 75005 Paris [email protected] 1 Introduction Il est communément admis que le temps de préparation des données peut occuper jusqu’à 80% du temps lors d’un projet industriel de fouille de données (Pyle, 1999). L’hétérogénéité des sources, la présence de valeurs manquantes, les erreurs de saisie ou de calcul, les pannes de capteurs, une mauvaise fusion de données sont autant de causes qui peuvent introduire erreurs et incohérences dans une table de données. ESIEA Datalab est une plateforme évolutive programmée en Java qui met à disposition de nombreux outils pour aider à la détection d’incohérences, la correction d’erreurs, la transformation ou la contrainte de variables, etc. 2 Le concept du logiciel Le nettoyage et la préparation de données peuvent être vus sous la forme d’un processus représenté par la figure 1. FIG. 1 – Le nettoyage et la préparation de données vus comme un processus. Le logiciel n’impose pas ce processus à l’utilisateur, mais fournit tous les outils nécessaires à sa réalisation. En parallèle, le nettoyage et la préparation des données sont tracés dans - 739 - RNTI-E-6 ESIEA Datalab, un logiciel de nettoyage et préparation de données la console afin de pouvoir retrouver toutes les transformations et modifications effectuées sur les données et des agents fonctionnent en tâche de fond pour faire des suggestions et orienter l’utilisateur. 3 Les outils Outre un vaste ensemble d’outils classiques, dans lesquels les algorithmes utilisés ont été adaptés à un contexte où toute valeur peut être manquante ou bien en erreur, ESIEA Datalab possède quelques outils originaux puissants qui permettent de traiter facilement des cas difficiles de nettoyage ou d’offrir des moyens de visualisation intéressants. Type structuré. Grâce à la notion de type structuré, le logiciel est capable de détecter des erreurs dans des données symboliques possédant une structure. Une fois la structure d’une colonne spécifiée ou inférée, on peut contraindre les éléments de la structure à l’aide de formules et mettre ainsi en erreur les valeurs ne respectant pas l’une des contraintes. Outils de visualisation. Parmi les outils de visualisation disponibles, ESIEA Datalab dispose de graphiques interactifs (matrice de nuages de points, coordonnées parallèles, etc.) qui permettent la sélection de valeurs et la réalisation d’actions sur celles-ci. On trouve aussi des outils originaux comme la carte « vue d’avion ». C’est un graphique qui représente dans une forme condensée toute une table, que l’on va utiliser avec des filtres qui vont colorer une sélection de valeurs. On a ainsi une vision totale de la table qui peut par exemple nous aider à estimer la densité des valeurs manquantes ou bien détecter des motifs. 4 Conclusion ESIEA Datalab est un logiciel évolutif dont la simplicité d’utilisation des outils et les fonctionnalités adaptées permettent d’obtenir un gain de temps important sur le nettoyage et la préparation des données. Plusieurs améliorations sont en projet, notamment l’ajout d’une passerelle vers la librairie Java WEKA (Witten et Eibe, 2005). Références Pyle, D. (1999). Data Preparation for Data Mining. Morgan Kaufmann. Witten, I.H. et F. Eibe (2005). Data Mining: Practical Machine Learning Tools and Techniques. San Francisco: Morgan Kaufmann. Summary ESIEA Datalab is an evolvable Java software program which goal is to clean and prepare data before an analysis. The software looks like a toolbox ready to use, including some interactive visualisation tools, suggestion agents and advanced functionalities implementing Data Mining algorithms. RNTI-E-6 - 740 - Méthode de récolte de traces de navigation sur interface graphique et visualisation de parcours Marc Damez1 Pôle IA, LIP6, UPMC, 8 rue du Capitaine Scott 75015 Paris, France [email protected] Les modèles utilisateurs se servant de données provenant des interfaces graphiques ont de multiples objectifs comme la classification de comportement en ligne, la détection d’action critique, des systèmes d’aide automatique, la caractérisation de navigation, l’utilisablité des interfaces, etc. Une méthode d’extraction de traces d’interaction générique permettant un grand nombre d’analyses est présenté ici. Afin d’aider les analyses dans le traitement de ces données complexes, un système de visualisation de ces traces est également proposé. 1 Méthode de récolte de trace de navigation sur une interface graphique Les travaux de modélisation utilisateurs actuels utilisant des fichiers de traces se servent généralement d’une structure linéaire de fichier dont les données peuvent être issue de différentes sources. L’information contenue dans ces structures est généralement très redondante. FIG. 1 – Visualisation de parcours Aussi, nous proposons de générer les traces directement en XML, structure en arbre permettant de réduire une partie de cette redondance. Cette méthode a été développé pour un hypermédia (Mozilla), un système d’exploitation (Linux) et est applicable à tout type de logiciel. La structure en arbre est organisée comme suit : la racine contient les informations de « session » en cours (nom de l’utilisateur, date, etc.) ; ensuite, le plus haut niveau de 1 Ce travail a été réalisé en collaboration CIFRE avec l’entreprise SEJER. - 741 - RNTI-E-6 Récolte de trace de navigation et visualisation de parcours l’arbre, le « contexte », est conteneur de la cible de l’évènement ; le niveau suivant est le niveau de la «cible» de l’évènement (nom, description, référence de l’objet, etc.) ; un niveau intermédiaire peut être ajouté si la manipulation de l’interface conduit à trop d’éléments du dernier niveau (sémantique d’«action» de l’utilisateur) ; les feuilles de l’arbre contiennent la description de l’«évènement» (type, date et attribut spécifique de l’évènement). Pour des fichiers de petite taille, l’utilisation d’outils optimisés comme XSLT, XPath, et les parseurs SAX et DOM permettront d’obtenir directement des statistiques intéressantes. Pour des analyses sur de plus longue période l’utilisation d’une interface, une base de données est recommandée. Chaque niveau de l’arbre peut alors être stocké dans des tables différentes lesquelles représentant une sémantique particulière de l’évènement. 2 Visualisation de parcours Les traces générées contiennent à la fois des informations sur les actions de l’utilisateur et sur les objets graphiques de l’interface sur lesquels portent les actions. La Figure 1 représente le parcours de trois utilisateurs, un par couleur, sur une interface multimédia. Pour une analyse portant sur une tâche réalisée par un ensemble d’utilisateur et définit en séquence de sous tâches, un outil de sélection de cette sous séquence permet de faire apparaître celle-ci sur le schéma. On peut ainsi comparer les différentes façons qu’ont les utilisateurs pour réaliser une même sous tâche. Plusieurs autres outils ont été développé : une fonction de zoom pour les traces temporellement longues; un outil de sélection de trace visible, pour l’analyse d’un grand nombre de traces ; un outil de normalisation du temps permet de comparer plus facilement le séquençage des actions de l’utilisateur. 3 Conclusion Cette méthode a été implémentée pour diverses expériences : réalisation d’un compagnon d’aide au logiciel AbiWord (Hankach, 2005) et un système de classification d’utilisateur en ligne (Damez et al, 2005). Un outil d’aide à la pédagogie différentiée actuellement en cours de réalisation est basé sur l’observation du comportement des élèves sur des manuels scolaires électroniques. L’outil de visualisation a été présenté à des psychologues cogniticiens pour permettre l’automatisation de certaines analyses des processus cognitifs. Références Hankach, P. Aide contextualisée à l’utilisateur d’un dispositif numérique. DEA, LIP6. Damez M., Dang T.H., Marsala C., Bouchon-Meunier B. Fuzzy Decision Tree for User Modeling From Human-Computer Interactions. ICHSL 2005. Summary Data issued from graphical user interface to automate user modelling are usually depending on the analysis of the research. A general method to generate traces from human computer interaction that can be useful for a lot of models is presented here. RNTI-E-6 - 742 - Teximus Expertise : un logiciel de gestion de connaissances Olivier Gerbé* *Technologies Teximus inc. 33 rue Prince #313, Montréal (Québec) Canada H3C 2M7 [email protected] http://www.teximus.com Résumé. Le logiciel Teximus Expertise est un outil évolué de gestion dynamique de connaissances basé sur les notions de référentiel sémantique. Cette suite intégrée facilite le partage de connaissances et d’informations dans les entreprises. 1 Refléter le vocabulaire du métier Teximus Expertise incorpore un outil interactif qui permet aux experts d’un domaine de travailler en utilisant les concepts clés de leur métier. Le logiciel reflète exactement ces concepts et, plus important encore, leur interrelation. Dans le domaine de la formation, ce vocabulaire parlera de cours, de module, de matériel, d’exercices, d’évaluations, de suggestions, de demandes de changements, de clientèles cibles, de variantes, de versions, etc. Dans une application Teximus, chacun de ces concepts est reflété directement dans la base de données. 2 Environnement interactif de capture Les caractéristiques d’édition permettent la saisie sur-le-champ et de façon intuitive, tout en garantissant la cohérence de l’information. Pour chaque type de contenu du domaine d’expertise, l’outil définit des fiches de connaissance qui permettent d’entrer l’information. Dès qu’un concept est défini, il est possible de saisir l’information, instantanément. Teximus Expertise utilise également les fiches de connaissance pour créer des liens hypertextes, de façon intuitive et sans entretien. Si un objet change de nom, tous les liens hypertextes qui s’y réfèrent changent aussi automatiquement, peu importe leur emplacement, qu’ils soient à l’intérieur d’un texte ou d’une image. 3 Présentation Web instantanée Teximus Expertise inclut un assistant à la présentation pour la création de pages Web qui permettent de visualiser et d’éditer le contenu. L’assistant permet d’agencer et de cacher les - 743 - RNTI-E-6 Un logiciel permettant d’apprendre des règles et leurs exceptions : Area Sylvain Lagrue∗ , Jérémie Lussiez∗ , Julien Rossit∗ ∗ CRIL - Université d’Artois Faculté des Sciences Jean Perrin Rue Jean Souvraz - SP 18 62307 Lens Cedex [email protected] [email protected] [email protected] 1 Problématique Le raisonnement à base de règles générales pouvant comporter différentes exceptions et le raisonnement non-monotone sont des domaines qui ont été bien étudiés et formalisés en Intelligence Artificielle. Ainsi, le Système P (Kraus et al., 1990) fournit un ensemble de postulats de rationalité permettant de définir les conclusions plausibles pouvant être obtenues à partir d’un ensemble de règles pouvant contenir des exceptions. De plus, différentes méthodes de raisonnement, en accord avec le Système P , ont été proposées. Une question cependant subsistait : comment obtenir de telles règles à partir d’informations fréquentielles, en d’autres termes, comment apprendre de telles règles ? De récents travaux ont montré comment se baser sur des distributions de probabilités particulières, les distributions de probabilités à grandes marches (Snow, 1999), afin d’obtenir des règles et leurs exceptions. Dans une distributions de probabilités à grandes marches, chaque élément à une probabilité supérieure à la somme des probabilités des évènements qui lui sont moins probables. Contrairement aux approches classiques basées sur les règles associatives, les règles ainsi extraites peuvent être utilisées dans le cadre du raisonnement non-monotone, en accord avec le Système P et avec la base initiale (Benferhat et al., 2003). Cependant, ces distributions de probabilités à grandes marches ne peuvent être obtenues qu’en regroupant les différents individus de la base (simple) d’apprentissage, chaque regroupement pouvant aboutir à des ensembles de règles différents et incompatibles. À ce jour, aucun algorithme de regroupement réellement satisfaisant, tant d’un point de vue de temps de calcul que des règles générées, n’avait été proposé. Les contributions de ce travail se déclinent en deux points principaux : – la proposition de différents algorithmes de regroupement d’où des règles peuvent être générées ; – l’implémentation de ces différents algorithmes afin de les valider (tant sur les temps de calcul que sur la qualité des règles extraites). - 745 - RNTI-E-6 Un logiciel permettant d’apprendre des règles et leurs exceptions : Area 2 Présentation de la méthode et du logiciel L’extraction des règles depuis la base d’observations se décompose en 3 phases bien distinctes : une phase de dénombrement de chaque observation ; une phase de regroupement de ces observations afin d’obtenir des distributions à grandes marches ; une phase d’extraction des règles à partir du regroupement précédent. La phase de regroupement est une phase déterminante pour la génération de règles. En effet, l’unique moyen d’influer sur la qualité et la pertinence des règles apprises se situe donc dans la construction des différentes classes de la base initiale. Or, il est impossible de calculer tous les regroupements possibles et de choisir le meilleur, le nombre de ces regroupements étant exponentiel. Le logiciel. Le logiciel en démonstration et développé par les auteurs, Area, comporte différents algorithmes reposant sur différents facteurs, le but de chacun de ces algorithmes étant de tendre vers un regroupement optimal permettant de générer le meilleur ensemble de règles possible. Le logiciel offre également la possibilité de modifier les regroupements générés par les algorithmes, au moyen d’outils de manipulation des regroupements permettant à un utilisateur de déplacer les observations. Ces fonctions permettent d’affiner les règles apprises par le système. Il peut être noté que la robustesse d’une règle dépend du regroupement dont elle est issue : plus la règle provient d’un regroupement avec une population élevée (ie. plus elle est générique) moins elle sera sensible à l’ajout de nouveaux éléments dans la base. Limites et perspectives. De par le formalisme dont il est issu, le moteur d’Area ne permet actuellement l’apprentissage de règles qu’à partir des bases d’observations décrites suivant des attributs binaires. Or, la plupart des attributs contenus dans des bases réelles ne sont pas binaires. Des attributs multivalués devraient pouvoir être discrétisés et binarisés. De plus, une validation beaucoup plus poussée devra être effectuée afin de tester nos algorithmes. Un vaste champ d’investigation pour ces algorithmes pourrait être la sécurité et la détection d’intrusion. Références Benferhat, S., D. Dubois, S. Lagrue, et H. Prade (2003). A big-stepped probability approach for discovering default rules. International Journal of Uncertainty, Fuzziness and KnowledgeBased Systems (IJUFKS) 11, 1–14. Kraus, S., D. Lehmann, et M. Magidor (1990). Nonmonotonic reasoning, preferential models and cumulative logics. Artificial Intelligence 44, 167–207. Snow, P. (1999). Diverse confidence levels in a probabilistic semantics for conditional logics. Artificial Intelligence 113, 269–279. Summary Area is a Java software which purpose is to extract default rules from simple databases. The main property of these rules is to be compatible with the System P of Kraus, Lehmann and Magidor. Hence, these rules can be used with non-monotonic reasoning systems. RNTI-E-6 - 746 -