Revue des Nouvelles Technologies de l’Information Sous la direction de Djamel A. Zighed et Gilles Venturini RNTI-E-11 Extraction et gestion des connaissances : EGC'2008 Rédacteurs invités : Fabrice Guillet (LINA, Université de Nantes) Brigitte Trousse (INRIA Sophia Antipolis-Méditerranée) Volume II CÉPADUÈS-ÉDITIONS 111, rue Vauquelin 31100 TOULOUSE – France Tél. : 05 61 40 57 36 – Fax : 05 61 41 79 89 (de l’étranger ) + 33 5 61 40 57 36 – Fax : + 33 5 61 41 79 89 www.cepadues.com courriel : [email protected] Chez le même éditeur RNTI-Revue des Nouvelles Technologies de l'Information Sous la direction de Djamel A. Zighed et Gilles Venturini n°1 : Entreposage fouille de données E1 : Mesures de qualité pour la fouille de données E2 : Extraction et gestion des connaissances EGC 2004 C1 : Classification et fouille de données E3 : Extraction et gestion des connaissances EGC 2005 B1 : 1re Journée Francophone sur les Entrepôts de Données et l’Analyse en ligne EDA 2005 E4 : Fouille de données complexes E5 : Extraction des connaissances : Etat et perspectives E6 : Extraction et gestion des connaissances EGC 2006 E7 : Visualisation en extraction des connaissances E8 : Systèmes d'Information pour l'Aide à la Décision en Ingénierie Système B2 : 2re Journée Francophone sur les Entrepôts de Données et l’Analyse en ligne EDA 2006 E9 : Extraction et gestion des connaissances EGC 2007 E10 : Défi fouille de textes B3 : 3re Journée Francophone sur les Entrepôts de Données W1 : Fouille du Web A1 : Data Mining et Apprentissage Statistique : applications en assurance, banque et marketing A2 : Apprentissage artificiel et fouille de données SM1 : ISoLA 2007 Workshop On Leveraging Applications of Formal Methods, Verification and Validation Ensemble composé de 2 volumes : 978 2 85428 819 3 (volume I) 978 2 85428 820 9 (volume II) © CEPAD 2008 ISBN : 978.2.85428.818.6 Le code de la propriété intellectuelle du 1 juillet 1992 interdit expressément la photocopie à usage collectif sans autorisation des ayants droit. Or, cette pratique en se généralisant provoquerait une baisse brutale des achats de livres, au point que la possibilité même pour les auteurs de créer des œuvres nouvelles et de les faire éditer correctement serait alors menacée. er Nous rappelons donc que toute reproduction, partielle ou totale, du présent ouvrage est interdite sans autorisation de l'éditeur ou du Centre français d'exploitation du droit de copie (CFC – 3, rue d'Hautefeuille – 75006 Paris). Dépôt légal : janvier 2008 N° éditeur : 81800 LE MOT DES DIRECTEURS DE LA COLLECTION RNTI Chères Lectrices, Chers Lecteurs, La Revue des Nouvelles Technologies de l’Information a pour objectif d’être un outil de communication de très grande qualité et ouvert à tous les chercheurs impliqués dans les technologies de l’information. Nous continuons à faire paraître des numéros dans les thèmes liés à l’Extraction de connaissances à partir des Données, à la Fouille de données et à la Gestion des connaissances, mais cette année marque une évolution dans notre revue qui ouvre plus largement sa thématique à d’autres domaines de l’Informatique, toujours avec les mêmes niveaux d’exigence sur les numéros publiés. A ce titre, nous vous rappelons que RNTI accueille deux types de numéros (pour lesquels une procédure d’évaluation à trois relecteurs est systématiquement mise en place) : – des numéros à thème faisant l’objet d’un appel à communication. Chaque numéro à thème est édité par un ou plusieurs rédacteurs en chef invités. Un comité de programme spécifique d’une quinzaine de personnes est formé à cette occasion. Si vous avez un projet éditorial vous pouvez nous le soumettre et s’il est dans le créneau de RNTI vous serez désigné rédacteur invité et vous vous chargerez ensuite de manière libre et indépendante de la mise en place de la collecte, de l’évaluation, de la sélection et de la publication du numéro, – des actes de conférences sélectives garantissant une haute qualité des articles. Si vous présidez une conférence dans des thématiques liées aux technologies de l’information, vous pouvez nous contacter. Dans le présent numéro, nous publions les papiers sélectionnés par la conférence EGC’2008 qui se tient à Sophia Antipolis du 30 janvier au 1er février 2008. Nous tenons à remercier particulièrement les organisateurs de cette conférence ainsi que l’association EGC pour la confiance qu’ils accordent à cette revue et nous les félicitons pour la qualité du travail accompli. Nous espérons vivement que ce numéro vous donnera à toutes et à tous une entière satisfaction. Pour tout renseignement, nous vous invitons à consulter notre site Web et à nous contacter. Djamel A. Zighed et Gilles Venturini. http ://www.antsearch.univ-tours.fr/rnti - iii - RNTI-E-11 PRÉFACE La sélection d’articles publiés dans le présent recueil constitue les actes de la huitième conférence Extraction et Gestion des Connaissances (EGC’2008) qui s’est déroulée à Sophia Antipolis du 30 janvier au 1er février 2008. Comme les précédentes éditions, ces journées francophones sont consacrées à toutes les problématiques, théories, méthodes et applications de la fouille de données, de l’apprentissage, de l’extraction et de la gestion de connaissances. Il s’agit de rassembler les chercheurs universitaires et les acteurs d’entreprises concernés par ces domaines afin de présenter des travaux de qualité, de communiquer, et de stimuler les innovations. Lors de cette huitième édition, parmi les 156 résumés déposés qui ont donné lieu à 134 soumissions d’articles ou de démonstrations, ont été retenus : 42 articles en format long (environ 30% des soumissions), 27 articles en format court, 15 posters et 6 démonstrations de logiciel. Ce volume de soumissions ainsi que le taux de sélection illustrent à la fois le dynamisme de cette communauté scientifique ainsi que la qualité des travaux menés dans ce domaine. Les articles de ce numéro sont regroupés selon les sessions dans lesquelles ils ont été présentés, et dans l’ordre chronologique. Ces regroupements thématiques sont, d’une certaine manière, arbitraires : de nombreux autres arrangements auraient été possibles, aussi nous invitons les lecteurs à parcourir l’ensemble des titres pour se faire une idée de la couverture d’un domaine particulier, plutôt que de s’en tenir uniquement aux intitulés des sessions. Remerciements Nous tenons à remercier tous les auteurs qui ont soumis des articles à cette conférence. Nous félicitons ceux dont la proposition a été acceptée, et nous espérons que les commentaires des relecteurs auront été constructifs et encourageants pour les autres auteurs. Nous espérons que cette conférence et ce numéro seront profitables à tous. Compte tenu du grand nombre de relectures (trois relecteurs par article donnent lieu à près de 400 relectures), nous tenons à remercier tous les membres du comité de lecture ainsi que les relecteurs additionnels pour leur travail d’évaluation et les commentaires qu’ils ont pu fournir aux auteurs. Nous tenons à remercier et féliciter particulièrement le comité d’organisation : un grand merci à eux pour tout le temps qu’ils ont consacré au succès de cette conférence. En particulier un grand merci à Hakim Hacid pour la gestion du site de soumission, Monique Simonetti pour la logistique locale, Bernard Senach et Gaëlle Leblond pour leur aide à de nombreuses tâches, Florent Masséglia pour la réalisation du logo EGC08, Sémi Gaieb pour son aide pour le site Web, Claudia Marinica pour les inscriptions, Fabien Picarougne pour la construction des actes. Merci également à Alice Marascu et Florent Masséglia pour l’organisation des ateliers, Hicham Behja et Bernard Senach pour l’organisation des tutoriaux et enfin Alzennyr Da Silva et Mohand-Said Hacid pour l’organisation des démonstrations logicielles. Nos remerciements vont également à Marie-Claire Forgue (W3C), Jacques Lemaire (IUT Menton) pour leur soutien pour cet évènement, à Dany Sergeant, Agnès Cortell, Sophie Honnorat, Stéphanie Aubin, Yves Lechevallier, Abdelmoujib Elkhoumri et Reda Kabbaj sans oublier le personnel des services GENER (services généraux) et SEMIR (moyens informatiques) de l’Inria pour leur aide avant et/ou lors de la conférence elle-même. -v- RNTI-E-11 Cette conférence ne pourrait voir le jour sans le soutien de l’Association EGC, soutien qui s’exprime de multiples manières : parution des actes, organisation locale, et dotation de deux prix attribués lors de la conférence. (consulter www.polytech.univ-nantes.fr/AssociationEGC/ pour une description plus complète) Enfin, nous remercions spécialement le Centre de Recherche Inria Sophia Antipolis - Méditerranée d’une part pour nous avoir offert le plaisir d’inaugurer son nouvel amphithéeatre1 et d’autre part pour son soutien financier et logistique. Fabrice Guillet et Brigitte Trousse. 1 Financé en partie par la Région PACA, la Communauté d’Agglomération Sophia Antipolis (CASA), le Conseil Général et l’Etat. RNTI-E-11 - vi - Président d’honneur d’EGC’2008 : Osmar Zaïane, Université d’Alberta, Canada. Le Comité de lecture de ce numéro est constitué des Comités de programme et de pilotage. Comité de programme d’EGC’2008, sous la présidence de Fabrice Guillet : J. Akoka (CNAM, Paris, F) T. Aluja-Banet (EIO, UPC, Barcelone, E) D. Aubert (LaBRI, U. Bordeaux 1, F) M.-A. Aufaure (Supelec, Paris, F) N. Aussenac-Gilles (IRIT, U. Toulouse, F) B. Bachimont (UTC, F) J.-P. Barthès (UTC, F) N. Belkhiter (Faculté des sciences et de génie, U. Laval, C) A. Bellaachia (The George Washington U., USA) S. Ben Yahia (U. Tunis, T) S. Benbernou (LIRIS, U. Claude Bernard Lyon1, F) S. Bengio (Google Inc., Mountain View California, USA) Y. Bennani (LIPN-U. Paris 13, F) G. Berio (Dipartimento di Informatica, U. di Torino, I) L. Berti-Equille (IRISA, Rennes, F) H. Bock (Institute of Statistics, RWTH Aachen U., USA) P. Bosc (IRISA-ENSSAT, U. Rennes 1, F) F. Bouali (U. Lille 2, F) M. Boughanem (IRIT, U. Toulouse, F) J.-F. Boulicaut (LIRIS, U. lyon 1, F) M. Boullé (Frane Télécom R&D, F) O. Boussaid (ERIC, U. Lyon, F) M. Bouzeghoub (PRISM, U. Versailles, F) P. Brito (NIAAD-LIACC, U. Porto, P) S. Canu (LITIS, INSA de Rouen, F) F. Chateau (U. Lyon 2, F) M. Chavent (MAB, U. Bordeaux 1, F) F. Cloppet (CRIP5, U. Paris 5, F) M. Collard (I3S, U. Nice Sophia Antipolis, F) A. Cornuejols (LRI, U. Paris Sud, F) B. Crémilleux (GREYC, U. Caen, F) J. Darmont (ERIC, U. Lyon 2, F) F. De Marchi (LIRIS, U. lyon 1, F) S. Després (LIPN, U.Paris 13, F) E. Diday (CEREMADE, U. PARIS-DAUPHINE, F) R. Dieng-Kuntz (INRIA Sophia Antipolis - Méditerranée, F) C. Djeraba (LIFL, U. Lille 1, F) S. Faiz (LTSIRS, INSAT, T) G. Falquet (U. Genève, S) A. Magda Florea (U. Polytechnique de Bucarest, R) C. Froidevaux (LRI, U. Paris Sud, F) P. Gallinari (LIP6, U. Pierre et Marie Curie, F) J.-G. Ganascia (LIP6, U. Pierre et Marie Curie, F) P. Gancarski (LSIIT-AFD, F) F. Gandon (INRIA Sophia-Antipolis - Méditerranée, F) C. Garbay (CLIPS-IMAG, Grenoble, F) G. Gardarin (PRISM, U. Versailles Saint-Quentin, F) P. Geurts (U. Liège, B) A. Giacometti (LI, U. Tours, F) R. Gilleron (INRIA Lille, F) G. Govaert (UTC, F) C. Guinot (CERIES, U. Biométrie et Epidémiologie, F) A. Hardy (FUNDP, Namur, B) - vii - F. Jaquenet (EURISE, U. Saint-Etienne, F) A. Khenchaf (ENSIETA, Brest, F) P. Kuntz (LINA, U. Nantes, F) S. Lallich (ERIC, U. Lyon 2, F) M. Lamure (U. Lyon 1, F) L. Lancieri (France Telecom R&D, F) P. Laublet (LaLIC, U. Paris-Sorbonne, F) A. Laurent (LIRMM, Polytech’Montpellier, F) A. Lazraq (ENIM, Ecole des Mines de Rabat, M) J. Le Maitre (LSIS - U. Sud Toulon-Var, F) Y. Lechevallier (INRIA Paris - Rocquencourt, F) R. Lehn (LINA, U. Nantes, F) P. Lenca (GET/ENST Bretagne, Brest, F) P. Leray (LINA, U. Nantes, F) I.-C. Lerman (IRISA, U. Rennes 1, F) S. Loiseau (LERIA, U. Angers, F) F. Masseglia (INRIA Sophia Antipolis - Méditerranée, F) E. Mephu Nguifo (CRIL, U. Artois, F) R. Missaoui (U. du Québec en Outaouais, C) A. Morin (IRISA, Rennes, F) A. Napoli (LORIA, Nancy, F) M. Noirhomme-Fraiture (FUNDP, Namur, B) J.-M. Ogier (L3i, U. Rochelle, F) N. Pasquier (I3S, U. Nice Sophia Antipolis, F) S. Pinson (LAMSADE, U. Paris Dauphine, F) P. Poncelet (LGI2P/EMA, F) F. Poulet (IRISA, Rennes, F) P. Preux (LIFL, U. Lille, F) J.-C. Régnier (Laboratoire SDP, U. Lyon 2, F) C. Reynaud (U. Paris-Sud, LRI & INRIA (Futurs), F) C. Roche (Equipe CONDILLAC, U. Savoie, F) M.-C. Rousset (LSR-IMAG, U. Grenoble 1, F) L. Saitta (U. del Piemonte Orientale, I) I. Saleh (Paragraphe, U. Paris 8, F) G. Saporta (CNAM, Chaire de Stat. Appl. Paris, F) M. Schneider (LIMOS, U. Blaise Pascal, F) M. Sebban (U. Saint-Etienne, F) F. Sèdes (IRIT, U. Toulouse 3, F) D. Simovici (U. of Massachusetts, Boston, USA) E. Ghazali Talbi (LIFL, U. Lille, F) M. Teisseire (LIRMM, Polytech’Montpellier, F) F. Toumani (LIMOS, U. Clermont-Ferrand, F) S. Trausan-Matu (U. Polytechnique de Bucarest, R) F. Trichet (LINA, U. Nantes, F) B. Trousse (INRIA Sophia Antipolis - Méditerranée, F) G. Venturini (U. Tours, F) R. Verde (Facoltà di Studi Politici Jean Monnet, I) J.-P. Vert (Ecole des Mines de Paris, F) N. Vincent (Crip5, U. Paris 5, F) C. Vrain (LIFO, U. Orléans, F) J. Wijsen (U. Mons-Hainaut, B) F. Zehraoui (LAMI, U. Evry-Val d’Esonne, F) K. Zreik (Paragraphe, U. Paris 8, F) RNTI-E-11 Comité de pilotage d’EGC, sous la présidence de Djamel Zighed : Danielle Boulanger (IAE, U. Lyon 3) Henri Briand, (LINA, U. de Nantes) Régis Gras (LINA, U. de Nantes) Fabrice Guillet (LINA, U. de Nantes) Mohand-Saïd Hacid (LIRIS, U. Lyon 1) Georges Hébrail (ENST, Paris) Danièle Hérin (LIRMM, U. Montpellier 2) Yves Kodratoff (LRI, U. Paris-sud) Ludovic Lebart (ENST, Paris) Jean-Marc Petit (LIRIS, INSA Lyon) Jacques Philippé (PerfomanSe) Gilbert Ritschald (U. Genève, Suisse) Relecteurs non membres du Comité de lecture : Marie Agier, Jorge Anacleto Louça, Sujeevan Aseervatham, Alexandre Aussem, Hanane Azzag, Julien Blanchard, Alexandre Blansché, Nacim Fateh Chikhi, Etienne Cuvelier, Lisa Di Jorio, Thanh-Nghi Do, Mohamed Amir Esseghir, Frédéric Flouvat, Frédéric Fürst, Moultazem Ghazal, Allel Hadjali, Tienté Hsu, Hélène Jaudoin, Zeina Jrad, Mouna Kamel, Mustapha Lebbah, Lynda Lechani-Tamine, Stéphane Lopes, Patrick Marcel, Fabrice Muhlenbach, Olivier Pivert, Marc Plantevit, Elie Prudhomme, Cheddy Raïssi, Mathieu Roche, Paola Salle, Karen Sauvagnat, Isabelle Tellier, Fabien Torre, Sami Zghal. Comité d’organisation, sous la présidence de Brigitte Trousse : Service REV - Organisation Colloques et Communication : Monique Simonetti, REV, INRIA SA - Méditerranée Agnès Cortell, REV, INRIA SA - Méditerranée Gaelle Leblond, REV, INRIA SA - Méditerranée Dany Sergeant,REV, INRIA SA - Méditerranée Services GENER et SEMIR, Inria SA - Méditerranée Equipe-Projet AxIS : Stéphanie Aubin, INRIA Paris - Rocquencourt Hicham Behja, INRIA SA - Méditerranée & ENSAM (Meknes, Maroc) Alzennyr Da Silva, INRIA Paris - Rocquencourt Abdelmoujib Elkhoumri, INRIA SA - Méditerranée & Université Hassan 1er, Settat, Maroc), France Sémi Gaïeb, INRIA SA - Méditerranée Sophie Honnorat, INRIA SA - Méditerranée Reda Kabbaj, INRIA SA - Méditerranée & Université de Fès, Maroc), France Yves Lechevallier, INRIA paris - Rocquencourt Alice Marascu, INRIA SA - Méditerranée Florent Masséglia, INRIA SA - Méditerranée Bernard Senach, INRIA SA - Méditerranée Avec la participation de : Mohand-Saïd Hacid, LIRIS, Université Lyon I Hakim Hacid, ERIC, Université Lyon 2 Claudia Marinica, LINA, Université Nantes Fabien Picarougne, LINA, Université Nantes Marie-Claire Forgue, W3C , Sophia Antipolis Jacques Lemaire, IUT Menton RNTI-E-11 - viii - TABLE DES MATIÈRES VOLUME I Conférences invitées Industrialiser le data Mining : enjeux et perspectives, Françoise Fogelman-Soulié ................................................................................................. 1 Le forage de réseaux sociaux, Osmar Zaïane ....................................................................................................................... 3 From Mining the Web to Inventing the New Sciences Underlying the Internet, Usama Fayyad ...................................................................................................................... 5 Session Web sémantique et ontologies Extraction et exploitation des annotations contextuelles, Noureddine Mokhtari, Rose Dieng-Kuntz ............................................................................ 7 Vers une fouille sémantique des brevets: Application au domaine biomédical, Nizar Ghoula, Khaled Khelif, Rose Dieng-Kuntz ............................................................... 19 Utilisation du Web Sémantique pour la gestion d’une liste de diffusion d’une CoP, Bassem Makni, Khaled Khelif, Hacène Cherfi, Rose Dieng-Kuntz.................................... 31 Approche d’annotation automatique des événements dans les articles de presse, Rim Faiz, Aymen Elkhlifi .................................................................................................... 37 Web Content Data Mining : la classification croisée pour l’analyse textuelle d’un site Web, Malika Charrad, Yves Lechevallier, Gilbert Saporta, Mohamed Ben Ahmed ................... 43 Session Recherche d’information et visualisation Recherche d’information personnalisée dans les bibliothèques numériques scientifiques, Thanh-Trung Van, Michel Beigbeder ................................................................................. 55 Requêtes alternatives dans le contexte d’un entrepôt de données génomiques, Christine Froidevaux, Frédéric Lemoine ........................................................................... 61 Enhancing Personal File Retrieval in Semantic File Systems with Tag-Based Context, Ba-Hung Ngo, Frédérique Silber-Chaussumier, Christian Bac ........................................ 73 Clustering Visuel Semi-Supervisé pour des systèmes en coordonnées en étoiles 3D, Loïc Lecerf, Boris Chidlovskii ............................................................................................ 79 Les cartes cognitives hiérarchiques, Lionel Chauvin, David Genest, Stéphane Loiseau ............................................................. 91 - ix - RNTI-E-11 Session Ontologies Une mesure de similarité contextuelle pour l’aide à la navigation dans un treillis, Saoussen Sakji, Marie-Aude Aufaure, Géraldine Polaillon, Bénédicte Le Grand .......... 103 Une approche ontologique pour automatiser le contrôle de conformité dans le domaine du bâtiment, Catherine Faron-Zucker, Anastasiya Yurchyshyna, Nhan Le Thanh, Celson Lima ........ 115 Sémantique et réutilisation d’ontologie générique, Sylvie Després, Sylvie Szulman ........................................................................................ 121 Gradients de prototypicalité conceptuelle et lexicale : une contribution à la pragmatisation des ontologies de domaine, Xavier Aimé, Frédéric Fürst, Pascale Kuntz, Francky Trichet........................................ 127 Mesures Hiérarchiques pondérées pour l’évaluation d’un système semi-automatique d’annotation de génomes utilisant des arbres de décision, Lucie Gentils, Jérôme Azé, Claire Toffano-Nioche, Valentin Loux, Anne Poupon, Jean-François Gibrat, Christine Froidevaux ................................................................... 133 Méthodologie d’Évaluation Intelligente des Concepts Ontologiques, Lobna Karoui, Marie-Aude Aufaure ................................................................................ 139 Session Flux de données Échantillonnage pour l’extraction de motifs séquentiels : des bases de données statiques aux flots de données, Chedy Raïssi, Pascal Poncelet ......................................................................................... 145 Le FIA: un nouvel automate permettant l’extraction efficace d’itemsets fréquents dans les flots de données, Jean-Emile Symphor, Alban Mancheron, Lionel Vinceslas, Pascal Poncelet ................. 157 Échantillonnage spatio-temporel de flux de données distribués, Raja Chiky, Jérôme Cubille, Alain Dessertaine, Georges Hébrail, Marie-Luce Picard ...................................................................................................... 169 Semantics of Spatial Window over Spatio-Temporal Data Stream, Yi Yu, Talel Abdessalem, Junwei Yan ............................................................................... 181 Délestage pour l’analyse multidimensionnelle de flux de données, Sylvain Ferrandiz, Georges Hébrail ................................................................................ 193 Session Posters Classification des documents en réseaux petits-mondes en vue d’apprentissage, Mohamed Khazri, Mohamed Tmar, Mohand Boughanem, Mohamed Abid .................... 199 Apport des traitements morphosyntaxiques pour l’alignement des définitions par une classification SVM, Laura Diosan, Alexandrina Rogozan, Jean-Pierre Pécuchet .......................................... 201 Vers l’intégration de la prédiction dans les cubes OLAP, Anouck Bodin -Niemczuk, Riadh Ben Messaoud, Sabine Loudcher Rabaséda, Omar Boussaid ............................................................................................................ 203 RNTI-E-11 -x- Un nouveau système immunitaire artificiel pour l’apprentissage non supervisé, Rachid El Meziane, Ilham Berrada, Ismail Kassou ......................................................... 205 Génération de séquence résumée par une nouvelle approche basée sur le Soft Computing, Youssef Hadi, Rachid El Meziane, Rachid Oulad Haj Thami .......................................... 207 Évaluation des critères asymétriques pour les arbres de décision, Simon Marcellin, Djamel A Zighed, Gilbert Ritschard .................................................... 209 Principes d’Analyse des données symboliques et application à la détection d’anomalies sur des ouvrages publics, Edwin Diday ..................................................................................................................... 211 Échantillonnage adaptatif de jeux de données déséquilibrés pour les forêts aléatoires, Julien Thomas, Pierre-Emmanuel Jouve, Elie Prudhomme............................................. 213 Une proposition pour l’extraction de relations non prédicatives, Mouna Kamel.................................................................................................................... 215 Méthodologie de définition de e-services pour la gestion des connaissances à partir d’un plateau de créativité : application au e-learning instrumental, Noel Conruyt, David Grosser, Olivier Sebastien ............................................................. 217 Stratégies de classification non supervisée sur fenêtres superposées : application aux données d’usage du Web, Alzennyr Da Silva, Yves Lechevallier ............................................................................... 219 Une J-mesure orientée pour élaguer des modèles de chroniques, Nabil Benayadi, Marc Le Goc .......................................................................................... 221 Extraction et validation par croisement des relations d’une ontologie de domaine, Lobna karoui, Marie-Aude Aufaure ................................................................................. 223 Ontologies et raisonnement à partir de cas : Application à l’analyse des risques industriels, Amjad Abou Assali, Dominique Lenne, Bruno Debray .................................................... 225 Classification Automatique Non supervisée de Documents Textuels basés sur Wordnet, Amine Abdelmalek, Zakaria Elberrichi, Ladjel Bellatreche, Michel Simonet, Mimoum Malki ............................................................................................................. 227 Session Démonstrations Khiops : outil de préparation et modélisation des données pour la fouille des grandes bases de données, Marc Boullé ...................................................................................................................... 229 Processus d’acquisition d’un dictionnaire de sigles et de leurs définitions à partir d’un corpus, Vladislav Matviico, Nicolas Muret, Mathieu Roche ........................................................ 231 Cas d’utilisation réelle de Nautilus : Calcul d’indicateurs chez un opérateur mobile, Adrien Schmidt, Serge Fantino ......................................................................................... 233 FIASCO : un nouvel algorithme d’extraction d’itemsets fréquents dans les flots de données, Lionel Vinceslas, Jean-Émile Symphor, Alban Mancheron et Pascal Poncelet .............. 235 - xi - RNTI-E-11 Visualisation des motifs séquentiels extraits à partir d’un corpus en Ancien Français, Julien Rabatel, Yuan Lin, Yoann Pitarch, Hassan Saneif, Claire Serp, Mathieu Roche, Anne Laurent ..................................................................................... 237 Le logiciel SODAS : avancées récentes Un outil permettant d’analyser et de visualiser des données symboliques, Myriam Touati, Mohamed Rahal, Filipe Afonso, Edwin Diday ....................................... 239 Session Données volumineuses Vers l’exploitation de grandes masses de données, Raphaël Féraud, Marc Boullé, Fabrice Clérot, Françoise Fessant ................................ 241 Clustering en haute dimension par accumulation de clusterings locaux, Marc-Ismael Akodjenou-Jeannin, Kave Salamatian, Patrick Gallinari .......................... 253 Binary Block GTM : Carte auto-organisatrice probabiliste pour les grands tableaux binaires, Rodolphe Priam, Mohamed Nadif, Gérard Govaert ........................................................ 265 Session Apprentissage Optimisation du Primal pour les SVM, Trinh-Minh-Tri Do, Thierry Artières ............................................................................... 273 Vers des Machines à Vecteurs Support "Actionnables" : Une Approche Fondée sur le Classement, Ansaf Salleb-Aouissi, Bert C. Huang, David L. Waltz ..................................................... 285 Algorithmes rapides de boosting de SVM, Thanh-Nghi Do, Jean-Daniel Fekete, François Poulet.................................................... 297 Approche hybride de classification supervisée à base de treillis de Galois : application à la reconnaissance de visages, Brahim Douar, Chiraz Latiri, Yahya Slimani .................................................................. 309 Pondération locale des variables en apprentissage numérique non-supervisé, Nistor Grozavu, Younès Bennani, Mustapha Lebbah ...................................................... 321 Optimisation de réseaux de neurones RBF pour la régression via un algorithme évolutionnaire: RBF-Gene, Virginie Lefort, Guillaume Beslon ................................................................................... 331 Structure Inference of Bayesian Networks from Data: A New Approach Based on Generalized Conditional Entropy, Dan Simovici, Saaid Baraty.............................................................................................. 337 Discretization of Continuous Features by Resampling, Taimur Qureshi, Djamel A Zighed ................................................................................... 343 Une nouvelle approche du Boosting face aux données réelles, Emna Bahri, Mondher Maddouri ..................................................................................... 349 Une approche ensembliste inspirée du boosting en classification non supervisée, Romain Billot, Henri-Maxime Suchier, Stéphane Lallich ................................................ 361 RNTI-E-11 - xii - VOLUME II Session Fouille de motifs et règles Mining Implications from Lattices of Closed Trees, Jose Luis Balcazar, Albert Bifet, Antoni Lozano .............................................................. 373 Suppression des Itemsets Clés Non-Essentiels en Classification basée sur les Règles d’Association, Viet Phan Luong ............................................................................................................... 385 Détection de groupes atypiques pour une variable cible quantitative, Sylvie Guillaume, Florian Guillochon, Michel Schneider ............................................... 397 Extraction d’itemsets compacts, Bashar Saleh, Florent Masseglia ..................................................................................... 409 Étude de l’interaction entre variables pour l’extraction des règles d’influence, Leila Nemmiche Alachaher, Sylvie Guillaume ................................................................. 415 Recherche adaptative de structures de régulation génétique, Mohamed Elati, Céline Rouveirol .................................................................................... 427 Session Données multimédia Data mining for activity extraction in video data, Jose Luis Patino, Etienne Corvee, François Bremond, Monique Thonnat ...................... 433 Fouille de données audio pour la discrimination automatique de mots homophones, Rena Nemoto, Martine Adda-Decker, Ioana Vasilescu.................................................... 445 Recherche d’images par noyaux sur graphes de régions, Philippe-Henri Gosselin, Justine Lebrun, Sylvie Philipp-Foliguet .................................. 457 Interprétation d’images basée sur une approche évolutive guidée par une ontologie, Germain Forestier, Sébastien Derivaux, Cédric Wemmert, Pierre Gançarski ............... 469 Une nouvelle approche pour la recherche d’images par le contenu, Nguyen-Khang Pham, Annie Morin ................................................................................. 475 Classification adaptative de séries temporelles : application à l’identification des gènes exprimés au cours du cycle cellulaire., Alpha Diallo, Ahlame Douzal, Françoise Giroud ............................................................ 487 Session Fouille de séquences et graphes Visualisation et classification des parcours de vie, Nicolas S. Müller, Sylvain Lespinats, Gilbert Ritschard, Matthias Studer, Alexis Gabadinho ........................................................................................................ 499 Approches de type n-grammes pour l’analyse de parcours de vie familiaux, Matthias Studer, Alexis Gabadinho, Nicolas S. Müller, Gilbert Ritschard ..................... 511 Recherche de motifs spatio-temporels de cas atypiques pour le trafic routier urbain, Marc Joliveau, Florian De Vuyst ..................................................................................... 523 Découverte de motifs séquentiels et règles inattendues, Dong (Haoyuan) Li, Anne Laurent, Pascal Poncelet ....................................................... 535 - xiii - RNTI-E-11 Extraction de Motifs Séquentiels Multidimensionnels Clos sans Gestion d’Ensemble de Candidats, Marc Plantevit, Anne Laurent, Maguelonne Teisseire..................................................... 541 Prétraitement des bases de données de réactions chimiques pour la fouille de schémas de réactions, Frédéric Pennerath, Géraldine Polaillon, Amedeo Napoli.............................................. 547 La prise en compte de la dimension temporelle dans la classification de données, Éloïse Loubier, Bernard Dousset ..................................................................................... 559 Session Fouille de texte Analyse exploratoire d’opinions cinématographiques : co-clustering de corpus textuels communautaires, Damien Poirier, Cécile Bothorel, Marc Boullé................................................................ 565 Assignation automatique de solutions à des classes de plaintes liées aux ambiances intérieures polluées, Zoulikha Heddadji, Nicole Vincent, Séverine Kirchner, Georges Stamon ...................... 577 Un système de vote pour la classification de textes d’opinion, Michel Plantié, Mathieu Roche, Gérard Dray ................................................................. 583 ExpLSA : utilisation d’informations syntaxico-sémantiques associées à LSA pour améliorer les méthodes de classification conceptuelle., Nicolas Béchet, Mathieu Roche, Jacques Chauché.......................................................... 589 Un modèle d’espace vectoriel de concepts pour noyaux sémantiques, Sujeevan Aseervatham ...................................................................................................... 601 Intégration de la structure dans un modèle probabiliste de documents, Mathias Géry, Christine Largeron, Franck Thollard ...................................................... 613 Session Classification Un algorithme de classification topographique non supervisée à deux niveaux simultanés, Guénaël Cabanes, Younès Bennani .................................................................................. 619 Segmentation hiérarchique des cartes topologiques, Mustapha Lebbah, Hanane Azzag .................................................................................... 631 Intégration de contraintes dans les cartes auto-organisatrices, Anouar BenaHassena, Khalid Benabdeslem, Fazia Bellal, Alexandre Aussem, Bruno Canitia .............................................................................................................. 643 Une nouvelle méthode divisive de classification non supervisée pour des données symboliques intervalles, Nathanaël Kasoro, André Hardy ...................................................................................... 649 Co-classification sous contraintes par la somme des résidus quadratiques, Ruggero Gaetano Pensa, Jean-François Boulicaut ......................................................... 655 Étude comparative de deux approches de classification recouvrante : Moc vs. Okm, Guillaume Cleuziou, Jacques-Henri Sublemontier .......................................................... 667 RNTI-E-11 - xiv - Session Connaissances Distribuées et ontologies Système multi-agent argumentatif pour la classification des connaissances cruciales, Imène Brigui, Inès Saad.................................................................................................... 679 Un processus d’acquisition d’information pour les besoins d’enrichissement des BDG, Khaoula Mahmoudi, Sami Faiz ........................................................................................ 691 Un modèle et une algèbre pour les systèmes de gestion d’ontologies, Gilles Falquet, Claire-Lise Mottaz-Jiang, Jacques Guyot ............................................... 697 La découverte de mappings dans SomeRDFS, François-Elie Calvier, Chantal Reynaud ......................................................................... 703 - xv - RNTI-E-11 Mining Implications from Lattices of Closed Trees José L. Balcázar , Albert Bifet , Antoni Lozano Departament de Llenguatges i Sistemes Informàtics Universitat Politècnica de Catalunya {balqui,abifet,antoni}@lsi.upc.edu Abstract. We propose a way of extracting high-confidence association rules from datasets consisting of unlabeled trees. The antecedents are obtained through a computation akin to a hypergraph transversal, whereas the consequents follow from an application of the closure operators on unlabeled trees developed in previous recent works of the authors. We discuss in more detail the case of rules that always hold, independently of the dataset, since these are more complex than in itemsets due to the fact that we are no longer working on a lattice. 1 Introduction In the field of data mining, one of the major notions contributing to the success of the area has been that of association rules. Many studies of various types have provided a great advance of the human knowledge about these concepts. One particular family of studies is rooted on the previous notions of formal concepts, Galois lattices, and implications, which correspond to association rules of maximum confidence. These notions have allowed for more efficient works and algorithmics by reducing the computation of frequent sets, a major usual step towards association rules, to the computation of so-called closed frequent sets, a faster computation of much more manageable output size, yet losing no information at all with respect to frequent sets. It was realized some time ago that the plain single-relational model for the data, as employed by the computation of either closed sets or association rules, whereas useful to a certain extent, was a bit limited in its applicability by the fact that, often, real-life data have some sort of internal structure that is lost in the transactional framework. Thus, studies of data mining in combinatorial structures were undertaken, and considerable progress has been made in recent years. Our work here is framed in that endeavor. In previous work, we have proposed a mathematical clarification of the closure operator underlying the notion of closed trees in datasets of trees; the closure operator no longer works on single trees but on sets of them. In a sense, made precise there, closed trees do not constitute a lattice. A mathematically precise replacement lattice can be defined, though, as demonstrated in (Balcázar et al., 2006), consisting not anymore of trees but of sets of trees, and with the peculiar property that, in all experiments with real-life data we have undertaken, they turn out to be actually lattices of trees, in the sense that every closed set of trees was, in all practical cases, a singleton. - 373 - RNTI-E-11 Suppression des Itemsets Clés Non Essentiels en Classification basée sur les Règles d’Association Viet Phan-Luong Université de Provence Laboratoire d’Informatique Fondamentale de Marseille (LIF - UMR CNRS 6166) CMI, 39 rue F. Joliot Curie 13453 Marseille, France [email protected] Résumé. En classification basée sur les règles d’association, les itemsets clés sont essentiels : la suppression des itemsets non clés n’affecte pas la précision du classifieur en construction. Ce travail montre que parmi ces itemsets clés, on peut s’intéresser seulement à ceux de petites tailles. Plus loin encore, il étudie une généralisation d’une propriété importante des itemsets non clés et montre que parmi les itemsets clés de petites tailles, il y a ceux qui ne sont pas significatifs pour la classification. Ces itemsets clés sont dits non essentiels. Ils sont définis via un test de χ2 . Les expériences menées sur les grands jeux de données montrent que l’optimisation par la suppression de ces itemsets est correcte et efficace. 1 Introduction Etant donné un ensemble d’objets et un ensemble d’étiquettes de classes, le problème de classification est de chercher une fonction pour attribuer à chaque objet une étiquette de classe. Une telle fonction est appelée un classifieur. Les constructions de ces classifieurs sont en général basées sur les données d’exemples (d’entraînement). Il existe plusieurs méthodes de classification, telles que l’arbre de décision Quinlan (1993), la méthode naïve-Bayes Duda et Hart (1973), les méthodes basées sur les règles Clark et Niblett (1995); Cohen (1995). Ce papier présente une approche à la construction de classifieurs basée sur les règles classe-associations Lent et al. (1997); Liu et al. (1998); Li et al. (2001), en utilisant une structure d’arbre de préfixes pour l’extraction des itemsets fréquents et les règles d’association Agrawal et al. (1993). Dans les approches telles que CMAR Li et al. (2001), HARMONY Wang et Karypis (2005), par optimisations, les règles d’association sont essentiellement construites sur les itemsets clés Bastide et al. (2000). Ce présent travail montre que parmi ces itemsets clés, on peut s’intéresser seulement à ceux de petites tailles. Ensuite, via un test de χ 2 , il montre que parmi ces derniers, il existe encore ceux qui ne sont pas significatifs pour la classification. Ces itemsets clés sont dits non essentiels. Les résultats d’expérimentations sur les grands jeux de données de UCI Coenen (2004) montrent que l’optimisation par la suppression de ces itemsets est correcte et efficace. - 385 - RNTI-E-11 Détection de groupes atypiques pour une variable cible quantitative Sylvie Guillaume , Florian Guillochon , Michel Schneider Laboratoire LIMOS, UMR 6158 CNRS, Université Blaise Pascal Complexe scientifique des Cézeaux, 63177 Aubière Cedex - France [email protected], [email protected], [email protected] Résumé. Une tâche importante en analyse des données est la compréhension de comportements inattendus ou atypiques de groupes d’individus. Quelles sont les catégories d’individus qui gagnent de particulièrement forts salaires ou au contraire, quelles sont celles qui ont de très faibles salaires ? Nous présentons le problème d’extraction de tels groupes atypiques vis-à-vis d’une variable cible quantitative, comme par exemple la variable ″salaire″, et plus particulièrement pour les faibles et fortes valeurs d’un intervalle déterminé par l’utilisateur. Il s’agit donc de rechercher des conjonctions de variables dont la distribution diffère significativement de celle de l’ensemble d’apprentissage pour les faibles et fortes valeurs de l’intervalle de cette variable cible. Une adaptation d’une mesure statistique existante, l’intensité d’inclination, nous permet de découvrir de tels groupes atypiques. Cette mesure nous libère de l’étape de transformation des variables quantitatives, à savoir l’étape de discrétisation suivie d’un codage disjonctif complet. Nous proposons donc un algorithme d’extraction de tels groupes avec des règles d’élagage pour réduire la complexité du problème. Cet algorithme a été développé et intégré au logiciel d’extraction de connaissances WEKA. Nous terminons par un exemple d’extraction sur la base de données IPUMS du bureau de recensement américain. 1 Introduction Un problème important en analyse des données est la compréhension de comportements inattendus ou atypiques de groupes d’individus. Quelles sont les catégories d’individus qui gagnent de particulièrement forts salaires ou au contraire, quelles sont celles qui ont de très faibles salaires ? Notre but est de détecter automatiquement tous les groupes d’individus ayant un comportement différent de celui de l’ensemble d’apprentissage pour une variable quantitative donnée et plus particulièrement pour les faibles et les fortes valeurs d’un intervalle déterminé par l’utilisateur. Nous recherchons donc les motifs ou conjonctions de variables dont la distribution diffère significativement de celle de l’ensemble d’apprentissage pour les faibles et fortes valeurs de l’intervalle de cette variable cible. - 397 - RNTI-E-11 Extraction d’itemsets compacts Bashar Saleh, Florent Masseglia Inria Sophia-Antipolis Méditérranée Equipe-Projet AxIS 2004 route des lucioles - BP 93 FR-06902 Sophia Antipolis {Prénom.Nom}@sophia.inria.fr, http://www-sop.inria.fr/axis Résumé. L’extraction d’itemsets fréquents est un sujet majeur de l’ECD et son but est de découvrir des corrélations entre les enregistrements d’un ensemble de données. Cependant, le support est calculé en fonction de la taille de la base dans son intégralité. Dans cet article, nous montrons qu’il est possible de prendre en compte des périodes difficiles à déceler dans l’organisation des données et qui contiennent des itemsets fréquents sur ces périodes. Nous proposons ainsi la définition des itemsets compacts, qui représentent un comportement cohérent sur une période spécifique et nous présentons l’algorithme D E IC O qui permet leur découverte. 1 Introduction Le problème de la recherche de règles d’association, introduit dans Agrawal et al. (1993), est basé sur l’extraction de corrélations fréquentes entre les enregistrements et connaît de nombreuses applications dans le marketing, la gestion financière ou l’analyse décisionnelle (par exemple). Au cœur de ce problème, la découverte d’itemsets fréquents représente un domaine de recherche très étudié. Dans l’analyse du panier de la ménagère, par exemple, les itemsets fréquents ont pour but de découvrir des ensembles d’items qui correspondent à un nombre significatif de clients. Si ce nombre est supérieur à un support défini (par l’utilisateur) alors cet itemset est considéré comme fréquent. Cependant, dans la définition initiale des itemsets fréquents, l’extraction est effectuée sur la base de données toute entière (i.e. soit min supp , le support minimum donné par l’utilisateur, les itemsets extraits doivent apparaître dans au moins |D| × minsupp enregistrements de D). Toutefois, il est possible que des itemsets intéressants reste ignorés malgré des caractéristiques particulières (y compris de support). Effectivement, les itemsets intéressants sont souvent liés au moment qui correspond à leur observation. On pourrait prendre pour exemple le comportement des utilisateurs d’un site de commerce en ligne pendant une offre spéciale sur les DVD et les CD vierges pour laquelle une publicité est faite par mailing. De la même manière, le site Web d’une conférence peut voir le nombre de connexions augmenter dans une fenêtre de quelques heures avant la date limite de soumission. Une condition nécessaire à la découverte de ce type de données est liée à l’aspect temporel des données. Cet aspect a déjà été abordé pour les règles d’association dans Ale et Rossi (2000); - 409 - RNTI-E-11 Étude de l’interaction entre variables pour l’extraction des règles d’influence L. Nemmiche Alachaher et S. Guillaume LIMOS, UBP UMR 6158 CNRS Complexe des Cézeaux 63177 AUBIERE Cedex - France {nemmiche, sylvie.guillaume}@isima.fr Résumé. Cet article présente une méthode efficace pour l’extraction de règles d’influence quantitatives positives et négatives. Ces règles d’influence introduisent une nouvelle sémantique qui vise à faciliter l’analyse d’un volume important de données. Cette sémantique fixe la direction de la règle entre deux variables en positionnant, au préalable, l’une comme étant l’influent et l’autre comme étant l’influé. Elle permet, de ce fait, d’exprimer la nature de l’influence : positive, en maximisant le nombre d’éléments en commun ou négative, en maximisant le nombre d’éléments qui violent l’influé. Notre approche s’appuie sur une stratégie qui comporte cinq étapes dont deux exécutées en parallèle. Ces deux étapes constituent les étapes clé de notre approche. La première combine une méthode d’élagage et de regroupement tabulaire basée sur les tableaux de contingence. Cette dernière construit et classe les zones potentiellement intéressantes. La seconde, injecte la sémantique et évalue le degré d’influence que produirait l’introduction d’une nouvelle variable sur un ensemble de variables en utilisant une nouvelle mesure d’intérêt, l’Influence. Cette étape vient affiner les résultats de la première étape, et permet de se focaliser sur des zones valides par rapport aux contraintes spécifiées. Enfin, un système de règles d’influence jugées intéressantes est construit basé sur la juxtaposition des résultats des deux étapes clé de notre approche. 1 Introduction L’extraction de connaissances est un processus qui permet d’analyser une masses de données importante afin d’en extraire des connaissances nouvelles, valides et utiles. Ces connaissances sont ensuite présentées sous différentes formes notamment sous forme de règles d’association. Une règle d’association (RA) (Agrawal et al. (1993)) est une implication de la forme C1 → C2 , où C1 et C2 sont des conditions C sur les attributs de la base. Soient minsup et minconf des seuils prédéfinis. Une RA est dite forte si elle satisfait deux contraintes : – son support supp(C) ≥ minsup, avec supp(C) : nombre de transactions dans la base qui satisfont l’ensemble des conditions C tel que supp(C1 → C2 ) = supp(C1 ∧ C2 ) ; 1 →C2 ) – sa confiance conf (C1 → C2 ) ≥ minconf , avec conf (C1 → C2 ) = supp(C supp(C1 ) . - 415 - RNTI-E-11 Recherche adaptative de structures de régulation génétique Mohamed Elati∗,∗∗ , Céline Rouveirol∗ ∗ LIPN — CNRS UMR 7030, Université Paris 13 99, av. J-B Clément, F-93430 Villetaneuse [email protected] ∗∗ Institut Curie, CNRS UMR 144 26 rue d’Ulm F-75248 Paris Résumé. Nous avons proposé un algorithme original de Fouille de Données, L ICORN, afin d’inférer des relations de régulation coopérative à partir de données d’expression. L ICORN donne de bons résultats s’il est appliqué à des données de levure, mais le passage à l’échelle sur des données plus complexes (e.g., humaines) est difficile. Dans cet article, nous proposons une extension de L I CORN afin qu’il puisse gérer une contrainte de co-régulation adaptative. Une évaluation préliminaire sur des données de transcriptome de tumeurs de vessie montre que les réseaux significatifs sont obtenus à l’aide d’une contrainte de corégulation adaptative de manière beaucoup plus efficace, et qu’ils ont des performances de prédiction équivalentes voire meilleures que celles obtenues par L ICORN. 1 Introduction Un des principaux objectifs de la biologie moléculaire consiste à comprendre la régulation des gènes d’un organisme vivant dans des contextes biologiques spécifiques. Les facteurs de transcription sont les régulateurs de la transcription qui vont réagir avec les promoteurs de la transcription des gènes cibles. Les techniques récentes d’analyse du transcriptome, telles que les puces à ADN permettent de mesurer simultanément les niveaux d’expression de plusieurs milliers de gènes. Nous avons déjà décrit le système L ICORN (Elati et al., 2007a) qui se fonde sur un modèle de régulation locale coopérative : chaque gène peut être régulé par un ensemble des coactivateurs et/ou un ensemble de coinhibiteurs, ces corégulateurs agissent collectivement pour influencer leur(s) gène(s) cible(s). L ICORN met en œuvre une approche originale de Fouille de Données afin d’inférer des relations de régulation coopérative à partir de données d’expression. Cet algorithme a été évalué avec succès sur des données publiques de transcriptome de levure. L’application de L ICORN sur des données de transcriptome humaines est plus complexe, car le nombre de régulateurs connus est plus important, et nécessite un temps de calcul considérable. En effet, les gènes de faible support vont avoir un nombre très élevé de régulateurs candidats. Nous proposons dans ce travail d’étendre L ICORN pour qu’il puisse traiter une contrainte de sélection de corégulateurs candidats adaptative pour chaque gène, prenant en compte le support du gène cible et bornant le nombre de corégulateurs candidats possibles. La suite de cet article est organisée comme suit. Dans la section 2, nous introduisons brièvement le principe de L ICORN. Dans la section 3, nous détaillons l’extension de L ICORN à la - 427 - RNTI-E-11 Data mining for activity extraction in video data JoseLuis Patino, Etienne C orvee François Bremond , Monique T honnat INRIA, 2004 route des Lucioles, 06902 Sophia Antipolis (FRANCE) {jlpatino, Etienne.Corvee, Francois.Bremond, Monique.Thonnat}@sophia.inria.fr http://www-sop.inria.fr/orion/ Summary. The exploration of large video data is a task which is now possible because of the advances made on object detection and tracking. Data mining techniques such as clustering are typically employed. Such techniques have mainly been applied for segmentation/indexation of video but knowledge extraction of the activity contained in the video has been only partially addressed. In this paper we present how video information is processed with the ultimate aim to achieve knowledge discovery of people activity in the video. First, objects of interest are detected in real time. Then, in an off-line process, we aim to perform knowledge discovery at two stages: 1) finding the main trajectory patterns of people in the video. 2) finding patterns of interaction between people and contextual objects in the scene. An agglomerative hierarchical clustering is employed at each stage. We present results obtained on real videos of the Torino metro (Italy). 1 Introduction Nowadays, more than ever, the technical and scientific progress requires human operators to handle more and more quantities of data. To treat this huge amount of data, most of the work can now be performed in the data-mining field to synthesize, analyze and extract valuable information, which is generally hidden in the raw data. Clustering is one of the most commonly used techniques in data mining to perform knowledge discovery tasks on large amount of data with no prior knowledge of what could be hidden in the data. There exists many clustering techniques in the literature, and the main goal of all these techniques is to obtain a partition of the data by organizing it automatically into separate groups where the objects inside a specific group are more similar to each other (with regards to their extracted and measured attributes, or variables) than to the objects of the other groups. Mining of text documents (Blatak 2005; Lemoine et al., 2005; Xing et Ah-Hwee 2005) and web-related - 433 - RNTI-E-11 Fouille de données audio pour la classification automatique de mots homophones Rena Nemoto, Martine Adda-Decker Ioana Vasilescu LIMSI-CNRS B.P. 133 91403 Orsay Cedex France {nemoto, madda, ioana}@limsi.fr http://www.limsi.fr Résumé. Cet article présente une contribution à la modélisation acoustique des mots à partir de grands corpus oraux, faisant appel aux techniques de fouilles de données. En transcription automatique, de nombreuses erreurs concernent des mots fréquents homophones. Deux paires de mots (quasi-)homophones à/a et et/est sont sélectionnées dans les corpus, pour lesquels sont définis et examinés 41 descripteurs acoustiques permettant potentiellement de les distinguer. 17 algorithmes de classification, mis à l’épreuve pour la discrimination automatique de ces deux paires de mots, donnent en moyenne 77% de classification correcte sur les 5 meilleurs algorithmes. En réduisant le nombre de descripteurs à 10 (sélectionnés par l'algorithme le plus performant), les résultats de classification restent proches du résultat obtenu avec 41 attributs. Cette comparaison met en évidence le caractère discriminant de certains attributs, qui pourront venir enrichir à la fois la modélisation acoustique et nos connaissances des prononciations de l’oral. 1 Introduction En transcription automatique de la parole, de grands corpus audio (incluant généralement des centaines d'heures de parole) servent à estimer des modèles acoustiques précis de phonèmes contextuels. Ces modèles de sons élémentaires sont ensuite concaténés pour aboutir à des modèles de mots en s’appuyant sur la connaissance de leur prononciation. Cette connaissance est incomplète à l’heure actuelle et une partie importante de l'information caractérisant les variantes de prononciations se trouve encodée implicitement dans les modèles acoustiques. L’objectif de ce travail est de s’appuyer sur les techniques de fouille de données afin d’extraire des connaissances relatives aux spécificités acoustiques et prosodiques caractérisant les prononciations. Cette approche a déjà pu montrer son intérêt pour la caractérisation des accents étrangers (Vieru-Dimulescu et al., 2007). Nous nous intéresserons ici aux mots considérés comme homophones, i.e. phonémiquement pareils, et qui sont de ce fait sujets à de nombreuses erreurs de confusion lors de la transcription automatique. Partant de ces constats, nous nous sommes interrogés si les mots homophones ne déploieraient pas de particularités acoustiques/prosodiques qui n'ont été prises en compte ni par les paramètres acoustiques classiques (vecteurs de cepstres), ni par les modèles acoustiques (Modèles de Markov Cachés à trois états) et qui permettrait leur discrimination. Nous faisons ainsi l’hypothèse que des informations prosodiques (concernant durée, fréquence fondamentale notée f0, cooccurrence avec des pauses, etc.) puissent contribuer à lever certains types d’homophonie, en particulier s’il s’agit d’homophones issus de classes syntaxiques différentes (hétéro-syntaxiques). Nous avons fait appel aux techniques de fouille de données afin de classer automatiquement ces - 445 - RNTI-E-11 Recherche d’images par noyaux sur graphes de régions Philippe-Henri Gosselin, Justine Lebrun et Sylvie Philipp-Foliguet ∗ ETIS CNRS 6 ave du Ponceau 95014 Cergy-Pontoise Cedex {gosselin,lebrun,philipp}@ensea.fr Résumé. Dans le cadre de la recherche interactive d’images dans une base de données, nous nous intéressons à des mesures de similarité d’image qui permettent d’améliorer l’apprentissage et utilisables en temps réel lors de la recherche. Les images sont représentées sous la forme de graphes d’adjacence de régions floues. Pour comparer des graphes valués nous employons des noyaux de graphes s’appuyant sur des ensembles de chaînes, extraites des graphes comparés. Nous proposons un cadre général permettant l’emploi de différents noyaux et différents types de chaînes(sans cycle, avec boucles) autorisant des appariements inexacts. Nous avons effectué des comparaisons sur deux bases issues de Columbia et Caltech et montré que des chaînes de très faible dimension (longueur inférieur à 3) sont les plus efficaces pour retrouver des classes d’objets. 1 Introduction Le problème de la comparaison de graphes est un sujet qui a été largement étudié dans la littérature depuis plusieurs décennies. S’il existe des algorithmes pour la recherche d’isomorphisme entre deux graphes, c’est-à-dire dans le cas où les deux graphes ont la même structure, même nombre de nœuds et même nombre d’arêtes, le cas plus général de comparaison entre deux graphes de tailles différentes est un problème NP-complet. Le problème est encore plus difficile lorsque les graphes sont valués et que l’on recherche une mesure de similarité entre graphes, afin de pouvoir les ordonner, les classer, etc. On est confronté à ce problème dans certaines approches de la reconnaissance des formes où on cherche à construire des classes d’objets représentés par des ensembles structurés de régions, lignes, points, etc. Une des problématiques de la recherche d’image par le contenu est de retrouver dans une base, les images contenant un objet particulier ou un type d’objet, d’animal ou de personne, pouvant prendre des aspects très variables dans des environnements eux aussi variables. Les signatures globales ne permettent pas toujours de résoudre ce problème et les approches par points d’intérêt ne sont pas bien adaptées aux changements d’aspect d’un animal ou d’une personne, selon la prise de vue. Une approche prometteuse semble donc être de représenter un objet par un ensemble de régions adjacentes valuées à la fois par des caractéristiques intrinsèques de couleur, texture et forme, mais aussi par leurs dispositions relatives (cf. Philipp-Foliguet et Gony (2006)). Le graphe d’adjacence de régions constitue donc la structure - 457 - RNTI-E-11 Interprétation d’images basée sur une approche évolutive guidée par une ontologie Germain Forestier, Sébastien Derivaux, Cédric Wemmert et Pierre Gançarski LSIIT - CNRS - Université Louis Pasteur - UMR 7005 Pôle API, Bd Sébastien Brant - 67412 Illkirch, France {forestier,derivaux,wemmert,gancarski}@lsiit.u-strasbg.fr Résumé. Les approches de fouille et d’interprétation d’images consistant à considérer les pixels de façon indépendante ont montré leurs limites pour l’analyse d’images complexes. Pour résoudre ce problème, de nouvelles méthodes s’appuient sur une segmentation préalable de l’image qui consiste en une agrégation des pixels connexes afin de former des régions homogènes au sens d’un certain critère. Cependant le lien est souvent complexe entre la connaissance de l’expert sur les objets qu’il souhaite identifier dans l’image et les paramètres nécessaires à l’étape segmentation permettant de les identifier. Dans cet article la connaissance de l’expert est modélisée dans une ontologie qui est ensuite utilisée pour guider un processus de segmentation par une approche évolutive. Cette méthode trouve automatiquement des paramètres de segmentation permettant d’identifier les objets décrits par l’expert dans l’ontologie. 1 Introduction L’interprétation automatique d’images devient un processus de fouille de données de plus en plus complexe. Pour les images à très haute résolution, l’utilisation de l’approche dite orientée objet consiste à identifier dans l’image, souvent à l’aide d’une segmentation de l’image, des objets composés de plusieurs pixels connexes et ayant un intérêt pour l’expert du domaine. Il existe de nombreux algorithmes de segmentation. Néanmoins, ces techniques nécessitent souvent une paramétrisation complexe telle que le choix de seuils ou de pondérations. Le nombre de paramètres augmente bien souvent avec la complexité des algorithmes. Ainsi, l’utilisateur amené à définir ces paramètres a souvent du mal à faire le lien entre sa connaissance sur les objets présents dans l’image et les paramètres adéquats pour les construire et les identifier dans une segmentation. L’utilisation des algorithmes génétiques (Goldberg, 1989) est une solution à ce problème de recherche des paramètres optimaux. Ils peuvent être utilisés pour optimiser un ensemble d’attributs si une fonction d’évaluation des paramètres est disponible. Les méthodes existantes d’optimisation de segmentation par approche génétique (Pignalberi et al., 2003; Bhanu et al., 1995; Song et Ciesielski, 2003; Feitosa et al., 2006) se basent sur des fonctions d’évaluations demandant des exemples d’objets segmentés fournis par l’expert. Si aucun exemple n’est disponible, il est possible d’utiliser des critères non supervisés (Bhanu et al., 1995; Feitosa - 469 - RNTI-E-11 Nouvelle approche pour la recherche d’images par le contenu Nguyen-Khang Pham *,**, Annie Morin * * IRISA, Campus de Beaulieu, F - 35042, Rennes Cedex {pnguyenk,amorin}@irisa.fr http://www.irisa.fr ** Université de Cantho, Campus III, 1 Ly Tu Trong, Ville de Cantho, Vietnam [email protected] http://www.cit.ctu.edu.vn Résumé. On utilise l’analyse factorielle des correspondances (AFC) pour la recherche d’images par le contenu en s’inspirant directement de son utilisation en analyse des données textuelles (ADT). L’AFC permet ici de réduire les dimensions du problème et de sélectionner des indicateurs pertinents pour la recherche par le contenu. En ADT, l’AFC est appliquée à un tableau de contingence croisant mots et documents. La première étape consiste donc à définir des « mots visuels » dans les images (analogue des mots dans les textes). Ces mots sont construits à partir des descripteurs locaux (SIFT) des images. La méthode a été testée sur la base Caltech4 (Sivic et al., 2005) sur laquelle elle fournit de meilleurs résultats (qualité des résultats de recherche et temps d’exécution) que des méthodes plus classiques comme TF*IDF/Rocchio (Rocchio, 1971) ou pLSA (Hofmann, 1999a, 1999b). Enfin, pour passer à l'échelle et améliorer la qualité de recherche, nous proposons un nouveau prototype de recherche qui utilise des fichiers inversés basés sur la qualité de représentation des images sur les axes après avoir fait une AFC. Chaque fichier inversé est associé à une partie d'un axe (positive ou négative) et contient des images ayant une bonne qualité de représentation sur cet axe. Les tests réalisés montrent que ce nouveau prototype réduit le temps de recherche sans perte de qualité de résultat et dans certains cas, améliore le taux de précision par rapport à la méthode exhaustive. 1 Introduction L’utilisation des descripteurs locaux permet d’obtenir de bons résultats pour la reconnaissance d’images, la classification d’images et la recherche d’images par le contenu. Ces descripteurs sont robustes aux changements de contenu. Cette méthode a été proposée en 1997 par C. Schmid dans (Schmid et Mohr, 1997). Récemment, les méthodes développées originellement pour l’analyse des données textuelles (ADT) comme pLSA (probabilistic Latent Semantic Analysis) (Hofmann, 1999a), LDA (Latent Dirichlet Allocation) (Blei, 2003) sont appliquées en analyse d’images, par exemple pour la classification des images (Willamowski, 2004), la découverte des thèmes dans l’image (Sivic et al., 2005), la classifications des scènes (Bosch et al., 2006), et la recherche d’images (Lienhart et Slaney (2007)). Dans ce travail, nous utilisons l’analyse factorielle des correspondances (AFC) pour la recherche d’images. Etant donné une image requête, le système doit retourner les images - 475 - RNTI-E-11 - 487 - RNTI-E-11 Visualisation et classification des parcours de vie Nicolas S. Müller∗ , Sylvain Lespinats∗∗ , Gilbert Ritschard∗ , Matthias Studer∗ , Alexis Gabadinho∗ ∗ Département d’économétrie, Université de Genève {nicolas.muller, gilbert.ritschard, matthias.studer}@metri.unige.ch [email protected] ∗∗ INSERM Unité 722 et Université Denis Diderot Paris 7, Faculté de médecine, site Xavier Bichat [email protected] Résumé. Cet article propose une méthodologie pour la visualisation et la classification des parcours de vie. Plus spécifiquement, nous considérons les parcours de vie d’individus suisses nés durant la première moitié du XXème siècle en utilisant les données provenant de l’enquête biographique rétrospective menée en 2002 par le Panel suisse de ménages. Nous nous sommes concentrés sur ces événements du parcours de vie : le départ du foyer parental, la naissance du premier enfant, le premier mariage et le premier divorce. A partir des données de base sur ces événements, nous discutons de leur transformation en séquences d’états. Nous présentons ensuite notre méthodologie pour extraire de la connaissance des parcours de vie. Cette méthodologie repose sur des distances calculées par un algorithme d’optimal matching. Ces distances sont ensuite utilisées pour la classification des parcours de vie et leur visualisation à l’aide de techniques de « Multi Dimensional Scaling ». Cet article s’intéresse en particulier aux problématiques entourant l’application de ces méthodes aux données de parcours de vie. 1 Introduction Nous proposons dans ce travail d’étudier et de comparer diverses techniques de visualisation et de classification de parcours de vie 1 . Plus spécifiquement, nous considérons les parcours de vie familiale d’individus suisses nés durant la première moitié du XXème siècle à partir de données récoltées par le Panel suisse de ménages. Les parcours de vie familiale sont composés d’événements constitutifs de la vie familiale, comme le départ du foyer parental, le premier enfant, le premier mariage ou le premier divorce. Il est possible, à partir de ces événements, de considérer des parcours de vie individuels sous la forme de séquences d’états, chaque événement survenant dans la vie de l’individu correspondant à un changement d’état. Une méthodologie ad hoc destinée à créer une typologie des parcours de vie et à visualiser les 1 Etude soutenue par le Fonds national suisse de la recherche (FNS) FN-100012-113998, et réalisée avec les données collectées dans le cadre du projet « Vivre en Suisse 1999-2020 », piloté par le Panel suisse de ménages et supporté par le FNS, l’Office fédéral de la statistique et l’Université de Neuchâtel. - 499 - RNTI-E-11 Approches de type n-grammes pour l’analyse de parcours de vie familiaux Matthias Studer, Alexis Gabadinho, Nicolas S. Müller, Gilbert Ritschard Département d’économétrie et Laboratoire de démographie, Université de Genève {matthias.studer, nicolas.muller, gilbert.ritschard}@metri.unige.ch, [email protected] http://www.unige.ch/ses/metri/ Résumé. Cet article1 porte sur l’analyse de parcours de vie représentés sous forme de séquences d’événements. Plus spécifiquement, on examine les possibilités d’exploiter des codages de type n-grammes de ces séquences pour en extraire des connaissances. En fait, compte tenu de la simultanéité de certains événements, une procédure stricte de n-grammes comme on peut par exemple l’appliquer sur des textes, n’est pas applicable ici. Nous discutons diverses alternatives qui s’avèrent finalement plus proches de la fouille de séquences fréquentes. Les concepts discutés sont illustrés sur des données de l’enquête biographique rétrospective réalisée par le Panel suisse de ménages en 2002. Enfin, on précisera sur quels aspects l’approche proposée peut apporter un éclairage complémentaire utile par rapport à d’autres techniques plus classiques d’analyse exploratoire de parcours de vie. 1 Introduction Existe-t-il des séries typiques d’événements qui structurent la vie familiale ? Est-ce que certaines séquences d’événements sont typiques d’une partie de la population ou d’une souspopulation ? Pour répondre à ces questions, les sciences sociales ont besoin de méthodes pour analyser les parcours de vie dans leur totalité. Mais comment décrire ou comparer des séquences d’événements ? Dans cet article, nous proposons de nous centrer sur les transitions dans les parcours de vie pour les décrire. Ainsi, l’approche proposée adopte un point de vue complémentaire à l’alignement de séquences, par exemple, qui se base sur des séquences d’états. Les parcours de vie familiaux peuvent être compris comme des séries de transitions entre états de la vie familiale telles que fonder un nouveau foyer, l’arrivée d’un nouvel enfant ou le remariage d’un parent...2 Ces transitions peuvent être caractérisées par plusieurs événements simultanés, par exemple, lorsqu’une personne fonde un foyer en quittant son domicile parental 1 Etude soutenue financièrement par le Fonds national suisse de la recherche (FNS) FN-100012-113998, et réalisée avec les données collectées dans le cadre du projet « Vivre en Suisse 1999-2020 », piloté par le Panel suisse de ménages et supporté par le FNS, l’Office fédéral de la statistique et l’Université de Neuchâtel. 2 Dans cet article, nous nous centrerons sur la vie familiale, mais nous pourrions inclure d’autres ensembles d’événements tels que ceux affectant la vie professionnelle. - 511 - RNTI-E-11 Recherche de motifs spatio-temporels de cas atypiques pour le trafic routier urbain Marc Joliveau, Florian De Vuyst Laboratoire Mathématiques Appliquées aux Systèmes, ECP Grande Voie des Vignes 92295 Chatenay-Malabry cedex, France. [email protected], [email protected] Résumé. Un large panel de domaines d’application utilise des réseaux de capteurs géoréférencés pour mesurer divers évènements. Les séries temporelles fournies par ces réseaux peuvent être utilisées dans le but de dégager des connaissances sur les relations spatio-temporelles de l’activité mesurée. Dans cet article, nous proposons une méthode permettant d’abord de détecter des situations atypiques (au sens de l’occurrence) puis de construire des motifs spatio-temporels relatant leur propagation sur un réseau. Le cas étudié est celui du trafic routier urbain. Notre raisonnement se fonde sur l’application de la méthode Space-Time Principal Component Analysis (STPCA) et de la combinaison entre l’information mutuelle et l’algorithme Isomap. Les résultats expérimentaux exécutés sur des données réelles de trafic routier démontrent l’efficacité de la méthode introduite à identifier la propagation de cas atypiques fournissant ainsi un outil performant de prédiction de la circulation intraday à court et moyen terme. 1 Introduction Durant les dernières décennies, l’utilisation de réseaux de capteurs a été largement développée pour mesurer et observer l’évolution de systèmes complexes à forte dynamique. Les applications sont par exemple le trafic routier, le transport d’énergie, les processus d’entreprise et la météorologie. Dégager des liens de corrélations dans un tel réseau à travers le temps permet, par exemple, d’établir des prévisions probabilistes à court ou moyen terme. Dans ce qui suit, on suppose que les capteurs, effectuant des mesures sur le trafic routier urbain, sont fixes et géoréférencés. Un graphe de connexion logique représente les échanges ou les causalités directes possibles entre ces différents lieux géographiques. Le graphe est supposé connu. A l’aide d’un outil d’estimation efficace, on peut prédire le comportement usuel du trafic devant chaque capteur. Cependant, lorsque la circulation est atypique, au sens de l’occurrence, la qualité des prévisions s’en retrouve considérablement affectée. Nous proposons d’identifier des motifs spatio-temporels de propagation de ces cas atypiques ayant pour objectif d’aider à prévoir les conséquences d’un évènement inhabituel sur l’intégralité du réseau. Les motifs se réfèrent généralement à des structures répétitives sur le graphe sous-jacent dans - 523 - RNTI-E-11 Découverte de motifs séquentiels et de règles inattendus D. H. Li∗ , A. Laurent∗∗ , P. Poncelet∗ ∗ LGI2P - EMA, SITE EERIE {haoyuan.li,pascal.poncelet}@ema.fr ∗∗ LIRMM - CNRS - Université Montpellier II [email protected] Résumé. Les travaux autour de l’extraction de motifs séquentiels se sont particulièrement focalisés sur la définition d’approches efficaces pour extraire, en fonction d’une fréquence d’apparition, des corrélations entre des éléments dans des séquences. Même si ce critère de fréquence est déterminant, le décideur est également de plus en plus intéressé par des connaissances qui sont représentatives d’un comportement inattendu dans ces données (erreurs dans les données, fraudes, nouvelles niches, . . . ). Dans cet article, nous introduisons le problème de la détection de motifs séquentiels inattendus par rapport aux croyances du domaine. Nous proposons l’approche USER dont l’objectif est d’extraire les motifs séquentiels et les règles inattendues dans une base de séquences. 1 Introduction Pour faire face aux besoins des nouvelles applications (médicales, suivi de consommation, suivi des navigations sur un serveur Web, etc), de plus en plus de données sont stockées sous la forme de séquences. Pour traiter ces bases et en extraire des connaissances pertinentes, les motifs séquentiels ont été proposés Agrawal et Srikant (1995). Ils permettent, étant donnée une base de données de séquences, de trouver toutes les séquences maximales fréquentes au sens d’un support minimal défini par l’utilisateur.Si la découverte de corrélations dans les données séquentielles est primordiale pour le décideur, il n’en reste pourtant pas moins que certains problèmes ne peuvent être résolus par la recherche de tendances. De nouveaux motifs intéressent le décideur : les motifs inattendus qui contredisent les croyances acquises sur le domaine pour, par exemple, détecter des attaques sur un réseau. Rappelons que notre objectif n’est pas de trouver les motifs rares, mais bien les motifs contredisant une connaissance, ce qui n’existe pas dans la littérature. La recherche de connaissance inattendue à partir d’une base de croyance a été introduite dans Silberschatz et Tuzhilin (1995) et Padmanabhan et Tuzhilin (2006) présentent une approche de découverte de règles d’association inattendues. Spiliopoulou (1999) propose un cadre basé sur la connaissance du domaine et des croyances pour trouver des règles séquentielles inattendues à partir de séquences fréquentes. Même si ces travaux considèrent des séquences inattendues, ils sont différents de notre problématique dans la mesure où la notion d’inattendue concerne des séquences fréquentes sur la base afin de trier les résultats obtenus. Notre objectif est d’extraire, à - 535 - RNTI-E-11 Extraction de Motifs Séquentiels Multidimensionnels Clos sans Gestion d’Ensemble de Candidats Marc Plantevit, Anne Laurent, Maguelonne Teisseire LIRMM, Université Montpellier 2, CNRS, [email protected] Résumé. L’extraction de motifs séquentiels permet de découvrir des corrélations entre événements au cours du temps. Introduisant plusieurs dimensions d’analyse, les motifs séquentiels multidimensionnels permettent de découvrir des motifs plus pertinents. Mais le nombre de motifs obtenus peut devenir très important. C’est pourquoi nous proposons, dans cet article, de définir une représentation condensée garantie sans perte d’information : les motifs séquentiels multidimensionnels clos extraits ici sans gestion d’ensemble de candidats. 1 Introduction Les motifs séquentiels sont étudiés depuis plus de 10 ans (Agrawal et Srikant (1995)). Ils ont donné lieu à de nombreuses applications.Des algorithmes ont été proposés, basés sur le principe d’Apriori (Masseglia et al. (1998); Zaki (2001); Ayres et al. (2002)) ou sur d’autres propositions (Pei et al. (2004)). Récemment, les motifs séquentiels ont été étendus aux motifs séquentiels multidimensionnels par Pinto et al. (2001), Plantevit et al. (2005), et Yu et Chen (2005) dans l’objectif de prendre en compte plusieurs dimensions d’analyse. Par exemple, dans Plantevit et al. (2005), les règles telles que Un client qui achète une planche de surf avec un sac à NY achète plus tard une combinaison à SF sont découvertes. Toutefois, le nombre de motifs extraits dans une base de données peut être très important. C’est pourquoi des représentations condensées telles que les motifs clos ont été proposées pour l’extraction des itemsets (Pasquier et al. (1999); Pei et al. (2000); Zaki et Hsiao (2002); El-Hajj et Zaïane (2005)) et des séquences (Yan et al. (2003); Wang et Han (2004)). Les clos permettent de disposer à la fois d’une représentation condensée des connaissances extraites et d’un mécanisme d’extraction plus efficace afin d’élaguer significativement l’espace de recherche. Néanmoins, ces propositions ne peuvent pas être directement appliquées aux motifs séquentiels multidimensionnels pour la raison suivante : une super séquence peut être obtenue de deux façons (1) une plus longue séquence (plus d’items) ou (2) une séquence plus générale (plus de valeurs non spécifiées) ce qui modifie les définitions des méthodes précédemment introduites. Notre contribution majeure est la définition d’un cadre théorique pour l’extraction de motifs séquentiels multidimensionnels clos ainsi qu’un algorithme permettant de rechercher de tels motifs. Nous adoptons une méthode basée sur le paradigme “pattern growth" (Pei et al. (2004)) afin de proposer une solution d’extraction de motifs séquentiels multidimensionnels clos efficace. De plus, nous souhaitons définir un algorithme qui se dispense de gérer un ensemble de clos candidats, seules les séquences closes étant ajoutées à l’ensembles des clos. - 541 - RNTI-E-11 Prétraitement des bases de données de réactions chimiques pour la fouille de schémas de réactions Frédéric Pennerath∗,∗∗∗ , Géraldine Polaillon∗∗ , Amedeo Napoli∗∗∗ ∗ Supélec, campus de Metz 2 rue Edouard Belin 57070 Metz [email protected] ∗∗ Supélec, campus de Gif-sur-Yvette 3 rue Joliot-Curie 91192 Gif-sur-Yvette [email protected] ∗∗∗ Equipe Orpailleur, Loria BP 239, 54506 Vandoeuvre-lès-Nancy Cedex [email protected] Résumé. Un grand nombre de réactions chimiques sont aujourd’hui répertoriées dans des bases de données. Les chimistes aimeraient pouvoir fouiller les graphes moléculaires contenus dans ces données pour en extraire des schémas de réactions fréquents. Deux obstacles s’opposent à cela : d’une part la manière dont les chimistes représentent les réactions par des graphes ne permet pas aux techniques de fouille de graphes d’extraire les schémas de réactions fréquents. D’autre part les bases de données contiennent des descriptions de réactions souvent incomplètes, ambiguës ou erronées. Le présent article décrit un processus de prétraitement opérationnel qui permet de filtrer, compléter puis transformer le contenu d’une base de réactions en des données fiables constituées de graphes abstraits répondant au problème de la fouille de schémas de réactions. Le processus place ainsi les bases de réactions à portée des techniques de fouille de graphes comme en attestent les résultats expérimentaux. 1 Introduction Les chimistes mettent au point de nouveaux procédés de synthèse de molécules en consultant de très grandes bases de données recensant les réactions chimiques disponibles. Les chimistes aimeraient pouvoir fouiller les graphes moléculaires contenus dans ces données pour en extraire des schémas de réactions fréquents qui serviront de candidats privilégiés lors de nouveaux problèmes de synthèse. Deux obstacles s’opposent à cela. D’une part la manière dont les chimistes représentent les réactions par des graphes ne permet pas aux techniques de fouille de graphes d’extraire les schémas de réactions fréquents. Il existe des algorithmes efficaces (Yan et Han, 2002, 2003; Nijssen et Kok, 2004) pour extraire d’un ensemble E de graphes étiquetés l’ensemble des sous-graphes G connexes fréquents dont le support, défini comme le nombre de graphes de E qui contiennent au moins un sous-graphe isomorphe à G, est supérieur à un certain seuil. Si ces méthodes peuvent s’appliquer avec succès à la fouille de graphes - 547 - RNTI-E-11 La prise en compte de la dimension temporelle dans la classification de données Eloïse Loubier , Bernard Dousset I.R.I.T. (Institut de Recherche en Informatique de Toulouse), 118 route de Narbonne, 31062 TOULOUSE Cedex 9 {loubier, dousset}@irit.fr; Résumé. Dans un contexte d’ingénierie de la connaissance, l’analyse des données relationnelles évolutives est une question centrale. La représentation de ce type de données sous forme de graphe optimisé en facilite l'analyse et l'interprétation par l’utilisateur non expert. Cependant, ces graphes peuvent rapidement devenir trop complexes pour être étudiés dans leur globalité, il faut alors les décomposer de manière à en faciliter la lecture et l’analyse. Pour cela, une solution est de les simplifier, dans un premier temps, en un graphe réduit dont les sommets représentent chacun un groupe distinct de sommets : acteurs ou termes du domaine étudié. Dans un second temps, il faut les décomposer en instances (un graphe par période) afin de prendre en compte la dimension temporelle. La plateforme de veille stratégique Tétralogie, développée dans notre laboratoire, permet de synthétiser les données relationnelles évolutives sous forme de matrices de cooccurrence 3D et VisuGraph, son module de visualisation, permet de les représenter sous forme de graphes évolutifs. VisuGraph assimile les différentes périodes à des repères temporels et chaque sommet est placé en fonction de son degré d’appartenance aux différentes périodes. Ce prototype est aussi doté d’un module de la classification interactive de données relationnelles basé sur une technique de Markov Clustering, qui conduit à une visualisation sous forme de graphe réduit. Nous proposons ici de prendre en compte la dimension temporelle dans notre processus de classification des données. Ainsi, par la visualisation successive des différentes instances, il devient plus facile d’analyser l’évolution des classes au niveau intra mais aussi au niveau inter classes. 1 Introduction L’étude de la migration des termes, en particulier de l’évolution des données relationnelles issues de la synthèse de grands corpus d’information est un aspect majeur dans l’ingénierie de la connaissance et en particulier dans le cadre de la veille. Dans ce contexte, le recours à la visualisation de données par des graphes apporte un réel confort aux utilisateurs, qui, de façon intuitive, peuvent s’approprier une forme de connaissance difficile à décrire autrement. Bien souvent, ces graphes sont trop complexes pour être étudiés dans leur globalité, il faut alors les décomposer de manière à faciliter la lecture et l’analyse des données. Une première simplification du graphe est réalisé par le biais de la classification en un graphe réduit dont les sommets représentent chacun un groupe distinct d’acteurs ou de - 559 - RNTI-E-11 Analyse exploratoire d’opinions cinématographiques : co-clustering de corpus textuels communautaires Damien Poirier , Cécile Bothorel Marc Boullé TECH / EASY France Telecom RD 2 avenue Pierre Marzin 22300 Lannion pré[email protected], http://www.francetelecom.com/fr/groupe/rd/ Résumé. Les sites communautaires sont un endroit privilégié pour s’exprimer et publier des opinions. Le site www.flixster.com est un exemple de site participatif sur lequel se rassemblent plus de 20 millions de cinéphiles qui partagent des commentaires sur les films qu’ils ont ou non aimés. Explorer les contenus autoproduits est un challenge pour qui veut comprendre les attentes des internautes. Par une méthode d’apprentissage non supervisée, nous montrerons qu’il est possible de mieux comprendre le vocabulaire utilisé pour décrire des opinions. En particulier, grâce à une méthode de co-clustering, nous montrerons qu’un rapprochement peut être fait entre des films particuliers sur la base de l’usage d’un vocabulaire particulier. L’analyse des résultats peut conduire à retrouver une certaine typologie de films ou encore des rapprochements entre films. Cette étude peut être complémentaire avec des analyses linguistiques des corpus, ou encore être exploitée dans un contexte applicatif de recommandation de contenus multimédias. 1 Introduction Les avancées technologiques en matière de haut débit favorisent l’apparition de nouveaux services de vente ou location en ligne de fichiers vidéos et musicaux. De tels services se veulent pro-actifs et proposent, en plus des actes promotionnels classiques, des choix personnalisés de films (ou de musique). Des méthodes de recommandation sont déjà utilisées sur certains sites Internet de vente par correspondance (Amazon, Fnac, Virgin, etc.) ou encore sur les platesformes musicales (Lastfm, Radioblog, Pandora, etc.). Candillier et al. (2007) fait un panorama des techniques de recommandation : qu’elles soient basées sur des notations d’internautes ou des descriptions de contenus (techniques user- and item-based utilisant le filtrage collaboratif) ou des rapprochements thématiques de profils d’internautes et de descriptions de contenus (filtrage de contenus), voire des techniques hybrides combinant les différentes approches, la problématique reste de gérer les matrices creuses. En effet, devant la variété d’un catalogue et le grand nombre d’utilisateurs, le faible nombre de notes qu’un utilisateur donne rend la - 565 - RNTI-E-11 Assignation automatique de solutions à des classes de plaintes liées aux ambiances intérieures polluées Zoulikha Heddadji*,**, Nicole Vincent* Séverine Kirchner**, Georges Stamon* * Université René Descartes 45, rue des Saints Pères 75270 Paris CEDEX06 ** CSTB 84, avenue Jean Jaurès Champs-sur-Marne 77421 Marne-la-Vallée CEDEX2 {zoulikha.heddadji, severine.kirchner}@cstb.fr {nicole.vincent, Georges.Stamon}@math-info.univ-paris5.fr Résumé. Nous présentons dans cet article un système informatique pour le traitement des plaintes en lien avec des situations de pollution domestique écrites en français. Après la construction automatique d’une base de scénarii de plaintes, un module de recherche apparie la plainte à traiter à la thématique de la plainte la plus similaire. Enfin, il s’agit d’assigner au problème courant la solution correspondante au scénario de pollution auquel est affectée la plainte pertinente. Nous montrons ici l’intérêt de l’introduction dans l’appariement des textes de l’aspect sémantique géré par un dictionnaire généraliste de synonymes et en quoi il n’est pas réalisable pour notre problème particulier de construire une ontologie. 1 Introduction L’objectif de notre étude est de pouvoir semi-automatiser le processus de réponse aux plaintes exprimées en français, en langue naturelle et relatives à la pollution de l’air au sein des logements. Ces plaintes reflètent chacune un cas particulier, cependant elles abordent des problèmes communs que les experts aimeraient identifier de manière objective. Notre démarche est de construire de manière automatique des scénarii. Dans la première étape nous établissons un modèle de représentation et de recherche en ne négligeant pas l’aspect sémantique. Le choix de la ressource sémantique est guidé par l'étude du vocabulaire du corpus, il est présenté dans la partie suivante. Enfin, nous présentons l’évaluation de la qualité des partitions (scénarii) obtenues. 2 Modélisation de l’espace des plaintes Par manque de place ici, nous ne pouvons rappeler de manière détaillée nos nombreuses positions pour formaliser les textes et pour définir les différentes mesures de similarité textuelle correspondantes. Néanmoins, nous pouvons noter que pour le traitement des textes - 577 - RNTI-E-11 Un système de vote pour la classification de textes d'opinion Michel Plantié*, Mathieu Roche**, Gérard Dray* * LGI2P, Ecole des Mines d'Alès, Site EERIE (michel.plantie, gerard.dray)@ema.fr ** LIRMM, UMR 5506, Univ. Montpellier 2, CNRS, [email protected] Résumé : Les tâches de classification textuelle ont souvent pour objectif de regrouper thématiquement différents textes. Dans cet article, nous nous sommes intéressés à la classification de documents en fonction des opinions et jugements de valeurs qu'ils contiennent. L'approche proposée est fondée sur un système de vote utilisant plusieurs méthodes de classification. 1 Introduction La classification de textes a pour objectif le regroupement de documents selon différents critères. Dans les travaux présentés dans cet article, nous nous intéressons à la classification de textes d'opinion qui consiste à classer les textes selon un jugement tel que l'aspect positif ou négatif d'une critique, l'aspect favorable ou défavorable donné par un expert, etc. Nous proposons dans cet article une approche fondée sur plusieurs classifieurs combinés à un système de vote. Dans un premier temps, nous présentons les corpus du défi DEFT'07(Grouin et al., 2007) sur lesquels nous avons mené nos expérimentations ainsi que les représentations des textes utilisées. La section 3 décrit les classifieurs et les systèmes de vote proposés. Enfin, la partie 4 présente les résultats obtenus. 2 Représentation des données textuelles La troisième édition du défi francophone DEFT'07 consistait à déterminer des catégories de jugements à partir de quatre corpus français très différents en terme de thème, taille, tournures de phrases, richesse du vocabulaire, représentation des catégories de jugement : ✔ Corpus 1 : Critiques de films, livres, spectacles et bandes dessinées. Trois catégories : bon, moyen, mauvais. ✔ Corpus 2 : Critiques de jeux vidéo. Trois catégories : bon, moyen, mauvais. ✔ Corpus 3 : Commentaires de révision d'articles de conférences scientifiques. Trois catégories : acceptation, acceptation sous conditions, rejet. - 583 - RNTI-E-11 ExpLSA : utilisation d’informations syntaxico-sémantiques associées à LSA pour améliorer les méthodes de classification conceptuelle Nicolas Béchet, Mathieu Roche, Jacques Chauché Équipe TAL, LIRMM - UMR 5506, CNRS Université Montpellier 2, 34392 Montpellier Cedex 5 - France {nicolas.bechet,mroche,chauche}@lirmm.fr Résumé. L’analyse sémantique latente (LSA - Latent Semantic Analysis) est aujourd’hui utilisée dans de nombreux domaines comme la modélisation cognitive, les applications éducatives mais aussi pour la classification. L’approche présentée dans cet article consiste à ajouter des informations grammaticales à LSA. Différentes méthodes pour exploiter ces informations grammaticales sont étudiées dans le cadre d’une tâche de classification conceptuelle. 1 Introduction Le domaine de la classification de données textuelles se décline en de nombreux axes parmi lesquels la classification conceptuelle. Cette dernière consiste à regrouper des termes dans des concepts définis par un expert. Citons par exemple les termes pot d’échappement, pare-brise et essuie glace qui peuvent être classés dans le concept automobile. Afin d’établir une telle classification sémantique, la proximité de chacun des termes issus des textes doit être mesurée. Ces termes sont ensuite classés en fonction de leurs proximités sémantiques par un algorithme de fouille de données tels que les Kppv (K plus proches voisins) ou bien les K moyennes (Cornuéjols et Miclet (2002)). Nous nous focalisons dans cet article sur la première étape de la réalisation d’une classification conceptuelle : l’étude de la proximité des termes. Afin de calculer une telle proximité, nous nous appuyons sur une méthode appelée Latent Semantic Analysis (LSA) développée par Landauer et Dumais (1997)1 . La méthode LSA est uniquement fondée sur une approche statistique appliquée à des corpus de grande dimension consistant à regrouper les termes (classification conceptuelle) ou les contextes (classification de textes). Une fois l’analyse sémantique latente appliquée à un corpus, un espace sémantique associant chaque mot à un vecteur est retourné. La proximité de deux mots peut alors être obtenue par un calcul de similarité comme le cosinus entre deux vecteurs. L’objectif de nos travaux est d’améliorer les performances de LSA par une approche nommée ExpLSA (Expansion des contextes avec LSA). L’approche ExpLSA consiste à enrichir le corpus qui constituera l’entrée d’une analyse sémantique latente classique. Cet enrichissement utilise les informations sémantiques obtenues 1 voir aussi, http ://www.msci.memphis.edu/∼wiemerhp/trg/lsa-followup.html - 589 - RNTI-E-11 Un modèle d’espace vectoriel de concepts pour noyaux sémantiques Sujeevan Aseervatham LIPN - UMR 7030 CNRS - Université Paris 13 99, Av. J.B. Clément F-93430 Villetaneuse, France [email protected] Résumé. Les noyaux ont été largement utilisés pour le traitement de données textuelles comme mesure de similarité pour des algorithmes tels que les Séparateurs à Vaste Marge (SVM). Le modèle de l’espace vectoriel (VSM) a été amplement utilisé pour la représentation spatiale des documents. Cependant, le VSM est une représentation purement statistique. Dans ce papier, nous présentons un modèle d’espace vectoriel de concepts (CVSM) qui se base sur des connaissances linguistiques a priori pour capturer le sens des documents. Nous proposons aussi un noyau linéaire et un noyau latent pour cet espace. Le noyau linéaire exploite les concepts linguistiques pour l’extraction du sens alors que le noyau latent combine les concepts statistiques et linguistiques. En effet, le noyau latent utilise des concepts latents extraits par l’Analyse Sémantique Latente (LSA) dans le CVSM. Les noyaux sont évalués sur une tâche de catégorisation de texte dans le domaine biomédical. Le corpus Ohsumed, bien connu pour sa difficulté de catégorisation, a été utilisé. Les résultats ont montré que les performances de catégorisation sont améliorées dans le CSVM. 1 Introduction Les mesures de similarité sont des éléments clés dans les algorithmes de traitement automatique des langues. Elles sont utilisées pour orienter le processus d’extraction de connaissance. Ainsi, elles sont les principales responsables des performances d’un algorithme. Si une mesure de similarité pertinente améliorera les performances, une mauvaise mesure risque de mener à des résultats incohérents. La définition d’une bonne mesure n’est pas un processus aisé. En effet, la mesure doit donner une bonne indication sur le degré de similarité entre deux documents. La notion de sémantique n’est pas clairement définie. Bien que nous essayons d’imiter la perception humaine, l’information sémantique peut prendre différente forme selon l’approche adoptée. Il existe deux grandes approches : l’une basée sur l’information statistique tel que la fréquence de co-occurrence des termes et l’autre basée sur des sources de connaissances externes telles que les ontologies. Dans la communauté de l’apprentissage, les noyaux (Shawe-Taylor et Cristianini, 2004) sont utilisés depuis une décennie comme fonctions de similarité basées sur le cosinus formé - 601 - RNTI-E-11 Intégration de la structure dans un modèle probabiliste de document Mathias Géry, Christine Largeron et Franck Thollard Université Jean Monnet, Laboratoire Hubert Curien, UMR CNRS 5516, St-Etienne [email protected] Résumé. En fouille de textes comme en recherche d’information, différents modèles, de type probabiliste, vectoriel ou booléen, se sont révélés bien adaptés pour représenter des documents textuels mais, ces modèles présentent l’inconvénient de ne pas tenir compte de la structure du document. Or la plupart des informations disponibles aujourd’hui sur Internet ou dans des bases documentaires sont fortement structurées. Dans cet article1 , nous proposons d’étendre le modèle probabiliste de représentation des documents de façon à tenir compte du poids d’une certaine catégorie d’éléments structurels : les balises représentant la structure logique et la structure de mise en forme. Ce modèle a été évalué à l’aide de la collection de la campagne d’évaluation INEX 2006. 1 Introduction En fouille de texte comme en recherche d’information (RI), plusieurs modèles sont utilisés pour représenter un document. Ces modèles, de type probabiliste, booléen ou vectoriel, se sont révélés bien adaptés pour représenter des documents textuels. Cependant, ils présentent l’inconvénient de ne pas tenir compte de la structure du document. Or, la plupart des informations disponibles aujourd’hui sur Internet ou dans des bases documentaires sont fortement structurées. C’est la raison pour laquelle des travaux récents, en RI comme en fouille de données se sont intéressés à la structure des documents. Ceci a notamment conduit à l’émergence de la recherche d’information XML orientée contenu dont l’objectif est justement d’exploiter l’information structurelle contenue dans les documents pour concevoir des systèmes de RI plus efficaces. La compétition INEX2 (INitiative for Evaluation of XML Retrieval) produit d’ailleurs depuis 2002 de larges collections de documents utilisables pour l’évaluation de tels systèmes. L’exploitation de la structure a aussi été étudiée dans des tâches de classement, supervisé ou non, de documents . Dans ce contexte, plusieurs voies ont été envisagées, parmi lesquelles on citera l’extension des modèles usuels de représentation de documents textuels [Doucet et Ahonen-Myka (2002)] ou l’exploitation de la structure arborescente des documents XML [Yi et Sundaresan (2000); Marteau et al. (2005); Vercoustre et al. (2006)]. Enfin, dans le contexte de la détection d’information nouvelle (Novelty Detection), d’autres travaux ont 1 Ce travail a été partiellement soutenu par l’action collaborative Web Intelligence de la région Rhône-Alpes ://inex.is.informatik.uni-duisburg.de/2007/ 2 http - 613 - RNTI-E-11 Un algorithme de classification topographique non supervisée à deux niveaux simultanés Guénaël Cabanes, Younès Bennani LIPN - UMR 7030 Université Paris 13 - CNRS 99, av. J-B Clément - F-93430 Villetaneuse {cabanes, younes}@lipn.univ-paris13.fr Résumé. Une des questions les plus importantes pour la plupart des applications réelles de la classification est de déterminer un nombre approprié de groupes (clusters). Déterminer le nombre optimal de groupes est un problème difficile, puisqu’il n’y a pas de moyen simple pour connaître ce nombre sans connaissance a priori. Dans cet article, nous proposons un nouvel algorithme de classification non supervisée à deux niveaux, appelé S2L-SOM (Simultaneous Twolevel Clustering - Self Organizing Map), qui permet de déterminer automatiquement le nombre optimal de groupes, pendant l’apprentissage d’une carte auto-organisatrice. L’estimation du nombre correct de groupes est en relation avec la stabilité de la segmentation et la validité des groupes générés. Pour mesurer cette stabilité nous utilisons une méthode de sous-échantillonnage. Le principal avantage de l’algorithme proposé, comparé aux méthodes classiques de classification, est qu’il n’est pas limité à la détection de groupes convexes, mais est capable de détecter des groupes de formes arbitraires. La validation expérimentale de cet algorithme sur un ensemble de problèmes fondamentaux pour la classification montre sa supériorité sur les méthodes standards de classification à deux niveaux comme SOM+K-Moyennes et SOM+HierarchicalAgglomerative-Clustering. 1 Introduction La classification non supervisée, ou clustering, est un outil très performant pour la détection automatique de sous-groupes pertinents (ou clusters) dans un jeu de données, lorsqu’on n’a pas de connaissances a priori sur la structure interne de ces données. Les membres d’un même cluster doivent êtres similaires entre eux, contrairement aux membres de groupes différents (homogénéité interne et séparation externe). La classification non supervisée joue un rôle indispensable pour la compréhension de phénomènes variés décrits par des bases de données. Un problème de regroupement peut être défini comme une tâche de partitionnement d’un ensemble d’items en un ensemble de sous-ensembles mutuellement disjoints. La classification est un problème de regroupement qui peux être considéré comme un des plus compétitifs en apprentissage non-supervisé. De nombreuses approches ont été proposées (Jain et Dubes, 1988). Les approches les plus classiques sont les méthodes hiérarchiques et les méthodes partitives. - 619 - RNTI-E-11 Segmentation hiérarchique des cartes topologiques Mustapha Lebbah∗,∗∗ , Hanane Azzag∗∗ ∗ LIM&BIO - UFR (SMBH)- Université Paris 13, 74, rue Marcel Cachin 93017 Bobigny Cedex France ∗∗ LIPN - UMR 7030 Université Paris 13 - CNRS 99, av. J-B Clément - F-93430 Villetaneuse {hanane.azzag, mustapha.lebbah}@lipn.univ-paris13.fr Résumé. Dans ce papier, nous présentons une nouvelle mesure de similarité pour la classification des référents de la carte auto-organisatrice qui sera réalisée à l’aide d’une nouvelle approche de classification hiérarchique. (1) La mesure de similarité est composée de deux termes : la distance de Ward pondérée et la distance euclidienne pondérée par la fonction de voisinage sur la carte topologique. (2) Un algorithme à base de fourmis artificielles nommé AntTree sera utilisé pour segmenter la carte auto-organisatrice. Cet algorithme a l’avantage de prendre en compte le voisinage entre les référents et de fournir une hiérarchie des référents avec une complexité proche du nlog(n). La segmentation incluant la nouvelle mesure est validée sur plusieurs bases de données publiques. 1 Introduction Le problème de la classification de données est identifié comme une des problématiques majeures en extraction des connaissances à partir de données. Depuis des décennies, de nombreux sous-problèmes ont été identifiés, comme par exemple la sélection des données ou des variables, la variété des espaces de représentation (numérique, symbolique, etc), l’incrémentalité, la nécessité de découvrir des concepts, ou d’obtenir une hiérarchie, etc. La popularité, la complexité et toutes ces variantes du problème de la classification de données, (Jain et al. (1999)), ont donné naissance à une multitude de méthodes de résolution. Ces méthodes peuvent faire appel à des principes heuristiques ou encore mathématiques. Les méthodes qui nous intéressent dans ce travail, sont celles qui permettent de faire de la classification non supervisée de données en utilisant les cartes topologiques (appelées aussi SOM :Self-organizing Map). Celles-ci sont souvent utilisées parce qu’elles sont considérées à la fois comme outils de visualisation et de partitionnement non supervisé de différents types de données (quantitatives et qualitatives). Elles permettent de projeter les données sur des espaces discrets qui sont généralement en deux dimensions. Le modèle de base, proposé par Kohonen (Kohonen (2001)), est uniquement dédié aux données numériques. Des extensions et des reformulations du modèle de Kohonen ont été proposées dans la littérature, (Bishop et al. (1998); - 631 - RNTI-E-11 Intégration de contraintes dans les cartes auto-organisatrices Anouar Benhassena∗ , Khalid Benabdeslem∗∗ , Fazia Bellal∗∗ , Alexandre Aussem∗∗ et Bruno Canitia∗∗∗ ∗ IRISA - Projet CORDIAL 6, rue de Kerampont - BP 447, 22305 Lannion Cedex, France [email protected] ∗∗ Université Lyon1, UFR d’Informatique, LIESP 8, Avenue Niels Bohr, 69622 Villeurbanne Cedex, France {kbenabde, fbellal, aaussem}@bat710.univ-lyon1.fr ∗∗∗ VISOON 60, Avenue de Rockefeller, 69008 Lyon, France [email protected] Résumé. Le travail présenté dans cet article décrit une nouvelle version des cartes topologiques que nous appelons CrTM. Cette version consiste à modifier l’algorithme de Kohonen de telle façon à ce qu’il contrôle les violations des contraintes lors de la construction de la topologie de la carte. Nous validons notre approche sur des données connues de la littérature en utilisant des contraintes artificielles. Une validation supplémentaire sera faite sur des données réelles issues d’images médicales pour la classification des mélanomes chez l’humain sous contraintes médicales. 1 Introduction La prise en compte des connaissances additionnelles constitue un problème essentiel et un vrai défi pour la recherche actuelle dans le domaine de la classification automatique. Il s’agit à la fois de l’expression, de la structuration et de la formalisation des connaissances (appelées aussi connaissances a priori) pour les intégrer dans le processus de la classification automatique. Les premiers travaux dans ce domaine ont été réalisés par (Wagstaff et Cardie, 2000) en modifiant l’algorithme COBWEB proposé par (Fisher, 1987). Les auteurs ont montré, à partir de résultats expérimentaux, une amélioration claire de la précision de la classification. Les mêmes auteurs ont proposé une autre approche qui intègre les contraintes dans l’algorithme K-means (MacQueen, 1967). L’algorithme proposée est appelé COP-Kmeans (Wagstaff et al., 2001). Son principe consiste à contrôler la violation des contraintes dans la phase de mise à jour des classes. Les auteurs arrivent à démontrer qu’il est possible d’améliorer sensiblement la précision du partitionnement même avec un nombre réduit de contraintes. Les auteurs dans (Davidson et Ravi, 2005) ont étudié le problème de la faisabilité de la classification en présence de plusieurs combinaisons de contraintes dans une approche de type K-means. Récemment, nous avons proposé dans (Elghazel et al., 2007) une nouvelle méthode de classification sous contraintes basée sur la b-coloration de graphes. Convaincus par l’importance de l’intégration - 643 - RNTI-E-11 Une nouvelle méthode divisive en classification non supervisée pour des données symboliques intervalles Nathanaël Kasoro ∗ , André Hardy ∗∗ ∗ Université de Kinshasa Département de Mathématique et d’Informatique B.P. 190, Kinshasa, République Démocratique du Congo [email protected] ∗∗ Université de Namur Unité de Statistique - Département de Mathématique 8 Rempart de la Vierge - B - 5000 Namur - Belgique [email protected] Résumé. Dans cet article nous présentons une nouvelle méthode de classification non supervisée pour des données symboliques intervalles. Il s’agit de l’extension d’une méthode de classification non supervisée classique à des données intervalles. La méthode classique suppose que les points observés sont la réalisation d’un processus de Poisson homogène dans k domaines convexes disjoints de Rp . La première partie de la nouvelle méthode est une procédure monothétique divisive. La règle de coupure est basée sur une extension à des données intervalles du critère de classification des Hypervolumes. L’étape d’élagage utilise un test statistique basé sur le processus de Poisson homogène. Le résultat est un arbre de décision. La seconde partie de la méthode consiste en une étape de recollement, qui permet, dans certains cas, d’améliorer la classification obtenue à la fin de la première partie de l’algorithme. La méthode est évaluée sur un ensemble de données réelles. 1 Introduction Le but de la classification non supervisée est de décomposer un groupe d’objets, sur lesquels on mesure un ensemble de variables, en un nombre relativement restreint de sous-groupes d’objets semblables. De nombreuses méthodes de classification ont été publiées dans la littérature scientifique. La plupart d’entre elles utilisent un critère de classification basé sur une mesure de dissimilarité. Pour éviter ce choix (bien souvent arbitraire) d’une dissimilarité nous utilisons un modèle statistique pour la classification basé sur le processus de Poisson homogène (Hardy (1983)). De ce modèle est issue la méthode de classification des Hypervolumes (Hardy (1983)). Pirçon (2004) a développé une nouvelle méthode divisive de classification basée sur le critère de classification des Hypervolumes. Notre objectif est d’étendre cette méthode à des données intervalles. Une variable Y dont le domaine d’observation est Y est appelée à valeurs d’ensemble si ∀xi ∈ E, Y : E → B : xi −→ Y (xi ) où B = P(Y) = {U = ∅ | U ⊆ Y}. - 649 - RNTI-E-11 Co-classification sous contraintes par la somme des résidus quadratiques Ruggero G. Pensa∗ , Jean-François Boulicaut∗∗ ∗ KDD-Lab, ISTI-CNR - Via Giuseppe Moruzzi, 1 - I-56124 Pisa, Italy [email protected] ∗∗ INSA-Lyon, LIRIS CNRS UMR5205, F-69621 Villeurbanne cedex, France [email protected] Résumé. Dans de nombreuses applications, une co-classification est plus facile à interpréter qu’une classification mono-dimensionnelle. Il s’agit de calculer une bi-partition ou collection de co-clusters : chaque co-cluster est un groupe d’objets associé à un groupe d’attributs et les interprétations peuvent s’appuyer naturellement sur ces associations. Pour exploiter la connaissance du domaine et ainsi améliorer la pertinence des partitions, plusieurs méthodes de classification sous contraintes ont été proposées pour le cas mono-dimensionnel, e.g., l’exploitation de contraintes "must-link" et "cannot-link". Nous considérons ici la co-classification sous contraintes avec la gestion de telles contraintes étendues aux dimensions des objets et des attributs, mais aussi l’expression de contraintes de contiguité dans le cas de domaines ordonnés. Nous proposons un algorithme itératif qui minimise la somme des résidus quadratiques et permet l’exploitation active des contraintes spécifiées par les analystes. Nous montrons la valeur ajoutée de ce type d’extraction sur deux applications en analyse du transcriptome. 1 Introduction Dans de nombreux domaines applicatifs, l’analyste se trouve devant des jeux de données matriciels dans lesquels un certain nombre d’objets sont décrits par un certain nombre d’attributs qui prennent leurs valeurs dans un domaine numérique, éventuellement restreint au domaine 0/1. L’une des techniques phares pour l’étude exploratoire de tels jeux de données est la classification, i.e., le calcul de partitions, soit sur l’ensemble des objets, soit sur l’ensemble des attributs. On peut aussi vouloir faciliter l’interprétation des groupements calculés en développant des méthodes de co-classification. Dans ce cas, les partionnements selon les deux dimensions sont couplés et les algorithmes comme ceux présentés dans Robardet et Feschet (2001); Dhillon et al. (2003); Ritschard et Zighed (2003); Jollois et al. (2003) produisent une bi-partition, i.e., une collection de co-clusters. Chacun des co-clusters est un groupe d’objets associé à un groupe d’attributs et la co-classification apparaît comme une méthode de classification conceptuelle. La co-classification a été particulièrement étudiée dans le contexte de l’analyse du transcriptome (voir, e.g., Cheng et Church (2000); Madeira et Oliveira (2004)). En effet, les technologies à haut débit permettent de construire des matrices d’expression de (tous - 655 - RNTI-E-11 Étude comparative de deux approches de classification recouvrante : M OC vs. O KM Guillaume Cleuziou et Jacques-Henri Sublemontier Laboratoire d’Informatique Fondamentale d’Orléans (LIFO) Université d’Orléans Rue Léonard de Vinci - 45067 ORLEANS Cedex 2 [email protected] Résumé. La classification recouvrante désigne les techniques de regroupements de données en classes pouvant s’intersecter. Particulièrement adaptés à des domaines d’application actuels (e.g. Recherche d’Information, Bioinformatique) quelques modèles théoriques de classification recouvrante ont été proposés très récemment parmi lesquels le modèle M OC (Banerjee et al. (2005a)) utilisant les modèles de mélanges et l’approche O KM (Cleuziou (2007)) consistant à généraliser l’algorithme des k-moyennes. La présente étude vise d’une part à étudier les limites théoriques et pratiques de ces deux modèles, et d’autre part à proposer une formulation de l’approche O KM en terme de modèles de mélanges gaussiens, laissant ainsi entrevoir des perspectives intéressantes quant à la variabilité des schémas de recouvrements envisageables. 1 Introduction La classification recouvrante (en anglais overlapping clustering) constitue un domaine de recherche étudié depuis les années 60 et relancé par des besoins applicatifs dans des domaines importants tels que la Recherche d’Information ou encore la Bioinformatique. Le but recherché est alors d’extraire une collection de classes recouvrantes à partir d’une population d’individus de telle manière que : chaque individu appartienne à une ou plusieurs classes, les individus d’une même classe soient similaires, et deux individus n’appartenant pas au moins à une classe commune soient dissimilaires. Différentes directions ont été prospectées afin d’obtenir ce type de schéma de classification. Des modèles hiérarchiques ont été proposés ; Jardine et Sibson (1971) ont permis, en introduisant les k-ultramétriques, d’envisager des structures hiérarchiques (ou pseudo-hiérarchiques) moins contraignantes que les arbres, par exemple des pyramides (Diday (1984)) ou encore des hiérarchies dites “faibles” étudiées par Bertrand et Janowitz (2003) notamment. L’un des avantages de ces modèles est de proposer une interprétation visuelle des classes et de leur organisation. En revanche, ces modèles ne permettent pas de prendre en compte la globalité des schémas de recouvrements possibles ; par exemple Bertrand et Janowitz (2003) montrent que dans une k-hiérarchie faible (le modèle hiérarchique le moins contraignant), “l’intersection de (k + 1) classes arbitraires peut être réduite à l’intersection de k de ces classes”. Les approches par partitionnement proposées ont consisté dans un premier temps à déterminer des centres, des axes ou des représentants de classes auxquels les individus sont affectés - 667 - RNTI-E-11 Système multi-agent argumentatif pour la classification des connaissances cruciales Imène Brigui-Chtioui ∗ , Inès Saad ∗∗ ∗ Institut Supérieur de Gestion - IRSAM 147 Avenue Victor Hugo 75116 Paris [email protected] ∗∗ LaRIA-Université de Picardie Jules Verne 33 Rue Saint Leu 80039 Amiens [email protected] Résumé. Dans cet article, nous proposons une approche multi-agent argumentative permettant d’automatiser la résolution des conflits entre décideurs dans un système d’aide à l’identification des connaissances cruciales nommé K-DSS. En effet, des divergences concernant la crucialité des connaissances peuvent apparaître entre les décideurs et aboutir ainsi à des incohérences dans la base commune de connaissances la rendant inexploitable. Notre objectif à travers ce travail est de proposer une approche argumentative permettant de résoudre les conflits entre décideurs. Afin de concevoir cette approche, nous nous appuyons sur la théorie multi-agents pour représenter les acteurs humains par des agents logiciels connaissant leurs préférences et leurs règles de décision et pouvant ainsi argumenter leurs choix ou mettre à jour leurs croyances en fonction des arguments qu’ils reçoivent des autres agents décideurs. 1 Introduction L’objectif de la gestion des connaissances dans une entreprise est de favoriser la croissance, la transmission et la conservation des connaissances. Saad (2005) s’intéresse au repérage des connaissances cruciales pour justifier le choix d’investissement dans des opérations de capitalisation sur les connaissances. Dans la revue de la littérature, nous constatons qu’il existe peu de travaux, s’intéressant à la délimitation du champ des connaissances sur lesquelles il faut capitaliser. Les auteurs Dieng et al. (1998) ; Grundstein et al. (2003) ;B.Tseng et Huang (2005), précisent que le processus de détermination des connaissances cruciales est une action difficile à mener. Dans cet article, nous proposons une approche multi-agents argumentative permettant de résoudre des conflits dans un système d’aide à l’identification des connaissances cruciales nommé K-DSS Saad (2005), Saad et Chakhar (pear). Les connaissances cruciales sont des savoirs et des savoir-faire nécessaires aux processus essentiels qui constituent le cœur des activités de l’entreprise. Le système proposé est basé sur une méthode composée de trois phases. La première phase consiste à déterminer l’ensemble d’apprentissage que nous appelons les "connaissances cruciales de référence". La deuxième phase consiste à évaluer les "connaissances cruciales de références" sur une famille de critères et à inférer des règles de décision. - 679 - RNTI-E-11 Un processus d’acquisition d’information pour les besoins de l’enrichissement des BDG Khaoula Mahmoudi* Sami Faïz ** *** * Laboratoire URISA -Unité de Recherche en Imagerie Satellitaire et ses Applications Ecole Supérieur des communications de Tunis (SUPCOM) [email protected] ** Institut National des Sciences Appliquées et de Technologie (INSAT) *** Laboratoire de Télédétection et Systèmes d’Informations à Références Spatiales (LTSIRS) [email protected] Résumé. Les données constituent l'élément central d'un Système d’Information Géographiques (SIG) et leur coût est souvent élevé en raison de l'investissement substantiel qui permet leur production. Cependant, ces données sont souvent restreintes à un service ou pour une catégorie d’utilisateurs. Ce qui a fait ressortir la nécessité de proposer des moyens d'enrichissement en informations pertinentes pour un nombre plus important d’utilisateurs. Nous présentons dans ce papier notre approche d’enrichissement de données qui se déroule selon trois étapes : une identification de segments et de thèmes associés, une délégation et enfin, un filtrage textuel. Un processus de raffinement est également offert. Notre approche globale a été intégrée à un SIG. Son évaluation a été accomplie montrant ainsi sa performance. 1 Introduction Les données dans un SIG (Faïz, 1999), sont souvent recueillies pour les besoins propres d’une institution, voire d’un service. Face à cette réalité, il devient judicieux de déployer de nouvelles sources pour répondre aux besoins d’un nombre plus important d’utilisateurs. Ceci est qualifié d’enrichissement de bases de données géographiques (BDG). C’est dans ce contexte que s’inscrit notre approche (Mahmoudi et Faïz, 2006a, Mahmoudi et Faïz, 2006b, Faïz et Mahmoudi, 2005). Cette dernière utilise la technique de résumé de documents multiples (Barzilay et McKeown, 2005) permettant d’extraire l'information pertinente sous une forme abrégée. Pour assurer l’extraction dans des temps raisonnables et conformément au paradigme multi-agents (Ferber, 1999), nous adoptons trois classes d’agents: agent interface, agent géographique et agent tâche. L’interaction entre les agents est achevée par envoi de messages. L’enrichissement est réalisé en trois phases : une identification de segments et de thèmes, une délégation et enfin, un filtrage textuel. S’ajoute à ces étapes de base, une approche, exercée à la demande, pour un raffinement du processus. La section 2 présente, certains travaux d’enrichissement des BDG dans les SIG ainsi que notre approche pour cet enrichissement. La section 3 est dédiée à la mise en œuvre et l’évaluation de notre système. - 691 - RNTI-E-11 Un modèle et une algèbre pour les systèmes de gestion d’ontologies Gilles Falquet∗ Claire-Lise Mottaz-Jiang∗ Jacques Guyot ∗ ∗ Centre universitaire d’informatique, Université de Genève falquet, mottaz, [email protected] Résumé. Nous présentons ici une approche pour la gestion de bases d’ontologies basée sur un modèle comprenant, outre la définition formelle des concepts (sous forme d’axiomes de logique de description), d’autres éléments descriptifs (termes, commentaires et arguments), ainsi que leurs liens d’alignement avec des concepts d’autres ontologies. L’adaptation ou la combinaison d’ontologies se font grâce à une algèbre comprenant des opérations telles que la sélection, la projection, l’union ou la jointure d’ontologies. Ces opérations agissent au niveau des axiomes, des éléments descriptifs et des liens d’alignement. 1 Introduction L’interconnexion croissante des systèmes d’information, de même que des initiatives telles que le Web sémantique requièrent la création de nombreuses ontologies pour assurer la cohérence sémantique des opérations. Il devient donc nécessaire de développer des systèmes de gestion qui permettent non seulement de les stocker mais également de les aligner et de les combiner pour créer de nouvelles ontologies adaptées à des besoins particuliers, favorisant ainsi la réutilisation. Contrairement à une démarche d’intégration où l’on ne cherche à obtenir qu’une seule ontologie homogénéisée, notre approche s’attache à conserver au sein d’une même base les différents points de vue (c’est-à-dire les différentes ontologies), mettant ainsi en évidence les apports de chaque contributeur. Cependant, les outils utilisant des ontologies ont besoin d’ontologies "normales" (mono-point de vue) pour fonctionner. Nous proposons donc un ensemble d’opérations et laissons le soin aux utilisateurs de les utiliser pour extraire de la base une ontologie "sur mesure", dans un contexte et un but spécifiques. 2 Un modèle de bases d’ontologies Une ontologie est composée d’un vocabulaire V = VC ∪ VP ∪ VI ∪ VL (contenant les identifiants de concepts, de propriétés, d’individus (instances de concepts) et les littéraux), d’un ensemble T d’axiomes terminologiques (TBox) et d’un ensemble A d’annotations (terminologiques et argumentatives). Dans le vocabulaire VP nous distinguerons les propriétés ontologiques (servant aux définitions) des propriétés d’annotation. Nous ne considérerons pas, dans cet article, les axiomes assertionnels (ABox). - 697 - RNTI-E-11 Une aide à la découverte de mappings dans SomeRDFS François-Élie Calvier, Chantal Reynaud LRI, Univ Paris-Sud & INRIA Futurs 4, rue Jacques Monod - Bât. G 91893 Orsay Cedex [email protected], [email protected] http://www.lri.fr/iasi Résumé. Dans cet article, nous nous intéressons à la découverte de mises en correspondance entre ontologies distribuées modélisant les connaissances de pairs du système de gestion de données P2P SomeRDFS. Plus précisément, nous montrons comment exploiter les mécanismes de raisonnement mis en œuvre dans SomeRDFS pour aider à découvrir des mappings entre ontologies. Ce travail est réalisé dans le cadre du projet MediaD en partenariat avec France Telecom R&D. 1 Introduction Nous nous intéressons à la découverte de correspondances, ou mappings, entre ontologies distribuées modélisant les connaissances de pairs du système de gestion de données P2P (PDMS) SomeRDFS. Un PDMS est un système constitué de pairs autonomes qui communiquent pour répondre collectivement à une requête. Les communications entre pairs s’établissent grâce à des mappings qui définissent des relations sémantiques entre leurs connaissances. Un PDMS est sollicité via l’interrogation d’un des pairs qui pourra ensuite faire appel aux autres pour répondre. Une spécificité des PDMS est que chaque pair ne connaît que ses propres connaissances et les mappings le connectant à d’autres pairs. Dans ce cadre, nous cherchons à augmenter le nombre de mappings de chaque pair afin d’améliorer les réponses fournies globalement par le système, en quantité et en qualité. Nous travaillons, dans le cadre du projet MediaD (projet financé par France Telecom R&D), dont l’objectif est la création d’un environnement déclaratif de construction de systèmes de gestion de données P2P. Ces travaux ont conduit au développement de la plate-forme SomeRDFS (Adjiman et al., 2006) au sein de laquelle nous situons notre travail. Nous présenterons dans un premier temps le contexte de notre travail. Nous montrerons ensuite comment les requêtes des utilisateurs peuvent être exploitées pour identifier des raccourcis de mappings ainsi que des relations cibles à partir desquelles des mises en correspondances intéressantes peuvent être trouvées. Étant données ces relations cibles, nous proposerons alors des techniques basées sur l’interrogation du système pour construire des ensembles de candidats à un mapping. Nous présenterons ensuite quelques travaux proches. Enfin, nous conclurons et présenterons quelques perspectives. - 703 - RNTI-E-11