Extraction et gestion des connaissances : EGC`2006

publicité
Revue des Nouvelles Technologies de l’Information
Sous la direction de Djamel A. Zighed et Gilles Venturini
RNTI-E-6
Extraction
et gestion des connaissances :
EGC'2006
Rédacteurs invités :
Gilbert Ritschard
(Département d’économétrie, Université de Genève)
Chabane Djeraba
(LIFL, Université des Sciences et Technologies de Lille)
Volume II
CÉPADUÈS-ÉDITIONS
111, rue Vauquelin
31100 TOULOUSE – France
Tél. : 05 61 40 57 36 – Fax : 05 61 41 79 89
(de l’étranger ) + 33 5 61 40 57 36 – Fax : + 33 5 61 41 79 89
www.cepadues.com
courriel : [email protected]
Chez le même éditeur
RNTI-Revue des Nouvelles Technologies de l'Information
Sous la direction de Djamel A. Zighed et Gilles Venturini
n°1 : Entreposage fouille de données
E1 : Mesures de qualité pour la fouille de données
E2 : Extraction et gestion des connaissances EGC 2004
C1 : Classification et fouille de données
E3 : Extraction et gestion des connaissances EGC 2005
B1 : 1re Journée Francophone sur les Entrepôts de Données
et l’Analyse en ligne EDA 2005
E4 : Fouille de données complexes
E5 : Extraction des connaissances : Etat et perspectives
Ensemble composé de 2 volumes :
2 85428 722 3 (volume I)
2 85428 723 1 (volume II)
ISBN : 2.85428.718.5
© CEPAD 2006
Le code de la propriété intellectuelle du 1 juillet 1992 interdit expressément la photocopie
à usage collectif sans autorisation des ayants droit. Or, cette pratique en se généralisant
provoquerait une baisse brutale des achats de livres, au point que la possibilité même pour les
auteurs de créer des œuvres nouvelles et de les faire éditer correctement serait alors menacée.
er
Nous rappelons donc que toute reproduction, partielle ou totale, du présent ouvrage est
interdite sans autorisation de l'éditeur ou du Centre français d'exploitation du droit de copie
(CFC – 3, rue d'Hautefeuille – 75006 Paris).
Dépôt légal : janvier 2006
N° éditeur : 71800
LE MOT DES DIRECTEURS DE LA COLLECTION RNTI
Chères Lectrices, Chers Lecteurs,
La Revue des Nouvelles Technologies de l’Information existe depuis 2003 et vient de dépasser le cap de 3800 pages de publications dans les domaines liés à l’Extraction de connaissances à partir des Données (ECD), la Fouille de données (FD), la Gestion des connaissances
(GC). Cette revue a pour objectif d’être un outil de communication de très grande qualité et
ouvert à tous. A ce titre, RNTI accueille deux types de numéros :
– des numéros à thème faisant l’objet d’un appel à communication. Chaque numéro à
thème est édité par un ou plusieurs rédacteurs en chef invités. Un comité de programme
spécifique d’une quinzaine de personne est formé à cette occasion. Plusieurs numéros
sont ainsi en cours de finalisation et seront disponibles début 2006 (Visualisation en
extraction des connaissances, P. Kuntz, F. Poulet ; Systèmes d’information pour l’aide
à la décision en ingénierie système, A. Kenchaf). Est également paru tout récemment
un numéro spécial sur la fouille de données complexes (O. Boussaid, P. Gançarski, F.
Masséglia, B. Trousse),
– des actes de conférences sélectives garantissant une haute qualité des articles (nous demandons, par exemple, à ce que trois relecteurs émettent un avis sur les articles soumis).
Ainsi le numéro RNTI-B-1 a concerné les actes de EDA’2005 (F. Bentayeb, O. Boussaïd,
J. Darmont, S. Loudcher).
Aujourd’hui nous avons donc le plaisir d’accueillir pour la troisième fois ce numéro consacré à la conférence EGC. Nous tenons à remercier les organisateurs de cette conférence pour
la confiance qu’ils accordent à cette revue. Nous adressons en particulier toutes nos chaleureuses félicitations à Gilbert Ritschard qui a beaucoup œuvrer pour la qualité de ce numéro
EGC’2006, à la fois du point de vue scientifique comme président du comité de programme et
du point de édition comme rédacteur invité.
Nous espérons vivement que ce numéro vous donnera à toutes et à tous une entière satisfaction. Pour tout renseignement, nous vous invitons à consulter notre site Web et à nous
contacter. En particulier, nous sommes à votre écoute pour toute proposition de nouveaux numéros spéciaux.
Djamel A. Zighed et Gilles Venturini.
http ://www.antsearch.univ-tours.fr/rnti
iii
iv
PRÉFACE
La sélection d’articles publiés dans le présent recueil constitue les actes des sixièmes journées Extraction et Gestion des Connaissances (EGC’2006) qui se sont tenues à Lille du 17 au
20 janvier 2006.
Les conférences EGC ambitionnent de regrouper chercheurs, industriels et utilisateurs
francophones issus des communautés Bases de Données, Apprentissage, Représentation des
Connaissances, Gestion de Connaissances, Statistique et Fouille de données. Aujourd’hui, de
grandes masses de données structurées ou semi-structurées sont accessibles dans les bases de
données d’entreprises, d’administrations ainsi que sur la toile. Aussi les entreprises et administrations ont-elles besoin de méthodes et d’outils capables de les acquérir, de les stocker,
de les représenter, de les indexer, de les intégrer, de les classifier, d’extraire les connaissances
pertinentes pour les décideurs et de les visualiser. Pour répondre à cette attente, de nombreux
projets de recherche se développent autour de l’extraction de connaissances à partir de données (Knowledge Discovery in Data), ainsi que sur la gestion de connaissances (Knowledge
Management). Les articles réunis dans ce numéro spécial de RNTI rendent compte des développements les plus récents dans les multiples disciplines concernées par cette double problématiques, ainsi que du déploiement de méthodes d’extraction et de gestion des connaissances
par des spécialistes d’entreprises.
En particulier on constate dans les travaux rapportés ici une place grandissante accordée
aux formes diverses que peuvent prendre tant les données que les connaissances et à la nécessité de structurer les informations pour mieux les appréhender. Ainsi, les données considérées
vont de données numériques classiques aux données symboliques, au multi-média, des images
aux textes, de données statiques aux séquences et flots dynamiques. Les connaissances s’expriment quant à elles en termes de structure, de sémantique, d’ontologies, de règles, etc. On
constate également que, dans le processus de gestion, les connaissances extraites deviennent
à leur tour des données qu’il s’agit de maîtriser et d’exploiter efficacement pour l’action et la
prise de décisions. On relève également l’émergence de nouveaux domaines d’application qui
de la gestion d’entreprise, des télécommunications ou du biomédical s’étendent aux domaine
juridique, au domaine social, à la chimie, aux sciences du vivant, au contrôle de l’environnement et du territoire, ou encore à la gestion industrielle pour n’en citer que quelques uns.
Les articles sont regroupés en chapitres. Les regroupements ont été faits soit selon la problématique abordée (gestion des connaissances, indexation, ontologies, sémantique, apprentissage, règles d’association, visualisation) ou selon le type de données considérées (complexes
et/ou volumineuses, séquences, textes). Un chapitre est plus spécifiquement consacré aux applications, et un autre rend compte des logiciels démontrés pendant les journées. En raison
de la forte interrelation entre les thèmes, les regroupements comprennent cependant une part
d’arbitraire, la plupart des articles ayant leur place dans plusieurs chapitres.
Le recueil inclut également les résumés des conférences des invités prestigieux que sont
Heikki Mannila, l’un des pères de l’extraction de motifs fréquents, Gilbert Saporta statisticien
mondialement connu et expert de l’apprentissage statistique et Michael Ley le fondateur du
célèbre site de référence bibliographique DBLP.
v
Sur 152 soumissions, 42 articles longs (12 pages), 32 articles courts (6 pages) et les résumés (2 pages) de 27 posters ont été sélectionnés par le comité de programme sur la base des
rapports des relecteurs lors de sa réunion des 8 et 9 novembre 2005 à Paris. On rappellera qu’au
minimum trois avis de relecteurs ont été sollicités pour chaque soumission. Les descriptifs (2
pages) de 5 démonstrations de logiciels ont par ailleurs été retenus sur proposition du Comité “démonstrations logiciels” de EGC’2006 présidé par Mohand-Said Hacid. Finalement,
les auteurs d’un papier long et de 4 posters ayant renoncé à être publiés, ce recueil totalise, en
incluant les résumés des conférences invitées, un total de 104 articles ou résumés.
Remerciements
Nos vifs remerciements vont tout d’abord aux auteurs pour leurs excellentes contributions,
mais aussi aux relecteurs (voir liste page vii), membres du comité de lecture ou sollicités par ces
membres, dont les rapports d’évaluation circonstanciés et constructifs ont contribué à améliorer
significativement la qualité des articles.
Nos remerciements vont également à toute l’équipe du Comité d’organisation présidé par
Chabane Djeraba pour leur travail et leur mobilisation permanente. Merci donc à Fatima Belkouche, Fatma Bouali, Anne-Cécile Caron, Jérôme David, Denis Debarbieux, Régis Gras, Hakim Hacid, Nacim Ihaddadene, Laetitia Jourdan, Said Mahmoudi, Sylvain Mongy, Philippe
Preux, Thierry Urruty.
Parmi ces derniers, Nacim Ihaddadene qui a créé les affiches et le site web de la Conférence www-rech.enic.fr/egc2006 mérite une mention particulière. Merci également à Philippe
Rigaux pour son “cyberchair” MyReview et surtout à Hakim Hacid pour l’avoir configuré et
géré parfaitement.
Merci à l’Association EGC pour son soutien et la dotation du prix de la meilleure communication.
Enfin, nous remercions spécialement pour leur soutien financier et aides diverses le Laboratoire d’Informatique Fondamentale de Lille (UMR USTL/CNRS 8022), l’Université des
Sciences et Technologies de Lille, l’INRIA - Futurs, l’ENIC Télécom Lille 1, le Groupement
des Ecoles Télécom et la Ville de Lille. Sans leur soutien, ni la Conférence EGC 2006, ni ce
recueil n’auraient vu le jour.
Gilbert Ritschard et Chabane Djeraba
vi
Le Comité de lecture de ce numéro est constitué des Comités de programme EGC’2006 et de
pilotage de EGC.
Comité de programme EGC’2006, sous la présidence de G. Ritschard :
N. Belkhiter (U. Laval, CND)
S. Benbernou (LIRIS, U. Lyon 1, F)
S. Bengio (IDIAP, Martigny, CH)
G. Berio (U. de Turin , I)
P. Bosc (IRISA/ENSSAT, U. Rennes 1, F)
F. Cloppet (CRIP5, U. Paris 5, F)
J. Darmont (ERIC, U. Lyon 2, F)
E. Diday (CEREMADE, U. Paris 9, F)
R. Dieng-Kuntz (INRIA, Sophia Antipolis, F)
C. Djeraba (LIFL, U. Lille, F)
J.-L. Ermine (Inst. Nat. des Télécommunications INT, F)
G. Falquet (CUI, U. de Genève, CH)
C. Froidevaux (LRI, U. Paris Sud, F)
A. Magda Florea (U. Polytechnique de Bucarest, RO)
P. Gallinari (LIP 6, U. Pierre et Marie Curie, F)
J.-G. Ganascia (LIP 6, U. Pierre et Marie Curie, F)
P. Gancarski (U. Louis Pasteur, Strasbourg, F)
C. Garbay (TIMC-IMAG, Grenoble, F)
A. Giacometti (U. Tours, antenne de Blois, F)
R. Gilléron (INRIA Futurs Lille, F)
G. Govaert (Heudiasyc, U. de Technologie Compiègne, F)
C. Guinot (CERIES, U. Biométrie et Epidémiologie, F)
A. Hardy (U. de Namur, Belgique)
F. Jaquenet (EURISE, U. de Saint-Etienne, F)
P. Kuntz (Ecole Polytechnique de l’U. de Nantes, F)
S. Lallich (ERIC, Lyon2, F)
A. Laurent (LIRMM, Montpelier, F)
A. Lazraq (ENIM, Ecole des Mines de Rabat, Maroc)
Y. Lechevallier (INRIA Rocquencourt, F)
P. Lenca (GET/ENST Bretagne, Brest, F)
P. Leray (PSI / INSA Rouen, F)
I.-C. Lerman (IRISA, U. Rennes 1, F)
S. Loiseau (LERIA, U. d’Angers, F)
R. Missaoui (DII, U. du Québec en Outaouais, CND)
A. Napoli (LORIA, Nancy, F)
M. Noirhomme-Fraiture ( U. de Namur, B)
J.-M. Ogier (L3I, U. de La Rochelle, F)
C. Pellegrini (CUI, U. de Genève, CH)
S. Pinson (LAMSADE, U. Paris Dauphine, F)
P. Poncelet (Ecole des Mines d’Alès/LGI2P, F)
F. Poulet (ESIEA, Pôle ECD, Laval, F)
C. Roche (Equipe CONDILLAC, U. de Savoie, F)
M.-C. Rousset (IMAG, Grenoble, F)
G. Saporta (CNAM, Chaire de Stat. Appl. Paris, F)
M. Schneider (LIMOS, U. Clermont Ferrand II, F)
M. Sebag (LRI, U. Paris Sud, F)
F. Sèdes (IRIT Toulouse, F)
D. Simovici (U. of Massachusetts Boston, USA)
E. Ghazali Talbi (LIFL, Lille, F)
M. Teisseire (LIRMM, U. Montpellier 2, F)
F. Toumani (LIMOS, Clermont-Ferrand, F)
S. Trausan-Matu (U. Polytechnique de Bucarest, RO)
B. Trousse (INRIA, Sophia Antipolis, F)
G. Venturini (LI, U. de Tours, F)
J.-P. Vert (Ecole des Mines de Paris, F)
N. Vincent (CRIP5-SIP, U. Paris 5, F)
L. Wehenkel (U. de Liège, Belgique)
M. Zacklad (Tech-CICO, U. de Troyes, F)
Comité de pilotage EGC, sous la présidence de Henri Briand :
Danielle Boulanger (IAE, U. Lyon 3)
Régis Gras (LINA, U. de Nantes)
Fabrice Guillet (LINA, U. de Nantes)
Mohand-Saïd Hacid (LIRIS, U. Lyon 1)
Georges Hébrail (ENST, Paris)
Danièle Hérin (LIRMM, U. Montpellier 2)
Yves Kodratoff (LRI, U. Paris-sud)
Ludovic Lebart (ENST, Paris)
Jean-Marc Petit (LIRIS, INSA Lyon)
Jacques Philippé (PerfomanSe)
Djamel Zighed (ERIC, U. Lyon 2)
Relecteurs non membres du Comité de lecture :
Salem Benferhat, Alexandre Blansché, Marc Boyer, François Bret, Philippe Caillou, Marie Françoise Canut, Marc
Chastan, Max Chevalier, Gilles Coppin, Fabien De Marchi, Gérard Dray, Amandine Duffoux, Béatrice Duval, Joyce
El Haddad, Céline Fiot, David Genest, Jacques Guyot, Benjamin Habegger, Alle Hadjali, Athmane Hamel, Samira
Hammiche, Christine Largeron, Ludovic Liétard, Nicolas Lomenie, Patrick Marcel, Abdenour Mokrane, Hassina
Mouloudi, André Peniou, Fabien Picarougne, Bruno Pinaud, Olivier Pivert, Marc Plantevit, Saïd Radhouani, Chedy
Raissi, Chantal Reynaud, Daniel Rocacher, David Sheeren, Laszlo Szathmary, Isabelle Tellier, Franck Thollard, Marc
Tommasi, Fabien Torre, Benoît Vaillant, Julien Velcin.
Comité démonstrations logiciels :
Mohan-Said Hacid (président), Djamel Benslimane, Jean-Marc Petit, Farouk Toumani
vii
viii
TABLE DES MATIÈRES
Conférences invitées
Finding fragments of orders and total orders from 0-1 data,
Heikki Mannila . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
Credit scoring, statistique et apprentissage,
Gilbert Saporta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
Maintaining an Online Bibliographical Database : The Problem of Data Quality,
Michael Ley, Patrick Reuther . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
Chapitre 1 : Données complexes et/ou volumineuses
Graphes de voisinage pour l’Indexation et l’Interrogation d’Images par le contenu,
Hakim Hacid, Abdelkader Djamel Zighed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
Extraction automatique de champs numériques dans des documents manuscrits,
Clément Chatelain, Laurent Heutte, Thierry Paquet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
Clustering dynamique d’un flot de données : un algorithme incrémental et optimal de
détection des maxima de densité,
Alain Lelu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
Extraction d’objets vidéo : une approche combinant les contours actifs et le flot optique,
Youssef Zinbi, Youssef Chahir, Abder Elmoatz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
SVM incrémental, parallèle et distribué pour le traitement de grandes quantités de données,
Thanh-Nghi Do, François Poulet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
Recherche en temps réel de préfixes massifs hiérarchiques dans un réseau IP à l’aide de
techniques de stream mining,
Pascal Cheung-Mon-Chan, Fabrice Clérot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
Prétraitement de grands ensembles de données pour la fouille visuelle,
Edwige Fangseu Badjio, François Poulet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
Chapitre 2 : Gestion de connaissances et indexation
Indexation de vues virtuelles dans un médiateur XML pour le traitement de XQuery Text,
Clément Jamard, Georges Gardarin . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
Techniques de fouille de données pour la réécriture de requêtes en présence de
contraintes de valeurs,
Hélène Jaudoin, Frédéric Flouvat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
ix
Un Index de jointure pour les entrepôts de données XML,
Hadj Mahboubi, Kamel Aouiche, Jérôme Darmont . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
Le forage distribué des données : une méthode simple, rapide et efficace,
Mohamed Aounallah, Guy Mineau . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
Une approche distribuée pour l’extraction de connaissances : application à
l’enrichissement de l’aspect factuel des BDG,
Khaoula Mahmoudi, Sami Faïz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
Modèle conceptuel pour bases de données multidimensionnelles annotées,
Guillaume Cabanac, Max Chevalier, Franck Ravat, Olivier Teste . . . . . . . . . . . . . . . . . . . . 119
Comparaison de deux modes de représentation de données faiblement structurées en
sciences du vivant,
Rallou Thomopoulos, Patrice Buche, Ollivier Haemmerlé,
Frédéric Mabille, Nongyao Mueangdee . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125
Reconnaissance automatique d’évènements survenant sur patients en réanimation
à l’aide d’une méthode adaptative d’extraction en ligne d’épisodes temporels,
Sylvie Charbonnier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
Une approche multi-agent adaptative pour la simulation de schémas tactiques,
Aydano Machado, Yann Chevaleyre, Jean-Daniel Zucker . . . . . . . . . . . . . . . . . . . . . . . . . . . 143
Gestion de connaissances : compétences et ressources pédagogiques,
Olivier Gerbé, Thierno Diarra, Jacques Raynauld . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149
Chapitre 3 : Ontologies
Alignement extensionnel et asymétrique de hiérarchies conceptuelles par découverte
d’implications entre concepts,
Jérôme David, Fabrice Guillet, Régis Gras, Henri Briand . . . . . . . . . . . . . . . . . . . . . . . . . . 151
Une mesure de proximité et une méthode de regroupement pour l’aide à l’acquisition
d’ontologies spécialisées,
Guillaume Cleuziou, Sylvie Billot, Stanislas Lew, Lionel Martin, Christel Vrain . . . . . . . 163
Web sémantique pour la mémoire d’expériences d’une communauté scientifique :
le projet MEAT,
Khaled Khelif, Rose Dieng-Kuntz, Pascal Barbry . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175
Interrogation et vérification de documents OWL dans le modèle des Graphes Conceptuels,
Thomas Raimbault, Henri Briand, Rémi Lehn, Stéphane Loiseau . . . . . . . . . . . . . . . . . . . . 187
Une nouvelle mesure sémantique pour le calcul de la similarité entre deux concepts
d’une même ontologie,
Emmanuel Blanchard, Mounira Harzallah, Pascale Kuntz, Henri Briand . . . . . . . . . . . . . 193
Classification des compte-rendus mammographiques à partir d’une ontologie radiologique
en OWL,
Amel Boustil, Sahnoun Zaidi, Ziad Mansouri, Christine Golbreich . . . . . . . . . . . . . . . . . . 199
x
Chapitre 4 : Fouille de textes
Choix du taux d’élagage pour l’extraction de la terminologie. Une approche fondée sur
les courbes ROC,
Mathieu Roche, Yves Kodratoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 205
Fast-MGB : Nouvelle base générique minimale de règles associatives,
Chiraz Latiri, Lamia Ben Ghezaiel, Mohamed Ben Ahmed . . . . . . . . . . . . . . . . . . . . . . . . . . 217
Extraction et identification d’entités complexes à partir de textes biomédicaux,
Julien Lorec, Gérard Ramstein, Yannick Jacques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223
Reconnaissance automatique de concepts à partir d’une ontologie,
Valentina Ceausu, Sylvie Desprès . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 229
Multi-catégorisation de textes juridiques et retour de pertinence,
Vincent Pisetta, Hakim Hacid, Djamel. A Zighed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 235
Combinaison de l’approche inductive (progressive) et linguistique pour l’étiquetage
morphosyntaxique des corpus de spécialité,
Ahmed Amrani, Yves Kodratoff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 247
Un automate pour évaluer la nature des textes,
Hubert Marteau, Nicole Vincent . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 259
Extraction multilingue de termes à partir de leur structure morphologique,
Delphine Bernhard . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 271
Accès aux connaissances orales par le résumé automatique,
Benoît Favre, Jean-François Bonastre, Patrice Bellot, François Capman . . . . . . . . . . . . . 273
Chapitre 5 : Sémantique
Exploration des paramètres discriminants pour les représentations vectorielles de la
sémantique des mots,
Frank Meyer, Vincent Dubois . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275
Exploration interactive de bases de connaissances : un retour d’expérience,
Christophe Tricot, Christophe Roche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 287
Un modèle de qualité de l’information,
Rami Harrathi, Sylvie Calabretto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 299
Annotation sémantique de pages web,
Sylvain Tenier, Amedeo Napoli, Xavier Polanco, Yannick Toussaint . . . . . . . . . . . . . . . . . . 305
Chapitre 6 : Visualisation
Visualisation en Gestion des Connaissances : développement d’un nouveau modèle
graphique Graph’Atanor,
Bruno Pinaud, Pascale Kuntz, Fabrice Guillet, Vincent Philippé . . . . . . . . . . . . . . . . . . . . . 311
xi
Algorithme semi-interactif pour la sélection de dimensions,
Lydia Boudjeloud, François Poulet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323
Visualisation interactive de données avec des méthodes à base de points d’intérêt,
David Da Costa, Gilles Venturini . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 335
Modélisation informationnelle : un cadre méthodologique pour visualiser des
connaissances évolutives spatialisables,
Jean-Yves Blaise, Iwona Dudek . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 347
Chapitre 7 : Annalyse de données et classification
Typicalité et contribution des sujets et des variables supplémentaires en Analyse
Statistique Implicative,
Régis Gras, Jérôme David, Jean-Claude Régnier, Fabrice Guillet . . . . . . . . . . . . . . . . . . . 359
Utilisation de métadonnées pour l’aide à l’interprétation de classes et de partitions,
Abdourahamane Baldé, Yves Lechevallier, Brigitte Trousse, Marie-Aude Aufaure . . . . . 371
Affectation pondérée sur des données de type intervalle,
Chérif Mballo, Edwin Diday . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 377
Classifications hiérarchiques factorielles de variables,
Sergio Camiz, Jean-Jacques Denimal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 383
Classification non-supervisée de données relationnelles,
Jérôme Maloberti, Shin Ando, Einoshin Suzuki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 389
Chapitre 8 : Apprentissage
Analyse du comportement des utilisateurs exploitant une base de données vidéo,
Sylvain Mongy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 391
Web Usage Mining : extraction de périodes denses à partir des logs,
Florent Masseglia, Pascal Poncelet, Maguelonne Teisseire, Alice Marascu . . . . . . . . . . . 403
Comparaison de dissimilarité pour l’analyse de l’usage d’un site web,
Fabrice Rossi, Francisco De Carvalho, Yves Lechevallier, Alzennyr Da Silva . . . . . . . . . 409
Extraction de relations dans les documents Web,
Rémi Gilléron, Patrick Marty, Marc Tommasi, Fabien Torre . . . . . . . . . . . . . . . . . . . . . . . . . 415
Sélection supervisée d’instances : une approche descriptive,
Sylvain Ferrandiz, Marc Boullé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 421
Classification de documents XML à partir d’une représentation linéaire des arbres
de ces documents,
Anne-Marie Vercoustre, Mounir Fegas, Yves Lechevallier, Thierry Despeyroux . . . . . . . . 433
Carte auto-organisatrice probabiliste sur données binaires,
Rodolphe Priam, Mohamed Nadif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 445
Classification d’un tableau de contingence et modèle probabiliste,
Gérard Govaert, Mohamed Nadif . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457
xii
Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair,
Raja Chiky, Bruno Defude, Georges Hébrail . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 463
Fouille de données dans les systèmes Pair-à-Pair pour améliorer la recherche de ressources,
Florent Masseglia, Pascal Poncelet, Maguelonne Teisseire . . . . . . . . . . . . . . . . . . . . . . . . . . 469
Une approche simple inspirée des réseaux sociaux pour la hiérarchisation des systèmes
autonomes de l’Internet,
Fabrice Clérot, Quang Nguyen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 475
Recherche de sous-structures fréquentes pour l’intégration de schémas XML,
Federico Del Razo López, Anne Laurent, Pascal Poncelet, Maguelonne Teisseire . . . . . . 487
Vers l’extraction de motifs rares,
Laszlo Szathmary, Sandy Maumus, Pierre Petronin, Yannick Toussaint,
Amedeo Napoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 499
Approche entropique pour l’analyse de modèle de chroniques,
Nabil Benayadi, Marc Le Goc, Philippe Bouché . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 511
La fouille de graphes dans les bases de données réactionnelles au service de la synthèse
en chimie organique,
Frédéric Pennerath, Amedeo Napoli . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517
Fouille de données spatiales. Approche basée sur la programmation logique inductive,
Nadjim Chelghoum, Karine Zeitouni, Thierry Laugier, Annie Fiandrino,
Lionel Loubersac . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 529
Arbres de Décision Multi-Modes et Multi-Cibles,
Frank Meyer, Fabrice Clérot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 541
Extension de l’algorithme CURE aux fouilles de données,
Jerzy Korczak, Aurélie Bertaux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547
Chapitre 9 : Règles d’association
Comparaison des mesures d’intérêt de règles d’association : une approche basée sur des
graphes de corrélation,
Xuan-Hiep Huynh, Fabrice Guillet, Henri Briand . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549
Une comparaison de certains indices de pertinence des règles d’association,
Marie Plasse, Ndeye Niang, Gilbert Saporta, Laurent Leblond . . . . . . . . . . . . . . . . . . . . . . 561
Utilisation des réseaux bayésiens dans le cadre de l’extraction de règles d’association,
Clément Fauré, Sylvie Delprat, Alain Mille, Jean-François Boulicaut . . . . . . . . . . . . . . . . 569
Critère VT100 de sélection des règles d’association,
Alain Morineau, Ricco Rakotomalala . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 581
Modèle décisionnel basé sur la qualité des données pour sélectionner les règles
d’associations légitimement intéressantes,
Laure Berti-Equille . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 593
Règles d’association avec une prémisse composée : mesure du gain d’information,
Martine Cadot, Pascal Cuxac, Claire François . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 599
xiii
Recherche de règles non redondantes par vecteurs de bits dans des grandes bases de motifs,
François Jacquenet, Christine Largeron, Cédric Udréa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 601
Chapitre 10 : Données séquentielles
Des motifs séquentiels généralisés aux contraintes de temps étendues,
Céline Fiot, Anne Laurent, Maguelonne Teisseire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 603
Bordure statistique pour la fouille incrémentale de données dans les Data Streams,
Jean-Emile Symphor, Pierre-Alain Laur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 615
Extraction de motifs séquentiels dans les flots de données d’usage du Web,
Alice Marascu, Florent Masseglia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 627
Champs de Markov conditionnels pour le traitement de séquences,
Trinh Minh Tri Do, Thierry Artières . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 639
Chapitre 11 : Applications
Apprentissage de la structure des réseaux bayésiens à partir des motifs fréquents corrélés :
application à l’identification des facteurs environnementaux du cancer du Nasopharynx,
Alexandre Aussem, Zahra Kebaili, Marilys Corbex, Fabien De Marchi . . . . . . . . . . . . . . . 651
De l’analyse didactique à la modélisation informatique pour la conception d’un EIAH en
chirurgie orthopédique,
Vanda Luengo, Lucile Vadcard, Dima Mufti-Alchawafa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 663
Prédiction de la solubilité d’une molécule à partir des seules données relationnelles,
Sébastien Derivaux, Agnès Braud, Nicolas Lachiche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 669
Préparation des données Radar pour la reconnaissance/identification de cibles aériennes,
Abdelmalek Toumi, Brigitte Hoeltzener, Ali Khenchaf . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 675
Biclustering of Gene Expression Data Based on Local Nearness,
Jesus Aguilar-Ruiz, Domingo Savio Rodriguez, Dan A. Simovici . . . . . . . . . . . . . . . . . . . . 681
Amélioration des indicateurs techniques pour l’analyse du marché financier,
Hunor Albert-Lorincz, Jean-François Boulicaut . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693
EDA : algorithme de désuffixation du langage médical,
Didier Nakache, Elisabeth Métais, Annabelle Dierstein . . . . . . . . . . . . . . . . . . . . . . . . . . . . 705
Aide en gestion hospitalière par visualisation des composantes de non-pertinence,
Bernard Huet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 707
Enrichissement d’ontologies dans le secteur de l’eau douce en environnement Internet
distribué et multilingue,
Lylia Abrouk, Mathieu Lafourcade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 709
Comparaison des mammographies par des méthodes d’apprentissage,
Irina Diana Coman, Djamel Abdelkader Zighed . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 711
xiv
Représentation d’expertise psychologique sous la forme de graphes orientés, codés
en RDF,
Yves Fossé, Stéphane Daviet, Henri Briand, Fabrice Guillet . . . . . . . . . . . . . . . . . . . . . . . . 713
Représentation des connaissances appliquées à la géotechnique : une approche,
Nicolas Faure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 715
Sélection de variables et modélisation d’expressions d’émotions dans des dialogues
Homme-Machine,
Barbara Poulain . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 717
Comment formaliser les connaissances tacites d’une organisation ? Le cas de la conduite
du changement à la SNCF,
Anne Remillieux, Christian Blatter . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 719
I-Semantec : une plateforme collaborative de capitalisation des connaissances métier en
conception de produits industriels,
Mohamed-Foued Sriti, Phillipe Boutinaud, Nada Matta, Manuel Zacklad . . . . . . . . . . . . 721
Outil de datamining spatial appliqué à l’analyse des risques liés au territoire,
Schahrazed Zeghache, Farida Admane, Kamel Elarabia Ziane . . . . . . . . . . . . . . . . . . . . . . 723
Confrontation de points de vue dans le système Porhyry,
Samuel Gesche, Sylvie Calabretto, Guy Caplat . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 725
Système d’aide à la décision pour la surveillance de la qualité de l’air intérieur,
Zoulikha Heddadji, Nicole Vincent, Severine Kirchner, Georges Stamon . . . . . . . . . . . . . . 727
FaBR-CL : méthode de classification croisée de protéines,
Walid Erray, Faouzi Mhamdi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 729
Un modèle extensible adapté à la gestion de dépêches d’agences de presse,
Frédéric Bertrand, Cyril Faucher, Marie-Christine Lafaye, Jean-Yves Lafaye,
Alain Bouju . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 731
ARABASE : base de données Web pour l’exploitation en reconnaissance optique de
l’écriture arabe,
Noura Bouzrara, Nacéra Madani Aissaoui, Najoua Essoukri Ben Amara . . . . . . . . . . . . . 733
Archiview, un outil de visualisation topographique des paramètres d’un hôpital,
Pierre P. Lévy, Jean-Philippe Villaréal, Pierre-Paul Couka, Fabrice Gallois,
Laurence Herbin, Antoine Flahault . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 735
Chapitre 12 : Logiciels
Faire vivre un référentiel métier dans l’industrie : le système de gestion de
connaissances ICARE,
Alain Berger, Pierre Mariot, Christophe Coppens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 737
ESIEA Datalab Logiciel de Nettoyage et Préparation de Données ,
Christopher Corsia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 739
Méthode de récolte de traces de navigation sur interface graphique et visualisation
de parcours,
Marc Damez . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 741
xv
Teximus Expertise : un logiciel de gestion de connaissances,
Olivier Gerbé . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 743
Un logiciel permettant d’apprendre des règles et leurs exceptions : Area,
Sylvain Lagrue, Jérémie Lussiez, Julien Rossit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 745
xvi
Typicalité et contribution des sujets et des variables
supplémentaires en Analyse Statistique Implicative
Régis Gras *, Jérôme David*, Jean-Claude Régnier**, Fabrice Guillet*
* LINA– Ecole Polytechnique de l’Université de Nantes
La Chantrerie BP 60601 44306 Nantes cedex
[email protected], jerome.david, [email protected]
http://www.sciences.univ-nantes.fr/lina/
**EA 3727 Savoirs, Diversité et Professionnalisation, Lyon 2
86, rue Pasteur 69365 Lyon cedex 07
[email protected]
Résumé. L’analyse statistique implicative traite des tableaux sujets x
variables afin d’extraire règles et métarègles statistiques entre les variables.
L’article interroge les structures obtenues représentées par graphe et hiérarchie
orientés afin de dégager la responsabilité des sujets ou des groupes de sujets
(variables supplémentaires) dans la constitution des chemins du graphe ou des
classes de la hiérarchie. On distingue les concepts de typicalité pour signifier la
proximité des sujets avec le comportement moyen de la population envers les
règles statistiques extraites, puis de contribution pour quantifier le rôle
qu’auraient les sujets par rapport aux règles strictes associées. Un exemple de
données réelles, traité à l’aide du logiciel CHIC, illustre et montre l’intérêt de
ces deux concepts.
1 Introduction
Les données traitées par l’analyse statistique implicative (en abrégé : A.S.I.) se présentent
sous forme de tableaux numériques croisant une population E de sujets, ou individus ou
objets, associé chacun à une ligne, et un ensemble V de variables simples ou conjointes
(attributs binaires, variables numériques, rang, intervalle) chacune associée à une colonne. A
l’intersection de la ligne x et de la colonne j figure la valeur prise par le sujet x selon la
variable j. La finalité première de l’A.S.I. vise à dégager de V ou de l’ensemble de toutes les
conjonctions d’éléments de V1, des règles d’association non symétrique, contrairement à la
similarité, sur une base statistique, du type : « si la variable ou une conjonction de variables a
est observée sur E alors la variable b a tendance à être observée », règle notée a ⇒ b. Une
mesure de qualité, non symétrique, de telles règles2 est définie par :
1
Dorénavant nous continuerons à noter V, pour éviter des notations excessives, aussi bien
l’ensemble des variables que celui de toutes les conjonctions de ses éléments.
2
D’autres mesures existent comme celle d’(Agrawal et al.,1993) basée sur les deux paramètres :
support (fréquence de a et b) et confiance (fréquence conditionnelle de b sachant a)
- 359 -
RNTI-E-6
Utilisation de métadonnées pour l’aide à l’interprétation de
classes et de partitions
Abdourahamane Baldé*, Yves Lechevallier*,
Brigitte Trousse**, Marie-Aude Aufaure***
* INRIA Rocquencourt (Projet AxIS)
Domaine de Voluceau Rocquencourt, B.P. 105, F-78153 Le Chesnay Cedex, France
{abdourahamane.balde, yves.lechevallier}@inria.fr
** INRIA Sophia Antipolis (Projet AxIS)
Route des Lucioles, B.P. 93, F-06902 Sophia Antipolis Cedex, France
[email protected]
***Supélec - Plateau du Moulon - Service Informatique
F-91192 Gif-sur-Yvette Cedex
[email protected]
Résumé. Les résultats des méthodes de fouille de données sont difficilement
interprétables par un utilisateur n'ayant pas l’expertise requise. Dans ce papier
nous proposons un outil permettant aux utilisateurs d’interpréter les résultats
issus des méthodes de classification non supervisée. Cet outil est basé sur des
métadonnées utilisées pour formaliser le processus d’interprétation
automatique. Ces métadonnées vont servir à l’utilisateur pour comprendre dans
quelles circonstances les données originales ont été collectées et de quelle
manière elles ont été agrégées puis classifiées. L’intérêt de ce travail porte sur
la souplesse qu’auront les utilisateurs à pouvoir interpréter facilement les
classes obtenues. Nous développons notre approche basée sur l’utilisation des
métadonnées. Nous traduirons notre méthodologie par un exemple concret.
1 Introduction
La fouille de données définie comme étant l'extraction à partir de données brutes de
connaissances potentiellement exploitables, n’en demeure pas moins un processus complexe
dès lors qu’il s’agit d’interpréter les résultats fournis. Les techniques de fouille de données
représentent une étape fondamentale du processus d’Extraction de Connaissances dans les
Bases de Données connu sous le nom ECD ou KDD (Knowledge Discovery in Databases)
(Han 2001).
Dans ce papier nous nous intéressons à l’une de ces techniques : la classification non
supervisée. Celle-ci est définie comme un ensemble de processus aptes à être exécutés sur
ordinateur pour constituer des hiérarchies de classes ou de simples partitions établies à partir
de tableaux de données (Jambu 1978). Les règles d’interprétation des structures
classificatoires obtenues (hiérarchies, partitions, etc.) à l’issue de ces classifications n’ont pas
la simplicité des méthodes descriptives uni-dimensionnelles.
- 371 -
RNTI-E-6
!
"
-
#
$%
$
. $ ! & $% /
&'
.
()(()
$
&'
0 $1 % $$ 2
$%& %
3
$
$
$ 4& $
%'
%
&% $ %
%5
7 - 6
! 8 &$ ' ' $ $ & ''
' &2
$ &* &* 9& $ $ 6
$ '
'
9&
%&%
%% - %
$% '
' $%
- %
2 $$ '
'' %2
$6 $'
$; < ∈ ℑ
ℑ 3 $$ %
% = > : ; : ;=
?%$ #
$%
%'
$
- $
4& $ '
%
$
Ω &
:@ A %
* +,
$& $
$
&' 6
%% % 3
% &
%%
- % 3&
-'%
$ &
&'&
ℜ: $ $ -
BCCC; $
$
3
- $
&$ &
: ; = >α β =
D α β ∈ ℜ %α ≤ β
%$ - % $
$%& %
1
$
$& $
$$ 4& $
%'
%
% % ' ' $ $ :: - - BCC); /
:
+EE,;;
&% $ %
%5
F
% A
8 &$ '
6 $
%5
&' 6
7 - 6
! % 7
$
$&%
%5
%
% &% ' :
+E((; ' & & ' %%
2 *' 4& $&
$
$
% &$
% % & &*
$ 4& %% $
$$ 4& $ ' : $$
+EEG; 8 &$
$ * $
'%%
&*
$$ 4& $
%'
%
::
%
BCCH; :
%
BCC) ;; - $
$ %% ''
&
& $%
%
%5 - %2& 9&
3
$
8 &$ ' ' $ $
$
' ' & ''
' - %% % 3
% &
&2
$ &* &* 9& $ $ 6
$'
&' 6 3&
9&
%8 &$ % $ ' & * -' ' & &$%
%% ''
∀ ∈Ω
$
&'' $ $ 4& 3 $ Ω
?%$ $% $ 2 I%
$$ $ ' &
$<
$
%'
%
'
-- % $%& ' '& %
$
$ ?%$ $ %
+
- 377 -
B
:
$ *'
%
4&
%$ ' :
+ +;
% $; %&
RNTI-E-6
Classifications hiérarchiques factorielles de variables
Sergio Camiz**, Jean-Jacques Denimal*
** Dipartimento di Matematica Guido Castelnuovo Università di Roma La Sapienza
Piazzale Aldo Moro, 2 – I 00186 Roma Italie
[email protected]
http://www.camiz.net
* U.F.R. de Mathématiques Université des Sciences et Technologies de Lille
F 59655 Villeneuve d’Ascq France
[email protected]
Résumé. On présente deux méthodes de classification hiérarchique ascendante
de variables quantitatives et de fréquences. Chaque noeud de ces hiérarchies
regroupe deux classes de variables à partir d’une analyse factorielle particulière basée sur les variables représentatives de ces deux classes. Par cette méthode, on dispose, à chaque pas, d'un plan factoriel permettant de représenter à
la fois les variables des deux classes fusionnées et l’ensemble des individus.
Ces derniers se positionnent dans ce plan suivant leurs valeurs pour les variables considérées. Ainsi, l’interprétation des nœuds obtenus s’effectue facilement à partir de l’examen de ces représentations factorielles. La répartition des
individus observée dans chacun de ces plans factoriels permet également de
définir une segmentation des individus en total accord avec la hiérarchie des
variables obtenues. On montre le fonctionnement des méthodes sur des exemples réels.
1 Introduction
L'analyse exploratoire d'un tableau de données, que ce soit un tableau classique croisant
unités statistiques et caractères quantitatifs, ou un tableau de contingence croisant les modalités de deux caractères qualitatifs, est généralement réalisée par les quatre étapes de la procédure suivante :
1. Analyse factorielle exploratoire : selon le type de tableau, il s’agit d’une Analyse en
Composantes Principales (ACP) ou une Analyse des Correspondances (AFC) ;
2. classification des lignes, à savoir des individus ou des modalités en ligne ;
3. interprétation des classes obtenues à l’aide du comportement des caractères originaux dans chaque classe ;
4. Étude des liaisons entre classes et axes factoriels.
L’originalité de l’approche proposée dans cet article est d’unifier, dans une même méthode, l’analyse factorielle du tableau et les classifications des lignes et des colonnes. En
effet, les plans factoriels obtenus sont directement associés aux nœuds des hiérarchies construites. Ce qui permet d’obtenir une interprétation conjointe des nœuds et des axes factoriels
facilitant la synthèse des résultats. Les approches classiques résumées par les quatre étapes
- 383 -
RNTI-E-6
Classification non-supervisée de données relationnelles
Jérôme Maloberti∗,∗∗ , Shin Ando∗∗
Einoshin Suzuki∗∗
∗
1
Université Paris-Sud, Laboratoire de Recherche en Informatique (LRI), Bât 490,
F-91405 Orsay Cedex, France
∗∗
Electrical and Computer Engineering, Yokohama National University,
79-5 Tokiwadai, Hodogaya, Yokohama 240-8501, Japan
Introduction
La classification, ou clustering (Jain et al., 1999), consiste à associer une classe à chaque
élément d’un ensemble, les éléments similaires devant être regroupés dans une classe en n’utilisant que la similarité (ou distance) entre deux éléments ou groupes d’éléments. Le formalisme
attributs-valeurs ne permettant pas de représenter les domaines complexes, l’apprentissage en
logique du premier ordre, ou Programmation Logique Inductive (PLI), a attiré une attention
croissante. Le language utilisé en PLI, DATALOG, est un formalisme relationnel ne permettant
pas les fonctions, et dont le test de couverture, la θ-subsomption, est une restriction décidable
mais NP-difficile de l’implication logique. Cet article présente une méthode permettant l’utilisation d’algorithmes de clustering sur des données relationnelles, en recherchant préliminairement tous les motifs relationnels existant et en les utilisant pour définir une distance entre des
clauses en DATALOG.
2
Présentation de l’algorithme
L’algorithme proposé consiste en trois étapes : la recherche de tous les motifs relationnels
de la base, l’élimination des motifs inintéressants et le clustering des clauses DATALOG, en
utilisant les motifs pour calculer la distance entre les exemples. La recherche des motifs relationnels est effectuée par J IMI (Maloberti et Suzuki (2003)) qui est une version relationnelle
d’un algorithme de recherche en largeur d’itemset fréquents. Chaque exemple est tranformé en
un vecteur booléen dont les valeurs correspondent au test de θ-subsomption1 des motifs contre
cet exemple, ces vecteurs permettant d’utiliser les distances existantes. Différents paramètres
peuvent être utilisés : différents poids sur les motifs durant le calcul de la distance, tels que
la taille des motifs ou l’inverse de la fréquence, utilisation des n premiers niveaux trouvés par
J IMI plutôt que tous les niveaux, utilisation d’une partie des motifs (tous les motifs maximaux,
i.e. fermés, ou les motifs minimaux).
Notre méthode a été testée sur 2 ensembles de données réelles avec un algorithme de clustering hiérarchique ascendant et une distance euclidienne. Le premier test concerne la détection
1 La
version utilisée vérifie l’Identité d’Objet, toutes les variables sont substituées par des termes différents.
- 389 -
RNTI-E-6
Classification non-supervisée de données relationnelles
d’accès hostiles sur le site web “www.slab.dnj.ynu.ac.jp”. Les données, dont des résultats ont
déjà été publiés dans Narahashi et Suzuki (2003) et Hirose et Suzuki (2005), correspondant
à deux ans d’accès et contiennent : 205, 590 requêtes, 32, 425 sessions 2 , dont 2, 243 hostiles. Notre méthode a obtenu (sur 10.000 sessions) une précision de 0.991 avec 12 clusters,
Narahashi et Suzuki (2003) obtenant 0.981, avec 5 clusters et Hirose et Suzuki (2005) 0.719
avec 2 clusters. Ce problème n’étant pas relationnel, les 2 premiers niveaux ont les meilleurs
résultats, l’utilisation de plus de niveaux n’a conduit qu’à la création de plus de clusters. Le
second ensemble de données, décrit dans King et al. (1995), concerne la détection de capacité
à provoquer des mutations et représente 230 molécules, dont 138 positives et 92 négatives. Les
résultats ont été médiocres, une précision de 0.51, car seule la description des atomes et de
leurs relations a été utilisée, ce qui est insuffisant pour obtenir des motifs discriminants.
3
Conclusion et perspectives
Nous avons proposé une nouvelle méthode permettant le clustering de données relationnelles et nous avons utilisé ce système sur deux ensembles de données. Les résultats préliminaires montrent que ce système peut égaler les autres algorithmes sur des données non relationnelles, l’expérimentation sur des données relationnelles n’ayant pas permis de conclure.
Parmi les perspectives, l’utilisation d’un algorithme de clustering pouvant gérer de grandes
dimensions, tel que le subspace clustering, serait intéressante car le grand nombre de motifs
rend les distances très instables mathématiquement.
Références
Hirose, N. et E. Suzuki (2005). Detecting hostile accesses to a web site using a visualization
method based on probabilistic clustering. In Proc. 1st WSEAS Intern. Symp. on Datamining.
Jain, A. K., M. N. Murty, et P. J. Flynn (1999). Data clustering : a review. ACM Computing
Surveys 31(3), 264–323.
King, R., A. Srinivasan, et M. Stenberg (1995). Relating chemical activity to structure : an
examination of ILP successes. New Generation Computing 13.
Maloberti, J. et E. Suzuki (2003). Improving efficiency of frequent query discovery by eliminating non-relevant candidates. In Proc. 6th Inter. Conf. on Discovery Science.
Narahashi, M. et E. Suzuki (2003). Detecting hostile accesses through incremental subspace
clustering. In IEEE/WIC International Conference on Web Intelligence, pp. 337–343.
Summary
This paper presents an algorithm for clustering of relational data in DATALOG formalism
which searches all relational patterns in the base, then transforms each example in a boolean
vector corresponding to the results of its covering tests against the patterns.
2 Une session est une séquence de requêtes d’un même ordinateur avec délai entre deux requêtes successives inférieur à une heure
RNTI-E-6
- 390 -
Analyse du Comportement des utilisateurs exploitant une
base de données vidéo
Sylvain Mongy∗
∗
Univ. de Lille1, Bât. M3 59655 Villeneuve d’Ascq Cedex FRANCE
[email protected],
http://www-rech.enic.fr/MIIRE
Résumé. Dans cet article, nous présentons un modèle de fouille des usages de
la vidéo pour améliorer la qualité de l’indexation. Nous proposons une approche
basée sur un modèle à deux niveaux représentant le comportement des utilisateurs exploitant un moteur de recherche vidéo. Le premier niveau consiste à
modéliser le comportement lors de la lecture d’une vidéo unique (comportement
intra vidéo), le second à modéliser le comportement sur l’ensemble d’une session (comportement inter video). A partir de cette représentation, nous avons
développé un algorithme de regroupement, adapté à la nature particulière de ces
données. L’analyse des usages de la vidéo nous permet d’affiner l’indexation
vidéo sur la base de l’intérêt des utilisateurs.
1
Introduction
De par le développement rapide des techniques de stockage et de diffusion, les vidéos, notamment digitalisées, sont de plus en plus nombreuses et accessibles. En particulier, les agences
de presse, les diffuseurs TV, les agences de publicité travaillent sur des ressources vidéo grandissantes. Pour être à même de travailler sur de tels volumes, des technologies adaptées doivent
être mises en oeuvre. La « fouille des usages de la vidéo », qui cherche à analyser les comportements des utilisateurs sur des ensembles de vidéo est l’une des techniques clé émergentes
pour optimiser les accès aux vidéos.
Dans cet article, nous proposons d’analyser le comportements des utilisateurs d’un moteur
de recherche vidéo pour améliorer la qualité de l’indexation textuelle. Notre objectif est de
comprendre pourquoi et comment chacune des séquences vidéo est visionnée. Par exemple,
les utilisateurs recherchant des vidéos concernant le mot-clé « montagne » visionnent successivement les vidéos (18, 73, 29) qui sont retournées dans cet ordre par le moteur de recherche.
Si l’on note que dans la majeure partie des cas, la vidéo 29 est visionnée totalement alors que
les vidéos 18 et 73 ne le sont que partiellement, on en déduit que, selon l’utilisateur, le concept
de « montagne » est mieux exprimé par la vidéo 29 que par les vidéos 18 et 73. En conclusion,
la vidéo 29 doit être proposée en premier aux utilisateurs lors des futures recherches sur le
concept « montagne ». Son poids dans la vidéo 29 s’en trouve augmenté et celui des vidéos
18 et 73 réduit.
Dans ce papier nous présentons une approche qui combine usage intra-vidéo et usage intervidéo pour générer des profils de visite sur un moteur de recherche vidéo dans le contexte de
- 391 -
RNTI-E-6
Web Usage Mining : extraction de périodes denses à partir
des logs
Florent Masseglia ∗ , Pascal Poncelet∗∗ , Maguelonne Teisseire∗∗∗ , Alice Marascu ∗
∗
INRIA Sophia Antipolis, 2004 route des Lucioles - BP 93, 06902 Sophia Antipolis, France
{Alice.Marascu,Florent.Masseglia}@sophia.inria.fr
∗∗
EMA-LGI2P/Site EERIE, Parc Scientifique Georges Besse, 30035 Nîmes Cedex, France
{Pascal.Poncelet}@ema.fr
∗∗∗
LIRMM UMR CNRS 5506, 161 Rue Ada, 34392 Montpellier cedex 5 - France
{teisseire}@lirmm.fr
Résumé. Les techniques de Web Usage Mining existantes sont actuellement
basées sur un découpage des données arbitraire (e.g. "un log par mois") ou guidé
par des résultats supposés (e.g. "quels sont les comportements des clients pour
la période des achats de Noël ? "). Ces approches souffrent des deux problèmes
suivants. D’une part, elles dépendent de cette organisation arbitraire des données
au cours du temps. D’autre part elles ne peuvent pas extraire automatiquement
des "pics saisonniers" dans les données stockées. Nous proposons d’exploiter
les données pour découvrir de manière automatique des périodes "denses" de
comportements. Une période sera considérée comme "dense" si elle contient au
moins un motif séquentiel fréquent pour l’ensemble des utilisateurs qui étaient
connectés sur le site à cette période.
1
Introduction
L’analyse du comportement des utilisateurs d’un site Web, également connue sous le nom
de Web Usage Mining, est un domaine de recherche qui consiste à adapter des techniques de
fouille de données sur les enregistrements contenus dans les fichiers logs d’accès Web (ou
fichiers “access log”) afin d’en extraire des relations entre les différentes données stockées
Cooley et al. (1999), Masseglia et al. (2003), Mobasher et al. (2002), Spiliopoulou et al. (1999).
Ces derniers regroupent des informations sur l’adresse IP de la machine, l’URL demandée, la
date, et d’autres renseignements concernant la navigation de l’utilisateur. Parmi les méthodes
développées, celles qui consistent à extraire des motifs séquentiels Agrawal et Srikant (1995)
s’adaptent particulièrement bien au cas des logs mais dépendent du découpage qui est fait des
données. Ce découpage provient soit d’une décision arbitraire de produire un log tous les x
jours (e.g. un log par mois), soit d’un désir de trouver des comportements particuliers (e.g.
les comportements des internautes du 15 novembre au 23 décembre lors des achats de Noël).
Pour comprendre l’enjeu de ces travaux, prenons l’exemple d’étudiants connectés lors d’une
séance de TP. Imaginons que ces étudiants soient répartis en 2 groupes. Le groupe 1 était en
TP le lundi 31 janvier. Le groupe 2 en revanche était en TP le mardi 1er février. Chacun de ces
- 403 -
RNTI-E-6
Comparaison de dissimilarités pour l’analyse de l’usage d’un
site web
Fabrice Rossi∗ , Francisco De Carvalho∗∗ , Yves Lechevallier∗ , Alzennyr Da Silva∗,∗∗
∗
Projet AxIS, INRIA Rocquencourt
Domaine de Voluceau, Rocquencourt, B.P. 105, 78153 Le Chesnay Cedex – France
∗∗
Centro de Informatica - CIn/UFPE
Caixa Postal 7851, CEP 50732-970, Recife (PE) – Brésil
Résumé. L’obtention d’une classification des pages d’un site web en fonction
des navigations extraites des fichiers "logs" du serveur peut s’avérer très utile
pour évaluer l’adéquation entre la structure du site et l’attente des utilisateurs. On
construit une telle typologie en s’appuyant une mesure de dissimilarité entre les
pages, définie à partir des navigations. Le choix de la mesure la plus appropriée
à l’analyse du site est donc fondamental. Dans cet article, nous présentons un
site de petite taille dont les pages sont classées en catégories sémantiques par
un expert. Nous confrontons ce classement aux partitions obtenues à partir de
diverses dissimilarités afin d’en étudier les avantages et inconvénients.
1 Introduction
La conception, la réalisation et la maintenance d’un site web volumineux sont des tâches
difficiles, en particulier quand le site est écrit par plusieurs rédacteurs. Pour améliorer le site, il
est alors important d’analyser les comportements de ses utilisateurs, afin de découvrir notamment les incohérences entre sa structure a priori et les schémas d’utilisation dominants. Les
utilisateurs contournent en effet souvent les limitations du site en navigant (parfois laborieusement) entre les parties qui les intéressent, alors que celles-ci ne sont pas directement liées aux
yeux des concepteurs. A l’opposée, certains liens sont très peu utilisés et ne font qu’encombrer
la structure hyper textuelle du site.
Une méthode d’analyse dirigée par l’usage consiste à réaliser une classification du contenu
du site à partir des navigations enregistrées dans les logs du serveur. Les classes ainsi obtenues
sont constituées de pages qui ont tendance à être visitées ensembles. Elles traduisent donc les
préférences des utilisateurs. La principale difficulté de cette approche réside dans la nature des
observations (les navigations). Comme celles-ci sont de taille variable, on peut en déduire de
nombreuses mesures de dissimilarité entre les pages visitées, selon qu’on tient compte de la
durée de la visite, du nombre de fois que la page est vue, etc. Dans le contexte de la classification, il est alors difficile de choisir a priori quelle mesure de dissimilarité est la plus adaptée à
l’analyse du site.
Dans cet article, nous étudions un site web peu volumineux (91 pages), très bien structuré, et au contenu sémantique bien défini. Grâce à cet exemple de référence, nous comparons
différentes dissimilarités afin de mesurer leur aptitude à révéler ce contenu sémantique.
- 409 -
RNTI-E-6
Extraction de relations dans les documents Web
Rémi Gilleron ∗ , Patrick Marty ∗ , Marc Tommasi ∗ , Fabien Torre∗
∗
Projet Mostrare Inria Futurs & Université de Charles de Gaulle - Lille III
59653 Villeneuve d’Ascq CEDEX FRANCE
[email protected]
Résumé. Nous présentons un système pour l’inférence de programmes d’extraction de relations dans les documents Web. Il utilise les vues textuelle et structurelle sur les documents. L’extraction des relations est incrémentale et utilise
des méthodes de composition et d’enrichissement. Nous montrons que notre système est capable d’extraire des relations pour les organisations existantes dans
les documents Web (listes, tables, tables tournées, tables croisées).
1
Introduction
Le développement d’Internet comme source d’informations a conduit à l’élaboration de
programmes nommés wrappers pour collecter de l’information sur les sites Web. Ces programmes sont difficiles à concevoir et à maintenir. Deux approches sont alors envisageables :
la première consiste à assister l’utilisateur, c’est le cas du système Lixto (Baumgartner et al.,
2001) dans lequel on spécifie le wrapper dans un langage logique avec l’aide d’un environnement visuel ; la seconde consiste à générer automatiquement le wrapper en limitant l’intervention de l’utilisateur à l’annotation des informations à extraire sur quelques documents.
Cette approche est fondée sur le fait que la plupart des documents sur Internet sont générés par
programme et présentent des régularités exploitables par les méthodes d’apprentissage automatique.
Les premiers systèmes d’induction de wrappers n’utilisaient que l’aspect textuel des documents (Hsu et Dung, 1998; Kushmerick, 1997). Avec l’apparition de XML, ces approches
textuelles sont devenues insuffisantes. Les systèmes actuels utilisent la structure arborescente
des documents du Web (Carme et al., 2005; Cohen et al., 2003; Kosala et al., 2002; Muslea
et al., 2003; Thomas, 2003). Nous nous inscrivons dans cette démarche en proposant un système d’induction qui utilise à la fois les vues textuelle et arborescente. Beaucoup de systèmes
d’induction de wrappers sont conçus pour des tâches unaires. Un wrapper unaire extrait un ensemble de valeurs, par exemple l’ensemble des noms de produits disponibles sur un site marchand. Un wrapper n-aire extrait les instances d’une relation n-aire, par exemple les couples
(nom du produit, prix). Il existe deux approches pour induire un wrapper n-aire : soit combiner n wrappers unaires, soit apprendre directement le wrapper n-aire. La première approche
nécessite l’obtention d’un modèle pour la combinaison, ou une intervention de la part de l’utilisateur (Jensen et Cohen, 2001; Muslea et al., 2003), ou encore l’utilisation d’heuristiques.
La seconde approche est illustrée par les systèmes WIEN (Kushmerick, 1997) et SOFT MEALY
(Hsu et Dung, 1998) utilisant des délimiteurs textuels pour repérer les composantes des tuples
et le système LIPX (Thomas, 2003) basé sur la logique du premier ordre.
- 415 -
RNTI-E-6
Sélection supervisée d’instances : une approche descriptive
Sylvain Ferrandiz∗,∗∗ , Marc Boullé∗
∗
France Télécom R&D,
2, avenue Pierre Marzin, 22300 Lannion
[email protected],
[email protected],
∗∗
GREYC, Université de Caen,
boulevard du Maréchal Juin, BP 5186, 14032 Caen Cedex,
Résumé. La classification suivant le plus proche voisin est une règle simple et
performante. Sa mise en oeuvre pratique nécessite, tant pour des raisons de coût
de calcul que de robustesse, de sélectionner les instances à conserver. La partition de Voronoi induite par les prototypes constitue la structure sous-jacente à
cette règle. Dans cet article, on introduit un critère descriptif d’évaluation d’une
telle partition, quantifiant le compromis entre nombre de cellules et discrimination de la variable cible entre les cellules. Une heuristique d’optimisation est
proposée, tirant partie des propriétés des partitions de Voronoi et du critère. La
méthode obtenue est comparée avec les standards sur une vingtaine de jeux de
données de l’UCI. Notre technique ne souffre d’aucun défaut de performance
prédictive, tout en sélectionnant un minimum d’instances. De plus, elle ne surapprend pas.
1 Introduction
La classification supervisée constitue un problème d’apprentissage classique. On dispose
dans ce cas, en plus des variables descriptives (ou endogènes), d’une variable cible (ou exogène). En phase d’exploration des données, c’est la dépendance de la variable cible vis-à-vis
des variables descriptives qu’on vise à expliciter. En phase de modélisation, le but est de fournir la meilleure prédiction possible pour toute nouvelle instance à classifier. Quelle que soit la
situation, la connaissance est à extraire d’un échantillon de N instances étiquetées.
Une méthode de classification usuelle est la règle de classification suivant le plus proche
voisin introduite par Fix et Hodges (1951). Elle consiste à attribuer à une instance l’étiquette
de l’instance la plus proche parmi celles constituant l’échantillon. La mise en œuvre de cette
modélisation soulève deux questions fondamentales :
– Quelle mesure de similitude employer ?
– Quelles instances de l’échantillon conserver ?
La première question couvre plusieurs champs d’investigation : gestion de la présence
jointe de variables continues et symboliques, normalisation des variables continues, prétraitement des variables symboliques, pondération de la contribution des variables, etc. Dans le
cas continu, l’usage a consacré l’emploi de la distance euclidienne et des distances L p (p ≥ 1)
- 421 -
RNTI-E-6
Classification de documents XML à partir d’une
représentation linéaire des arbres de ces documents
Anne-Marie Vercoustre∗ , Mounir Fegas∗
Yves Lechevallier∗ , Thierry Despeyroux∗
∗
INRIA Rocquencourt
B.P. 105 78153 Le Chesnay Cedex France
Pré[email protected],
http://www-rocq.inria.fr
Résumé. Cet article présente un nouveau modèle de représentation pour la classification de documents XML. Notre approche permet de prendre en compte soit
la structure seule, soit la structure et le contenu de ces documents. L’idée est
de représenter un document par l’ensemble des sous-chemins de l’arbre XML
de longueur comprise entre n et m, deux valeurs fixées a priori. Ces chemins
sont ensuite considérés comme de simples mots sur lesquels on peut appliquer
des méthodes standards de classification, par exemple K-means. Nous évaluons
notre méthode sur deux collections: la collection INEX et les rapports d’activité
de l’INRIA. Nous utilisons un ensemble de mesures bien connues dans le domaine de la recherche d’information lorsque les classes sont connues a priori.
Lorsqu’elles ne sont pas connues, nous proposons une analyse qualitative des
résultats qui s’appuie sur les mots (chemins) les plus caractéristiques des classes
générées.
1
Introduction
XML est devenu un standard pour la représentation et l’échange de données. Le nombre de
documents XML échangés augmente de plus en plus, et la quantité d’information accessible
aujourd’hui est telle que les outils, même sophistiqués, utilisés pour rechercher l’information
dans les documents ne suffisent plus. D’autres outils permettant de synthétiser ou classer de
larges collections de documents sont devenus indispensables.
Dans ce contexte, de nombreux travaux proposent des méthodes de classification, supervisées ou non, pour organiser ou analyser de larges collections de documents XML. (Denoyer
et al. (2003)) combinent plusieurs fonctions d’affectation (classifiers) pour classer des documents XML multimédia, (Despeyroux et al. (2005)) identifient, pour une collection homogène
donnée, les types d’éléments XML les plus pertinents pour un objectif de classification. La
similarité entre documents peut être définie en étendant le modèle vectoriel pour tenir compte
de la structure (Doucet et Ahonen-Myka (2002), Yi et Sundaresan (2000)), ou seulement à
partir de la structure d’arbre des documents, selon l’objectif visé ou l’hétérogénéité de la collection. Ainsi, la similarité structurelle peut être basée sur la distance entre arbres (Francesca
et al. (2003), Nierman et Jagadish (2002), Dalamagas et al. (2004)), ou sur la détection de
- 433 -
RNTI-E-6
Carte auto-organisatrice probabiliste sur données binaires
Rodolphe Priam, Mohamed Nadif
LITA, Université de Metz
Ile du Saulcy, 57045 Metz
Résumé. Les méthodes factorielles d’analyse exploratoire statistique définissent
des directions orthogonales informatives à partir d’un ensemble de données.
Elles conduisent par exemple à expliquer les proximités entre individus à l’aide
d’un groupe de variables caractéristiques. Dans le contexte du datamining lorsque
les tableaux de données sont de grande taille, une méthode de cartographie synthétique s’avère intéressante. Ainsi une carte auto-organisatrice (SOM) est une
méthode de partitionnement munie d’une structure de graphe de voisinage -sur
les classes- le plus souvent planaire. Des travaux récents sont développés pour
étendre le SOM probabiliste Generative Topographic Mapping (GTM) aux modèles de mélanges classiques pour données discrètes. Dans ce papier nous présentons et étudions un modèle génératif symétrique de carte auto-organisatrice
pour données binaires que nous appelons Bernoulli Aspect Topological Model
(BATM). Nous introduisons un nouveau lissage et accélérons la convergence de
l’estimation par une initialisation originale des probabilités en jeu.
1
Introduction
La visualisation des corrélations et similarités principales dans un échantillon de données
est l’objectif des méthodes factorielles (Lebart et al., 1984). Ces méthodes cherchent souvent
des directions informatives orthogonales dans un nuage de données. Ces directions concentrent
l’essentiel de la variance projetée car l’inertie est porteuse de sens. Une décomposition pertinente de l’inertie sur des plans de projection révèle quels individus sont similaires et quelles
variables sont dépendantes. Bien que ces méthodes soient très pertinentes, les grands échantillons de données demandent de nouvelles méthodes efficaces pour leur analyse. Dans ce
contexte, les cartes de Kohonen (1997) sont connues dans le domaine de l’analyse exploratoire des données pour généraliser les méthodes factorielles telles que la méthode d’Analyse
en Composantes Principales ou ACP (Lebart et al., 1984) pour les données continues. Plus
généralement, les cartes auto-organisatrices ou SOM (Kohonen, 1997) sont des méthodes de
classification avec une contrainte de voisinage sur les classes conférant un sens topologique à
la partition finale. Le GTM ou Generative Topographic Mapping (Bishop et al., 1998) est une
carte auto-organisatrice probabiliste avec des contraintes sur les moyennes d’un mélange gaussien pour données continues, mais ce modèle est inopérant pour des données catégorielles ou
binaires. Des modèles récents (Girolami, 2001; Kabán et Girolami, 2001; Tipping, 1999) ont
été proposés pour étendre le GTM aux modèles de mélanges classiques pour données discrètes.
Hofmann et Puzicha (1998) ont par contre proposé l’approche du modèle symétrique à aspects
- 445 -
RNTI-E-6
Classification d’un tableau de contingence et modèle
probabiliste
Gérard Govaert ∗,Mohamed Nadif ∗∗
∗
Heudiasyc, UMR CNRS 6599, Université de Technologie de Compiègne,
BP 20529, 60205 Compiègne Cedex, France
[email protected]
∗∗
LITA, Université de Metz, Ile du Saulcy, 57045 Metz Cedex, France
[email protected]
Résumé. Ces dernières années, la classification croisée ou classification par
blocs, c’est-à-dire la recherche simultanée d’une partition des lignes et d’une
partition des colonnes d’un tableau de données, est devenue un outil très utilisé
en fouille de données. Dans ce domaine, l’information se présente souvent sous
forme de tableaux de contingence ou tableaux de co-occurrence croisant les modalités de deux variables qualitatives. Dans cet article, nous étudions le problème
de la classification croisée de ce type de données en nous appuyant sur un modèle de mélange probabiliste. En utilisant l’approche vraisemblance classifiante,
nous proposons un algorithme de classification croisée basé sur la maximisation
alternée de la vraisemblance associée à deux mélanges multinomiaux classiques
et nous montrons alors que sous certaines contraintes restrictives, on retrouve
les critères du Chi2 et de l’information mutuelle. Des résultats sur des données
simulées et des données réelles illustrent et confirment l’efficacité et l’intérêt de
cette approche.
1
Introduction
La classification automatique, comme la plupart des méthodes d’analyse de données peut
être considérée comme une méthode de réduction et de simplification des données. Dans le
cas où les données mettent en jeu deux ensembles I et J, ce qui est le cas le plus fréquent, la
classification automatique en ne faisant porter la structure recherchée que sur un seul des deux
ensembles, agit de façon dissymétrique et privilégie un des deux ensembles, contrairement par
exemple à l’analyse factorielle des correspondances qui obtient simultanément des résultats
sur les deux ensembles ; il est alors intéressant de rechercher simultanément une partition des
deux ensembles. Ce type d’approche a suscité récemment beaucoup d’intérêt dans divers domaines tels que celui des biopuces où l’objectif est de caractériser des groupes de gènes par des
groupes de conditions expérimentales ou encore celui de l’analyse textuelle où l’objectif est de
caractériser des classes de documents par des classes de mots. Notons que dans ce domaine, les
données se présentent généralement sous forme d’un tableau de contingence où chaque cellule
correspond au nombre d’occurrences d’un mot dans un document.
- 457 -
RNTI-E-6
Définition et diffusion de signatures sémantiques dans les
systèmes pair-à-pair
Raja Chiky∗ , Bruno Defude∗∗ , Georges Hébrail∗
∗
GET-ENST Paris
Laboratoire LTCI - UMR 5141 CNRS
Département Informatique et Réseaux
46 rue Barrault, 75634 Paris Cedex 13
Email: [email protected], [email protected]
∗∗
GET-INT
Département Informatique
9 rue Charles Fourier, 91011 Évry cedex
Email: [email protected]
Résumé. Les systèmes pair-à-pair (peer-to-peer, P2P, égal-à-égal) se sont popularisés ces dernières années avec les systèmes de partage de fichiers sur Internet. De nombreuses recherches concernant l’optimisation de la localisation
des données ont émergé et constituent un axe de recherche très actif. La prise
en compte de la sémantique du contenu des pairs dans le routage des requêtes
permet d’améliorer considérablement la localisation des données. Nous nous
concentrons sur l’approche PlanetP, faisant usage de la notion de filtre de Bloom,
qui consiste à propager une signature sémantique des pairs (filtres de Bloom) à
travers le réseau. Nous présentons cette approche et en proposons une amélioration : la création de filtres de Bloom dynamiques, dans le sens où leur taille
dépend de la charge des pairs (nombre de documents partagés).
1
Introduction
Pour la recherche, le partage et l’échange de ressources (données, programmes, services),
le modèle pair-à-pair constitue une alternative au modèle client/serveur. Les pairs peuvent à
la fois offrir (rôle serveur) et demander (rôle client) des ressources. Il existe de nombreuses
architectures des systèmes pair-à-pair, se basant sur des techniques différentes de localisation
des données, qui se traduisent par des méthodes différentes de routage des requêtes. Pour
améliorer la localisation d’une ressource recherchée par un pair, on ajoute de l’information
aux tables de routage des requêtes : il peut s’agir du contenu des pairs, de l’historique de leurs
requêtes, ou des concepts qu’ils traitent...
La difficulté rencontrée lors de l’intégration de la sémantique du contenu des pairs, est de
déterminer un espace de représentation commun à tous les pairs du réseau. Quelques systèmes
tels que SON (Semantic Overlay Network)(Crespo et al., 2002) utilisent des concepts définis
à priori pour résoudre ce problème. Mais cette solution ne s’applique qu’à un domaine précis.
- 463 -
RNTI-E-6
Fouille de données dans les systèmes Pair-à-Pair pour
améliorer la recherche de ressources
Florent Masseglia∗ , Pascal Poncelet∗∗ , Maguelonne Teisseire∗∗∗
∗
INRIA Sophia Antipolis, Axis Project-Team, BP93 06802 Sophia Antipolis - France
[email protected]
∗∗
EMA-LGI2P/Site EERIE, Parc Scientifique Georges Besse, 30035 Nîmes Cedex, France
{Pascal.Poncelet}@ema.fr
∗∗∗
LIRMM UMR CNRS 5506, 161 Rue Ada, 34392 Montpellier cedex 5 - France
{teisseire}@lirmm.fr
Résumé. La quantité de sources d’information disponible sur Internet fait des
systèmes d’échanges pair-à-pair (P2P) un genre nouveau d’architecture qui offre
à une large communauté des applications pour partager des fichiers, des calculs, dialoguer ou communiquer en temps réel. Dans cet article, nous proposons
une nouvelle approche pour améliorer la localisation d’une ressource sur un réseau P2P non structuré. En utilisant une nouvelle heuristique, nous proposons
d’extraire des motifs qui apparaissent dans un grand nombre de noeuds du réseau. Cette connaissance est très utile pour proposer aux utilisateurs des fichiers
souvent demandés (en requête ou en téléchargement) et éviter une trop grande
consommation de la bande passante.
1
Introduction
La quantité de sources d’information disponible sur Internet fait des systèmes d’échanges
pair-à-pair (P2P) un genre nouveau d’architecture qui offre à une large communauté des applications pour partager des fichiers, partager des calculs, dialoguer ou communiquer en temps
réel, etc (Miller (2001), Ngan et al. (2003)). Les applications P2P fournissent également une
bonne infrastructure pour les opérations sur de grandes masses de données ou avec de très
nombreux calculs, comme la fouille de données. Dans ce cadre, nous considérons une nouvelle approche pour améliorer la localisation de ressources dans un environnement P2P non
structuré selon deux aspects principaux pour extraire des comportements fréquents :
1. L’ordre des séquences entre les actions réalisées sur les nœuds (requête ou téléchargement) est pris en compte pour améliorer les résultats.
2. Les résultats des calculs distribués sont maintenus via un “Pair centralisé” pour réduire
le nombre de communications entre les pairs connectés.
Connaître l’ordre des séquences des actions réalisées sur les pairs offre une connaissance
importante. Par exemple, en examinant les actions réalisées, nous pouvons savoir que pour
77% des nœuds pour lesquels il y a une requête concernant "Mandriva Linux", le fichier "Mandriva Linux 2005 CD1 i585-Limited-Edition-Mini.iso" est choisi et téléchargé. Cette requête
- 469 -
RNTI-E-6
Une approche simple inspirée des réseaux sociaux
pour la hiérarchisation des systèmes autonomes de l'Internet
Fabrice Clérot*, Quang Nguyen**
* France Télécom Division R&D, 2 avenue Pierre Marzin, 22307 Lannion Cedex, France
[email protected]
** France Télécom Division R&D, 38 rue du Général Leclerc, 92794 Issy-les-Moulineaux
Cedex, France
[email protected]
Résumé. Le transit des flux d'information dans le réseau Internet à l'échelle
mondiale est régi par des accords commerciaux entre systèmes autonomes, accords qui sont mis en œuvre via le protocole de routage BGP. La négociation
de ces accords commerciaux repose implicitement sur une hiérarchie des systèmes autonomes et la position relative de deux systèmes débouche sur un accord de type client/fournisseur (un des systèmes, le client, est nettement mieux
classé que l'autre, le fournisseur, et le client paye le fournisseur pour le transit
des flux d'information) ou sur un accord de type "peering" (transit gratuit du
trafic entre les deux systèmes). En dépit de son importance, il n'existe pas de
hiérarchie officielle de l'Internet (les clauses commerciales des accords entre
systèmes autonomes ne sont pas nécessairement publiques) ni de consensus sur
la façon d'établir une telle hiérarchie. Nous proposons une heuristique simple
inspirée de la notion de "centralité spectrale" issue de l'analyse des réseaux sociaux pour analyser la position relative des systèmes autonomes de l'Internet à
partir des informations des seules informations de connectivité entre systèmes
autonomes.
1 Introduction
Le transit des flux d'information dans le réseau Internet à l'échelle mondiale est régi par
des accords commerciaux entre systèmes autonomes. La négociation de ces accords commerciaux repose implicitement sur une hiérarchie des systèmes autonomes et la position
relative de deux systèmes débouche sur un accord de type client/fournisseur (un des systèmes, le client, est nettement mieux classé que l'autre, le fournisseur, et le client paye le fournisseur pour le transit des flux d'information) ou sur un accord de type "peering" (transit
gratuit du trafic entre les deux systèmes).
Les politiques de routage déduites de ces accords commerciaux sont ensuite mises en
œuvre via le protocole de routage BGP (Border Gateway Protocol). Ainsi, l'établissement des
routes à l'échelle mondiale obéit à des règles d'efficacité économique déduites d'une hiérarchisation entre systèmes autonomes (une route ne peut pas, par exemple, "descendre" d'un
fournisseur à son client pour "remonter" vers un autre fournisseur : quel client accepterait de
- 475 -
RNTI-E-6
Recherche de sous-structures fréquentes pour l’intégration
de schémas XML
Federico Del Razo López∗ , Anne Laurent∗
Pascal Poncelet∗∗, Maguelonne Teisseire∗
∗
LIRMM - Université Montpellier II, 161 rue Ada 34392 Montpellier cedex 5
{delrazo,laurent,teisseire}@lirmm.fr
∗∗
EMA - LGI2P/Site EERIE, Parc Georges Besse 30035 Nîmes cedex 1
[email protected]
Résumé. La recherche d’un schéma médiateur à partir d’un ensemble de schémas XML est une problématique actuelle où les résultats de recherche issus
de la fouille de données arborescentes peuvent être adoptés. Dans ce contexte,
plusieurs propositions ont été réalisées mais les méthodes de représentation des
arborescences sont souvent trop coûteuses pour permettre un véritable passage
à l’échelle. Dans cet article, nous proposons des algorithmes de recherche de
sous-schémas fréquents basés sur une méthode originale de représentation de
schémas XML. Nous décrivons brièvement la structure adoptée pour ensuite
détailler les algorithmes de recherche de sous-arbres fréquents s’appuyant sur
une telle structure. La représentation proposée et les algorithmes associés ont
été évalués sur différentes bases synthétiques de schémas XML montrant ainsi
l’intérêt de l’approche proposée.
1
Introduction
Étant donné l’explosion du volume de données disponibles sur Internet, il devient indispensable de proposer de nouvelles approches pour faciliter l’interrogation de ces grandes masses
d’information afin de retrouver les informations souhaitées. L’une des conditions sine qua non
pour permettre d’interroger des données hétérogènes est de disposer d’un (ou de plusieurs)
“schéma général” que l’utilisateur pourra interroger et à partir duquel les données sources pourront être directement accédées. Malheureusement les utilisateurs ne disposent pas de moyen de
connaître les modèles sous-jacents des données qu’ils souhaitent accéder et l’un des challenges
dans ce contexte est donc de fournir des outils pour extraire, de manière automatique, ces schémas médiateurs. Un schéma médiateur est alors considéré comme une interface permettant à
l’utilisateur l’interrogation des sources de données : l’utilisateur pose ses requêtes de manière
transparente et n’a pas à tenir compte de l’hétérogénéité et de la répartition des données.
XML étant maintenant prépondérant sur Internet, la recherche de moyens d’intégration
de tels schémas est un domaine de recherche actif. Si les recherches permettant l’accès aux
données, quand un schéma d’interrogation est connu, sont maintenant bien avancées (Xylème,
2001), les recherches concernant la définition automatique d’un schéma médiateur restent incomplètes et non satisfaisantes (Tranier et al., 2004). Il est alors intéressant de considérer les
- 487 -
RNTI-E-6
Vers l’extraction de motifs rares
Laszlo Szathmary∗ , Sandy Maumus∗,∗∗ , Pierre Petronin∗∗∗
Yannick Toussaint∗ , Amedeo Napoli∗
∗
LORIA, 54506 Vandoeuvre-lès-Nancy
{szathmar, maumus, yannick, napoli}@loria.fr
∗∗
INSERM U525, 54000 Nancy
[email protected]
∗∗∗
ENSAI, 35172 Bruz Cedex
[email protected]
Résumé. Un certain nombre de travaux en fouille de données se sont intéressés à l’extraction de motifs et à la génération de règles d’association à partir de
ces motifs. Cependant, ces travaux se sont jusqu’à présent, centrés sur la notion de motifs fréquents. Le premier algorithme à avoir permis l’extraction de
tous les motifs fréquents est Apriori mais d’autres ont été mis au point par la
suite, certains n’extrayant que des sous-ensembles de ces motifs (motifs fermés
fréquents, motifs fréquents maximaux, générateurs minimaux). Dans cet article,
nous nous intéressons aux motifs rares qui peuvent également véhiculer des informations importantes. Les motifs rares correspondent au complémentaire des
motifs fréquents. A notre connaissance, ces motifs n’ont pas encore été étudiés,
malgré l’intérêt que certains domaines pourraient tirer de ce genre de modèle.
C’est en particulier le cas de la médecine, où par exemple, il est important pour
un praticien de repérer les symptômes non usuels ou les effets indésirables exceptionnels qui peuvent se déclarer chez un patient pour une pathologie ou un
traitement donné.
1
Introduction
La fouille de données a pour objectif d’identifier des relations cachées entre les motifs de
grandes bases de données. La recherche de règles d’association est une des tâches les plus
importantes de la fouille de données. L’extraction de règles d’association est un domaine de
l’extraction de connaissances dans les bases de données (ECBD), qui se définit comme un
procédé pour trouver des motifs valides, utiles et compréhensibles dans les données (Fayyad
et al., 1996). Une règle d’association est une proposition de la forme “80% des étudiants qui
suivent le cours Introduction à Unix suivent également Programmation en C” (Han et Kamber,
2001).
Jusqu’à présent, la littérature s’est intéressée à la recherche des règles d’association valides
fréquentes (c’est-à-dire les règles d’association avec un support et une confiance suffisamment
élevés). Cela requiert d’abord l’extraction des motifs fréquents de l’ensemble des données. Le
problème de l’extraction des motifs fréquents était au départ un sous-problème de la fouille de
- 499 -
RNTI-E-6
Approche entropique pour l’analyse de modèle de chroniques
Nabil Benayadi*, Marc Le Goc*, Philippe Bouché*.
*Laboratoire des Sciences de l'Information et des Systèmes - LSIS
UMR CNRS 6168 - Université Paul Cézanne
Avenue Escadrille Normandie Niemen13397 Marseille Cedex 20 – France
{nabil.benayadi, marc.legoc, philippe.bouche}@lsis.org
Résumé. Cet article propose d’utiliser l’entropie informationnelle pour
analyser des modèles de chroniques découverts selon une approche
stochastique (Bouché et Le Goc, 2005). Il décrit une adaptation de l’algorithme
TemporalID3 (Console et Picardi, 2003) permettant de découvrir des modèles
de chroniques à partir d’un ensemble d’apprentissage contenant des séquences
d’occurrences d’événements discrets. Ces séquences représentent des suites
d’alarmes générées par un système à base de connaissance de monitoring et de
diagnostic de systèmes dynamiques. On montre sur un exemple que l’approche
entropique complète l’approche stochastique en identifiant les classes
d’événements qui contribuent le plus significativement à la prédiction d’une
occurrence d’une classe particulière.
1 Introduction
La découverte de connaissances temporelles est un enjeu majeur pour le diagnostic de
systèmes dynamiques (Das et al., 1998), (Dousson et Vu Duong, 1999), (Keogh et Smyth,
1997), (Agrawal et al., 1995), (Faloutsos et al, 1994). Récemment, Bouché P. et Le Goc M.
(2005) ont proposés une approche stochastique pour découvrir des modèles de chroniques à
partir d’une séquence d’événements discrets. Nos travaux visent à compléter cette approche
pour identifier les classes d’événements contribuant le plus significativement à la prédiction
de l’occurrence d’une classe particulière.
Les arbres de décisions (Breiman, 1984), (Murthy, 1998), sont largement utilisés pour
classer des séquences de données (Kadous, 1999), (Geurts, 2001), (Drucker et Hubner,
2002), (Rodriguez et Alonso, 2004). Récemment, l’algorithme ID3 (Quinlan, 1986) a été
adapté pour construire des arbres temporels de décision (Console et al., 2003) à partir d’un
ensemble de situations. Cette adaptation montre que l’entropie informationnelle permet
d’identifier les variables contribuant le plus significativement à une prise de décision.
Nous proposons donc d’utiliser un critère entropique pour analyser des modèles de
chroniques. Après un bref rappel sur les arbres temporels de décision, cet article présente une
adaptation de l’algorithme proposée par Console pour la déduction de modèles de chroniques
à partir d’un ensemble de séquences d’occurrences d’événements discrets et montre sur un
exemple comment l’approche entropique peut être utilisée pour compléter l’approche
stochastique.
- 511 -
RNTI-E-6
La fouille de graphes dans les bases de données
réactionnelles au service de la synthèse en chimie organique
Frédéric Pennerath∗,∗∗ , Amedeo Napoli∗∗
∗
Supélec,
Campus de Metz, 2 rue Edouard Belin 57070 Metz
[email protected]
∗∗
Equipe Orpailleur, Loria
Campus Scientifique, BP 239, 54506 Vandoeuvre-lès-Nancy Cedex
[email protected]
Résumé. La synthèse en chimie organique consiste à concevoir de nouvelles
molécules à partir de réactifs et de réactions. Les experts de la synthèse s’appuient sur de très grandes bases de données de réactions qu’ils consultent à travers des procédures d’interrogation standard. Un processus de découverte de
nouvelles réactions leur permettrait de mettre au point de nouveaux procédés de
synthèse. Cet article présente une modélisation des réactions par des graphes et
introduit une méthode de fouille de ces graphes de réaction qui permet de faire
émerger des motifs génériques utiles à la prédiction de nouvelles réactions. Enfin l’article fait le point sur l’état actuel de ce travail de recherche en présentant
le modèle général dans lequel s’intégrera un nouvel algorithme de fouille de
réactions chimiques.
1
Introduction
Le problème auquel s’intéresse cet article est la découverte de nouvelles familles de réactions chimiques à partir de bases de données de réactions. Cet article montre en quoi ce
problème peut se reformuler en un problème particulier de fouille de graphes. La découverte
de nouvelles réactions présente un grand intérêt pour la synthèse en chimie organique, discipline dont le but est la conception de molécules complexes à partir de composants chimiques
usuels et de réactions. En effet, plus un expert de la synthèse a de réactions à sa disposition,
plus il peut créer de nouveaux produits à partir d’un ensemble donné de molécules et plus il
peut optimiser le plan de synthèse d’une molécule cible donnée. Par ailleurs, la découverte de
dizaines de millions de réactions a vite rendu leur recensement nécessaire à travers la constitution de très grandes bases de données de réactions. Ces bases de données réactionnelles sont
plus particulièrement exploitées par les experts de la rétrosynthèse. Cette méthode consiste à
inférer le plan de synthèse d’une molécule cible en recherchant les réactions qui permettent
d’aboutir à la cible, puis à réitérer récursivement le processus en prenant pour cibles les réactifs des réactions ainsi trouvées et ce jusqu’à l’obtention de réactifs de départ jugés ordinaires.
La rétrosynthèse peut donc tirer un excellent parti de tout modèle prédictif capable de propo-
- 517 -
RNTI-E-6
# (
17 (
A
=
!:
"
=
!
$
E
$ !
"
:
!
:
A "
A
:
!
=
A
! !
(; #
:
=
A
B
!!
=
:
:
!
!
:
$!:
B
A
(;
=
!!
$ : ;
=
!
:
:
:
A
G&
"
:
!:
:
!
!:
! (: !
: :
A
!
& C4'
2333' &D
A
:
-666'
! :
5
A
;
:!
!
A F
A
!
:
!
:
&
:
&
#%# '
& # * '
, 4% > ( : ?
# )>
.8307 ?
$
* $@ &3'- 0627 13 19*&3'- 0627 13 7.
!:
;
<!
; ( A;=
A
!
:
!
"#$!
%
)
+, -.- +
( /
%
01230 45
$
* $&3'1 667.02 80*&3'1 667.02 69
!:
;
< =
;=
(
"!
!
5
;
!
)
!! A
!!
:
:
B !! A
=
233-' &4
4
:!
&
!
=
: !
=
:
-6.6'; C !
: !
!: = : : 5
- 529 -
(
!
:
=
:
!
:
:
"
B
:
;
:
;
!
;
)
)
! )
;
;
:
$ )
2330';
)
-686' &
)
(
; ,
: !
!
=: !
(
(
(
&
B
)
;
)
RNTI-E-6
!" #
$
$
' ( ) !(
"! (
)) !
" ( "+ ))
(( .
(% ' ( ) !(
" "! ( % '
( (
. (
(( 1 %
%
%
&$
&$
(
%
%
!* " "+ "
"+
,)
" (
(
)
( ) (!
( ) (! ( ) (!/) (
(
( ( " $$! ( )
) ( ! ((
()
! (
(
(
( (
(
("
"! (
"
!* " )
)) /
" "! (
"
(
(
0
+ )) *
(( 1 )
"! (
) 2
'
(
( ( "
)(
) 2
' ( ( ) 2 ( "!) " (
"+
(
"2 )
/ #) 1 % +* ) *2( ( ( 3
/
"! ) (
( +* ) *2(
"+ "!) "
" (
(
(
(%
("
# ( ,"
! ( ()
(
"
!( (
0!
1 ( %%%* ) *2( ( $ (( % 4
!* " .! !
(
"2
)
" ) !"
) (
(
(
( /
$ ( )
0
5 ) (
) $
1+
!* "
) (
(
"2 ( ()! (!( )
64
!* " )
0
5
(! !.
)
+ ))
(( .
( ) (! 6
0
(
" " (
( " "! (
!) !( )
$$
!
(
!)
(
!* " 6
))
" ( !) ( ( / ( " $$!
(1 (
(%
7 #( " 2(
( ( !* " ( "+ "
"+
" "! ( % ( !* " ( (
) (
( (
)
" ( ) (! ,8 (( 9:; - ,<
9:;=- ,4 . $$ 9::9,>
9:: - ,
* 9::=)
"
( ) (! , *
9::;- ,
-%
((
!* " "+ "
"+
( " "! (
)
"
.! ! " (
"2 ( / $ ( )
" "+ ))
(( . ( ) (!
( ) (!
0
(%
+ 3 $ "
( " $
)
) .! ! "
(
"+
( "
"! (
)
(
" ( "+ ))
(( . ( ) (!
( ) (! )
( ) ( "+
(
(,
!1 ( (
1 (-% 7 "!
((
" ( ) (!
0
(%
"!
- 541 -
RNTI-E-6
a
Extension de l’algorithme CURE aux fouilles de données
volumineuses
Jerzy Korczak et Aurélie Bertaux
LSIIT, Bd. Sébastien Brant, 67412 Illkirch cedex France
<korczak, bertaux>@lsiit.u-strasbg.fr
Dans ce poster, nous allons proposer une démarche pour découvrir le fonctionnement du
cerveau en se basant sur un concept de fouille de données. Ce concept peut se définir comme
l’extraction de connaissances potentiellement exploitables à partir d’images IRMf. C’est une
approche interactive qui intègre directement l’expert-médecin dans le processus de découverte
et d’apprentissage de concepts pour mettre en évidence les zones fonctionnelles du cerveau et
leur organisation.
CURE selon Guha et al. (1998) est un algorithme de classification, mais il est robuste face
aux outliers et permet d’identifier des groupes non sphériques et d’une grande variance de
taille. CURE réalise ceci en représentant chaque groupe par un nombre fixé de points qui sont
générés en sélectionnant des points bien dispersés du groupe, et ensuite rapprochés du point
moyen au centre du groupe en le multipliant par un coefficient. Le fait d’avoir plus d’un point
représentatif permet à CURE de bien s’ajuster à la géométrie des clusters non sphériques et
l’opération de rapprochement de ses points permet de diminuer les effets des outliers.
Pour manipuler de grandes volumes de données, CURE emploie une combinaison d’échantillonnage aléatoire et de partitionnement. Un échantillon tiré de l’ensemble des données et tout
d’abord partitionné et chaque partition est partiellement mise en cluster. Chacun de ces groupes
partiels sera à nouveau regroupé lors d’une seconde passe de l’algorithme pour extraire les clusters désirés.
Une force de CURE, selon les auteurs, est de pouvoir s’adapter à de grandes bases de données pour un algorithme hiérarchique. L’implémentation de la version originale a démontré
certaines faiblesses de performances de la classification de signaux tels que ceux de l’IRMf est
très lourde car il s’agit de voxels à laquelle s’ajoute la quatrième dimension de leur évolution
dans le temps. Pour réduire le temps de classification, nous avons proposé quelques améliorations.
Tirage aléatoire. Un tirage aléatoire des données est utilisé ayant pour vertu d’améliorer la
qualité de la classification car les signaux sont enregistrés selon l’ordre dans lequel l’IRM les
balayent, ce qui fait que deux signaux qui sont issus de zones voisines peuvent être séparés lors
de l’enregistrement. En effet, toute une couche est balayée dans un sens avant de passer à la
couche inférieure.
Echantillonnage. Cela permet de déterminer les classes, avec moins de signaux. Ce cas est extrêment important car CURE fonctionnant de manière hiérarchique plus le nombre de signaux
est important, plus il génère de classes et plus les calculs entre toutes les classes prennent du
temps et des ressources.
- 547 -
RNTI-E-6
Extension de l’algorithme CURE aux fouilles de données volumineuses
Partitionnement. Sur cette même constation, un système de rechargement en signaux a été
réalisé. CURE classant les clusters par ordre croissant de leur distance au cluster qui leur est le
plus proche, impose donc un calcul de distance entre chaque paire de clusters, et pour chaque
paire, leur distance est la distance minimale entre toutes les paires des signaux représentatifs des deux classes. Nous avons déterminé expérimentalement un nombre fixe maximum de
clusters à traiter ensemble. Pas à pas l’algorithme fusionne deux à deux les clusters jusqu’à
atteindre un seuil fixé à partir duquel nous effectuons un rechargement en nouveaux clusters
pour réatteindre le nombre maximal fixé. Ce procédé est répété jusqu’à épuisement du nombre
de signaux. a
La plateforme d’expérimentation de fouille d’images IRMf a été développée par Korczak
et al. (2005) comprenant des algorithmes de classification de signaux IRMf et permettant une
fouille visuelle interactive en temps quasi réel. Plusieurs algorithmes ont déjà été implémentés
notamment : K-means, LGB, SOM et GNG.
L’algorithme CURE a été testé sur des données simples bi-dimmensionnelles et sur des
données synthétiques et comparés aux autres algorithmes déjà implémentés suivant les protocoles décrits par Hommet (2005). Les classifications ont été réalisées par variation respective
des paramètres que sont le nombre de classes, le rapport de dilution des voxels activés et le
rapport signal sur bruit. Si sur les données simples, CURE obtient une très bonne performance
cependant, il s’avère que sur les données synthétiques, il présente des performances moyennes,
mais reste de bonne robustesse. Cette constatation ne concerne que des données synthétiques ne
lui permettant pas de mettre en avant ses qualités d’adaptation à des clusters d’une morphologie
non sphérique.
En tant qu’algorithme hiérarchique, CURE est extrêment gourmand en ressources. Nos
améliorations ont réduit la complexité algorithmique et en conséquence ont réduit les temps de
calculs. Selon la simulation on peut envisager une utilisation d’algorithme CURE étendue avec
des contraintes de temps réel.
Références
Guha, R. Rastogi, K. Shim (1998). CURE : An Efficient Clustering Algorithm for Large Databases. SIGMOD 1998, pages 73-84.
Hommet, J (2005). Fouille interactive de séquences d’images 3D d’IRMf. Rapport de LSIIT,
CNRS, Illkirch.
Korczak, J., C. Scheiber, J. Hommet, N. Lachiche (2005). Fouille interactive en temps réel
de séquences d’images IRMf. Numéro Spécial RNTI.
Summary
In this poster, an extended unsupervised data mining algorithm CURE is briefly described
and evaluated. CURE is used to extract active voxels from brain images and is compared with
several other unsupervised algorithms on fMRI images.
RNTI-E-6
- 548 -
Comparaison des mesures d’intérêt de règles d’association :
une approche basée sur des graphes de corrélation
Xuan-Hiep Huynh∗ , Fabrice Guillet∗ , Henri Briand∗
∗
LINA CNRS FRE 2729 - Ecole polytechnique de l’université de Nantes
La Chantrerie, BP 50609, 44306 Nantes cedex 3, France
{xuan-hiep.huynh,fabrice.guillet,henri.briand}@univ-nantes.fr
Résumé. Le choix des mesures d’intérêt (MI) afin d’évaluer les règles d’association est devenu une question importante pour le post-traitement des connaissance en ECD. Dans la littérature, de nombreux auteurs ont discuté et comparé
les propriétés des MI afin d’améliorer le choix des meilleures mesures. Cependant, il s’avère que la qualité d’une règle est contextuelle : elle dépend à la fois de
la structure de données et des buts du décideur. Ainsi, certaines mesures peuvent
être appropriées dans un certain contexte, mais pas dans d’autres. Dans cet article, nous présentons une nouvelle approche contextuelle mise en application
par un nouvel outil, ARQAT, permettant à un décideur d’évaluer et de comparer
le comportement des MI sur ses jeux de données spécifiques. Cette approche est
basée sur l’analyse visuelle d’un graphe de corrélation entre des MI objectives.
Nous employons ensuite cette approche afin de comparer et de discuter le comportement de trente-six mesures d’intérêt sur deux ensembles de données a priori
très opposés : un premier dont les données sont fortement corrélées et un second
aux données faiblement corrélées. Alors que nous attendions des différences importantes entre les graphes de corrélation de ces deux jeux d’essai, nous avons
pu observer des stabilités de corrélation entre certaines MI qui sont révélatrices
de propriétés indépendantes de la nature des données observées. Ces stabilités
sont récapitulées et analysées.
1
Introduction
Dans la dernière décennie, la conception de mesures d’intérêt adaptées à l’évaluation de la
qualité des règles d’association est devenue un défi important dans le contexte d’ECD. Bien
que le modèle des règles d’association (Agrawal et al., 1993) permette une extraction non
supervisée de tendances implicatives dans les données, il produit malheureusement de grandes
quantités de règles, ce qui les rend inexploitables sans la mise en oeuvre d’une étape lourde
de post-traitement. Le post-traitement doit aider l’utilisateur (un décideur ou un analyste) à
choisir les meilleures règles en fonction de ses préférences. Une manière de faciliter la tâche
de choix de l’utilisateur consiste à lui offrir des indicateurs numériques sur la qualité des règles
d’association : des mesures d’intérêt adaptées à ses buts et aux données étudiées.
Dans les travaux précurseurs sur les règles d’association (Agrawal et al., 1993; Agrawal et
Srikant, 1994) , deux premières mesures statistiques sont introduites : le support et la confiance.
- 549 -
RNTI-E-6
Une comparaison de certains indices de pertinence
des règles d'association
Marie Plasse* **, Ndeye Niang*
Gilbert Saporta*, Laurent Leblond**
* CNAM Laboratoire CEDRIC 292 Rue St Martin Case 441 Paris Cedex 03
[email protected], [email protected]
** PSA Peugeot Citroën 45 rue Jean-Pierre Timbaud 78307 Poissy Cedex
[email protected], [email protected]
Résumé. Cet article propose une comparaison graphique de certains indices de
pertinence pour évaluer l'intérêt des règles d'association. Nous nous sommes
appuyés sur une étude existante pour sélectionner quelques indices auxquels
nous avons ajouté l'indice de Jaccard et l'indice d'accords désaccords (IAD).
Ces deux derniers nous semblent plus adaptés pour discriminer les règles intéressantes dans le cas où les items sont des événements peu fréquents. Une application est réalisée sur des données réelles issues du secteur automobile.
1
Introduction
Notre étude a été motivée par le problème suivant : nous disposons de données concernant plusieurs dizaines de milliers d'individus décrits par quelques milliers d'attributs binaires assez rares et nous recherchons les éventuels liens entre certains attributs ou groupes
d'attributs. La similitude de nos données avec des données de transactions nous a naturellement amenés à utiliser un algorithme de recherche de règles d'association. Cependant, le
nombre élevé d'attributs conjugué à leur rareté conduit à un très grand nombre de règles dont
les supports sont très faibles et les confiances très élevées. C'est pourquoi nous avons cherché
à compléter l'approche support-confiance pour extraire les règles les plus pertinentes. De
nombreux indices ont été proposés dans la littérature pour évaluer l'intérêt des règles d'association. Quelques uns font l'objet d'une analyse graphique à l'aide de courbes de niveaux.
Nous exposons ensuite une application sur données industrielles.
2 Contexte
Ce travail est issu d'un projet industriel où l'objectif est d'exploiter une partie de l'informationnel d'un grand constructeur automobile afin d'extraire de nouvelles connaissances. Les
données, issues du process de fabrication des véhicules, sont sous la forme d'une matrice où
chaque véhicule est décrit par la présence ou l'absence d'attributs binaires. La connaissance
d'éventuelles corrélations entre certains attributs ou groupes d'attributs représente un avantage non négligeable pour le constructeur automobile qui met un point d'honneur à améliorer
- 561 -
RNTI-E-6
Utilisation des réseaux bayésiens dans le cadre de
l’extraction de règles d’association
Clément Fauré∗,∗∗ , Sylvie Delprat∗
Alain Mille∗∗∗ , Jean-François Boulicaut∗∗
∗
EADS CCR, Centreda 1, F-31700 Blagnac
{clement.faure, sylvie.delprat}@eads.net
∗∗
LIRIS UMR 5205, INSA Lyon, Bâtiment Blaise Pascal,
F-69621 Villeurbanne cedex
∗∗∗
LIRIS UMR 5205, Université Lyon 1, Nautibus,
F-69622 Villeurbanne cedex
{amille, jboulica}@liris.cnrs.fr
Résumé. Cet article aborde le problème de l’utilisation d’un modèle de connaissance dans un contexte de fouille de données. L’approche méthodologique proposée montre l’intérêt de la mise en œuvre de réseaux bayésiens couplée à l’extraction de règles d’association dites delta-fortes (membre gauche minimal, fréquence minimale et niveau de confiance contrôlé). La découverte de règles potentiellement utiles est alors facilitée par l’exploitation des connaissances décrites par l’expert et représentées dans le réseau bayésien. Cette approche est
validée sur un cas d’application concernant la fouille de données d’interruptions
opérationnelles dans l’industrie aéronautique.
1 Introduction
Un des objectifs de l’extraction de connaissances à partir de données consiste à fournir des
énoncés valides et utiles aux utilisateurs propriétaires de ces données. L’utilité de ces énoncés
est d’autant plus grande qu’ils décrivent une réalité du domaine non encore explicitée jusqu’ici,
autrement dit, une nouvelle connaissance.
Nous nous intéressons à l’extraction de connaissances au moyen de règles descriptives comme
les règles d’association (Agrawal et al., 1993). Les problèmes posés par l’extraction de telles
règles ont été étudiés intensivement ces dix dernières années. Bien que l’extraction de toutes les
règles fréquentes et valides soit difficile dans de grands jeux de données, des dizaines d’algorithmes efficaces ont été proposés (Goethals et Zaki, 2003, par exemple). Un second problème
concerne le nombre considérable de règles qui peuvent être fréquentes et valides et donc extraites. Une première solution consiste à rechercher des couvertures des ensembles de règles,
ou si l’on préfère, à éliminer des règles redondantes. Des travaux importants dans cette direction concernent l’exploitation de représentations condensées des ensembles fréquents comme
les ensembles fermés (Pasquier et al., 1999; Boulicaut et al., 2000) ou bien les ensembles δlibres (Boulicaut et al., 2003). (Jeudy, 2002) est une étude assez complète de ces propositions.
- 569 -
RNTI-E-6
Critère VT100 de sélection des règles d’association
Alain Morineau*, Ricco Rakotomalala**
*MODULAD, Paris
[email protected]
http://www.modulad.fr
**Laboratoire ERIC – Université Lyon 2
[email protected]
http://eric.univ-lyon2.fr/~ricco
Résumé. L’extraction de règles d’association génère souvent un grand nombre
de règles. Pour les classer et les valider, de nombreuses mesures statistiques
ont été proposées ; elles permettent de mettre en avant telles ou telles caractéristiques des règles extraites. Elles ont pour point commun d’être fonction
croissante du nombre de transactions et aboutissent bien souvent à
l’acceptation de toutes les règles lorsque la base de données est de grande
taille. Dans cet article, nous proposons une mesure inspirée de la notion de valeur-test. Elle présente comme principale caractéristique d’être insensible à la
taille de la base, évitant ainsi l’écueil des règles fallacieusement significatives.
Elle permet également de mettre sur un même pied, et donc de les comparer,
des règles qui auront été extraites de bases de données différentes. Elle permet
enfin de gérer différents seuils de signification des règles. Le comportement de
la mesure est détaillé sur un exemple.
1 Introduction
1.1 Les valeurs-tests
Pour faire un test de l’hypothèse nulle H0, le statisticien calcule une « probabilité critique » (ou p-value). C’est la probabilité, calculée sous H0, d’un événement au moins aussi
extrême que l’événement observé. De façon intuitive, on comprend que cette probabilité est
d’autant plus faible qu’on est loin de l’hypothèse nulle. Si l’événement observé est très improbable sous l’hypothèse nulle, on jugera que les observations sont vraisemblablement
régies par un mécanisme non nul. Il est donc tentant d’utiliser cette valeur numérique pour
évaluer l’écart entre ce qu’on a observé et la situation « sans intérêt » correspondant à ce
qu’on aurait observé sous H0. Dans ce contexte, plus l’évaluation de l’écart est forte (plus la
probabilité critique est faible), plus ce qu’on a observé est intéressant (Gras et al., 2002 ;
Lerman et Azé, 2003 ; Lallich et Teytaud, 2004). Dans la pratique, on se rend compte que la
p-value est difficile à manipuler ; elle peut atteindre des valeurs très faibles, très peu lisibles ;
pire, dans certains cas, elle est inutilisable car on se heurte aux limites de l’approximation
- 581 -
RNTI-E-6
Modèle décisionnel basé sur la qualité des données pour sélectionner les règles d’associations légitimement intéressantes
Laure Berti-Équille
IRISA, Campus Universitaire de Beaulieu,
35042 Rennes, France
[email protected]
Résumé. Dans cet article nous proposons d’exploiter des mesures décrivant la
qualité des données pour définir la qualité des règles d'associations résultant
d’un processus de fouille. Nous proposons un modèle décisionnel probabiliste
basé sur le coût de la sélection de règles légitimement, potentiellement intéressantes ou inintéressantes si la qualité des données à l’origine de leur calcul est
bonne, moyenne ou douteuse. Les expériences sur les données de KDD-CUP98 montrent que les 10 meilleures règles sélectionnées d’après leurs mesures
de support et confiance ne sont intéressantes que dans le cas où la qualité de
leurs données est correcte voire améliorée.
1 Introduction
La qualité des règles d'association est généralement évaluée par des mesures d’intérêt
(classiquement le support et la confiance) et de nombreuses autres mesures ont été proposées
(Tan et al., 2002). Mais, on peut légitimement se demander quel est l’intérêt de telles règles,
notées LHS Æ RHS, si 30 % des données de LHS sont obsolètes, 20% des données de RHS
sont imprécises, et 15% des données de LHS proviennent d’une source réputée peu fiable. La
thèse défendue dans cet article est que les mesures d'intérêt pour la découverte de règles
d’associations ne sont pas autosuffisantes pour représenter effectivement la qualité des règles. Des mesures décrivant la qualité des données à partir desquelles sont calculées les règles doivent être intégrées au processus de découverte, de même que le coût d’une décision
de choisir (ou non) ces règles « supposées intéressantes » doit être également considéré. Ceci
a motivé donc nos travaux que nous formalisons dans les sections suivantes.
2 Caractérisation de la qualité des règles d’association à partir de la qualité des données d’origine
Soit I un ensemble d’items. Une règle d’association R est une implication de la forme:
LHS Æ RHS où LHS ⊆ I, RHS ⊆ I et LHS ∩ RHS =∅. LHS et RHS sont des conjonctions de
variables telles que l’extension de LHS est : g(LHS)= x1∧x2 ∧…∧xn et l’extension de Y est
g(RHS)= y1∧y2∧…∧ yn' . Soit j (j=1, 2,…, k) une dimension décrivant un aspect de la qualité
des données (i.e., complétude, fraîcheur, précision, cohérence, crédibilité, etc.). Soit
qj(Ii)∈[minij, maxij] le score de la dimension de qualité j pour le sous-ensemble de données Ii
- 593 -
RNTI-E-6
Règles d'association avec une prémisse composée :
Mesure du gain d'information.
Martine Cadot*, Pascal Cuxac**, Claire François **
* UHP/LORIA, Département Informatique, BP239, 54506 Vandoeuvre-lès-Nancy cedex
[email protected]
http://www.loria.fr /~cadot/
**INIST-CNRS, 2 allée du Parc de Brabois, 54154 Vandoeuvre-lès-Nancy cedex
[email protected] ; [email protected]
La communauté de fouille de données a développé un grand nombre d’indices permettant
de mesurer la qualité des règles d’association (RA) selon diverses sémantiques (Guillet,
2004). Cependant ces sémantiques, qui permettent d’interpréter les règles simples, s’avèrent
d’utilisation trop complexe pour un expert dans le cas de règles à prémisse composée. Notre
objectif est donc de sélectionner les règles à prémisse composée de type AB→C qui
apportent une information supplémentaire à celle des règles simples A→C et B→C. Pour
cela nous définissons un indice de gain d’une règle composée par rapport aux règles simples.
Dans l’application présentée, nous extrayons des RA de résultats de classifications pour
en faciliter l’analyse . Le gain a permis de filtrer des règles d’interprétation simple.
1 Calcul du gain
Afin de mesurer le gain d’information d’une règle, nous nous appuyons sur les variations
possibles du support du motif M obtenu en réunissant les propriétés des parties gauches et
droites sans que les supports des sous-motifs ne changent. L’intervalle de variations obtenu a
un centre, et nous décidons que le gain d’information correspondant aux motifs de support
central est nul. Plus le support du motif s’éloigne de ce centre, plus la valeur absolue du gain
augmente. Cela donne la formule suivante pour le gain : g=2^(L-1)*(s-c), où s est le support
du motif M, L la longueur de ce motif et c le centre de l'intervalle de variation.
Le gain de la règle fait partie des indices de qualité au même titre que le support, la
confiance et la plupart de ceux dont on peut trouver la définition dans Guillet (2004).
Toutefois, il ne mesure pas comme les autres indices la qualité intrinsèque d’une règle, mais
la valeur additionnelle d’une règle avec prémisse composée par rapport à celles avec
prémisses plus simples. Nous avons défini précédemment des RA floues sur des propriétés
numériques (Cadot et Napoli, 2004). Le calcul du gain se prolonge sans problème à ces RA
floues, les valeurs du support et du centre n’étant plus nécessairement entières.
2 Application
Le corpus traité est constitué de 3203 notices bibliographiques extraites de la base
PASCAL sur le thème de la géotechnique et indexées manuellement. Nous avons calculé
- 599 -
RNTI-E-6
Règles d'association avec prémisse composée : Mesure du gain d'information.
quatre classifications avec la méthode des K-means axiales (Lelu et François 1992) en
paramétrant 20, 30, 40, 50 classes. Si nous calculons toutes les RA à prémisse composée
d’une même classification, nous avons 1548 règles. Avec un gain supérieur à 30, il reste 12
règles aisément interprétables. Par exemple la règle :
C50 Pression pores, C50 Champ pétrole Æ C20 Inélasticité
de support 16,83 de confiance 0,91, et de gain 30,04, constituée des règles simples
suivantes :
C50 Pression Pores Æ C20 Inélasticité
C50 Champ pétrole Æ C20 Inélasticité
A première vue l'intitulé "Champ pétrole" peut paraître surprenant. L'analyse des données
qui sont regroupées dans ces classes (titre des articles, résumés, indexation) permet de
comprendre cette règle. En effet la classe "Champ pétrole" est essentiellement consacrée aux
roches magasins et aux distributions des contraintes dans ces roches. La classe "Inélasticité"
est dominée par des aspects liés à l'élastoplasticité et à l'analyse des champs de contraintes.
Cette règle apporte ainsi un gain d’information par rapport aux règles simples puisqu'elle lie
les notions de pression de pores (donc de roches poreuses plus ou moins saturées) et de
distribution des contraintes dans des roches magasins (roches poreuses plus ou moins
saturées) avec la notion de champ de contraintes dans le domaine élastoplastique.
3 Conclusion
Le gain que nous proposons combine les avantages des indices de qualité des RA, et de
l’élagage du jeu de RA. Il garde les règles simples, construites sur deux propriétés qui ont été
extraites à l’aide d’un indice de qualité choisi pour sa valeur sémantique, et sont donc
aisément interprétables. Les autres règles, qui ne sont gardées que si leur gain est significatif,
sont également simples d’interprétation car elles renforcent l’information tirée des premières.
Au final, l’ensemble des règles obtenu est de taille réduite. Malgré tout, le filtrage par ce gain
laisse quelques règles incohérentes. La construction d’un test permettant d’établir la
significativité du gain est en cours afin de les éliminer.
Références
Cadot M., A. Napoli (2004) Règles d’association et codage flou des données. SFC'04.
Bordeaux, 130-133.
Guillet F. (2004) Mesure de qualité des connaissances en ECD, Cours donné lors des
journées de la conférence EGC 2004, Clermont-ferrand, 20 janvier 2004.
Lelu A., C. François (1992). Information retrieval based on a neural unsupervised extraction
of thematic fussy clusters, Neuro-Nîmes 92, Nîmes, France.
Summary
In order to filter set of Association Rules with complex premises, we define a criteria
which measures the improvement of information supported by the rule ABÆC compared to
the simple rules AÆC or BÆC. Application to clustering results.
RNTI-E-6
- 600 -
Recherche de règles non redondantes par vecteurs de bits
dans des grandes bases de motifs 1
François Jacquenet, Christine Largeron, Cédric Udréa
Laboratoire EURISE – Université Jean Monnet
23 rue du Docteur Michelon – 42023 Saint-Etienne Cedex 2 – France
{Francois.Jacquenet,Christine.Largeron,Cedric.Udrea}@univ-st-etienne.fr
Deux voies sont envisageables pour limiter le nombre de motifs extraits dans un processus
de fouille de données. La première s’efforce, lors de la génération des motifs, de ne conserver que les seuls motifs semblant présenter un intérêt immédiat pour l’utilisateur (Boulicaut,
2005), tandis que la seconde voie consiste à stocker tous les motifs extraits par les algorithmes
de fouille de données dans des structures de données efficaces et à développer des outils d’interrogation et de manipulation permettant de les traiter (Grossman et al., 1999; Tuzhilin et Liu,
2002; Zaki et al., 2005). C’est en suivant cette démarche que nous nous sommes intéressés à la
recherche de règles d’association non redondantes alors que la plupart des travaux antérieurs
consacrés à ce problème se sont plutôt attachés à l’extraction de règles non redondantes directement à partir des données (Zaki, 2000; Bastide et al., 2000; Li et al., 2004; Li et Hamilton,
2004; Goethals et al., 2005).
Dans la suite, en nous inspirant d’une définition de (Bastide et al., 2000), nous considérons
qu’une règle d’association B → H est non redondante si et seulement si il n’existe pas de règle
de la forme B 0 → H 0 telle que B 0 ⊆ B et H ⊆ H 0 . Chaque partie de la règle d’association
peut être représentée par un vecteur qui possède autant de bits qu’il existe d’items dans la base
de transactions (Morzy et Zakrzewicz, 1998). Chaque bit est alors associé à un item particulier
et la valeur du bit est de ’1’ si et seulement si l’item correspondant est présent dans la partie de
la règle associée au vecteur de bits.
En utilisant ce codage, nous proposons de déterminer la redondance d’une règle R = B →
H vis-à-vis d’une autre règle R0 = B 0 → H 0 , en exploitant la propriété suivante :
Etant donné IBX = {IB1X ,...,IBkX } (respectivement IHX = {H1X ,...,IHkX }) le vecteur
de bits correspondant à la partie gauche (respectivement droite) de la règle X où IBiX (respectivement IHiX ) est égal à 1 si l’item i est présent dans la partie gauche (respectivement droite)
de la règle X, 0 sinon. Nous démontrons alors que la règle R est redondante par rapport à la
règle R0 si et seulement si Nb (R AND R0 )=Nb (R0 ) et Nh (R AND R0 )=Nh (R) où Nb (X) désigne le nombre de ’1’ dans IBX , Nh (X) le nombre de ’1’ dans IHX et (R AND R0 ) désigne
la règle ayant en partie gauche l’intersection des parties gauches des règles R et R0 et en partie
droite l’intersection des parties droites des règles R et R0 .
Nous avons développé un algorithme, basé sur cette propriété, et réalisé plusieurs tests
pour comparer les temps nécessaires pour extraire les règles non redondantes d’un ensemble
1. Ce travail a été partiellement soutenu par le projet BINGO de l’ACI Masses de Données 2004-2007, financé par
le Ministère de la Recherche
- 601 -
RNTI-E-6
Recherche de règles non redondantes par vecteurs de bits
de règles en utilisant des vecteurs de bits par rapport à l’approche faisant appel à un mode
de stockage plus classique nécessitant une table comportant trois attributs : l’identifiant de
la règle, l’identifiant de la partie concernée (gauche ou droite) et l’identifiant de l’item. Ces
expérimentations, menées en faisant varier le nombre global de règles ainsi que le nombre de
règles redondantes, ont confirmé l’intérêt de l’approche par vecteurs de bits.
Références
Bastide, Y., N. Pasquier, R. Taouil, G. Stumme, et L. Lakhal (2000). Mining minimal nonredundant association rules using frequent closed itemsets. In Proceedings of the first International Conference on Computational Logic, LNCS 1861, pp. 972–986.
Boulicaut, J. F. (2005). Condensed representations for data mining. In Encyclopedia of Data
Warehousing and Mining, pp. 207–211. Idea Group Reference.
Goethals, B., J. Muhonen, et H. Toivonen (2005). Mining non-derivable association rules. In
Proceedings of the fifth International Conference on Data Mining.
Grossman, R. L., S. Bailey, A. Ramu, B. Malhi, P. Hallstrom, I. Pulleyn, et X. Qin (1999). The
management and mining of multiple predictive models using the predictive model markup
language (pmml). In Information and Software Technology, Volume 41, pp. 589–595.
Li, G. et H. Hamilton (2004). Basic association rules. In Proceedings of the fourth SIAM
International Conference on Data Mining. SIAM.
Li, Y., Z. T. Liu, L. Chen, W. Cheng, et C. H. Xie (2004). Extracting minimal non-redundant
association rules from QCIL. In International Conference on Computer and Information
Technology, pp. 986–991. IEEE Computer Society.
Morzy, T. et M. Zakrzewicz (1998). Group bitmap index: A structure for association rules
retrieval. In Proceedings of the Fourth International Conference on Knowledge Discovery
and Data Mining, pp. 284–288. AAAI Press.
Tuzhilin, A. et B. Liu (2002). Querying multiple sets of discovered rules. In Proceedings
of the Eighth ACM SIGKDD International Conference on Knowledge Discovery and Data
Mining, pp. 52–60. ACM.
Zaki, M. J. (2000). Generating non-redundant association rules. In Proceedings of the International Conference on Knowledge Discovery and Data Mining, pp. 34–43.
Zaki, M. J., N. Parimi, N. De, F. Gao, B. Phoophakdee, J. Urban, V. Chaoji, M. A. Hasan, et
S. Salem (2005). Towards generic pattern mining. In Proceedings of the Third International
Conference on Formal Concept Analysis, pp. 1–20.
Summary
The management of large pattern databases rapidly becomes untractable. This paper
presents the way we have efficiently implemented the search for non redundant rules, in post
treatment, thanks to a representation of rules in the form of bit strings.
RNTI-E-6
- 602 -
Des motifs séquentiels généralisés aux contraintes de temps
étendues
Céline Fiot, Anne Laurent,
Maguelonne Teisseire
Laboratoire d’Informatique de Robotique et de Microélectronique de Montpellier
161 rue Ada
34392 Montpellier Cedex 5
{fiot, laurent, teisseire}@lirmm.fr
Résumé. Dans de nombreux domaines, la recherche de connaissances temporelles est très appréciée. Des techniques ont été proposées aussi bien en fouille de
données qu’en apprentissage, afin d’extraire et de gérer de telles connaissances,
en les associant également à la spécification de contraintes temporelles (e.g.: fenêtre temporelle maximale), notamment dans le contexte de la recherche de motifs séquentiels. Cependant, ces contraintes sont souvent trop rigides ou nécessitent une bonne connaissance du domaine pour ne pas extraire des informations
erronées. C’est pourquoi nous proposons une approche basée sur la construction
de graphes de séquences afin de prendre en compte des contraintes de temps
plus souples. Ces contraintes sont relâchées par rapport aux contraintes de temps
précédemment proposées. Elles permettent donc d’extraire plus de motifs pertinents. Afin de guider l’analyse des motifs obtenus, nous proposons également
un niveau de précision des contraintes temporelles pour les motifs extraits.
1
Introduction
Dans un certain nombre de domaines (détection de fraudes, de défaillances, analyse de
comportements), la recherche de connaissances temporelles est non seulement utile mais nécessaire. Certaines techniques d’apprentissage permettent de gérer et de raisonner sur de telles
connaissances, (Allen, 1990) a notamment défini des opérations sur des règles associées à des
intervalles de temps. Des techniques d’extraction de connaissances cherchent quant à elles à
extraire des épisodes récurrents à partir d’une longue séquence (Mannila et al., 1997), (Raissi
et al., 2005) ou de bases de séquences (Agrawal et Srikant, 1995), (Masseglia et al., 1998). La
recherche de telles informations devient d’autant plus intéressante qu’elle permet de prendre
en compte un certain nombre de contraintes entre les évènements comme par exemple la durée
minimale ou maximale séparant deux évènements.
C’est dans ce cadre qu’a été introduite la recherche de motifs séquentiels généralisés dans
(Srikant et Agrawal, 1996). Cette technique de fouille de données permet d’obtenir des séquences fréquentes respectant des contraintes spécifiées par l’utilisateur, à partir d’une base de
données de séquences (par exemple les achats successifs de différents clients d’un supermarché). Différents algorithmes ont été proposés afin de gérer ces contraintes soit directement dans
- 603 -
RNTI-E-6
Bordures statistiques pour la fouille incrémentale de données
dans les Data Streams
Jean-Emile Symphor∗, Pierre-Alain Laur∗
G RIMAAG-Dépt Scientifique Interfacultaire,
Université des Antilles et de la Guyane, Campus de Schoelcher,
B.P. 7209, 97275 Schoelcher Cedex, Martinique, France
{je.symphor,palaur}@martinique.univ-ag.fr.
∗
Résumé. Récemment la communauté Extraction de Connaissances s’est intéressée à de nouveaux modèles où les données arrivent séquentiellement sous la
forme d’un flot rapide et continu, i.e. les data streams. L’une des particularités
importantes de ces flots est que seule une quantité d’information partielle est
disponible au cours du temps. Ainsi après différentes mises à jour successives,
il devient indispensable de considérer l’incertitude inhérente à l’information retenue. Dans cet article, nous introduisons une nouvelle approche statistique en
biaisant les valeurs supports pour les motifs fréquents. Cette dernière a l’avantage de maximiser l’un des deux paramètres (précision ou rappel) déterminés
par l’utilisateur tout en limitant la dégradation sur le paramètre non choisi. Pour
cela, nous définissons les notions de bordures statistiques. Celles-ci constituent
les ensembles de motifs candidats qui s’avèrent très pertinents à utiliser dans le
cas de la mise à jour incrémentale des streams. Les différentes expérimentations
effectuées dans le cadre de recherche de motifs séquentiels ont montré l’intérêt
de l’approche et le potentiel des techniques utilisées.
1
Introduction
Ces dix dernières années un grand nombre de travaux ont été proposés pour rechercher des
motifs fréquents dans de grandes bases de données. En fonction des domaines d’applications
les motifs extraits sont soit des itemsets (Srikant, 1995; Zaki, 2001; Pei et al., 2001; Ayres et al.,
2002) soit des séquences (Agrawal et al., 1993; Han et al., 2000). Récemment les travaux issus
de la communauté des chercheurs en base de données et en fouille de données considèrent le
cas des data streams où l’acquisition des données s’effectue de façon régulière, continue ou
incrémentalement et cela sur une durée longue voire éventuellement illimitée.
Compte tenu de la grande quantité d’information mise en jeu dans le cas des data streams,
le problème de l’extraction de motifs fréquents est toujours d’actualité ((Li et al., 2004; Jin
et al., 2003; Demaine et al., 2002; Manku et Motwani, 2002; Golab et Ozsu, 2003; Karp et al.,
2003)). Dans ce contexte, un motif est dit θ-fréquent s’il est observé au moins une fraction θ,
appelée support du motif, sur tout le stream. Le paramètre theta, tel que 0 < θ < 1, est fixé
par l’utilisateur.
- 615 -
RNTI-E-6
Extraction de motifs séquentiels dans les flots de données
d’usage du Web
Alice Marascu, Florent Masseglia
INRIA Sophia Antipolis, 2004 route des Lucioles - BP 93, 06902 Sophia Antipolis, France
{Alice.Marascu,Florent.Masseglia}@sophia.inria.fr
Résumé. Ces dernières années, de nouvelles contraintes sont apparues pour les
techniques de fouille de données. Ces contraintes sont typiques d’un nouveau
genre de données : les “data streams”. Dans un processus de fouille appliqué
sur un data stream, l’utilisation de la mémoire est limitée, de nouveaux éléments
sont générés en permanence et doivent être traités le plus rapidement possible,
aucun opérateur bloquant ne peut être appliqué sur les données et celles-ci ne
peuvent être observées qu’une seule fois. A l’heure actuelle, la majorité des travaux relatifs à l’extraction de motifs dans les data streams ne concernent pas les
motifs temporels. Nous montrons dans cet article que cela est principalement dû
au phénomène combinatoire qui est lié à l’extraction de motifs séquentiels. Nous
proposons alors un algorithme basé sur l’alignement de séquences pour extraire
les motifs séquentiels dans les data streams. Afin de respecter la contrainte d’une
passe unique sur les données, une heuristique gloutonne est proposée pour segmenter les séquences. Nous montrons enfin que notre proposition est capable
d’extraire des motifs pertinents avec un support très faible.
1
Introduction
Le problème de l’extraction de motifs séquentiels dans un grand ensemble de données statiques a été largement étudié ces dernières années (Agrawal et Srikant (1995), Masseglia et al.
(1998), Pei et al. (2001), Wang et Han (2004), Kum et al. (2003)). Les schémas extraits sont
utiles dans de nombreuses applications comme le marketing, l’aide à la décision, l’analyse des
usages, etc. Depuis peu, des applications émergentes comme (entre autres) l’analyse du trafic
réseaux, la détection de fraude ou d’intrusion, la fouille de clickstream1 ou encore l’analyse des
données issues de capteurs ont introduits de nouveaux types de contraintes pour les méthodes
de fouille. Ces applications ont donné lieu à une forme de données connues sous le nom de
“data streams”. Dans le contexte des data streams l’utilisation de la mémoire doit être réduite,
les données sont générées de manière continue et très rapide, les opérations bloquantes ne sont
pas envisageables et, enfin, les nouvelles données doivent être prises en compte aussi vite que
possible. Ainsi, de nombreuses méthodes ont été proposées pour extraire des items ou des motifs dans les data streams (Datar et al. (2002), Chang et Lee (2003), Cormode et Muthukrishnan
1 clickstream
: flot de requêtes d’un utilisateur sur un site Web
- 627 -
RNTI-E-6
Champs de Markov conditionnels pour le traitement de
séquences 1
Trinh Minh Tri Do*, Thierry Artières*
*LIP6, Université Paris 6
8 rue du capitaine Scott
75015 Paris France
[email protected], [email protected]
Résumé. Les modèles conditionnels du type modèles de Markov d’entropie
maximale et champs de Markov conditionnels apportent des réponses aux
lacunes des modèles de Markov cachés traditionnellement employés pour la
classification et la segmentation de séquences. Ces modèles conditionnels ont
été essentiellement utilisés jusqu’à présent dans des tâches d’extraction
d’information ou d’étiquetage morphosyntaxique. Cette contribution explore
l’emploi de ces modèles pour des données de nature différente, de type
« signal », telles que la parole ou l’écriture en ligne. Nous proposons des
architectures de modèles adaptées à ces tâches pour lesquelles nous avons
dérivé les algorithmes d’inférence et d’apprentissage correspondant. Nous
fournissons des résultats expérimentaux pour deux tâches de classification et
d’étiquetage de séquences.
1 Introduction
La classification, la segmentation et l’étiquetage de données séquentielles sont des
problématiques au cœur de nombreux domaines comme la bioinformatique, la
reconnaissance de l’écriture, l'extraction d'information. Une des problématiques principales
dans ce type de domaine consiste en effet à transformer une séquence observée (un signal
écrit par exemple) en une séquence d’étiquettes (on utilise également le terme de labels).
Cette tâche peut être réalisée à différents niveaux. On cherche à segmenter le signal écrit
d’une phrase en une séquence de mots, de même que le signal écrit de chaque mot doit être
segmenté en une séquence de caractères, etc.
Les modèles Markoviens cachés (MMC) constituent l’approche la plus utilisée pour
résoudre ce type de tâches bien qu’ils reposent sur des hypothèses d’indépendance fortes sur
les données et qu’ils soient appris de façon non discriminante. Ce dernier point vient du fait
que ce sont des modèles génératifs et qu’ils définissent une loi de probabilité conjointe
P( X , Y ) sur la séquence d’observations X et la séquence d’étiquettes associée Y. Diverses
1
Ce travail est en partie financé par le programme IST de la communauté européenne, à travers le
réseau d’Excellence PASCAL IST-2002-506778.
- 639 -
RNTI-E-6
Apprentissage de la structure des réseaux bayésiens à partir
des motifs fréquents corrélés : application à l’identification
des facteurs environnementaux du cancer du Nasopharynx
Alexandre Aussem∗ , Zahra Kebaili∗ , Marilys Corbex∗∗ , Fabien De Marchi∗∗∗
∗
Equipe COMAD, Lab. PRISMa, Université Lyon 1,
[email protected],
∗∗
Unité d’épidémiologie génétique,
Centre International de Recherche sur le Cancer (CIRC), Lyon,
[email protected],
∗∗∗
LIRIS UMR CNRS 5205, Université Lyon 1,
[email protected]
Résumé. L’apprentissage de structure des réseaux bayésien à partir de données
est un problème NP-difficile pour lequel de nombreuses heuristiques ont été proposées. Dans cet article, nous proposons une nouvelle méthode inspirée des travaux sur la recherche de motifs fréquents corrélés pour identifier les causalités entre les variables. L’algorithme opère en quatre temps : (1) la découverte
par niveau des motifs fréquents corrélés minimaux ; (2) la construction d’un
graphe non orienté à partir de ces motifs ; (3) la détection des V_structures et
l’orientation partielle du graphe ; (4) l’élimination des arêtes superflues par des
tests d’indépendance conditionnelle. La méthode, appliquée au réseau Asia, permet de retrouver la structure du graphe initial. Nous l’appliquons ensuite aux
données d’une étude épidémiologique cas-témoins du cancer du nasopharynx
(NPC). L’objectif est de dresser un profil statistique type de la population étudiée et d’apporter un éclairage utile sur les différents facteurs impliqués dans le
NPC.
1
Introduction
Les réseaux d’inférence bayésiens (RB) sont des outils d’apprentissage numérique qui permettent de rendre compte de relations causales entre des variables aléatoires et de construire
un raisonnement probabiliste à partir de connaissances, parfois incertaines et incomplètes,
consignées dans les bases de données. L’apprentissage automatique des valeurs numériques
des probabilités conditionnelles s’opère d’ordinaire à partir d’un ensemble d’apprentissage,
même incomplet, si la structure du réseau est connue. En revanche, l’apprentissage de la structure du RB à partir de données est plus problématique ; la taille de l’espace de recherche est
super-exponentielle en fonction du nombre de variables et le problème combinatoire associé
est NP-difficile. Deux grandes familles de méthodes existent : celles fondées sur la recherche
de causalités via des tests d’indépendance conditionnelle et celles fondées sur la maximisation
d’un score. Avec les méthodes à base de score, l’ajout d’un arc repose sur un compromis entre
- 651 -
RNTI-E-6
De l’analyse didactique à la modélisation informatique pour la
conception d’un EIAH en chirurgie orthopédique
Vanda Luengo, Lucile Vadcard, Dima Mufti-Alchawafa
CLIPS-IMAG et MeTAH
BP 53, 38041 Grenoble cedex 9
[email protected], [email protected], [email protected]
Résumé. L’objet de la recherche présentée est de concevoir un environnement
informatique d’apprentissage qui permette de réduire l’écart entre la formation
théorique des chirurgiens et leur formation pratique, qui se déroule
principalement sur le mode du compagnonnage. L’article expose la
méthodologie et quelques illustrations du travail didactique d’analyse des
connaissances et du système d’enseignement / apprentissage en milieu
hospitalier (chirurgie orthopédique) ainsi que partie de la formalisation
informatique de cette connaissance. Cette modélisation permet la prise en
compte dans l’environnement informatique de connaissances pragmatiques
pour le diagnostic des connaissances de l’utilisateur en fonction des actions
qu’il effectue à l’interface pendant la résolution d’un problème (pose de vis
dans le bassin), et la prise de décision didactique qui suit : quelle rétroaction
fournir pour affiner le diagnostic, et/ou permettre l’apprentissage souhaité.
1 Introduction
En France, l’apprentissage de la chirurgie orthopédique se déroule selon différentes
modalités d'enseignement comme le compagnonnage (apprentissage en situation réelle), les
travaux pratiques en laboratoire d’anatomie et quelquefois sur des simulateurs. Un travail
antérieur que nous avons mené sur l’enseignement du métier de chirurgien nous a permis de
montrer l’écart qui existe entre les contenus de la formation théorique et les besoins de la
pratique (Vadcard, 2003). La formation théorique n’est pas orientée vers la résolution de
problèmes en situation, et la situation réelle, n’étant pas construite à des fins didactiques, ne
permet pas à l’apprenant de prendre le temps qu’il lui faut pour comprendre la résolution du
problème qui se déroule (Bisseret, 1995). Car les connaissances du chirurgien ne se limitent
pas à une partie déclarative et une partie gestuelle. Nous avons pointé l’existence et la valeur
opératoire de connaissances pragmatiques, souvent implicites, qui permettent l’activité en
situation. Ces connaissances, dont nous avons montré l’absence de prise en charge dans le
système d’enseignement, nous semblent être un élément important à prendre en compte pour
réduire l’écart entre la formation théorique, qui transmet des connaissances de nature
prédicative et la formation pratique, qui transmet des connaissances gestuelles opératoires.
Notre objectif est ainsi de concevoir un environnement informatique qui constitue une
étape intermédiaire entre les enseignements formels et le compagnonnage, et permet une
- 663 -
RNTI-E-6
Prédiction de solubilité de molécules à partir des seules
données relationnelles
Sébastien Derivaux, Agnès Braud, Nicolas Lachiche
LSIIT, ULP/CNRS UMR 7005
Pôle API, Bd Sébastien Brant - 67412 Illkirch, France
{derivaux,braud,lachiche}@lsiit.u-strasbg.fr
Résumé. La recherche de médicaments passe par la synthèse de molécules candidates dont l’efficacité est ensuite testée. Ce processus peut être accéléré en
identifiant les molécules non solubles, car celles-ci ne peuvent entrer dans la
composition d’un médicament et ne devraient donc pas être étudiées. Des techniques ont été développées pour induire un modèle de prédiction de l’indice de
solubilité, utilisant principalement des réseaux de neurones ou des régressions
linéaires multiples. La plupart des travaux actuels visent à enrichir les données
de caractéristiques supplémentaires sur les molécules. Dans cet article, nous étudions l’intérêt de la construction automatique d’attributs basée sur la structure
intrinsèquement multi-relationnelle des données. Les attributs obtenus sont utilisés dans un algorithme d’arbre de modèles, auquel on associe une méthode
de bagging. Les tests réalisés montrent que ces méthodes donnent des résultats
comparables aux meilleures méthodes du domaine qui travaillent sur des attributs construits par les experts.
1
Introduction
Pour créer un nouveau médicament, la pharmacologie opère en deux temps. Tout d’abord
elle synthétise un grand nombre de molécules. Ces molécules sont ensuite appliquées sur un
substrat simulant la pathologie que le médicament recherché doit combattre. Le débit de molécules synthétisées puis testées a grandement augmenté ces dernières décénnies avec l’introduction de la synthèse combinatoire et le criblage à haut débit (Hou et al., 2004). Ce processus
peut néanmoins être encore amélioré. En effet, une propriété essentielle des médicaments est
de pouvoir être solubles pour circuler à travers le système sanguin afin d’atteindre la partie malade de l’organisme, or cette propriété n’est pas vérifiée par toutes les molécules. Idéalement,
les molécules non solubles ne devraient être ni testées ni même synthétisées afin d’accélérer le
processus.
La solubilité d’une molécule est représentée par un attribut numérique nommé indice de
solubilité. Les laboratoires pharmacologiques connaissent cette valeur pour un grand nombre
de molécules. Ceci motive l’utilisation de méthodes issues de la fouille de données pour induire
un modèle qui, à partir de la structure d’une molécule, prédit son indice de solubilité.
Dans le cadre de cette application, une base de données permet de décrire les molécules à
partir de trois tables :
- 669 -
RNTI-E-6
Préparation des données Radar pour la
reconnaissance/identification de cibles aériennes
Abdelmalek Toumi*, Brigitte Hoeltzener*, Ali Khenchaf*
*Laboratoire E3I2 – EA 3876
Ecole Nationale Supérieure d'Ingénieurs des Etudes et Techniques d'Armement (ENSIETA)
2 rue François Verny 29806 Brest Cedex 9, France
{toumiab, hoeltzbr, Ali.khenchaf,@ensieta.fr }
Résumé. La problématique générale présentée dans ce papier concerne les
systèmes intelligents, dédiés pour l’aide à la prise de décision dans le domaine
radar. Les premiers travaux ont donc consisté après avoir adapté le processus
d’extraction de connaissances à partir de données (ECD) au domaine radar, à
mettre en œuvre les étapes en amont de la phase de fouille de données. Nous
nous limitons dans ce papier à la phase de préparation des données (images
ISAR : Inverse Synthetic Aperture Radar). Nous introduisons ainsi la notion de
qualité comme moyen d’évaluer l’imperfection dans les données radars
expérimentales.
1 Introduction
Depuis plusieurs années, des travaux de recherche importants sont déployés pour
permettre aux radars de réaliser des tâches liées à l’intelligence artificielle, telle que la
reconnaissance des cibles. Pour l'homme, l'acquisition des images et l'identification de cibles
s'effectuent par l'intermédiaire du système visuel. L'œil humain peut être défini comme un
capteur qui va transmettre ses données au cerveau de façon à traiter les informations et
prendre une décision. Le système de perception visuel humain « œil-cerveau » est régi par
des mécanismes très complexes, qui ont toutefois des limitations. Par exemple, l’œil n’est
sensible qu’à certaines longueurs d’ondes, son spectre de visibilité est limité et sa sensibilité
diminue avec l’obscurité. Pour résoudre ces problèmes, des systèmes d'aide à la décision ont
été développés. Ils sont capables de percevoir l'environnement au-delà du système sensoriel
et de réaliser des étapes de perception de plus en plus fines. Pour répondre à ce besoin, dans
le domaine militaire, différentes technologies ont été mises au point par l'intermédiaire de
capteurs spécifiques tel que le radar. En contrepartie les quantités d'informations à gérer sont
devenues gigantesques et délicates voire impossible à traiter rapidement pour prendre une
décision. Ainsi que la sensibilité des signaux radar aux conditions opérationnelles, sujettes
aux perturbations environnementales et aux conditions de mesure, exige une prise en compte.
Le problème traité dans ce papier s’insère dans le cadre général de l’identification noncoopérative d’une cible aérienne à partir de la rétrodiffusion d’un signal radar
multifréquentiel (Toumi et al., 2005)( Hoeltzener et al., 2003).
- 675 -
RNTI-E-6
Biclustering of Gene Expression Data Based on Local
Nearness
Jesus S. Aguilar-Ruiz∗, Domingo Savio Rodriguez∗
Dan A. Simovici∗∗
∗
BIGS BioInformatics Group Seville, University of Seville, Spain
[email protected],
∗∗
Univ. of Massachusetts Boston, Massachusetts 02125, USA
[email protected]
Abstract. The analysis of gene expression data in DNA chips is an important
tool used in genomic research whose main objectives range from the study of
the functionality of specific genes and their participation in biological process
to the reconstruction of diseases’s conditions and their subsequent prognosis.
Gene expression data are arranged in matrices where each gene corresponds to
one row and every column represents one specific experimental condition. The
biclustering techniques have the purpose of finding subsets of genes that show
similar activity patterns under a subset of conditions. Our approach consists of
a biclustering algorithm based on local nearness. The algorithm searches for
biclusters in a greedy fashion, starting with two–genes biclusters and including
as much as possible depending on a distance threshold which guarantees the
similarity of gene behaviors.
1
Introduction
The DNA Microarray technology represents a great opportunity of studying the genomic
information as a whole, so we can analyze the relations among thousands of genes simultaneously. The experiments carried out on genes under different conditions produce the expression
levels of their transcribed mRNA and this information is stored in DNA chips.
A bicluster is a subset of genes that show similar activity patterns under a subset of conditions. The research on biclustering started in 1972 with Hartigan’s work, in which the way
of dividing a matrix in sub–matrices with the minimum variance was studied (Hartigan et al.,
1972). In that approach the perfect bicluster was the submatrix formed by constant values, i.e.,
with variance equal to zero. Hartigan’s algorithm, named direct clustering, divides the data
matrix into a certain number of biclusters, with the minimum variance value, so the fact of
finding a number of sub-matrices equal to the number of elements of the matrix is avoided.
Another way of searching biclusters is to measure the coherence between their genes and conditions. Cheng & Church (Cheng et al., 2000) introduced a measure, the mean squared residue
(MSR), that computes the similarity among the expression values within the bicluster. The
ideas of Cheng and Church were further developed by Yang (Yang et al., 2002, 2003) who
dealt with missing values in the matrices. As a result of this approach an algorithm named
- 681 -
RNTI-E-6
Amélioration des indicateurs techniques pour l’analyse du
marché financier
Hunor Albert-Lorincz*,**, Jean-François Boulicaut**
* CIC Recherche Quantitative Structurés de Taux
6, avenue de Provence, 75009 Paris, France
[email protected]
http://liris.cnrs.fr/~halbertl/
** INSA Lyon, LIRIS CNRS UMR 5205
Batiment Blaise Pascal
F-69621 Villeurbanne cedex, France
[email protected]
http://liris.cnrs.fr/~jboulica/
Résumé. La technique des motifs fréquents a été utilisée pour améliorer le
pouvoir prédictif des stratégies quantitatives. Innovant dans le contexte des
marchés financiers, notre méthode associe une signature aux configurations de
marché fréquentes. Un système de « trading » automatique sélectionne les
meilleures signatures par une procédure de « back testing » itérative et les utilise en combinaison avec l’indicateur technique pour améliorer sa performance. L’application des motifs fréquents à cette problématique des indicateurs techniques est une contribution originale. Au sens du test t de Student,
notre méthode améliore nettement les approches sans signatures. La technique
a été testé sur des données journalières type taux d’intérêt et actions. Notre
analyse des indicateurs (Williams%R, BN et croisement des moments) a montré que qu'une approche par signatures est particulièrement bien adaptée aux
stratégies à mémoire courte.
1 Introduction
Les indicateurs techniques sont des fonctions des données de marché, historiques et actuelles, qui produisent un signal d'achat ou de vente. Ce sont les « briques » qui permettent
de construire des stratégies de « trading » en réaction aux indicateurs et en fonction de la
composition du portefeuille de l'investisseur.
Certaines techniques de fouille de données permettent d'attribuer une signature aux
configurations de marché précédant le déclenchement d'un indicateur technique. La comparaison des performances de l'indicateur seul et du même indicateur précédé d'une signature
permet de choisir les signatures qui améliorent les performances de l'indicateur. La stratégie
de « trading » peut donc exploiter un filtrage pour se restreindre aux transactions qui se
- 693 -
RNTI-E-6
EDA : algorithme de désuffixation du langage médical1
Didier Nakache*,**, Elisabeth Metais*, Annabelle Dierstein*
*CEDRIC CNAM: 292 rue Saint Martin - 75003 Paris, France
**CRAMIF: 17 / 19 rue de Flandre - 75019 Paris, France
[email protected] , [email protected]
1 Introduction
Pour améliorer l'efficacité des algorithmes de classification, il existe plusieurs algorithmes de préparation des données, dont la désuffixation. Cependant, le langage médical, et les
comptes rendus hospitaliers sont rédigés dans un langage très technique, avec peu de formes
flexionnelles. Nous nous sommes demandés si l'implémentation d'un algorithme de désuffixation dans ce contexte pouvait améliorer significativement les résultats obtenus. Nous
avons mis en évidence qu'il était possible d'obtenir de meilleurs résultats que les algorithmes
actuels d'une part en développant un algorithme spécifique basé sur un large corpus de documents, d'autre part en enrichissant ces derniers en fonction des racines lexicales des termes
médicaux.
Plusieurs algorithmes de désuffixation ont été proposés, les plus célèbres d'entre eux étant
Porter (1980), Lovins (1968) et Paice (1996). Malheureusement, il s'agit d'algorithmes de
désuffixation pour la langue anglaise, dont les dérivés morphologiques se prêtent facilement
à ce type d'adaptation.
2 Présentation de l'algorithme EDA et résultats
Afin d'améliorer les performances des algorithmes de classification de comptes rendus
hospitaliers (projet Rhea), nous proposons une technique de désuffixation qui donne des
résultats intéressants dans le contexte médical. Nous nous sommes constitué une base de
29 393 comptes rendus, tous utilisés dans cette étude. Par ailleurs, la terminologie médicale
possède une structure sémantique forte. Jujols (1991).
L'algorithme EDA fonctionne en deux phases. La première phase consiste à préparer le
mot en appliquant quelques modifications (transformation en minuscules, séparation des
caractères ligaturés, suppression des signes diacritiques, etc.). La seconde phase consiste à
enrichir le corpus de textes en fonction des structures sémantiques des termes (par exemple :
foie=hépat, langue=glosso, rate=spléno, cœur=cardio,…).
1
Ce travail a été partiellement financé par le MENRT dans le cadre du projet RNTS Rhéa.
- 705 -
RNTI-E-6
EDA : algorithme de désuffixation du langage médical
Pour expérimenter nos résultats, nous avons choisi d'utiliser Naïve Bayes comme algorithme de classification, et la F-mesure pour l’évaluation. Ce qui donne les résultats suivants :
Désuffixation
Aucune désuffixation
Désuffixation avec Carry
Désuffixation avec EDA
Résultat (F-mesure)
69.23%
72.27%
74.72%
TAB. 1 – Gains sur la F-mesure selon la méthode utilisée.
3 Conclusion et perspectives
Sur 25 275 termes différents présents dans 30 000 comptes rendus, 10 602 ont été regroupés, soit 42%. L'utilisation de cet algorithme de désuffixation nous a permis de mesurer
une amélioration de 5.49 %. Les deux tiers du gain résultent de la désuffixation, le dernier
tiers de l'enrichissement des documents par la recherche de racines lexicales des termes médicaux.
Références
Jujols P, Aubas P, Baylon C et al. (1991) Morphosemantic Analysis and Translation of
Medical Compound Terms. Meth Inform Med; 30:30-5.
Lovins J.B. (1968) Development of a Stemming Algorithm, Mechanical Translation and
Computational Linguistics, 11 (1-2), 22-31.
Paice C. (1996) Method for evaluation of stemming algorithms based on error counting,
Journal of the American Society for Information Science.
Porter M. (1980) An algorithm for suffix stripping, Program, 14 (3), 130-137.
Summary
Desuffixing is an easy technique for textual data processing. We apply it to French medical report for automatic classification. This paper proposes a new desuffixer algorithm
adapted to the medical language.
RNTI-E-6
- 706 -
Aide en gestion hospitalière par visualisation des composantes
de non-pertinence
Bernard Huet*,**,***
*
Laboratoire d’Informatique de Paris 6 (lip6) CNRS UMR 7606, Université P. et M. Curie,
8 rue du Commandant Scott, 75015, Paris, France
**
Hôpital Avicenne (A.P. – H.P.) / ***Université Paris XIII, UFR Médecine
[email protected]
1 Introduction
Notre idée-clé est de s’attaquer au problème de la réduction des files d’attente à partir de
l’analyse des journées d’hospitalisation non-pertinentes. Les études effectuées jusqu’ici ont
été trop spécialisées (Vardi A., 1996).
L’objectif de cette communication est de proposer un outil efficace, de haute qualité,
accessible à un non-spécialiste d’aide à la décision pour réduire les files d’attente des
patients, basé sur la visualisation des composantes des journées d’hospitalisation nonpertinentes dans les services cliniques aigus.
477 patients ont été inclus à partir de 3 spécialités différentes soit 4834 journées en soins
aigus évaluées dans 4 services cliniques répartis dans 3 hôpitaux. Après avoir mis en
évidence des associations (à facteur constant) de variables liées à la non–pertinence (Huet B.,
2005), nous avons fait des analyses en correspondances multiples (sous SAS V8.2 / PC).
2 Les données visualisées
L’analyse des « processus de gestion médicale » (PGMs) de tous les patients (477) de
tous les services a montré que 84% de la variance des données peuvent être modélisés en
deux axes (figure1). Le 1er axe (70%) dépend essentiellement du nombre de journées nonpertinentes (30%), des causes de non-pertinence (25%), du taux de non-pertinence (jnp/jtot)
(24%), durée de séjour (21%) tandis que le second axe (14%) dépend essentiellement de la
durée de séjour (35%), du taux de non-pertinence (jnp/jtot) (28%), du nombre de journées
non-pertinentes (24%), des causes de non-pertinence (13%). Ces 2 axes classent les PGMs
selon une hyperbole classique, par leur « poids composé de non-pertinence »: du plus
« léger » au plus « lourd » : blessures cutanéo-muqueuses, ablation de matériel opératoire,
désintoxication alcoolique, fracture simple, chirurgie de courte durée, gastro-entérologie,
médecine interne (non gériatrique), fracture complexe, chirurgie longue durée, médecine
interne (gériatrique), démence et médecine interne, démence et troubles neuro-psychiques.
- 707 -
RNTI-E-6
Aide en gestion hospitalière
FIG. 1 – Projection d’analyse des Processus de Gestion médicale classés selon leur « poids
composé de non-pertinence ».
3 Discussion et Conclusion
Cette visualisation permet une lecture immédiate d’une information hautement
significative, l’utilisation opérationnelle de ces données est parfaitement valable elle permet des
non-spécialistes d’avoir accès à ces données hautement spécialisées.
Références
(A.N.A.E.S.) Agence Nationale pour l’Accréditation et l’Evaluation en Santé, Guide
méthodologique sur l’évaluation des pratiques de soins, septembre 2005
Huet B., Cauterman M. (2005) Real association of factors with inappropriate hospital days
Proc. XIXth International Conference on Medical Informatics in Europe 2005, Geneva,
CH, Aug. 28 – Sept 1, 2005, IOS press Inc., Amsterdam, NL, 1021 – 1026
Vardi A, Modan B, Blumstein Z, Lusky A, Schiff E, et Z. Barzilay (1996) A controlled
intervention in reduction of redundant hospital days. Int. J. Epidemiol. , 25: 604 – 608
Summary :
We present the visualizing of components associated with inappropriate hospital days with
their causes and their queues. It is a highly significant information whose interpretation can
be made by a non-specialist (hospital manager,…).
RNTI-E-6
- 708 -
Enrichissement d’ontologies dans le secteur de l’eau douce
en environnement Internet distribué et multilingue
Lylia Abrouk∗,∗∗ Mathieu Lafourcade∗
∗
LIRMM, 161 rue Ada, Montpellier
{abrouk,lafourcade}@lirmm.fr
∗∗
SEMIDE, 2229 route des crêtes, Valbonne
[email protected]
1
Introduction
Notre travail s’inscrit dans le contexte du projet européen SEMIDE (Système euro méditerranéen d’information sur les savoir-faire dans le domaine de l’eau). Le SEMIDE vise à
développer une ontologie spécifique aux connaissances dans le domaine de l’eau. Ce travail
s’est basé dans un premier temps sur un thésaurus du domaine de l’eau, or les ressources d’informations ne cessent de s’accroître de sources hétérogènes dans les formats, mais aussi dans
le vocabulaire employé (agences de l’eau, ministères,...) engendrant une ontologie insuffisante
et peu structurée. Cette ontologie doit pouvoir s’enrichir au fur et à mesure que de nouveaux
documents apparaissent, mais également rester cohérente.
Nous nous intéressons à deux grandes parties : lŠannotation des ressources et l’enrichissement de l’ontologie globale définie par la communauté du SEMIDE. Ces deux grandes parties
ne sont pas indépendantes étant donné que l’enrichissement de l’ontologie est fonction des
nouvelles ressources et des concepts obtenus lors de l’annotation. La suite de cet article traitera la deuxième partie.
Notre hypothèse est qu’il serait intéressant de rajouter des relations ontologiques (est-un,
partie-de, etc.) à l’ontologie du SEMIDE. Celle-ci prendrait donc la forme d’un pseudo-réseau
sémantique ou les noeuds seraient des acceptions. Cependant, nous ne concevons la mise en
place d’un tel réseau sémantique que via une automatisation poussée. La validation de certaines
occurrences de relations entre acceptions pouvant être éventuellement l’objet d’un travail manuel d’un expert. Cette automatisation peut être envisagée à partir de deux types de sources :
des corpus monolingues d’un même domaine technique, et des collections de bi (ou tri)-textes
(textes traductions l’un de l’autres). Ce faisant, les occurrences de relations doivent d’abord
être identifiées dans les parties monolingues avant d’être migrées dans la partie interlingue.
Nous attaquons le problème de l’enrichissement ontologique selon deux biais. La premier,
via l’exploitation de paires de textes traduits, est la mise en correspondance directe de terme
identifiés contre traduction mutuelle. Une acception (un sens de mot) peut être artificiellement créée, mais le problème des doublons potentiels et de l’identification et élimination n’est
pas directement résolu. La seconde approche, à partir de corpus monolingue, consiste pour
des termes cibles, à extraire le plus grand nombre des relations qu’ils peuvent entretenir avec
d’autres mots. Les termes cibles sont identifiés comme tels via des méthodes classique de
- 709 -
RNTI-E-6
Enrichissement d’ontologies
fréquences et de cooccurrences. Les informations obtenues sont projetées sur l’ontologie monolingue, celle-ci servant également de filtre et de support quant à l’identification des acception
concernées. Le processus est itératif à la fois sur les corpus et sur l’ontologie, les informations
récurrentes étant progressivement recopiées dans la partie interlingue. Inversement, les relations de la partie interlingue sont progressivement recopiées vers la partie monolingue ainsi les
informations extraites d’un corpus d’une langue donnée peuvent participer à l’affinement des
informations dans d’autres langues.
2 Extraction de nouvelles relations - patrons d’extraction
Notre travail a consisté dans un premier temps à analyser des documents du Semide afin
d’extraire des mots clés qui définiront nos règles d’extraction, cette analyse a donné une liste
d’hypothèses d’extraction de relations entre les termes que nous définissons dans ce qui suit.
Hypothèse 1 : Si l’expression A est un B où A appartient à l’ontologie du Semide alors B
est une spécialisation de A dans l’ontologie. Si par ailleurs, B appartient à l’ontologie globale
alors B est une généralisation de A.
Hypothèse 2 : Si l’expression C qui a la forme suivante : A de B où A appartient à l’ontologie
du Semide alors C est une spécialisation de A dans l’ontologie. Si, par ailleurs, C appartient à
l’ontologie globale alors A est une généralisation de C.
Hypothèse 3 : Si l’expression C qui a la forme suivante : A B où A appartient à l’ontologie
du Semide alors C est une spécialisation de A dans l’ontologie.
Si par ailleurs, C appartient à l’ontologie globale alors A est une généralisation de C.
Hypothèse 4 : Si on a l’expression C avec la forme suivante A non B où A appartient à l’ontologie du Semide alors C est une spécialisation de A dans l’ontologie. Et si C appartient à
l’ontologie globale alors A est une généralisation de C.
Les quelques patrons d’extraction présentés ci-dessus ne sont qu’indicatifs de la méthode employée. D’autres patrons sont utilisés, en particulier pour extraire des relations d’autres natures.
Par exemple, la relation de méronymie (partie de) est extraite des corpus afin de structurer l’ontologie, et de déterminer le plus finement possible les cas de doublons. Les doublons sont des
termes identifiés comme des concepts synonymes et doivent être représentés comme tels dans
l’ontologie.
Summary
The description of resources inside a community (or domain) must follow a controlled vocabulary. This is precisely a set of terms defined by a working group in order to tag contents
and describe documents. Our problem at hand is slightly different from classical issues in controlled vocabulary as we focus ourselves on relations that may exist between concepts. Still,
our resource description is based on ontology. The ontology is the backbone of a controlled
and organized vocabulary and corresponds to the formalization of explicit relations created between terms of the vocabulary. Our work sticks to two main directions which are the resources
annotations and the global ontology enhancement as defined by the SEMIDE community. The
EMWIS (SEMIDE) is an organization viewed as a tool for exchanging information and knowledge on water between countries of the Euro-Mediterranean Partnership.
RNTI-E-6
- 710 -
Comparaison des mammographies par des méthodes
d’apprentissage
Irina Diana Coman∗ , Djamel Abdelkader Zighed∗∗
∗
Laboratoire ERIC, 5 avenue Pierre Mendes-France, 69676 Bron, France
[email protected]
http://eric.univ-lyon2.fr
∗∗
Laboratoire ERIC, 5 avenue Pierre Mendes-France, 69676 Bron, France
[email protected]
http://eric.univ-lyon2.fr
1
Introduction et etat de l’art
Les mammographies sont le moyen le plus répandu pour la détection du cancer du sein.
Des études ont démontré qu’une lecture double des mammographies augmente la sensitivité
du diagnostic jusqu’à 15% (Bird et al., 1992) et de plus, (Destounis et al., 2004), que les outils
d’aide au diagnostic automatique du cancer du sein (ADACS) peuvent améliorer même les résultats d’une double lecture des mammographies. Pourtant, les techniques existantes d’ADACS
ont une série d’inconvénients.
Les méthodes existantes d’ADACS peuvent être classées dans deux classes : celles qui
essayent d’identifier des signes de cancer (Pluim et al., 2003) et celles qui essayent une classification des mammographies (Zaiane et al., 2002). Dans le premier cas, les inconvénients
principals sont le coût, dû au traitement d’images et à la classification des signes trouvés et le
fait que les signes des phases de début de cancer sont plus subtiles que ceux recherchés par
ces méthodes. Dans le deuxième cas, l’inconvénient principal est le taux de réussite plus faible
(qui baisse parfois jusqu’à 56,25%) et sa forte variation selon le jeu de données considéré pour
la validation.
2
Contribution
Par rapport aux autres techniques existantes dans le domaine d’ADACS, notre approche est
basée sur les techniques des médecins et se propose d’utiliser moins le traitement d’images et
plus des techniques d’apprentissage automatique afin d’obtenir une classification des clichés
dans deux classes : symétriques et non symétriques.
Dans une première étape, nous comparons des zones des clichés pour obtenir une mesure
quantitative de la similitude. Pour obtenir les zones, nous avons proposé trois méthodes issues
de la pratique des médecins, plus précisément la méthode maillage (qui propose une segmentation tenant compte de la structure de symétrie du sein), la méthode fenêtre (qui représente un
balayage vertical ou horizontal de l’image avec une zone de taille fixe) et la méthode rideau
(qui propose un traitement progressif du cliché, soit en direction verticale soit horizontale).
- 711 -
RNTI-E-6
Comparaison des mammographies
Le graphique des différences entre les zones des deux clichés, met en évidence, par des
piques, les éventuelles asymétries. La hauteur des piques est une mesure de la taille des différences, tandis que la largeur des piques est une mesure de la localisation. Tenant compte du
fait que les dissemblances naturelles sont normalement répandues sur une zone plus large, en
temps que les asymétries dues au cancer sont plus localisées, nous avons choisi de prendre
en compte la hauteur et la largeur des plus grands piques pour l’étape suivante de classification des clichés dans les deux classes : symétriques et non symétriques. Pour la classification
nous avons utilisé les arbres de décision (Breiman et al., 1984), plus précisément des arbres
C4.5(Quinlan, 1993).
Nous avons testé les trois méthodes sur un jeu de données de 202 couples de clichés, en
utilisant 73% de données pour l’apprentissage et le reste de 27% pour la validation. La méthode
rideau a eu un taux de réussite de 62% et la méthode maillage un taux de réussite de 68%. Les
meilleurs résultats ont été obtenus par la méthode fenêtre, avec un taux de réussite de 70%.
Conclusions et perspectives Les résultats que nous avons obtenu, (un taux de réussite de
70%), sont des résultats préliminaires. Tenant compte du fait que l’approche proposée est nouvelle dans le domaine et aussi du fait que nous avons eu une base de données spécialement
annotées seulement sur les aspects de cancer, nous considérons les résultats encourageants.
Nous envisageons de continuer les tests sur une base de données mieux annotée, spécialement sur les aspects d’asymétrie. Nous envisageons aussi d’effectuer plusieurs tests afin de
trouver les meilleurs paramètres des trois méthodes, la meilleure représentation des clichés et
les méthodes de classification les plus adéquates.
Références
Bird, R., T. Wallace, et B. Yankaskas (1992). Analysis of cancers missed at screening mammography. Radiology 184, 613–617.
Breiman, L., J. Friedman, R. Olshen, et C. Stone (1984). Classification and Regression Trees.
Wadsworth.
Destounis, S. V., P. DiNitto, W. Logan-Young, E. Bonaccio, M. L. Zuley, Kathleen, et M. Willison (2004). Can computer-aided detection with double reading of screening mammograms
help decrease the false-negative rate?initial experience. Radiology 232, 578–584.
Pluim, J. P. W., J. A. Maintz, et M. A. Viergever (2003). Mutual information based registration
of medical images: A survey. IEEE Transactions On Medical Imaging.
Quinlan, J. (1993). C4.5: Programs for Machine Learning. Morgan Kaufmann.
Zaiane, O. R., M.-L. Antonie, et A. Coman (2002). Mammography classification by an association rule-based classifier. International Workshop on Multimedia Data Mining.
Summary
This article proposes a new approach in the field of computer aided diagnosis of breast cancer, based on clinical practice and using bilateral comparative analysis and machine learning
techniques in order to classify mammograms as symetrical or asymetrical.
RNTI-E-6
- 712 -
Représentation d'expertise psychologique sous la forme de
graphes orientés, codés en RDF
Yves Fossé, Stéphane Daviet
Henri Briand, Fabrice Guillet
Laboratoire d'Informatique de Nantes Atlantique (LINA)
Rue Christian Pauc - La Chantrerie
BP 50609 - 44306 Nantes Cedex 03
{yves.fosse, stephane.daviet, henri.briand, fabrice.guillet}@univ-nantes.fr
1 Introduction
La conception de personnages virtuels simulant un comportement humain réaliste, y
compris d'un point de vue émotionnel (Aylett et Luck, 2000), connaît un engouement
croissant. Dans ce contexte, il est alors nécessaire de doter des agents intelligents virtuels de
caractéristiques psychologiques humaines. Pour ce faire, les informaticiens sont amenés à
recueillir l'expertise de psychologues.
Notre travail s'inscrit dans ce processus et consiste à modéliser l’expertise psychologique
de spécialistes dans le but d’appliquer leurs connaissances à l’élaboration d’agents
intelligents. Nous montrerons donc comment les graphes orientés et RDF peuvent permettre
d'accomplir cette tâche.
2 La modélisation des interactions
Différents concepts psychologiques sont exploités dans ce projet. Tout d’abord, le
comportement définit par l’ensemble des réactions observables chez une personne. Il est
propre à chaque individu. La société PerformanSe en a développé un modèle selon 10
dimensions bipolaires : couples de traits de personnalité antagonistes.
Ensuite, les émotions qui caractérisent un ressenti à plus court terme. Le modèle OCC
(Orthony et al., 1988), conçu par des psychologues, offre une modélisation facilement
implémentable.
Enfin, les interactions sociales qui sont une des notions clés dans les comportements
collectifs d'individus. Elles représentent la faculté de ressentir, d’exprimer et d’interpréter les
émotions.
C’est l’expertise de la société PerformanSe concernant la perception de l’état émotionnel
d’autrui, qui a été transposée en langage naturel semi-structuré, que nous cherchons à
modéliser. La recherche d'une solution permettant la représentation formelle et l'exploitation
de ces connaissances fait l'objet de notre étude.
L’expertise psychologique des spécialistes a été exprimée sous la forme d’un ensemble de
règles. Chacune d’entre elles se compose d’un ensemble d’actions dont l’exécution est
conditionnée par une condition booléenne. Une règle peut s’exprimer sous la forme :
- 713 -
RNTI-E-6
Représentation d’expertise psychologique
condition → {action1, action2, …, actioni}
En initiant le concept de Web Sémantique, Tim Berners Lee (Berners, 1999) a jeté les
bases des langages rendant possibles la représentation sémantique des contenus. Parmi ces
langages fédérés par le W3C et organisés en couches, nous avons choisi d’utiliser RDF
(Resource Description Framework), car il propose un niveau de complexité adapté à notre
projet.
Un document RDF pouvant se représenter sous la forme d’un graphe orienté et étiqueté,
nous avons été amenés à adapter les formalismes existants (graphes ET/OU et hypergraphes)
afin de représenter une condition booléenne sous cette forme. Les actions associées aux
règles d’interactions sociales consistent à faire évoluer un composant émotionnel de l’agent,
ce qui se concrétise par l’évolution d’un attribut. Ceci ce représente facilement sous la forme
de graphe, de plus RDF propose une classe nommée "sac" (bag), permettant de stocker
l’ensemble des actions associées à une règle.
3 Conclusion
L'avantage majeur du codage en RDF des règles d'interactions sociales est sa simplicité
de mise en oeuvre. En effet, grâce à la disponibilité de bibliothèques spécialisées dans ce
domaine (comme JENA), il est relativement simple d'exploiter ces connaissances.
De plus, la solution proposée offre la possibilité d'exprimer les règles sous la forme
d'expressions dont la syntaxe est facilement maîtrisable par un non-informaticien. Ce dernier
point est primordial dans notre projet car la manipulation des connaissances psychologiques
doit être accessible aux psychologues travaillant sur le projet.
L'enrichissement de la base de connaissances nous permettra à terme de valider le
modèle.
Références
Aylett R. et M. Luck (2000). Applying Artificial Intelligence to Virtual Reality : Intelligent
Virtual Environments. Angleterre : Applied Artificial Intelligence.
Berners-Lee T. (1999), Weaving the Web, San Fransico, Harpur.
Ortony A., G. Clore et A. Collins (1988). The cognitive structure of emotion. New-York :
Cambridge University Press.
Summary
Designing an emotional intelligent agent implies to model the expertise of psychologists
in term of emotions, cognition and social interactions. This poster presents our work for
modeling this knowledge thanks to directed graphs expressed in the RDF language.
RNTI-E-6
- 714 -
Représentation des connaissances appliquées à la
géotechnique : une approche
Nicolas Faure
MODEME – Centre de Recherche de l’IAE
Université J. Moulin – Lyon III
6 cours Albert Thomas 69008 Lyon
[email protected]
1 Introduction
Le projet RAMCESH est un projet dans lequel sont impliquées diverses organisations
ayant trait à la géotechnique. Son objectif est de réaliser un système d’aide à la conception
pour les projets géotechniques.
2 Une approche de la géotechnique
On définit la géotechnique comme l’étude l’interaction d’un sol et d’un construit, qu’il
soit ouvrage d’art, bâtiment ou route. Le sol est un système qui défie l’étude en ce qu’il est
majoritairement invisible et demande certaines approximations pour être appréhendé : on lui
applique le résultats de sondages qu’on estime représentatifs. Le construit lui-même est, en
phase de conception de projet, hypothétique, et ses interactions avec le sol sont donc d’autant
plus difficiles à évaluer.
De surcroît, la géotechnique est un domaine hétérogène à deux titres : elle dépend de
conditions régionales, et rassemble des spécialités différentes (chimie, mécanique, géologie,
etc…). Cette hétérogénéité ajoute à l’inconnaissabilité une complexité méthodologique et
terminologique discernable dans les documents du domaine.
Dans un tel contexte, le spécialiste géotechnicien adopte une attitude pragmatique se
reposant sur un ensemble de savoirs et de savoir-faire très souvent tacites, mais
essentiellement construits par analogie d’un contexte vis-à-vis d’un autre.
3 Un modèle pour la géotechnique
Qui veut modéliser le domaine géotechnique est donc confronté à un problème de grande
ampleur ; cependant, la communauté géotechnique aurait l’utilité d’outils informatiques qui
puisse l’assister dans la gestion quotidienne de cette complexité.
Il faut un modèle flexible qui puisse s’adapter aux diversités du domaine et rendre
compte des disparités d’usage pour faciliter un accès pertinent aux connaissances du
système. De plus, l’expérience du domaine des années 1980 et 1990 avec les systèmes
- 715 -
RNTI-E-6
Représentation des connaissances en géotechnique
experts a enseigné qu’un système réellement utile aux spécialistes est un système qui serait
maîtrisé et implémenté par les spécialistes eux-mêmes, sans passer par un intermédiaire.
Une solution est donc de choisir un modèle supportant une sémantique riche, mais peu
formalisé afin de ne pas dérouter les spécialistes-utilisateurs.
Une première approche de la modélisation du domaine est donc envisagée à l’aide d’une
ontologie informelle structurée qui tienne compte des variations terminologiques au moyens
d’ensembles de synonymes et cas d’usage spécifiques fondés sur des emplois métaphoriques
(métonymies, synecdoques, etc…) très courants dans la documentation du domaine.
Cette ontologie repose sur deux hiérarchies, subsomption et agrégation, et supporte un
formalisme nommé granule de connaissances, dont le rôle est de représenter la connaissance
contextuellement, en situation.
4 Le granule de connaissances
Le granule de connaissances rassemble des concepts définis dans l’ontologie en plus de
relations spécifiques. Articulé autour de deux clauses (prémisses et conclusions) liées par une
relation d’implication (qui peut servir à définir une hiérarchie de causalité au niveau des
granules eux-mêmes), il subdivise les concepts ontologiques en fonction d’un rôle
thématique et d’un rôle prédicatif. Le thème, obligatoire, est représenté par un concept
unique et correspond à la définition sommaire « ce dont il s’agit ». Le prédicat peut être vide
ou rassembler autant de concepts que nécessaire et correspond à la définition « ce qui est dit
du thème ». Chaque ensemble thème-prédicat définit ce qu’on appelle une phrase, liée à
d’autres phrases au sein de la même clause par un ensemble de booléens.
Les prémisses définissent un contexte spécifique, les conclusions décrivent leur
implication. Cet ensemble est extrait des documents du domaine.
Un granule rassemble également les instances et valeurs associées au contexte décrit.
L’approximation d’un contexte s’opère avec la variation des éléments conceptuels du granule
selon les hiérarchies de l’ontologie (opération baptisée « glissement sémantique »).
L’agrégation de granules de connaissances autorise également la représentation de projets
géotechniques complets. La méthode utilisée pour agréger des granules est similaire à celle
de l’agrégation des knowledge components.
Les travaux en cours concernent les premiers développements collaboratifs de granules
de connaissance par les spécialistes du domaine et l’utilisation d’une ontologie descriptive
d’environ 5000 mots.
Références
Clark P., B. Porter (1997), Building concept representation from reusable components,
Proceedings of AAAI 97
Guarino N. (1998), Formal ontology and information systems. Volume 46 Frontiers in
Artificial Intelligence and Applications. IOS Press
Summary
This paper briefly depicts the “granule de connaissance”, a formalism for representation
of geotechnical knowledge, built from ontological concepts and allowing knowledge sorting
in an uncertain environment.
RNTI-E-6
- 716 -
!
" ! #$%
&!
#
#
#
%'
! (
) #!
#
* #
# !"
+ !* ,- +
. /
#!
% '
+ +
! !' # # !
%#
!
! ##
*
!
"
!
'# ' ) # +
0
+
!
#!
1 #'
# # !# # ! # ' ' ! !
# % ## # '" ! #
# ! !#
# ! #
#! !# ! !*
! "2!
' "!' #!'" '
# % !
#' # #
! '#
#&
'
!
' ! ! '" !
'" !
!
'
#! !
! !* ' #
#
'! ! #
!
'$!'
'&
#
' #
! '
#! !
!
!
'#
#
! '# !
! !
# %
! # #!
! )3
#
!
1#
4 /-5 ,
6.
!%! '"!' #!
'
'! !
!'
! # ! ' # % ## #
!
#' #
'"! # ! # ' #
#
% ! ! # " ! 7!'
'! ! #
! # %
# 8
! '
##
!' )
' )
!
#
!
+
# '
8 (
%
! + * , #1#!
8
' #
'
' ' "! # ! .
!'
!
' "
!
'
, #1#!
8
"
! #'
# # !# # ! & '
' ' "! # ! .
#
'
8 # ' #
' )
' !
!!
!
) !
'! !
! '"
!' '
#'
!# '
+ #
' #1#!
8
! '" !
!
'"
!
#
# ' ! & '
' !
9 '
#
'
!
'
!' ' ) ,
#
!
!'
'
'
#
! #
!
#
, !
.. :
)!
# 8
'
! !*
!
! ' * !&
+
# & ! !! !
# # !
! +
# '$!' #! #!! ' ;< 6! # '
## # ' ' ) #
# # !
' # !#! # +
# !
+
= ' )
#!
# *
! ! ' ! #'
#1#!
8 9! # !
#
# ' "!' # !' ! # '
!# > #
#&
" #!* # !
#' ?
! !*
'# ! # '
#
) % #
% !
#
! #
# ! $ !) !
'
#
# '$ '
) #!*
# '*
' )* / # # !
#
! #
!
#!!#!
!'$ # )
!
! !*
'
! '" ! ! ' #
# , !
!
!;. #! #
!
#
! ,'
!'
#
#
'
# ! !* # ! '
! '
#!
#
#
#.
#
!
'
'8 ! @! '
'#
# #!
+ + A + #! #
! /-5 *
"
+ #
! '
1#
4
,
) 1 !- ) BCC<.
% ! !
!
+'
!
' '# !# ! '
1#
, A
,
;.. !
! #
' ! #
% # ! ' #
# #
- 717 -
RNTI-E-6
!!
'$
!
' # '# '
) #D
0
+
' !A
! ! #
#
!
#
*"
! %'
+ !
!!#
5 # # + ! #
#
'
# @! # # ' #
# #
#
#
' #
! #
2 ! !
!& #
#
@! # #
% !
8 #'
# ! ! # #(
EF ,E% F
# ' !
! ! " # #
' ! !" # #
#
B, G
# G
9,
# H
..
#
# IB'
'# B
! !'
' !
%
#
# ' EF !'
#
B
+ !
'
! # "#
JI IBK #
# #!) !
##
!
# # #
# JI IBI K JI IBI I K
#
## !
2#* "
& #
!
! #
!! ! ' #
# =
'8
# @! # # #!
0
&
'8
#
!
! #
L>$#!"
!
# * ' !
!! '
'
! '" ) ' #
%
#
'
! ' #
'
!! & "' !* '
# ' "! # ! &
7 * #!
! !'
# * #
8 ! ! !# A
'! ! '
@! # *
## !
'
'
##
'
%
#
'" ! # '
#
! !* ' #
#)
! #' #
! # ! '" ! ' #
!
! !
#
% * #!
!' # '
$!' #!
#
#
! ' '
# )
,
##
!' $ ! # !
#' ' ) #
' !
'#
!
>
:
! # + E ,
! < ( BBN0B<
,
) &
,
) 1
B!
+>
-+
E
! 5 #
# #
#
! F ' !.
'
!
#I '
'#
#
!
# # ##
#
!
## !
! ! # !' #
#
! '
' #1#!
8 # !
!
#!
%!7
!
#
## !
#!!
% '
#
'
#M.
.
)
-
+
O
!
6.
%! !
!- )
'! #
- ,BCC<. F
=
! !
1
I
<
+ #!'1
%! #
#
+
0
+
RNTI-E-6
#
;.
+
!
' !
!" !
':
! # ,P 1
:!
!
N0 ;6
! &
!
F ! )
! ( :
#
%
!1
##
!
4
1# Q !
+ !
+
' )#
!%!
- 718 -
O
!.
F
)
Q
!
+ #
' )
' )#
E
#
+
') #
!
#
% ##
#
# '
! #
Comment formaliser les connaissances tacites
d’une organisation ?
Le cas de la conduite du changement à la SNCF
Anne Remillieux*,**, Christian Blatter*,**1
*Institut National des Télécommunications, 9 rue Charles Fourier, 91011 Evry Cedex
**SNCF, Dir. de l’Innovation et de la Recherche, 45 rue de Londres, 75379 Paris Cedex 08
{anne.remillieux, christian.blatter}@sncf.fr
La SNCF souhaite mettre à la disposition de ses personnels un outil qui leur permette de
partager et de développer leurs connaissances et expériences en matière de conduite du changement, c’est-à-dire de prise en compte des facteurs humains pour la réussite d’un projet..Ces
connaissances sont, pour la plupart des acteurs, empiriques, particulièrement ancrées dans
leur action et donc tacites. Comment recueillir puis formaliser ce type de connaissances en
vue de leur partage ?
Nous utilisons deux types de techniques de recueil des connaissances tacites : celle de
l’observation de situations de travail, que nous avons mise en œuvre en assistant aux échanges entre acteurs d’une équipe projet dans l’entreprise ; et celle de l’entretien d’explicitation,
diffusée en France par Vermersch (1994), dont nous expérimenterons prochainement l’apport
pour une problématique de gestion des connaissances. Deux catégories de résultats sont
issues de la première observation :
B a s e d e c o n n a is s a n c e s
C o n n a iss a n c e s s y n c h ro n iq u e s
C o n n a is s a n c e s d ia c h r o n iq u e s
S u r l’ a c tio n
S u r le m o n d e
E s t u ti lis é p a r
A c te u r ( s )
R e sso u rc e s
S o u lè v e o u r é s o u t
P ro b lè m e (s )
P a r a m è tre s
S u r l’a c tio n
S u r le m o n d e
A p o u r c o n te x te
C h a n g e m e n t (s)
FIG.1 – Orientations générales pour la spécification structurelle
- La première identifie les différents types de connaissances utilisées par les acteurs observés et fournit ainsi de premières orientations concernant la structure du futur outil. Parmi
les catégories apparues, nous noterons celle des connaissances sur l’action (fournir aux destinataires une illustration du futur changement le plus tôt possible), opposée à celle des
connaissances sur le monde, qui portent sur l’environnement au sein duquel les sujets agissent (Les destinataires du changement redoutent surtout la première mise en main du changement). Par ailleurs, les connaissances « diachroniques » descriptibles sous la forme d’une
succession d’étapes dans le temps (la description des étapes à suivre pour concevoir un document de communication «concret») se sont distinguées de celles, « synchroniques », qui
1
Nous remercions Claire Petitmengin et Jean-Louis Ermine, de l’INT, pour leur soutien et leur
conseil.
- 719 -
RNTI-E-6
La conduite du changement à la SNCF
s’énoncent indépendamment d’un facteur temporel (la communication auprès des agents doit
être concrète).
- La seconde catégorie de résultats décrit le « processus de co-construction des choix » de
conduite du changement, c’est-à-dire les 7 phases génériques que mènent collectivement les
acteurs observés pour aboutir à la mise en place de solutions de conduite du changement. La
description de ces phases, mais aussi des acteurs, des connaissances requises et des ressources (non décrites ici) auxquels elles sont associées, permet d’orienter la spécification fonctionnelle de l’outil.
FIG.2 – Le processus de co-construction des choix de conduite du changement à la SNCF
Pour conclure, précisons que les résultats présentés, destinés à fournir un cadre générique
pour notre travail de formalisation, ne rendent pas compte de la seule spécificité de la
conduite du changement à la SNCF. En ce sens, ils pourraient vraisemblablement convenir à
d’autres types d’activité (comme la conduite de projet par exemple). La particularité des
connaissances qui nous intéressent apparaîtra au moment d’insérer des contenus dans le
cadre défini.
Références
Nonaka, I. (1994), A dynamic theory of organizational knowledge creation, Organization
Science Vol. 5, n°1, 14-37.
Vermersch, P. (1994), L’entretien d’explicitation, ESF éditeur, Paris.
Summary
Our research deals with elicitation, formalization and sharing of tacit knowledge about
change management at the SNCF. The observation of the work of a project team in the company enabled us to make first assumptions about this knowledge.
RNTI-E-6
- 720 -
I-Semantec : une plateforme collaborative de capitalisation
des connaissances métier en conception de produits industriels
Mohamed-Foued Sriti*, Philippe Boutinaud*
Nada Matta**, Manuel Zacklad**
*CADeSIS – 142/176 avenue de Stalingrad – 92700 Colombes
{mfsriti, pboutinaud}@cadesis.com
http://www.cadesis.com
** Laboratoire Tech-CICO – Université de Technologie de Troyes
12, rue de Marie Curie – 10010 Troyes cedex
{nada.matta, manuel.zacklad}@utt.fr
http://www.utt.fr/labos/TECH-CICO
1 La gestion des connaissances en conception
La réutilisation des connaissances métier produites lors des projets antérieurs est une stratégie majeure pour améliorer les processus de conception. Actuellement, il est critique de
mettre à la disposition des concepteurs les ressources documentaires et bases de données
représentant ces connaissances. Les sources des connaissances métier auxquelles nous nous
intéressons sont les Systèmes de Gestion des Données Techniques (SGDT). Ces outils sont
considérés parfois comme des systèmes de gestion des connaissances quand il s’agit
d’optimiser les liens et les relations entre ressources produites par les différents collaborateurs (Cattan, 2001). Pour rendre les ressources disponibles dans les SGDT au service des
concepteurs, il faut prendre en compte non seulement les SGDT de l’entreprise mais aussi les
SGDT des partenaires (sous-traitants, clients, fournisseurs…). Dans des travaux précédents
(projets industriels), nous avons mis en place des solutions de gestion des connaissances
autour des SGDT et nous avons rencontré les obstacles suivants : rigidité des structure des
données, difficulté de migration et d’interopérabilité, pauvreté des fonctions de recherches.
Pour dépasser ces limites, nous avons fait appel à l’approche du Web Socio-Sémantique.
2 Le Web Socio-Sémantique en support des SGDT
Dans le cadre de la conception de produits industriels, notre préoccupation principale est
de doter les connaissances métier d’une représentation formelle pour rechercher et réutiliser
plus pertinemment ces connaissances. Le contenu des ressources SGDT représentant les
connaissances à réutiliser doit être ainsi interprétables par les outils informatiques pour qu’ils
soient capables de répondre aux requêtes des utilisateurs. D’où notre recours au Web Sémantique qui vise, selon Tim Berners-Lee, rapporté par (Dieng et al., 2004), à rendre le contenu
sémantique des ressources du Web interprétables non seulement par l’homme mais aussi par
des programmes, pour une meilleure coopération entre humains et machines.
- 721 -
RNTI-E-6
I-Semantec – Plateforme de capitalisation des connaissances métier
Notre étude se restreint à une organisation limitée ce qui simplifie beaucoup la tâche.
Dans ce cadre, (Dieng et al. 2004) proposent le Web sémantique d’entreprise (ou organisationnel) pour capitaliser les connaissances d’entreprise en reposant sur le concept de la mémoire d’entreprise, qui est la matérialisation des connaissances cruciales d’une organisation.
Cependant, nous jugeons que cette approche est très générique et moins structurée pour
mieux capitaliser les connaissances métier. Par ailleurs, l’approche du Web SocioSémantique (W2S) définit par (Cahier et al., 2004) est plus adaptée à notre besoin du fait
qu’elle soutient les activités de coopération dans lesquelles les interactions s’appuient également sur des informations ou des documents partagés. Le W2S nous aide mieux à construire
une représentation structurée et commune tant du domaine que du collectif.
3 Un modèle d’architecture extensible pour la capitalisation
L’avancement actuel de notre étude nous a permis de concevoir l’architecture de la plateforme I-Semantec (cf. FIG.1) adoptant une méthode de capitalisation de connaissances générique (identifier, recueillir, formaliser, valider, stocker, distribuer et maintenir). Les principes
sur lesquelles nous avons bâti notre plateforme résident au niveau de sa flexibilité (représentation en RDF), extensibilité (architecture modulaire) et le degré d’interopérabilité avec
d’autres outils. Dans cette perspective, I-Semantec intègre les aspects du W2S et doit répondre à des critères précis de robustesse, performance et être support à une forte collaboration.
Stockage
EXTRACTION
Données + modèle
formalisés en RDF
RECONCILIATION
Modèle réconcilié
+ mappings
INTEGRATION
Requêtes
Données + modèle
(métadonnées)
VISUALISATION & RECHERCHE
Résultats
Données mises à jour
SGDT
BASE DE CONNAISSANCES RDF
MAINTENANCE
Mise à jour
FIG. 1 – Processus de capitalisation en utilisant la plateforme I-Semantec
Références
Cattan, M. (2001). L’entreprise et ses données techniques : méthodes pour une documentation maîtrisée, Afnor, Paris La Défense, chap. 11, p. 111.
Dieng-Kuntz, R., O. Corby, F. Gandon et J. Golebiowska (2004). Ontologies pour la construction d'un Web sémantique d'entreprise, in: Gestion dynamique des connaissances industrielles, B. Eynard, M. Lombard, N. Matta, J. Renaud, Hermès, chap. 1, p. 27-43.
Cahier, J.-P., M. Zacklad and A. Monceaux (2004). Une application du Web SocioSémantique à la définition d’un annuaire métier en ingénierie, in Actes de IC’2004.
Summary
In this paper we discuss an approach based on the Socio-Semantic Web concept enabling
knowledge reuse through an extensible infrastructure, in the product development process.
RNTI-E-6
- 722 -
Outil de datamining spatial
appliqué à l’analyse des risques liés au territoire
Schahrazed Zeghache* , Farida Admane* , Kamel Elaraba Ziane*
*
Division Systèmes d’Information, CERIST
Rue des trois frères Aissiou Ben Aknoun, Alger, Algérie
[email protected], [email protected], [email protected]
1 Problématique
Tout géographe s’accorde à dire que tout phénomène à un endroit est lié à l’influence du
voisinage (première loi en géographie). Ceci revient à dire que les données spatiales ne sont
pas indépendantes et que leurs analyses nécessitent, en plus des caractéristiques des objets à
analyser, la prise en compte des caractéristiques des objets du voisinage et des relations
spatiales qui les relient.
2 Approche proposée
Dans notre état de l’art, nous avons recensé des insuffisances dans les outils d’analyses
spatiales ; et afin d’y remédier, nous avons proposé une méthodologie pragmatique fondée
sur des bases théoriques en tenant compte : de l’inexistence des entrepôts de données dans la
majorité des organismes ; de la nature complexe des données à référence spatiale ; des
limites des fonctionnalités analytiques des outils existants entre autre Systèmes
d’Informations Géographiques (SIG) et datamining ; etc. Afin de résoudre cette
problématique, nous proposons la combinaison d’un SIG avec un ensemble de techniques de
datamining.
Dans un premier temps, nous avons proposé le cadre conceptuel permettant de définir la
manière selon laquelle la combinaison devrait s’opérer. Ce cadre a été illustré par la
présentation d’un enchaînement de phases devant constituer le processus décisionnel incluant
un SIG et un ensemble de techniques d’extraction. Ce processus se présente comme suit :
Préparation des données : Consiste à préparer la base de données géographiques .
Consultation des données : Consiste à analyser les données préparées pour vérifier si les
critères du problème posé ont été respectés.
Création d’un index de jointure : Cette étape est définie comme la spécificité du
datamining spatial par rapport au datamining classique. Elle permet de pré-calculer la
relation spatiale exacte entre les objets spatiaux de deux collections puis de les stocker dans
une table, pour y appliquer les techniques de datamining pour une meilleure exploitation. La
- 723 -
RNTI-E-6
Outil de datamining spatial
méthode que nous avons développée pour la création des index de jointures est une méthode
proposée par Zeitouni (2000). Cette méthode est une extension de l’index de jointure qui
stocke la valeur de distance entre les objets. Contrairement aux anciennes méthodes
proposées pour la jointure basée sur la distance, seuls les objets ayant une distance
raisonnable (définie par le concepteur de l’index) sont stockés dans cet index. Ce qui
optimise à la fois la construction et l’utilisation de l’index. Dans le cadre de cette étude, une
attention particulière a été portée au paramétrage du critère de jointure.
Choix de l’algorithme de calcul : Notre étude porte sur une seule technique de datamining
spatial qui est la classification supervisée par les arbres de décisions. Un arbre de décision a
pour but de trouver les attributs explicatifs et les critères précis donnant le meilleur
classement. L’arbre est construit par l’application successive de critères de subdivision sur
une population d’apprentissage afin d’obtenir des sous populations plus homogènes. Dans le
cadre de notre étude, nous proposons une extension de la méthode CART Zeitouni (2000)
ainsi qu’une extension de la méthode ID3 Zeitouni (2000). Ces deux dernières reposent sur
le calcul d’un gain informationnel pour apprécier la subdivision.
Exécution de l’algorithme de calcul : Une fois que l’index de jointure est créé, nous
pouvons lancer l’exécution de l’algorithme de classification par arbre de décision.
3 Etude de cas : « Analyse des risques liés au territoire »
L’objectif de cette étude de cas est d'expliquer et de prédire la dangerosité des routes en
tenant compte de leurs positionnements ainsi que leurs voisinages. Cet objectif consiste à
classifier les données sur les accidents par rapport aux objets voisins (administration, école,
cité, etc.) afin d’anticiper les aménagements correspondants.
Références
Boulmakoul, A., N. Chelghoum, et K. Zeitouni (2001). Arbres de décisions spatiales multi
thèmes. 8ème rencontres de la Société Francophone de Classification, 17-21 Décembre.
Laboratoire PRISM (Versailles).
Chelghoum, N., K. Zeitouni, and A. Boulmakoul (2002). A Decision tree for multi-layered
spatial data. Joint International Symposium on Geospatial Theory, Processing and
Applications, Ottawa, Canada, 8-12 juillet.
Zeitouni, K., M. A. Aufaure, and L. Yeh (2000). Join indices as a tool for spatial datamining.
International Workshop on Temporal, Spatial and Spatio-Temporal Data Mining, Lecture
Notes in Artificial Intelligence n° 2007, Springer, pp 102-114, Lyon, France.
Summary
Our objective is to provide a tool allowing to explore the spatial databases in order to find
there knowledge hidden and to create and manage the spatial relations between the data and
to effectively assist the analyst in his resolution of the problems .
RNTI-E-6
- 724 -
Confrontation de Points de Vue dans le système Porphyry
Samuel Gesche*, Sylvie Calabretto*
Guy Caplat**
* LIRIS – INSA de LYON 69621 Villeurbanne Cedex – France
** Dept. IF. – INSA de LYON 69621 Villeurbanne Cedex – France
Pré[email protected]
1 Contexte
Nos travaux s’insèrent dans un projet du réseau ARTCADHi visant à offrir aux
chercheurs en Sciences Humaines des assistants à la construction du sens dans des
bibliothèques numériques spécialisées. Dans ce cadre, limiter la description des documents à
une indexation unique, fixe et effectuée par un tiers, revient à nier leur expertise. Porphyry
propose l’instrumentation du travail des chercheurs par l’enrichissement itératif du corpus
par des structures hypermédias. Ces structures sont construites par les spécialistes en
fonction de leurs problématiques et de leurs spécialisations. Elles sont exprimées sous forme
de réseaux de description, une variante des réseaux sémantiques dans laquelle seule existe la
relation de composition (Benel A., 2003).
Dans son état actuel, Porphyry offre un moyen de visualiser des points de vue lorsqu’ils
sont appliqués aux même cas expérimentaux. Cependant, ce n’est que la première étape dans
le processus de confrontation mené par le chercheur, et les réseaux de description ne sont
qu’un formalisme parmi d’autres. Nous proposons donc de spécifier un atelier multiformalisme d’aide à la construction de sens par confrontation de points de vue.
Du fait que Porphyry est adressé à des chercheurs en Sciences Humaines, le désaccord
entre deux experts est matière à réflexion et à enrichissement. La confrontation des points de
vue va donc au-delà de l’intégration de travaux réalisés de manière transversale dans le but
d’en faire un tout unique et cohérent. L’accent est mis sur le partage des idées, la
confrontation devant permettre d’outiller l’étude des différents points de vue pour que de
nouvelles idées puissent voir le jour plus facilement.
2 Proposition
Nous envisageons cette démarche dans un cadre très général, bien que la plate-forme
Porphyry en soit un élément principal. Nous travaillons sur des points de vue exprimés par
leur saisie dans un système informatique, mais nous ne limitons pas ce système à Porphyry
seulement. Dans ce cadre, nous définissons un point de vue comme une théorie sur un sujet
d’étude exprimée par un modèle dans un langage. Nous regroupons sous le terme
« langage » aussi bien la langue ou le formalisme que le modèle du document, qui clarifie les
règles diverses auxquelles l’écriture se plie. Nous considérerons cependant de manière plus
approfondie le cas des langages formels.
- 725 -
RNTI-E-6
Confrontation de Points de Vue
En se limitant à des langages dont on peut construire un modèle, on est en mesure de
construire un modèle de la confrontation. On a besoin d’un langage spécialisé, le langage de
confrontation, pour permettre l’expression des actions de confrontation.
écrit en
écrit en
ML : Langage
MM1 : Modèle
spécifie
MM2 : Modèle
S1 : Sujet d’Etude
L1 : Langage
S2 : Sujet d’Etude
écrit en
spécifie
L2 : Langage
écrit en
porte sur
porte sur
M1 : Modèle
M2 : Modèle
Mc : Modèle de
confrontation
confronte
écrit en
confronte
Lc : Langage de confrontation
FIG.1 – Modèle d’une confrontation multi-formalisme
Etant donné ce modèle de la confrontation, nous avons dégagé un certain nombre d’axes
de recherches :
- Quelle est l’influence du langage choisi dans la représentation d’un point de vue ?
- Quel est l’impact du sujet d’études sur la « confrontabilité » des points de vue ?
- Quelles sont les primitives du langage de confrontation ?
- Quelle algèbre utiliser pour la comparaison des points de vue, et notamment pour la
notion de distance entre points de vue ?
Références
ARTCADHi, réseau (2005) Site du Projet Porphyry, http://www.porphyry.org
Benel, A. (2003) Consultation assistée par ordinateur de la documentation en Sciences
Humaines – Considérations épistémologiques, solutions opératoires et applications à
l’archéologie. Thèse de doctorat, INSA de Lyon.
Summary
Porphyry today allows experts to express their points of view in a formal context. The
next stage, which is discussed here, is to make possible to match these points of view.
RNTI-E-6
- 726 -
Système d’aide à la décision pour la surveillance
de la qualité de l’air intérieur
Zoulikha Heddadji*,**, Nicole Vincent*, Severine Kirchner**, Georges Stamon*
*Université René Descartes-Crip5-Équipe SIP-UFR Mathématiques et Informatique
45, rue des Saints Pères 75006 Paris
{nicole.vincent,georges.stamon}@math-info.univ-paris5.fr
**CSTB-84, avenue Jean Jaurès Champs-sur-Marne 77421 Marne-La-Vallée Cedex2
[email protected], [email protected]
1 Contexte
L’ensemble des mandats d’intervention en lien avec une mauvaise qualité de l’air dans
les espaces fermés et leurs différentes solutions constitue notre base documentaire qui symbolise l’image représentative de la connaissance et du savoir faire des experts. Le raisonnement que nous mobilisons autour de cette base pour notre système d’aide à la décision est le
raisonnement à partir de cas. L’interface interactive que nous avons développée nous permet
de sauvegarder l’ensemble des cas dans un formalisme XML reproduisant la structure logique des plaintes. Les modèles de balises correspondent aux différentes rubriques citées dans
les textes des plaintes (antécédents, symptômes, environnement, etc.). Le RàPC s’appuie
d’abord sur le module de remémoration des cas de pollution similaires au contexte de la
plainte courante. Ce module est fortement lié au contenu et à la structure des cas situés en
mémoire. Le RàPC repose aussi sur le module d’adaptation qui ajuste le rapport du cas jugé
le plus similaire au contexte du cas courant. Il est constitué également du module de consensus assurant la validation humaine multi-experte des cas, et du module d’apprentissage du
nouveau cas pour capitaliser la nouvelle expérience en mémoire.
2 Phase de remémoration
Nous nous basons sur la mesure de similarité conceptuelle de (Zarga et Salotti, 2004)
pour établir ensuite une distance sémantique entre le problème énoncé dans la plainte cible et
les problèmes sources. Inspirées des travaux de (Wu et Palmer, 1994) Zarga et Salotti utilisent une mesure de spécificité qui favorise les liens père-fils par rapport aux autres liens :
Spec(C1 , C2 ) = Depthbtm ( PPS(C1 , C2 )) Dis( PPS(C1 , C2 ), C1 ) Dis( PPS(C1 , C2 ), C2 )
SimZS (C1 , C2 ) =
2 depth PPSC1 ,C2
depthPPSC1 ,C2 (C1 ) + depthPPS C1 ,C2 (C2 ) + Spec(C1 , C2 )
où Depthbtm (PPS(C1, C2)) est le nombre maximum d’arcs séparant le concept bottom ( le
concept le plus bas du réseau conceptuel) du plus petit subsumant de C1 et C2 ; PPS(C1, C2).
Dis(C1, C2) est la distance en nombre d’arcs entre C1 de C2.
- 727 -
RNTI-E-6
Système d’aide à la décision : surveillance des ambiances intérieures
2.1 Modèle de proximité flou
(Mercier & Beigbeder, 2004) estiment que plus les termes de la requête apparaissent proches au niveau d’un élément de la base plus ce dernier est pertinent par rapport à la requête
cible. Le modèle de proximité flou du terme A par rapport au terme B est formalisé par:
µ NEAR ( A, B ) (d ) = Maxi∈d −1 ( A) ( Max(
j∈d −1 ( B )
k− | j − i |
,0) )
k
-1
Où d (t) désigne l’ensemble des positions prises par le terme t, et k une constante fixe
choisie représentant la taille de la fenêtre glissante des cooccurrences des termes.
2.2 Notre nouveau modèle: le modèle de proximité flou sémantique
La mesure de (Mercier & Beigbeder, 2004) est très intéressante, néanmoins elle ne tient
pas compte de la sémantique des termes (dans le cas où des termes sémantiquement proches
des termes utilisés dans la requête apparaissent directement proches au niveau d’un élément
de la base). En effet, ce modèle est limité par la relation de cooccurrence directe des termes
qui ne permet pas de capturer la proximité sémantique entre les mots. L’équation présentée
dans le modèle de Mercier et Beigbeder devient :
µNEAR ( A,B ) (d ) = Maxi∈d −1 ( Simens( A)) ( Max(
j∈d −1 ( Simens( B ))
(k − | j − i | ) SimZS (ti, A) SimZS (tj, B)
,0))
k
Simens(A) est l’ensemble des termes proches de A suivant la mesure d’appariement
conceptuelle utilisée. Notre nouveau modèle apporte la connaissance de la sémantique au
modèle existant. les résultats des degrés de proximité que nous avons obtenus à l’étape
d’expérimentation sur des données réelles et sur des données simulées sont très améliorés à
l’aide de l’augmentation sémantique.
Références
Zargayouna, H et S. Salotti (2004). « Mesure de similarité dans une ontologie pour l'indexation sémantique de documents XML ». IC'2004.
Wu, Z. et M. Palmer (1994). « Verb Semantics and Lexical Selection ». Proceedings of the
32nd Annual Meetings of the Associations for Computational Linguistics, 133-138.
Beigbeder, M. et A. Mercier (2004). « Fuzzy set theory applied to a proximity model for
information retrieval ». Nantes, France. LFA, 231-237.
Summary
We present a new information retrieval model based on the semantic proximity level of
term occurrences by using a conceptual network to identify the closest cases of the used
request. Using this framework, we aim to implement a case based reasoning approach to help
decision making in situations where indoor air is suspected to be responsible of health effects.
RNTI-E-6
- 728 -
FaBR-CL : méthode de classification croisée de protéines
Walid Erray∗ , Faouzi Mhamdi∗∗
∗
Laboratoire ERIC, Université Lumière Lyon 2
69500 Bron France
[email protected],
http://eric.univ-lyon2.fr
∗∗
URPAH, faculté des Sciences de Tunis,Université d’El Manar
1060 Tunis Tunisie
[email protected],
http://www.mes.tn/fst/index.html
Résumé. Dans cet article, nous proposons une méthode de classification croisée
permettant de classer des protéines, d’une part, et de classer des descripteurs (3grammes) selon leurs pertinences par rapport aux groupes de protéines obtenus,
d’autres part.
1
Classification croisée de données biologiques
Afin d’étudier les séquences d’acides aminés représentant les protéines, nous avons utilisé
des techniques de text mining afin d’extraire des descripteurs. Ces descripteurs nous permettrons de construire un tableau de données Protéines × Descripteurs. L’une des techniques les
plus utilisées est l’extraction des x-grammes (Miller et al. (1999), Mhamdi et al. (2004)), x
étant la taille d’un descripteur.
Plusieurs méthodes de classification croisée ont été proposées (Govaert (1977), Ritschard et
Nicoloyannis (2000)). Récemment, des méthodes de classification croisée ont été appliquées
aux données biologiques (Cheng et Church (2000)). Cependant, plusieurs de ces méthodes
restent très coûteuses en temps de calcul.
2
FaBR-CL : méthode de classification croisée
Afin d’effectuer une classification croisée, nous nous sommes basé sur une méthode de
classification peu coûteuse en temps de calcul (Erray (2005)). La méthode proposée, FaBRCL, utilise FaUR dans une approche "Combinaison itérative de regroupement des lignes et
des colonnes" afin d’obtenir un regroupement complet des protéines et des 3-grammes. Ainsi,
nous effectuons le regroupement des protéines, dans un premier temps, et le regroupement des
3-grammes dans un deuxième temps. La complexité de cette méthodes est en O(l log l + p log
p), l étant le nombre de protéines et p le nombre de descripteurs.
- 729 -
RNTI-E-6
Un modèle métier extensible adapté
à la gestion de dépêches d’agences de presse
Frédéric Bertrand , Cyril Faucher ,
Marie-Christine Lafaye , Jean-Yves Lafaye , Alain Bouju
Laboratoire Informatique, Image, Interaction
Université de La Rochelle
Avenue Michel Crépeau, 17042 La Rochelle Cedex 1
[email protected]
http://www-l3i.univ-lr.fr
1
Présentation
Dans le cadre du projet RIAM 1 « Relaxmultimédia » mené conjointement avec deux agences
de presse (AFP et Relaxnews) nous présentons une approche destinée à gérer deux aspects d’un
modèle métier défini avec UML : son extensibilité et la possibilité de naviguer entre les classes
et les instances définies à partir de ce modèle. Nous montrons que la transformation du modèle
UML en un schéma RDF sur lequel est utilisable SeRQL, un langage d’interrogation, présente
des caractéristiques intéressantes pour gérer de tels aspects.
2
Extensibilité et navigation dans le modèle métier
Une dépêche fait généralement référence à un ensemble d’entités nommées qui ont été classées par l’IPTC2 en quatre catégories génériques : Party (se scindant en deux sous-catégories
Person et Organisation ), Location représentant les lieux, Event représentant les différents
types d’événement, et Artifact décrivant les objets (physiques ou virtuels) cités dans une dépêche. Pour affiner l’information il est possible de définir des sous-catégories à partir des catégories précédentes. De plus, chaque type d’entité peut être rattaché à un domaine, ceci pour
traduire la notion de contexte associé à chaque information. Comme exemple, dans la dépêche
(simplifiée) suivante :
Le film « La Guerre des Mondes », avec Tom Cruise, sort le 6 juillet 2005 en France.
on identifie le type Movie (sous-type d’Artifact, instance « La Guerre des Mondes »), le type
Country (sous type de Location, instance « France »), le type Release (sous-type d’Event, instance « Sortie du film G. D. M. »), le type Actor (sous-type de Person, instance « Tom Cruise »).
1 Recherche
et Innovation en Audiovisuel et Multimédia.
Press Telecommunications Council
2 International
- 731 -
RNTI-E-6
Extensibilité d’un modèle UML métier
Les types Movie, Release et Actor sont associés au domaine « Arts, culture and entertainment ». Des relations sémantiques peuvent également être établies entre entités. La conséquence de cette richesse sémantique est que, d’une part, le nombre de classes à définir pour
prendre en compte les différentes entités ne peut être connu de manière exhaustive et, d’autre
part, ce nombre est beaucoup trop important pour apparaître directement dans le modèle. L’approche que nous avons développée consiste à utiliser le mécanisme d’extension d’UML, les
stéréotypes, pour créer un modèle métier générique en « marquant » les classes fondamentales
Party, Location, Event et Artifact ainsi que les associations entre ces classes. La sémantique
associée à ce marquage est que la classe possède sous-types pouvant être créés dynamiquement. Cette sémantique est conservée lors de la traduction de notre modèle vers un schéma
RDF (RDFS) définissant un modèle de navigation entre les dépêches. La raison principale
qui a guidé notre choix vers la création d’un modèle RDF/RDFS est la disponibilité d’outils
permettant d’interroger notre modèle aussi bien au niveau instance qu’au niveau classe.
La traduction UML RDFS a été conduite selon un processus décrit par Cranefield (2001)
en utilisant une feuille de style XSLT pour convertir le format XMI 3 représentant le modèle UML en un document RDFS/XML. Le modèle obtenu est géré par une base RDF, Sesame Broekstra et al. (2002), possédant un langage d’interrogation, SeRQL, fondé sur des
expressions de chemin, permettant au sein d’une même requête d’exprimer des conditions sur
les associations entre classes et les instances de ces classes et ces associations. Le peuplement
de cette base a été réalisé par un outil de saisie s’interfaçant avec Sesame. L’organisation de
l’information sous forme de triplets RDF et la présence de SeRQL permettent d’exprimer des
requêtes qu’il est très complexe (voir impossible) d’exprimer avec SQL sur un modèle relationnel. La navigation a été développée avec une interface graphique permettant une visualisation
modulaire (par déploiement partiel) du graphe de connaissance formé par les dépêches.
Pour conclure, nous soulignerons que l’utilisation d’UML permet de définir précisément le
modèle de base et les points d’extension grâce à l’utilisation de stéréotypes. Il n’offre cependant pas de possibilités sur l’interrogation du modèle. Un modèle fondé sur RDFS, associé au
langage SeRQL, permet cette interrogation à la fois sur les classes et les instances ce qui est
utile pour permettre une navigation conjointe dans le modèle et dans les données.
Références
Broekstra, J., A. Kampman, et F. V. Harmelen (2002). Sesame : A Generic Architecture for
Storing and Querying RDF and RDF Schema. In Proceedings of International Semantic
Web Conference, Sardinia, Italy, pp. 54–68.
Cranefield, S. (2001). Networked Knowledge Representation and Exchange using UML and
RDF. Journal of Digital Information 1(8).
Summary
We present an approach intended to manage two aspects of a model defined with UML:
its extensibility and the possibility of navigate between the classes and instances created from
this model. We show that the transformation of UML model into a RDF schema on which is
usable SeRQL, a request language, shows interesting features to manage such aspects.
3 XML
Metadata Interchange
RNTI-E-6
- 732 -
ARABASE : Base de données Web pour l’exploitation en
reconnaissance optique de l’écriture Arabe
Noura Bouzrara*, Nacéra Madani Aissaoui**, Najoua Essoukri Ben Amara***
*Ecole Nationale d’Ingénieurs de Tunis (ENIT)
[email protected]
**Faculté des Sciences de Monastir (FSM)
[email protected]
***Ecole nationale d’Ingénieurs de Sousse (ENISO)
[email protected]
Nous proposons dans ce travail ARABASE une base de données d’images d’échantillons
d’écriture arabe pour l’exploitation en reconnaissance optique de l’écriture (OCR-Optical
Character Recognition). Cette base est implémentée sur un réseau à longue distance.
L’étude des particularités morphologiques de l’écriture arabe, dans sa forme imprimée et
manuscrite (en ligne et hors ligne), et les différents problèmes liés à l’OCR arabe, nous ont
conduit aux choix retenus au niveau de notre base de données.
Le contexte de ARABASE est diversifié (montant littéraux, noms de villes, texte libres,
ligatures, nombres, signatures...), il correspond aux différents modes d’écritures : imprimé et
manuscrit (hors ligne et en ligne). Pour chacune des classes du contexte correspondent des
sous classes associées aux mots, pseudo-mots et aux caractères qui composent l’entité
considérée. Des informations relatives à l’origine du document source et aux différents
modes d’acquisition des données sont également disponibles dans ARABASE. Un document
est produit par un périphérique d’entrée (un scanner, une tablette graphique, une
imprimante…).
Dans le cas du manuscrit, nous considérons un contexte multi-scripteurs (Essoukri Ben
Amara, 2005).
L’ensemble des informations de ARABASE est organisé dans le diagramme de classe
statique selon la méthode orientée objet UML- Unified Modelling Language (Roques, 2002),
la figure 1 donne un extrait de ce diagramme.
Plusieurs fonctionnalités sont offertes par cette application, nous citons en particulier :
- La consultation des différentes entités du contexte et des informations relatives aux
outils d’acquisition.
- Les recherches selon des critères spécifiés par l’utilisateur, qui peut être
administrateur ou client.
- La possibilité d’effectuer diverses statistiques relatives aux différents types
d’informations
En plus de ces fonctionnalités classiques, ARABASE offre la possibilité d’enrichir le
contexte de la base de données par l’ajout d’une nouvelle classe au modèle conceptuel, c'està-dire l’ajout de nouveaux vocabulaires au contexte de la base.
L’application est réalisée sous l’environnement SQL Server- Microsoft Structured Query
Language Server (Spenik et Sledge, 2001) ce qui assure la sécurité des données.
- 733 -
RNTI-E-6
ARABASE : base de données web pour AOCR
L’interface de l’application se présente sous forme de pages WEB, elle est développée
avec le langage de script PHP- Hypertext Pre-Processor Defrance (2004), constituant le
site « ARABASE ».
1
est identifié a
document
u_nombre
ref_doc
contient
0..n path_nbr 1..n se compose de
nature_doc 1
type_doc
cd_nbr
qualité
1..n
contexte_doc
1..n
0..1
ordre_nbr
code_nombre
0..n
u_montant_littéral
path_montant_littéral
path_montant_littéral_seg
0..1
cd_montant_littéral
app_montant_littéral
ordre_mot_montant
montant_littéral
num_mot_montant
num_nbr
ordre_ps_mot
num_ps_mot
ordre_carac
num_carac
1..n
0..n
1..n
se divise en
code_mot
1..n
1..n cd_mot
mot
nbr_ps_mot
code_nbr
associé
1..n
est constitué
1..n
code_pseudo_mot
cd_pseudo_mot
pseudo_mot
nbr_carac
code_caractère
cd_carac
caractère
1..n
1..n
diviser
FIG. 1 – Extrait du diagramme de classe de « ARABASE».
Références
Essoukri Ben Amara, N., O. Mazhoud, N. Bouzrara, N. Ellouze (2005). Arabase : a
relational database for Arabic OCR systems. IAJIT, 2(4) , October 2005, pp.259-266.
Defrance, J.M. (2004). PHP/MySQL avec Dreamweaver MX, Paris: Eyrolles.
Roques, P. (2002). UML par la pratique, Paris: Eyrolles.
Spenik, M. et O. Sledge (2001). SQL Server DBA, CampusPress.
Summary
In this Paper, we present a database of Arabic image writing for the use in Arabic OCR
systems. The topics addressed by ARABASE concern different styles of documents:
machine printed text, off line and on line handwriting. Data corresponds to a variety of
context: city names, literal amounts, isolated characters, digits, free texts, words/sub-words,
isolated characters. ARABASE contains also information describing the process of data
acquisition. Therefore, we use the method oriented object UML for modelling the system.
ARABASE provides multiple functionalities to their users (webmaster and clients).
RNTI-E-6
- 734 -
Archiview, un outil de visualisation topographique des paramètres d’un hôpital
Pierre P. Lévy, Jean-Philippe Villaréal, Pierre-Paul Couka,
Fabrice Gallois, Laurence Herbin, Antoine Flahault
Hôpital Tenon, INSERM U 707, 4 rue de la Chine, 75970 Paris Cedex 20
[email protected]
1 Introduction
Certains hôpitaux sont des entités complexes faites de plusieurs bâtiments plus ou moins
dispersés. Des informations importantes sont rattachées à ces bâtiments et des décisions
doivent être prises.
Or habituellement toutes ces informations sont éparpillées dans des schémas et des tableaux de chiffres de telle sorte que les décideurs qui utilisent ces données ont une représentation fragmentée de la réalité sous-jacente.
C’est dans ce contexte que nous avons décidé d’utiliser la méthode Caseview généralisé
pour créer un support permettant de convoyer de façon synthétique des informations à la fois
topographiques et quantitatives concernant un hôpital.
2 Méthode
La méthode Archiview est une méthode issue de la méthode Caseview généralisé (Lévy,
2004). Cette dernière consiste à visualiser des données au moyen d’un référentiel bidimensionnel construit en identifiant un pixel avec une entité informationnelle. Les pseudo pixels
sont alors ordonnés selon 3 critères : un critère binaire, un critère nominal et un critère ordinal.
Nominal
2
4
2
1
13
Bat1
1
1
6
4
2
1
1
6
7
Bat3
Bat2
Bat5
Bat4
Bat9
1
3
0
Bat8
Bat7
Bat6
Ordinal
2
1
1
2
Bat12
Bat11
Bat10
1
1
3
1
2
6
3
2
2
1
Bat13
Bat17
Bat16
Bat15
Bat14
Bat18
Bat19
Bat20
0
1-5
6-10
11-15
FIG.1 – Nombre de points d’archivage. La partie inférieure contient les bâtiments.
- 735 -
RNTI-E-6
Archiview, un outil de visualisation topographique
Une fois le référentiel construit on l’utilise pour visualiser des paramètres variés : chaque
valeur associée à chaque entité informationnelle est placée dans le pseudo pixel lui correspondant dans le référentiel. Puis la définition d’une échelle de couleurs permet de visualiser
le paramètre étudié. Dans la méthode Archiview les entités informationnelles sont les étages
des bâtiments d’un hôpital. Le critère nominal est un critère topographique : chaque colonne
du référentiel contient les « pixels-étages », regroupés par bâtiment, appartenant à des bâtiments proches. Le critère ordinal est l’ordre des étages : dans la zone correspondant à chaque
bâtiment les « pixels-étages » sont ordonnés de bas en haut par rapport à la base. Il n’y a pas
de critère binaire.
3 Résultats
L’exemple choisi est la visualisation du nombre de points d’archivage d’un hôpital
(FIG.1). On voit que ces points sont dispersés dans tout l’hôpital, le bâtiment 1 en ayant le
plus grand nombre.
4 Discussion
L’intérêt de la méthode est essentiellement communicationnel : cela permet à des groupes
de personnes travaillant ensemble sur un projet de pouvoir être en prise directe avec la réalité
d’un projet déclinée de façon topographique. Sur le plan formel, noter que cette méthode a
permis de transformer les trois dimensions de l’espace en 2 dimensions : la dimension Ox a
été globalement respectée grâce à la projection et la dimension Oy contient à la fois la dimension Oz de l’espace hospitalier (les bâtiments sont « couchés ») et sa dimension Oy qui
apparaît dans l’individualisation des bâtiments (les bâtiments empilés dans le référentiel
archiview sont effectivement alignés selon l’axe Oy au niveau de l’hôpital).
5 Conclusion
La méthode Archiview n’est pas spécifique d’un hôpital elle peut être appliquée en architecture, en urbanisme ainsi qu’à tout problème mettant en œuvre des données topographiques
tridimensionnelles et pouvant tirer profit d’une représentation compacte.
References
Lévy P. P. (2004) The case view a generic method of visualization of the case mix. International Journal of Medical Informatics, 73: 713-718.
Summary
Identifying a floor with a pixel Archiview method stands in two steps: defining a two dimensional reference frame and using it to visualize various data. For example this allows
giving a global view of the archive areas of a hospital.
RNTI-E-6
- 736 -
Faire vivre un référentiel métier dans l’industrie :
le système de gestion de connaissances ICARE
Alain Berger *, Pierre Mariot*, Christophe Coppens & Julien Laroque Malbert**
*Ardans sas 2,rue Héléne Boucher 78286 Guyancourt cedex
[email protected] & [email protected]
http://www.ardans.com
**PSA Peugeot Citroën – DINQ/DSIN/SIPP VVB Route de Gisy 78140 Vélizy Villacoublay
[email protected] & [email protected]
http://www.psa-peugeot-citroen.com
Résumé. La gestion des connaissances, enjeu majeur pour l’industrie, est entrée dans une phase concrète de déploiement. La conjonction d’une maturité
des organisations dans la maîtrise de leur métier, la consolidation de méthodes
et les outils évolutifs pour faire vivre un patrimoine de connaissances favorisent l’émergence de projets significatifs et leur diffusion opérationnelle au sein
de grands groupes industriels. ICARE chez PSA Peugeot Citroën réalisé avec
l’environnement Ardans Knowledge Maker en est ici l’exemple.
Au sein de la Direction Plates-formes, Techniques et Achats (DPTA) qui définit les
orientations du groupe pour répondre aux enjeux actuels majeurs du développement automobile, et qui vise le partage et la réutilisation d'un nombre maximum de pièces, de sousensembles (et de méthodes de travail) dans les projets (concept de plate-forme), la direction
de l’Ingénierie des Flux des Sites Industriels (IFSI) étudie et met en œuvre l’ensemble des
moyens logistiques du flux véhicules et du flux constituants des usines terminales du groupe.
La logique Qualité / Coût / Délai nécessite de mettre en place des organisations, des méthodes et des outils afin de travailler mieux et plus vite. Il est acquis qu’un des axes de progrès consiste à formaliser les savoir-faire à travers de recueils de connaissances.
Dans l’exemple qui nous préoccupe les attentes du métier sont bien établies :
- Capitaliser et faire partager le savoir-faire au quotidien
- Concevoir bien plus rapidement
- Gagner le temps perdu sur les reprises de dossier
- Partager les documents « métier » dans un référentiel unique
- Promouvoir la mise en œuvre de solutions « référentiel ».
Les managers sont très soucieux de réaliser une opération ICARE (Interface des bases de
Connaissances Appliquées et des Référentiels) dont la cible est ambitieuse. En effet, les
enjeux sont très clairs : respect des coûts et charges, adhésion et implication des acteurs
(Chargé d’Etudes Référentiel), pertinence de la connaissance mise à disposition des utilisateurs, accès simple à la connaissance pertinente pour décider, exhaustivité du contenu sur un
périmètre clairement défini, robustesse d’une solution industrielle. Le slogan qui accompagne le nom du projet porte toute la dynamique attendu pour l’organisation : « partageons et
enrichissons nos connaissances ».
- 737 -
RNTI-E-6
ESIEA Datalab
Logiciel de Nettoyage et Préparation de Données
Christopher Corsia*
*ESIEA pôle ECD, 9 rue vésale, 75005 Paris
[email protected]
1 Introduction
Il est communément admis que le temps de préparation des données peut occuper jusqu’à
80% du temps lors d’un projet industriel de fouille de données (Pyle, 1999). L’hétérogénéité
des sources, la présence de valeurs manquantes, les erreurs de saisie ou de calcul, les pannes
de capteurs, une mauvaise fusion de données sont autant de causes qui peuvent introduire
erreurs et incohérences dans une table de données. ESIEA Datalab est une plateforme évolutive programmée en Java qui met à disposition de nombreux outils pour aider à la détection
d’incohérences, la correction d’erreurs, la transformation ou la contrainte de variables, etc.
2 Le concept du logiciel
Le nettoyage et la préparation de données peuvent être vus sous la forme d’un processus
représenté par la figure 1.
FIG. 1 – Le nettoyage et la préparation de données vus comme un processus.
Le logiciel n’impose pas ce processus à l’utilisateur, mais fournit tous les outils nécessaires à sa réalisation. En parallèle, le nettoyage et la préparation des données sont tracés dans
- 739 -
RNTI-E-6
ESIEA Datalab, un logiciel de nettoyage et préparation de données
la console afin de pouvoir retrouver toutes les transformations et modifications effectuées sur
les données et des agents fonctionnent en tâche de fond pour faire des suggestions et orienter
l’utilisateur.
3 Les outils
Outre un vaste ensemble d’outils classiques, dans lesquels les algorithmes utilisés ont été
adaptés à un contexte où toute valeur peut être manquante ou bien en erreur, ESIEA Datalab
possède quelques outils originaux puissants qui permettent de traiter facilement des cas difficiles de nettoyage ou d’offrir des moyens de visualisation intéressants.
Type structuré. Grâce à la notion de type structuré, le logiciel est capable de détecter des
erreurs dans des données symboliques possédant une structure. Une fois la structure d’une
colonne spécifiée ou inférée, on peut contraindre les éléments de la structure à l’aide de formules et mettre ainsi en erreur les valeurs ne respectant pas l’une des contraintes.
Outils de visualisation. Parmi les outils de visualisation disponibles, ESIEA Datalab dispose de graphiques interactifs (matrice de nuages de points, coordonnées parallèles, etc.) qui
permettent la sélection de valeurs et la réalisation d’actions sur celles-ci. On trouve aussi des
outils originaux comme la carte « vue d’avion ». C’est un graphique qui représente dans une
forme condensée toute une table, que l’on va utiliser avec des filtres qui vont colorer une
sélection de valeurs. On a ainsi une vision totale de la table qui peut par exemple nous aider à
estimer la densité des valeurs manquantes ou bien détecter des motifs.
4 Conclusion
ESIEA Datalab est un logiciel évolutif dont la simplicité d’utilisation des outils et les
fonctionnalités adaptées permettent d’obtenir un gain de temps important sur le nettoyage et
la préparation des données. Plusieurs améliorations sont en projet, notamment l’ajout d’une
passerelle vers la librairie Java WEKA (Witten et Eibe, 2005).
Références
Pyle, D. (1999). Data Preparation for Data Mining. Morgan Kaufmann.
Witten, I.H. et F. Eibe (2005). Data Mining: Practical Machine Learning Tools and Techniques. San Francisco: Morgan Kaufmann.
Summary
ESIEA Datalab is an evolvable Java software program which goal is to clean and prepare
data before an analysis. The software looks like a toolbox ready to use, including some interactive visualisation tools, suggestion agents and advanced functionalities implementing Data
Mining algorithms.
RNTI-E-6
- 740 -
Méthode de récolte de traces de navigation sur interface
graphique et visualisation de parcours
Marc Damez1
Pôle IA, LIP6, UPMC, 8 rue du Capitaine Scott 75015 Paris, France
[email protected]
Les modèles utilisateurs se servant de données provenant des interfaces graphiques ont de
multiples objectifs comme la classification de comportement en ligne, la détection d’action
critique, des systèmes d’aide automatique, la caractérisation de navigation, l’utilisablité des
interfaces, etc. Une méthode d’extraction de traces d’interaction générique permettant un
grand nombre d’analyses est présenté ici. Afin d’aider les analyses dans le traitement de ces
données complexes, un système de visualisation de ces traces est également proposé.
1 Méthode de récolte de trace de navigation sur une interface
graphique
Les travaux de modélisation utilisateurs actuels utilisant des fichiers de traces se servent
généralement d’une structure linéaire de fichier dont les données peuvent être issue de différentes sources. L’information contenue dans ces structures est généralement très redondante.
FIG. 1 – Visualisation de parcours
Aussi, nous proposons de générer les traces directement en XML, structure en arbre permettant de réduire une partie de cette redondance. Cette méthode a été développé pour un
hypermédia (Mozilla), un système d’exploitation (Linux) et est applicable à tout type de
logiciel. La structure en arbre est organisée comme suit : la racine contient les informations
de « session » en cours (nom de l’utilisateur, date, etc.) ; ensuite, le plus haut niveau de
1
Ce travail a été réalisé en collaboration CIFRE avec l’entreprise SEJER.
- 741 -
RNTI-E-6
Récolte de trace de navigation et visualisation de parcours
l’arbre, le « contexte », est conteneur de la cible de l’évènement ; le niveau suivant est le
niveau de la «cible» de l’évènement (nom, description, référence de l’objet, etc.) ; un niveau
intermédiaire peut être ajouté si la manipulation de l’interface conduit à trop d’éléments du
dernier niveau (sémantique d’«action» de l’utilisateur) ; les feuilles de l’arbre contiennent la
description de l’«évènement» (type, date et attribut spécifique de l’évènement).
Pour des fichiers de petite taille, l’utilisation d’outils optimisés comme XSLT, XPath, et
les parseurs SAX et DOM permettront d’obtenir directement des statistiques intéressantes.
Pour des analyses sur de plus longue période l’utilisation d’une interface, une base de données est recommandée. Chaque niveau de l’arbre peut alors être stocké dans des tables différentes lesquelles représentant une sémantique particulière de l’évènement.
2 Visualisation de parcours
Les traces générées contiennent à la fois des informations sur les actions de l’utilisateur et
sur les objets graphiques de l’interface sur lesquels portent les actions. La Figure 1 représente
le parcours de trois utilisateurs, un par couleur, sur une interface multimédia. Pour une analyse portant sur une tâche réalisée par un ensemble d’utilisateur et définit en séquence de
sous tâches, un outil de sélection de cette sous séquence permet de faire apparaître celle-ci
sur le schéma. On peut ainsi comparer les différentes façons qu’ont les utilisateurs pour réaliser une même sous tâche. Plusieurs autres outils ont été développé : une fonction de zoom
pour les traces temporellement longues; un outil de sélection de trace visible, pour l’analyse
d’un grand nombre de traces ; un outil de normalisation du temps permet de comparer plus
facilement le séquençage des actions de l’utilisateur.
3 Conclusion
Cette méthode a été implémentée pour diverses expériences : réalisation d’un compagnon
d’aide au logiciel AbiWord (Hankach, 2005) et un système de classification d’utilisateur en
ligne (Damez et al, 2005). Un outil d’aide à la pédagogie différentiée actuellement en cours
de réalisation est basé sur l’observation du comportement des élèves sur des manuels scolaires électroniques. L’outil de visualisation a été présenté à des psychologues cogniticiens pour
permettre l’automatisation de certaines analyses des processus cognitifs.
Références
Hankach, P. Aide contextualisée à l’utilisateur d’un dispositif numérique. DEA, LIP6.
Damez M., Dang T.H., Marsala C., Bouchon-Meunier B. Fuzzy Decision Tree for User
Modeling From Human-Computer Interactions. ICHSL 2005.
Summary
Data issued from graphical user interface to automate user modelling are usually depending on the analysis of the research. A general method to generate traces from human computer interaction that can be useful for a lot of models is presented here.
RNTI-E-6
- 742 -
Teximus Expertise :
un logiciel de gestion de connaissances
Olivier Gerbé*
*Technologies Teximus inc.
33 rue Prince #313, Montréal (Québec) Canada H3C 2M7
[email protected]
http://www.teximus.com
Résumé. Le logiciel Teximus Expertise est un outil évolué de gestion dynamique de connaissances basé sur les notions de référentiel sémantique. Cette suite
intégrée facilite le partage de connaissances et d’informations dans les entreprises.
1 Refléter le vocabulaire du métier
Teximus Expertise incorpore un outil interactif qui permet aux experts d’un domaine de
travailler en utilisant les concepts clés de leur métier. Le logiciel reflète exactement ces
concepts et, plus important encore, leur interrelation.
Dans le domaine de la formation, ce vocabulaire parlera de cours, de module, de matériel,
d’exercices, d’évaluations, de suggestions, de demandes de changements, de clientèles cibles, de variantes, de versions, etc.
Dans une application Teximus, chacun de ces concepts est reflété directement dans la
base de données.
2 Environnement interactif de capture
Les caractéristiques d’édition permettent la saisie sur-le-champ et de façon intuitive, tout
en garantissant la cohérence de l’information. Pour chaque type de contenu du domaine
d’expertise, l’outil définit des fiches de connaissance qui permettent d’entrer l’information.
Dès qu’un concept est défini, il est possible de saisir l’information, instantanément.
Teximus Expertise utilise également les fiches de connaissance pour créer des liens hypertextes, de façon intuitive et sans entretien. Si un objet change de nom, tous les liens hypertextes qui s’y réfèrent changent aussi automatiquement, peu importe leur emplacement,
qu’ils soient à l’intérieur d’un texte ou d’une image.
3 Présentation Web instantanée
Teximus Expertise inclut un assistant à la présentation pour la création de pages Web qui
permettent de visualiser et d’éditer le contenu. L’assistant permet d’agencer et de cacher les
- 743 -
RNTI-E-6
Un logiciel permettant d’apprendre des règles et leurs
exceptions : Area
Sylvain Lagrue∗ , Jérémie Lussiez∗ , Julien Rossit∗
∗
CRIL - Université d’Artois
Faculté des Sciences Jean Perrin
Rue Jean Souvraz - SP 18
62307 Lens Cedex
[email protected]
[email protected]
[email protected]
1
Problématique
Le raisonnement à base de règles générales pouvant comporter différentes exceptions et
le raisonnement non-monotone sont des domaines qui ont été bien étudiés et formalisés en
Intelligence Artificielle. Ainsi, le Système P (Kraus et al., 1990) fournit un ensemble de postulats de rationalité permettant de définir les conclusions plausibles pouvant être obtenues à
partir d’un ensemble de règles pouvant contenir des exceptions. De plus, différentes méthodes
de raisonnement, en accord avec le Système P , ont été proposées. Une question cependant
subsistait : comment obtenir de telles règles à partir d’informations fréquentielles, en d’autres
termes, comment apprendre de telles règles ?
De récents travaux ont montré comment se baser sur des distributions de probabilités particulières, les distributions de probabilités à grandes marches (Snow, 1999), afin d’obtenir des
règles et leurs exceptions. Dans une distributions de probabilités à grandes marches, chaque
élément à une probabilité supérieure à la somme des probabilités des évènements qui lui sont
moins probables. Contrairement aux approches classiques basées sur les règles associatives,
les règles ainsi extraites peuvent être utilisées dans le cadre du raisonnement non-monotone,
en accord avec le Système P et avec la base initiale (Benferhat et al., 2003).
Cependant, ces distributions de probabilités à grandes marches ne peuvent être obtenues
qu’en regroupant les différents individus de la base (simple) d’apprentissage, chaque regroupement pouvant aboutir à des ensembles de règles différents et incompatibles. À ce jour, aucun
algorithme de regroupement réellement satisfaisant, tant d’un point de vue de temps de calcul
que des règles générées, n’avait été proposé.
Les contributions de ce travail se déclinent en deux points principaux :
– la proposition de différents algorithmes de regroupement d’où des règles peuvent être
générées ;
– l’implémentation de ces différents algorithmes afin de les valider (tant sur les temps de
calcul que sur la qualité des règles extraites).
- 745 -
RNTI-E-6
Un logiciel permettant d’apprendre des règles et leurs exceptions : Area
2 Présentation de la méthode et du logiciel
L’extraction des règles depuis la base d’observations se décompose en 3 phases bien distinctes : une phase de dénombrement de chaque observation ; une phase de regroupement de
ces observations afin d’obtenir des distributions à grandes marches ; une phase d’extraction
des règles à partir du regroupement précédent.
La phase de regroupement est une phase déterminante pour la génération de règles. En
effet, l’unique moyen d’influer sur la qualité et la pertinence des règles apprises se situe donc
dans la construction des différentes classes de la base initiale. Or, il est impossible de calculer
tous les regroupements possibles et de choisir le meilleur, le nombre de ces regroupements
étant exponentiel.
Le logiciel. Le logiciel en démonstration et développé par les auteurs, Area, comporte différents algorithmes reposant sur différents facteurs, le but de chacun de ces algorithmes étant
de tendre vers un regroupement optimal permettant de générer le meilleur ensemble de règles
possible. Le logiciel offre également la possibilité de modifier les regroupements générés par
les algorithmes, au moyen d’outils de manipulation des regroupements permettant à un utilisateur de déplacer les observations. Ces fonctions permettent d’affiner les règles apprises par le
système.
Il peut être noté que la robustesse d’une règle dépend du regroupement dont elle est issue : plus la règle provient d’un regroupement avec une population élevée (ie. plus elle est
générique) moins elle sera sensible à l’ajout de nouveaux éléments dans la base.
Limites et perspectives. De par le formalisme dont il est issu, le moteur d’Area ne permet
actuellement l’apprentissage de règles qu’à partir des bases d’observations décrites suivant
des attributs binaires. Or, la plupart des attributs contenus dans des bases réelles ne sont pas
binaires. Des attributs multivalués devraient pouvoir être discrétisés et binarisés. De plus, une
validation beaucoup plus poussée devra être effectuée afin de tester nos algorithmes. Un vaste
champ d’investigation pour ces algorithmes pourrait être la sécurité et la détection d’intrusion.
Références
Benferhat, S., D. Dubois, S. Lagrue, et H. Prade (2003). A big-stepped probability approach for
discovering default rules. International Journal of Uncertainty, Fuzziness and KnowledgeBased Systems (IJUFKS) 11, 1–14.
Kraus, S., D. Lehmann, et M. Magidor (1990). Nonmonotonic reasoning, preferential models
and cumulative logics. Artificial Intelligence 44, 167–207.
Snow, P. (1999). Diverse confidence levels in a probabilistic semantics for conditional logics.
Artificial Intelligence 113, 269–279.
Summary
Area is a Java software which purpose is to extract default rules from simple databases.
The main property of these rules is to be compatible with the System P of Kraus, Lehmann
and Magidor. Hence, these rules can be used with non-monotonic reasoning systems.
RNTI-E-6
- 746 -
Téléchargement