Extraction et gestion des connaissances : EGC`2007

publicité
Revue des Nouvelles Technologies de l’Information
Sous la direction de Djamel A. Zighed et Gilles Venturini
RNTI-E-9
Extraction
et gestion des connaissances :
EGC'2007
Rédacteurs invités :
Monique Noirhomme-Fraiture
(Facultés Universitaires Notre-Dame de la Paix,
Namur, Belgique)
Gilles Venturini
(Université François-Rabelais de Tours)
Volume I
CÉPADUÈS-ÉDITIONS
111, rue Vauquelin
31100 TOULOUSE – France
Tél. : 05 61 40 57 36 – Fax : 05 61 41 79 89
(de l’étranger ) + 33 5 61 40 57 36 – Fax : + 33 5 61 41 79 89
www.cepadues.com
courriel : [email protected]
Chez le même éditeur
RNTI-Revue des Nouvelles Technologies de l'Information
Sous la direction de Djamel A. Zighed et Gilles Venturini
n°1 : Entreposage fouille de données
E1 : Mesures de qualité pour la fouille de données
E2 : Extraction et gestion des connaissances EGC 2004
C1 : Classification et fouille de données
E3 : Extraction et gestion des connaissances EGC 2005
B1 : 1re Journée Francophone sur les Entrepôts de Données
et l’Analyse en ligne EDA 2005
E4 : Fouille de données complexes
E5 : Extraction des connaissances : Etat et perspectives
E6 : Extraction et gestion des connaissances EGC 2006
E7 : Visualisation en extraction des connaissances
E8 : Systèmes d'Information pour l'Aide à la Décision
en Ingénierie Système
B2 : 2re Journée Francophone sur les Entrepôts de Données
et l’Analyse en ligne EDA 2006
Ensemble composé de 2 volumes :
978 2 85428 765 3 (volume I)
978 2 85428 766 0 (volume II)
© CEPAD 2007
ISBN : 978.2.85428.763.9
Le code de la propriété intellectuelle du 1 juillet 1992 interdit expressément la photocopie
à usage collectif sans autorisation des ayants droit. Or, cette pratique en se généralisant
provoquerait une baisse brutale des achats de livres, au point que la possibilité même pour les
auteurs de créer des œuvres nouvelles et de les faire éditer correctement serait alors menacée.
er
Nous rappelons donc que toute reproduction, partielle ou totale, du présent ouvrage est
interdite sans autorisation de l'éditeur ou du Centre français d'exploitation du droit de copie
(CFC – 3, rue d'Hautefeuille – 75006 Paris).
Dépôt légal : janvier 2007
N° éditeur : 76300
LE MOT DES DIRECTEURS DE LA COLLECTION RNTI
Chères Lectrices, Chers Lecteurs,
La Revue des Nouvelles Technologies de l’Information a publié pour l’année 2006 plus
de 1800 pages d’articles scientifiques dans les domaines liés à l’Extraction de connaissances
à partir des Données (ECD), la Fouille de données (FD), la Gestion des connaissances (GC).
Cette revue a pour objectif d’être un outil de communication de très grande qualité et ouvert à
tous. A ce titre, RNTI accueille deux types de numéros (pour lesquels une procédure d’évaluation à trois relecteurs est systématiquement mise en place) :
– des numéros à thème faisant l’objet d’un appel à communication. Chaque numéro à
thème est édité par un ou plusieurs rédacteurs en chef invités. Un comité de programme
spécifique d’une quinzaine de personne est formé à cette occasion. Si vous avez un projet
éditorial vous pouvez nous le soumettre et s’il est dans le créneau de RNTI vous serez
désigné rédacteur invité et vous vous chargerez ensuite de manière libre et indépendante
de la mise en place de la collecte, l’évaluation, la sélection et la publication du numéro,
– des actes de conférences sélectives garantissant une haute qualité des articles. Si vous
présidez une conférence proche des thématiques accueillies par RNTI, vous pouvez nous
contacter.
Dans le présent numéro, nous publions les papiers sélectionnés par la conférence EGC’2007
qui se tient à Namur (Belgique) du 23 au 26 janvier 2007. Nous tenons à remercier particulièrement les organisateurs de cette conférence ainsi que l’association EGC pour la confiance
qu’ils accordent à cette revue et nous les félicitons pour la qualité du travail accompli. Nous
espérons vivement que ce numéro vous donnera à toutes et à tous une entière satisfaction. Pour
tout renseignement, nous vous invitons à consulter notre site Web et à nous contacter.
Djamel A. Zighed et Gilles Venturini.
http ://www.antsearch.univ-tours.fr/rnti
- iii -
RNTI-E-9
RNTI-E-9
PRÉFACE
La sélection d’articles publiés dans le présent recueil constitue les actes des septièmes
journées Extraction et Gestion des Connaissances (EGC’2007) qui se sont tenues à Namur,
Belgique, du 23 au 26 janvier 2007. Comme les précédentes conférences EGC, ces journées
francophones sont consacrées à toutes les problématiques, théories, méthodes et applications
de la fouille de données, de l’apprentissage, de l’extraction et de la gestion de connaissances.
Il s’agit de rassembler les chercheurs d’entreprises ou universitaires de ces domaines afin de
communiquer des travaux de qualité, d’échanger et de fertiliser des idées nouvelles.
Lors de cette septième édition, 136 propositions d’articles ou de démonstrations ont été
soumises : 57 ont été acceptées en papiers longs (ou courts mais sans réduction de pages), 10
en papiers courts, 18 en posters et 8 en démonstrations. Ce volume de soumissions ainsi que
le taux de sélection illustrent à la fois le dynamisme de cette communauté scientifique ainsi
que la qualité des travaux menés dans ce domaine. En ce qui concerne le comité de lecture de
la conférence, celui-ci a été à nouveau agrandi avec notamment une ouverture importante vers
des chercheurs francophones internationaux.
Les articles de ce numéro sont regroupés selon les sessions dans lesquelles ils ont été
présentés, et dans l’ordre chronologique. Ces regroupements thématiques sont, d’une certaine
manière, arbitraires : de nombreux autres arrangements auraient été possibles, aussi nous invitons les lecteurs à parcourir l’ensemble des titres pour se faire une idée de la couverture d’un
domaine particulier, plutôt que de s’en tenir uniquement aux intitulés des sessions.
Remerciements
Nous tenons à remercier tous les auteurs qui ont soumis des articles à cette conférence.
Nous félicitons ceux dont la proposition a été acceptée, et nous espérons que les commentaires
des relecteurs auront été constructifs et encourageants pour les autres auteurs. Nous espérons
que cette conférence et ce numéro seront profitables à tous.
Compte tenu du grand nombre de relectures (trois relecteurs par article donnent lieu à près
de 400 relectures), nous tenons à remercier tous les membres du comité de lecture pour leur
travail et les commentaires qu’ils ont pu fournir aux auteurs.
Nous tenons à remercier et féliciter particulièrement le comité d’organisation : un grand
merci à eux pour tout le temps qu’ils ont consacré au succès de cette conférence, et en particulier Hakim Hacid pour la gestion du site de soumission, Jérôme David pour les inscriptions,
Babette Di Guardia pour la réalisation du programme, Nicolas Pagès pour la réalisation et la
gestion du site de la conférence, Arnaud Jasselette et Etienne Cuvelier pour l’organisation des
ateliers et tutoriaux et Isabelle Daelman pour le secrétariat.
Cette conférence ne pourrait voir le jour sans le soutien de l’Association EGC, soutien qui
s’exprime de multiples manières : parution des actes, organisation locale, dotation de deux prix
attribués lors de la conférence.
Enfin, nous remercions spécialement pour leur soutien financier et logistique la société
SAS, les Facultés Universitaires Notre-Dame de la Paix et la Province de Namur.
Monique Noirhomme-Fraiture et Gilles Venturini.
-v-
RNTI-E-9
Président d’honneur d’EGC’2007 : Einoshin Suzuki, Université de Kyushu, Japon.
Le Comité de lecture de ce numéro est constitué des Comités de programme EGC’2007 et de
pilotage de EGC.
Comité de programme EGC’2007, sous la présidence de Gilles Venturini :
A. Alibrandi (U. Messine, I)
M. Bécue-Bertaut (U. Polytechnique de Catalogne, E)
N. Belkhiter (U. Laval, CND)
S. Benbernou (LIRIS, U. Lyon 1, F)
Y. Bennani (LIPN, U. Paris 13, F)
G. Berio (U. Turin , I)
H. Bock (U. Aachen , A)
P. Bosc (IRISA/ENSSAT, U. Rennes 1, F)
F. Bouali (U. Lille 2, F)
S. Boucheron (LPMA, U. Paris 7, F)
P. Brito (U. Porto, P.)
P. Cazes (CEREMADE, U. Paris Dauphine, F)
F. Chateau (U. Lyon 2, F.)
M. Chavent (MAB, U. Bordeaux 1, F)
F. Cloppet (CRIP5, U. Paris 5, F)
A. Cornuejols (LRI, U. Paris Sud, F)
B. Crémilleux (GREYC, U. Caen, F)
F. D’Alché-Buc (LAMI, U. Evry-Val d’Esonne, F)
J. Darmont (ERIC, U. Lyon 2, F)
D. Defays (U. Liège, B)
M. Delest (LaBRI, U. Bordeaux 1, F)
E. Diday (CEREMADE, U. Paris 9, F)
R. Dieng-Kuntz (INRIA, Sophia Antipolis, F)
C. Djeraba (LIFL, U. Lille, F)
S. Faiz (LTSIRS, INSAT, T)
G. Falquet (CUI, U. de Genève, CH)
A. M. Florea (U. Polytechnique de Bucarest, RO)
C. Froidevaux (LRI, U. Paris Sud, F)
P. Gallinari (LIP 6, U. Pierre et Marie Curie, F)
J.-G. Ganascia (LIP 6, U. Pierre et Marie Curie, F)
P. Gancarski (U. Louis Pasteur, Strasbourg, F)
C. Garbay (TIMC-IMAG, Grenoble, F)
G. Gardarin (PRISM, U. Versailles Saint-Quentin, F)
A. Giacometti (U. Tours, antenne de Blois, F)
R. Gilléron (INRIA Futurs Lille, F)
C. Golbreich (LIM, U. de Rennes 1, F)
G. Govaert (Heudiasyc, U. de Technologie Compiègne, F)
C. Guinot (CERIES, U. Biométrie et Epidémiologie, F)
A. Hardy (U. de Namur, Belgique)
C. Jacquemin (LIMSI, CNRS, F)
F. Jaquenet (EURISE, U. de Saint-Etienne, F)
P. Kuntz (Ecole Polytechnique de l’U. de Nantes, F)
L. La Tona (U. Messine, Italie)
S. Lallich (ERIC, Lyon2, F)
M. Lamure (U. Lyon 1, F)
L. Lancieri(France Telecom R&D, F)
A. Laurent (LIRMM-Polytech’Montpellier, F)
A. Lazraq (ENIM, Ecole des Mines de Rabat, M)
J. Le Maitre (LSIS, U. Sud Toulon-Var, F)
Y. Lechevallier (INRIA Rocquencourt, F)
P. Lenca (GET/ENST Bretagne, Brest, F)
P. Leray (PSI / INSA Rouen, F)
I.-C. Lerman (IRISA, U. Rennes 1, F)
S. Loiseau (LERIA, U. d’Angers, F)
R. Missaoui (DII, U. Québec en Outaouais, CND)
A. Morineau (MODULAD, F)
A. Napoli (LORIA, Nancy, F)
S. Nugier (EDF R&D, F)
M. Noirhomme-Fraiture (FUNDP, B)
J.-M. Ogier (L3I, U. de La Rochelle, F)
C. Pellegrini (CUI, U. de Genève, CH)
S. Pinson (LAMSADE, U. Paris Dauphine, F)
P. Poncelet (Ecole des Mines d’Alès/LGI2P, F)
F. Poulet (ESIEA, Pôle ECD, Laval, F)
J.-P. Rasson (FUNDP, B)
J.-C. Régnier (SDP, U. Lyon 2, F)
M. Rémon (FUNDP, B)
C. Reynaud (LRI, U. Paris-Sud 11, F)
G. Ritschard (U. de Genève, S)
C. Roche (CONDILLAC, U. de Savoie, F)
M.-C. Rousset (IMAG, Grenoble, F)
L. Saitta (U. Piemonte Orientale, I)
I. Saleh (Paragraphe, U. Paris 8, F)
G. Saporta (CNAM, Chaire de Stat. Appl. Paris, F)
M. Schneider (LIMOS, U. Clermont Ferrand II, F)
M. Sebban (U. Saint-Etienne, France)
F. Sèdes (IRIT U. Toulouse 3, F)
F. Spagnolo (U. Palermo, I)
E. G. Talbi (LIFL, U. Lille, F)
M. Teisseire (LIRMM, U. Montpellier 2, F)
F. Toumani (LIMOS, U. Clermont-Ferrand, F)
S. Trausan-Matu (U. Polytechnique de Bucarest, RO)
B. Trousse (INRIA, Sophia Antipolis, F)
R. Verde (Facoltà di Studi Politici « Jean Monnet », I)
M. Verleysen (U. catholique de Louvain, B)
N. Vincent (CRIP5-SIP, U. Paris 5, F)
C. Vrain (LIFO, U. Orléans, F)
L. Wehenkel (U. de Liège, B)
J. Wijsen (U. Mons-Hainaut, B)
K. Zreik (GREYC, U. Caen, F)
Comité de pilotage EGC, sous la présidence de Henri Briand :
Danielle Boulanger (IAE, U. Lyon 3)
Régis Gras (LINA, U. de Nantes)
Fabrice Guillet (LINA, U. de Nantes)
Mohand-Saïd Hacid (LIRIS, U. Lyon 1)
Georges Hébrail (ENST, Paris)
Danièle Hérin (LIRMM, U. Montpellier 2)
RNTI-E-9
- vi -
Yves Kodratoff (LRI, U. Paris-sud)
Ludovic Lebart (ENST, Paris)
Jean-Marc Petit (LIRIS, INSA Lyon)
Jacques Philippé (PerfomanSe)
Djamel Zighed (ERIC, U. Lyon 2)
Relecteurs non membres du Comité de lecture :
Hanane Azzag, Emmanuel Blanchard, Lydia Boudjeloud, Max Chevalier, Anicet Choupo, Emmanuel Coquery, MarieOdile Cordier, Fabien De Marchi, Daniel Defays, Antonio Di Leva, Thanh-Nghi Do, Benoît Encelle, David Genest, Moultazem Ghazal, Philippe Guinot, Allel Hadjali, Ollivier Haemmerlé, Céline Hébert, Hélène Jaudoin, PierreEmmanuel Jouve, Balasz Kegl, Mathieu Lafourcade, Mustapha Lebbah, Haoyuan Li, Sorin Moga, Abdenour Mokrane,
Hassina Mouloudi, Noël Novelli, Brigitte Patouille, André Péninou, Bruno Pinaud, Olivier Pivert, Marc Plantevit, Saïd
Radhouani, Thomas Raimbault, Chedy Raissi, Sylvie Ranwez, Daniel Rocacher, Mathieu Roche, Brigitte Safar, Arnaud Soulet, Fariza Tahi, Rafik Taouil, Benoît Vaillant, Farida Zehraoui.
Comité d’organisation, sous la présidence de Monique Noirhomme-Fraiture :
Maher Chemseddine (Institut d’Informatique, FUNDP, Namur, Belgique)
Radu Cotet (Institut d’Informatique, FUNDP, Namur, Belgique)
Etienne Cuvelier (Institut d’Informatique, FUNDP, Namur, Belgique)
Jérôme David (LINA, Université de Nantes, France)
Babette di Guardia (Institut d’Informatique, FUNDP, Namur, Belgique)
Isabelle Daelman (Institut d’Informatique, FUNDP, Namur, Belgique)
Hakim Hacid (ERIC, Université de Lyon 2, France)
André Hardy (Département de Mathématiques, FUNDP, Namur, Belgique)
Arnaud Jasselette (Institut d’Informatique, FUNDP, Namur, Belgique)
Marc Keita (Institut d’Informatique, FUNDP, Namur, Belgique)
Nedjma Meksoud (Institut d’Informatique, FUNDP, Namur, Belgique)
Nicolas Pagès (Institut d’Informatique, FUNDP, Namur, Belgique)
Frédéric Randolet (Institut d’Informatique, FUNDP, Namur, Belgique)
Gabriel Schwanen (Institut d’Informatique, FUNDP, Namur, Belgique)
Responsable des soumissions de démonstrations : Mohand-Said Hacid (LIRIS, Université de Lyon 1)
- vii -
RNTI-E-9
RNTI-E-9
TABLE DES MATIÈRES
Conférences invitées
Peut-on Capturer la Sémantique à Travers la Syntaxe ?
- Découverte des Règles d’Exception Simultanée -,
Einoshin Suzuki....................................................................................................1
Interestingness in Data Mining,
Howard Hamilton..................................................................................................3
Finding interesting queries in relational databases,
Bart Goethals.........................................................................................................5
Clustering : from model-based approaches to heuristic algorithms,
Hans Hermann Bock.............................................................................................7
Session SVM et approches neuronales
Une étude des algorithmes de construction d’architecture
des réseaux de neurones multicouches,
Norbert Tsopzé, Engelbert Mephu Nguifo, Gilbert Tindo..................................9
Régression floue et crédibiliste par SVM pour la classification
des images sonar,
Hicham Laanaya, Arnaud Martin, Driss Aboutajdine, Ali Khenchaf............. 21
Combinaison des cartes topologiques mixtes et des machines
à vecteurs de support : Une application pour la prédiction
de perte de poids chez les obèses,
Mohamed Ramzi Temanni, Mustapha Lebbah,
Christine Poitou-Bernert, Karine Clement, Jean-Daniel Zucker...............33
Session Web sémantique
Caractérisation des transitions temporisées dans les logs
de conversation de services Web,
Didier Devaurs, Fabien De Marchi, Mohand-Saïd Hacid.................................45
Construction coopérative de carte de thèmes :
vers une modélisation de l’activité socio-sémantique,
L’Hédi Zaher, Jean-Pierre Cahier, Christophe Lejeune, Manuel Zacklad...... 57
Apport du Web sémantique dans la réalisation d’un moteur
de recherche géo-localisé à usage des entreprises,
Frédéric Triou, Fabien Picarougne, Henri Briand............................................69
- ix -
RNTI-E-9
Session Statistiques
Mesure d’entropie asymétrique et consistante,
Djamel A. Zighed , Simon Marcellin, Gilbert Ritschard................................... 81
Une règle d’exception en Analyse Statistique Implicative,
Régis Gras, Pascale Kuntz, Einoshin Suzuki....................................................87
Optimal histogram representation of large data sets :
Fisher vs piecewise linear approximations,
Antonio Irpino, Elvira Romano..........................................................................99
Une approche non paramétrique Bayesienne pour l’estimation
de densité conditionnelle sur les rangs,
Carine Hue, Marc Boullé................................................................................... 111
Application des réseaux bayésiens à l’analyse des facteurs
impliqués dans le cancer du Naso-pharynx,
Alexandre Aussem, Sergio Rodrigues de Morais, Marilys Corbex................123
Session Visualisation
Construction incrémentale et visualisation de graphes de voisinage
par des fourmis artificielles,
Julien Lavergne, Hanene Azzag, Christiane Guinot, Gilles Venturini.........135
Visualisation de graphes avec Tulip : exploration interactive
de grandes masses données en appui à la fouille de données
et à l’extraction de connaissances,
David Auber, Yves Chiricota, Maylis Delest, Jean-Philippe Domenger,
Patrick Mary, Guy Melançon....................................................................... 147
Visualisation exploratoire des résultats d’algorithmes d’arbre de décision,
Thanh-Nghi Do, Nguyen-Khang Pham, François Poulet............................... 157
Validation des visualisations de données numériques et textuelles,
Ludovic Lebart...................................................................................................169
Session Démonstrations de logiciels
Logiciel d’aide à l’évaluation des catégorisations,
Julien Velcin, William Vacher, Jean-Gabriel Ganascia.................................. 175
Un segmenteur de texte en phrases guidé par l’utilisateur,
Thomas Heitz..................................................................................................... 177
L’outil SDET pour le complètement des données descriptives
liées aux bases de données géographiques,
Khaoula Mahmoudi, Sami Faïz........................................................................ 179
RNTI-E-9
-x-
Extraction de données sur Internet avec Retroweb,
Fabrice Estiévenart, Jean-Roch Meurisse....................................................... 181
RAS : Un outil pour l’annotation de documents basée
sur les liens de citation,
Lylia Abrouk, Danièle Hérin.............................................................................183
Un outil pour la visualisation de relations entre gènes,
Marie Agier, Jean-Marc Petit...........................................................................185
Traitement et exploration du fichier Log du Serveur Web,
pour l’extraction des connaissances : Web Usage Mining,
Mostafa Hanoune, Faouzia Benabbou.............................................................. 187
SyRQuS - Recherche par combinaison de graphes RDF,
Adrian Tanasescu..............................................................................................189
Session Posters
Une méthode d’interprétation de scores,
Vincent Lemaire, Raphaël Féraud.................................................................... 191
Annotation et navigation de données archéologiques,
Bernardo Lopez, Samira Hammiche, Samir Sebahi,
Mohand-Saïd Hacid......................................................................................193
Utilisation de WordNet dans la catégorisation de textes multilingues,
Mohamed Amine Bentaallah, Mimoun Malki.................................................195
Une nouvelle méthode d’alignement et de visualisation
d’ontologies OWL-Lite,
Sami Zghal, Karim Kamoun, Sadok Ben Yahia,
Engelbert Mephu Nguifo..............................................................................197
Vers un algorithme multi-agents de clustering dynamique,
Gaële Simon, Dominique Fournier, Bruno Mermet........................................199
Notion de conversation dans les communications interpersonnelles
instantanées sur IP,
Alexandre Bouchacourt, Luigi Lancieri..........................................................201
Préservation de l’Intimité dans les Protocoles de Conversations,
Nawal Guermouche, Salima Benbernou, Emmanuel Coquery,
Mohand-Said Hacid......................................................................................203
Calcul et représentation efficace de cubes de données
pour une visualisation orientée pixel,
Noël Novelli, David Auber.................................................................................205
- xi -
RNTI-E-9
Génération et enrichissement automatique de listes de patrons
de phrases pour des applications aux moteurs de questions-réponses,
Cédric Vidrequin, Juan-Manuel Torres-Moreno,
Jean-Jacques Schneider, Marc El-Beze.......................................................207
Construction d’ontologie à partir de textes,
Rokia Bendaoud, Yannick Toussaint, Amedeo Napoli....................................209
WebDocEnrich : enrichissement sémantique flexible de documents
semi-structurés,
Mouhamadou Thiam, Nacéra Bennacer, Nathalie Pernelle........................... 211
Méthodes statistiques et modèles thermiques compacts,
Grégory Mallet, Philippe Leray, Hubert Polaert............................................. 213
Détermination du niveau de consommation des abonnés
en téléphonie mobile par la théorie des ensembles flous,
Rachid El Meziane, Ilham Berrada, Ismail Kassou, Karim Baina............... 215
Session Entrepôt de données et règles d’association
Intégration des connaissances utilisateurs pour des analyses
personnalisées dans les entrepôts de données évolutifs,
Cécile Favre, Fadila Bentayeb, Omar Boussaïd.............................................. 217
Des fonctions d’oubli intelligentes dans les entrepôts de données,
Aliou Boly, Sabine Goutier, Georges Hébrail...................................................223
Vers une plate-forme interactive pour la visualisation
de grands ensembles de règles d’association,
Olivier Couturier, Tarek Hamrouni, Sadok Ben Yahia,
Engelbert Mephu Nguifo..............................................................................235
Les itemsets essentiels fermés : une nouvelle représentation concise,
Tarek Hamrouni, Islem Denden, Sadok Ben Yahia,
Engelbert Mephu Nguifo, Yahya Slimani...................................................241
Sous-bases k-faibles pour des règles d’association valides au sens
de la confiance,
Jean Diatta, Régis Girard.................................................................................253
Session Données séquentielles et motifs
Un cadre théorique pour la gestion de grandes bases de motifs,
François Jacquenet, Baptiste Jeudy, Christine Largeron...............................259
Extraction des Top-k Motifs par Approximer-et-Pousser,
Arnaud Soulet, Bruno Crémilleux....................................................................271
RNTI-E-9
- xii -
Extraction de séquences multidimensionnelles convergentes
et divergentes,
Marc Plantevit, Anne Laurent, Maguelonne Teisseire...................................283
Découverte de chroniques à partir de séquences d’événements
pour la supervision de processus dynamiques,
Nabil Benayadi, Marc Le Goc, Philippe Bouché..............................................295
Vers une nouvelle approche d’extraction des motifs séquentiels
non-dérivables,
Chedy Raïssi, Pascal Poncelet..........................................................................307
Evaluation supervisée de métrique : application à la préparation
de données séquentielles,
Sylvain Ferrandiz, Marc Boullé........................................................................ 319
Session Fouille de textes
Classement des fragments de documents XML par une méthode
d’aide à la décision,
Faïza Abbaci, Pascal Francq.............................................................................331
Filtrage des sites Web à caractère violent par analyse du contenu
textuel et structurel,
Radhouane Guermazi, Mohamed Hammami, Abdelmajid Ben Hamadou....343
Segmentation thématique par calcul de distance thématique,
Alexandre Labadié, Jacques Chauché..............................................................355
Extension sémantique du modèle de similarité basé sur la proximité
floue des termes,
Zoulikha Heddadji, Nicole Vincent, Séverine Kirchner, Georges Stamon....367
Vers une base de connaissances biographique : extraction
d’information et ontologie,
Laurent Kevers, Cédrick Fairon....................................................................... 373
Une extension de XQuery pour la recherche textuelle d’information
dans des documents XML,
Nicolas Faessel, Jacques Le Maitre.................................................................. 379
Session Données complexes et applications
Navigation et appariement d’objets géographiques dans une ontologie,
Rémy Brisson, Omar Boussaïd, Pierre Gançarski, Anne Puissant,
Nicolas Durand.............................................................................................391
Réduction de dimension pour l’analyse de données vidéo,
Nicolas Verbeke, Nicole Vincent.......................................................................397
- xiii -
RNTI-E-9
Classification supervisée de séquences biologiques basée sur les motifs
et les matrices de substitution,
Rabie Saidi, Mondher Maddouri, Engelbert Mephu Nguifo...........................409
Fusion des approches visuelles et contextuelles pour l’annotation
des images médicales,
Filip Florea, Valeriu Cornea, Alexandrina Rogozan,
Abdelaziz Bensrhair, Stefan Darmoni........................................................421
Apprentissage actif d’émotions dans les dialogues Homme-Machine,
Alexis Bondu, Vincent Lemaire, Barbara Poulain..........................................427
Vers un système hybride pour l’annotation sémantique d’images IRM
du cerveau,
Ammar Mechouche, Christine Golbreich, Bernard Gibaud...........................433
Approche connexionniste pour l’extraction de profils cas-témoins
du cancer du Naso-pharynx à partir de données issues d’une étude
épidémiologique,
Khalid Benabdeslem, Mustapha Lebbah,
Alexandre Aussem, Marilys Corbex............................................................445
Session Apprentissage
Apprentissage statistique de la topologie d’un ensemble de données
étiquetées,
Pierre Gaillard, Michaël Aupetit, Gérard Govaert.........................................455
Une méthode optimale d’évaluation bivariée pour
la classification supervisée,
Marc Boullé........................................................................................................461
Ensemble prédicteur fondé sur les cartes auto-organisatrices
adapté aux données volumineuses,
Elie Prudhomme, Stéphane Lallich................................................................. 473
Choix des conclusions et validation des règles issues d’arbres
de classification,
Vincent Pisetta, Gilbert Ritschard, Djamel A. Zighed....................................485
Apprentissage semi-supervisé de fonctions d’ordonnancement,
Vinh Truong, Massih-Reza Amini....................................................................497
Mesure non symétrique pour l’évaluation de modèles, utilisation
pour les jeux de données déséquilibrés,
Julien Thomas, Pierre-Emmanuel Jouve, Nicolas Nicoloyannis....................509
RNTI-E-9
- xiv -
Session Données évolutives
Traitement de données de consommations électriques par un Système
de Gestion de Flux de Données,
Talel Abdessalem, Raja Chiky, Georges Hébrail, Jean Louis Vitti................ 521
Extraction d’entités dans des collections évolutives,
Thierry Despeyroux , Eduardo Fraschini, Anne-Marie Vercoustre..............533
Construction et analyse des résumes de données évolutives :
application aux données d’usage du Web,
Alzennyr Da Silva, Yves Lechavellier, Fabrice Rossi,
Francisco De Carvalho.................................................................................539
Session Approches Sciences Humaines et Sociales
Une approche sociotechnique pour le Knowledge Management (KM),
Leoncio Jiménez.................................................................................................545
Cartographie de l’organisation : une approche topologique
des connaissances,
Marc Boyer, Marie-Françoise Canut, Max Chevalier,
André Péninou, Florence Sèdes...................................................................557
Partitionnement d’un réseau de sociabilité à fort coefficient
de clustering,
Romain Boulet, Bertrand Jouve.......................................................................569
Session Ontologies, Sémantique
Sémantique et contextes conceptuels pour la recherche d’information,
Marie-Aude Aufaure, Bénédicte Le Grand, Michel Soto................................ 575
Annotation sémantique floue de tableaux guidée par une ontologie,
Gaëlle Hignette, Patrice Buche, Juliette Dibie-Barthélemy ,
Ollivier Haemmerlé......................................................................................587
L’émergence de connaissances dans les communautés de pratique,
Caroline Wintergerst, Thomas Ludwig, Danielle Boulanger.........................599
Alignement de ressources sémantiques à partir de règles,
Valentina Ceausu, Sylvie Desprès.................................................................... 611
Approche logique pour la réconciliation de références,
Fatiha Saïs, Nathalie Pernelle, Marie-Christine Rousset..............................623
Evolution de l’ontologie et gestion des annotations sémantiques
inconsistantes,
Phuc-Hiep Luong, Rose Dieng-Kuntz, Alain Boucher.....................................635
- xv -
RNTI-E-9
Session Classification
Un algorithme multi-agent de classification pour la construction
d’ontologies dynamiques,
Kévin Ottens, Nathalie Aussenac-Gilles.........................................................647
Une approche de classification non supervisée basée sur la détection
de singularités et la corrélation de séries temporelles
pour la recherche d’états : application à un bioprocédé fed-batch,
Sébastien Régis..................................................................................................659
Evaluation d’une approche de classification conceptuelle,
Marie Chavent, Yves Lechevallier.................................................................... 671
Classification de fonctions continues à l’aide d’une distribution
et d’une densité définies dans un espace de dimension infinie,
Etienne Cuvelier, Monique Noirhomme-Fraiture........................................... 679
OKM : une extension des k-moyennes pour la recherche
de classes recouvrantes,
Guillaume Cleuziou...........................................................................................691
Une nouvelle approche de la programmation DC et DCA
pour la classification floue,
Le Thi Hoai An, Le Hoai Minh, Pham Dinh Tao............................................703
Session plénière transversale
SPoID : Extraction de motifs séquentiels pour les bases de données
incomplètes,
Céline Fiot, Anne Laurent, Maguelonne Teisseire......................................... 715
Ré-ordonnancement pour l’apprentissage de transformations
de documents HTML,
Guillaume Wisniewski, Patrick Gallinari.......................................................727
Classification de grands ensembles de données avec un nouvel
algorithme de SVM,
Thanh-Nghi Do, François Poulet......................................................................739
Extraction de connaissances d’adaptation par analyse de la base de cas,
Fadi Badra, Jean Lieber, Amedeo Napoli........................................................ 751
RNTI-E-9
- xvi -
Peut-on Capturer la Sémantique à Travers la Syntaxe ?
- Découverte des Règles d’Exception Simultanée Einoshin Suzuki1
Université de Kyushu, Japon
Résumé. L’objectif de la fouille de données est la découverte sophistiquée de
connaissances lisibles, surprenantes et possiblement utiles. Les aspects surprenant et utile font partie de la sémantique et nécessitent l’utilisation des
connaissances du domaine, ce qui cause souvent le problème d’acquisition de
la connaissance. Notre découverte des règles d’exception simultanée peut être
une réponse à ce problème. Nous envisageons de trouver les connaissances
surprenantes et possiblement utiles à travers notre forme de paire de règles
d’exception. Les autres méthodes inventées concernent l’index d’évaluation et
la recherche exhaustive. Plusieurs applications médicales seront présentées sur
lesquelles nos propositions ont été appliquées.
Summary. The objective of data mining is sophisticated discovery of
comprehensible, unexpected, and possibly useful knowledge. The unexpected
and useful aspects belong to semantics and necessitate a use of domain
knowledge, which often causes the problem of knowledge acquisition. Our
simultaneous discovery of exception rules can be a solution to this problem.
We expect to discover unexpected and possibly useful knowledge with our
representation of exception rule pair. Other invented methods concern
evaluation index and exhaustive search. Several medical applications to which
our proposals have been applied will be presented.
1
Einoshin Suzuki a obtenu son Bachelor, son Master et son Doctorat à l’Université de Tokyo
respectivement en 1988, 1990 et 1993. Il a été membre de la Faculté de l’Institut de Technologies de Tokyo (Tokyo Institute of Technology) et de l’Université Nationale de Yokohama
(Yokohama National University) respectivement pendant 3 et 10 ans. Il est Professeur à
l’Université de Kyushu depuis avril 2006. Il a obtenu a deux reprises la récompense du meilleure article de la Société Japonaise d’Intelligence Artificielle. Il a été Président du comité de
programme de DS-04, Vice-Président du comité de ICDM-04 et dirige depuis octobre 2006
le comité de pilotage de l’International Conference on Discovery Science.
-1-
RNTI-E-9
Interestingness in Data Mining
Howard Hamilton1
Department of Computer Science, University of Regina,
3737 Wascana Parkway, Regina, SK, Canada S4S 0A2
Summary. Interestingness measures play an important role in data mining
regardless of the kind of patterns being mined. These measures are intended
for selecting and ranking patterns according to their potential interest to the
user. Good measures also allow the time and space cost of the mining process
to be reduced. Measuring the interestingness of discovered patterns is an active
and important area of data mining research. Although much work has been
conducted in this area, so far there is no widespread agreement on a formal
definition of interestingness in this context. Based on the diversity of
definitions presented to date, interestingness is perhaps best treated as a broad
concept, which emphasizes conciseness, coverage, reliability, peculiarity,
diversity, novelty, surprisingness, utility, and actionability. This presentation
reviews interestingness measures for rules and summaries, classifies them
from several perspectives, compares their properties, identifies their roles in
the data mining process, gives strategies for selecting appropriate measures for
applications, and identifies opportunities for future research in this area.
1
Howard J. Hamilton is a professor in the Department of Computer Science at the
University of Regina, Regina, Canada, where he has served since 1991. He received his
B.Sc. and M.Sc. in Computational Science from the University of Saskatchewan, and his
Ph.D. in Computing Science from Simon Fraser University. He is the Director of University
of Regina's Institute for Computational Discovery. His research interests include knowledge
discovery in databases, machine learning, applying artificial intelligence to computer
animation and computer games, and temporal representation and reasoning. He is a co-author
of _Knowledge Discovery and Measures of Interest_ and co-editor of four other books,
including _Quality Measures for Data Mining_, Springer, 2007. Some issues investigated in
knowledge discovery concern interestingness, peculiarity, utility based measures, domain
generalization graphs, share-based itemsets, and visualization of results.
-3-
RNTI-E-9
Finding interesting queries in relational databases
Bart Goethals1
University of Antwerp, Dept. of Math and Computer Science
Middelheimlaan 1, B-2020 Antwerpen, Belgium
Résumé. La découverte de motifs dans des bases de données relationnelles
quelconques est un problème intéressant pour lequel il existe très peu de méthodes efficaces. Nous présentons un cadre dans lequel des paires de requêtes
sur les données sont utilisées comme des motifs et nous discutons du problème
de la découverte d’associations utiles entre elles. Plus spécifiquement, nous
considérons des petites sous-classes de requêtes conjonctives qui nous permettent de découvrir des motifs intéressants de manière efficace.
Summary. Finding patterns in arbitrary relational databases remains an
interesting problem for which only very few efficient techniques exist. We
present a framework in which pairs of queries over the data are used as
patterns and discuss the problem of finding interesting associations between
them. More specifically, we consider small subclasses of conjunctive queries
that still allow us to find interesting patterns efficiently.
1
Bart Goethals obtained his PhD on Frequent Pattern Mining from the transnational
University of Limburg after which he moved to the University of Helsinki for two years. His
primary research interest is on efficient methods for pattern mining and the integration of
data mining into database systems. He is the organizer of several workshops among which
the FIMI workshops on frequent itemset mining implementations. He serves on the editorial
board of the Data Mining and Knowledge Discovery Journal, he has served on almost all
data mining conference program committees and is program chair of ECML/PKDD in 2008.
Currently, he is a post-doctoral researcher in the Advanced Database Research and Modeling
research group (ADReM) at the University of Antwerp of which he leads the Data Mining
team.
-5-
RNTI-E-9
Clustering: from model-based approaches
to heuristic algorithms
Hans Hermann Bock1
Institute of Statistics, RWTH Aachen University,
D-52056 Aachen, Allemagne, [email protected]
Résumé. Les méthodes du 'clustering' ont pour but de diviser un ensemble
(large) d'objets dans un petit nombre de groupes homogènes (clusters), basé
sur des données relevées ou observées qui décrivent les (dis-)similarités qui
existent entre les objets – en espérant que ces clusters soient utiles pour l'application concernée. Il existe une multitude d'approches, et cette contribution présente quelques-unes qui sont les plus importantes ou actuelles.
Les approches qui sont basées sur un modèle (model-based clustering) partent
d'une vue probabiliste dans laquelle il existe une classification inconnue et les
données sont des variables aléatoires dont la distribution dépend de la classe
des objets correspondants. Nous présenterons les modèles 'fixed-partition',
'random-partition' et le modèle de mélange. Chacun mène à un critère de classification à optimiser. Nous esquissons des algorithmes, des propriétés mathématiques, et quelques cas spéciaux, mais importants.
Il est facile de définir des critères heuristiques de classification dans des cas où
il n'y a pas un modèle probabiliste, et tandis que les méthodes précédentes se
concentrent sur des classifications de type 'partition', on peut aussi construire
des classifications hiérarchiques ou structurées. - Contrairement aux méthodes
qui construisent une classification exhaustive pour l'ensemble total de tous les
objets donnés, nous considérerons finalement le cas où on se contente à trouver
seulement des (quelques) groupes singuliers et isolés d'objets qui sont bien
plus similaires entre eux qu'en moyenne. Ces méthodes sont à la base de beaucoup d'applications en fouille des données (marketing, biotechnology, web
logs).
1
Etudes de mathématiques en 1958-1965 à Karlsruhe, Paris, Freiburg (diplome) ; positions
universitaires aux universités de Freiburg, Hannover, et Aachen (Aix-la-Chapelle) ; Professeur en Probabilité et Statistique à Aachen depuis 1978 ; spécialités : analyse des données,
clustering et classification, fiabilité; président de la Société Allemande de Classification
(GfKl; 1986-1995), président de la International Federation of Classification Societies
(IFCS; 1985-1987) ; Editeur de la revue 'Advances in Data Analysis and Classification
(ADAC)' et de la série 'Classification, Data Analysis, and Knowledge Organization' (Springer Verlag).
-7-
RNTI-E-9
Une étude des algorithmes de construction d’architecture des
réseaux de neurones multicouches.
Norbert Tsopzé1∗,∗∗ Engelbert Mephu Nguifo∗
Gilbert Tindo∗∗
∗
CRIL-CNRS, IUT de Lens, SP 16 Rue de l’Université 62307 Lens Cedex
{tsopze,mephu}@cril.univ-artois.fr
∗∗
Département d’Informatique - Université de Yaoundé I BP 812 Yaoundé
[email protected], [email protected]
Résumé. Le problème de choix d’architecture d’un réseau de neurones multicouches reste toujours très difficile à résoudre dans un processus de fouille de
données. Ce papier recense quelques algorithmes de recherche d’architectures
d’un réseau de neurones pour les tâches de classification. Il présente également
une analyse théorique et expérimentale de ces algorithmes. Ce travail confirme
les difficultés de choix des paramètres d’apprentissage (modèle, nombre de couches,
nombre de neurones par couches, taux d’apprentissage, algorithme d’apprentissage,...) communs à tout processus de construction de réseaux de neurones et les
difficultés de choix de paramètres propres à certains algorithmes.
1
Introduction
Un réseau de neurones est un ensemble de neurones interconnectés qui communiquent
entre eux et avec l’extérieur. Un réseau de neurones se présente comme un graphe où les
noeuds sont les différentes unités de réseau et les arcs représentent les connexions entre ces
unités. Le nombre de couches, le nombre de neurones par couche et les interconnexions entre
les différentes unités du réseau définissent l’architecture (encore appelée topologie) de celui-ci.
Un neurone peut être appelé unité ou cellule. Comme tout système d’apprentissage supervisé,
les systèmes d’apprentissage supervisé à base des réseaux de neurones fonctionnent en deux
phases : la phase d’apprentissage qui consiste à construire à partir des observations (exemples
présentés sous forme (x, y) où y représente l’observation de la fonction f en x) un système
capable d’approximer la fonction f dont l’expression analytique n’est pas facile à trouver ; la
phase de classement qui utilise le modèle construit en phase d’apprentissage pour produire
des décisions (prédire un nouvel exemple qui ne faisait pas partie des observations de la base
d’apprentissage). Définir la structure du réseau pour de tel système n’est pas une tâche évidente
(J.Han et Hamber, 2001; A.Cornuéjols et Miclet, 2002). En effet, il n’existe aucune méthode
permettant de définir et de justifier la structure d’un réseau de neurones (J.Han et Hamber,
2001).
1 Le Service de Coopération et d’Action Culturelle (SCAC) de l’ambassade de France à Yaoundé (Cameroun) a
financé le séjour du premier auteur au CRIL pendant la réalisation de ce travail. Ce travail est partiellement financé
par le ministère français des affaires étrangères.
-9-
RNTI-E-9
Régression floue et crédibiliste par SVM pour la
classification des images sonar
Hicham Laanaya∗,∗∗ , Arnaud Martin∗∗
Driss Aboutajdine∗ Ali Khenchaf∗∗
∗
GSCM-LRIT, Université Mohammed V-Agdal, Faculté des sciences de Rabat, Maroc
[email protected],
http://www.fsr.ac.ma/GSCM/
∗∗
ENSIETA-E3 I2 -EA3876, 2, rue François Verny 29806 Brest cedex 9,
laanayhi, Arnaud.Martin, [email protected]
http://www.ensieta.fr/e3i2/
Résumé. La classification des images sonar est d’une grande importance par
exemple pour la navigation sous-marine ou pour la cartographie des fonds marins. En effet, le sonar offre des capacités d’imagerie plus performantes que les
capteurs optiques en milieu sous-marin. La classification de ce type de données
rencontre plusieurs difficultés en raison des imprécisions et incertitudes liées au
capteur et au milieu. De nombreuses approches ont été proposées sans donner
de bons résultats, celles-ci ne tenant pas compte des imperfections des données.
Pour modéliser ce type de données, il est judicieux d’utiliser les théories de l’incertain comme la théorie des sous-ensembles flous ou la théorie des fonctions
de croyance. Les machines à vecteurs de supports sont de plus en plus utilisées
pour la classification automatique aux vues leur simplicité et leurs capacités de
généralisation. Il est ainsi possible de proposer une approche qui tient compte
de ces imprécisions et de ces incertitudes au cœur même de l’algorithme de
classification. L’approche de la régression par SVM que nous avons introduite
permet cette modélisation des imperfections. Nous proposons ici une application
de cette nouvelle approche sur des données réelles particulièrement complexes,
dans le cadre de la classification des images sonar.
1 Introduction
Les images sonar sont utilisées pour leur rapidité à imager de grandes zones là où l’optique
ne peut le faire. On les retrouve ainsi dans de nombreuses applications telles que l’aide à la
navigation sous-marine, ou la cartographie sous-marine.
Les images sonar sont entachées de plusieurs imprécisions et incertitudes dues à l’instrumentation utilisée (le capteur sonar) et au milieu marin. Les paramètres qui entrent en jeu pour
la reconstruction de ces images (géométrie du dispositif, coordonnées du bateau, mouvements
du sonar,. . .) sont aussi entachés des bruits de mesure. Il s’ajoute à ceci des interférences dues
à des trajets multiples des signaux utilisés, à des bruits de chatoiement ou encore à la faune et
- 21 -
RNTI-E-9
Combinaison des cartes topologiques mixtes et des machines
à vecteurs de support : Une application pour la prédiction de
perte de poids chez les obèses
Mohamed Ramzi Temanni∗,∗∗ , Mustapha Lebbah∗, Christine Poitou-Bernert∗∗,∗∗∗,∗∗∗∗
Karine Clement∗∗,∗∗∗,∗∗∗∗ , Jean-Daniel Zucker∗,∗∗
∗
Université Paris 13, UFR de Santé,
Médecine et Biologie Humaine (SMBH) - Léonard de Vinci- LIM&BIO
74, rue Marcel Cachin 93017 Bobigny Cedex France
[email protected],
∗∗
Inserm, U755 Nutriomique, 75004 Paris, France;
∗∗∗
University Pierre and Marie Curie-Paris 6, Faculty of Medicine,
Les Cordeliers, 75004 Paris, France;
∗∗∗∗
AP-HP, Hôtel-Dieu Hospital, Nutrition department,
1 Place du parvis Notre-Dame, 75004 Paris, France
pré[email protected]
Résumé. Cet article présente un modèle pour aborder les problèmes de classement difficiles, en particulier dans le domaine médical. Ces problèmes ont
souvent la particularité d’avoir des taux d’erreurs en généralisations très élevés
et ce quelles que soient les méthodes utilisées. Pour ce genre de problèmes, nous
proposons d’utiliser un modèle de classement combinant le modèle de partitionnement des cartes topologiques mixtes et les machines à vecteurs de support
(SVM). Le modèle non supervisé est dédié à la visualisation et au partitionnement des données composées de variables quantitatives et/ou qualitatives. Le
deuxième modèle supervisé, est dédié au classement. La combinaison de ces
deux modèles permet non seulement d’améliorer la visualisation des données
mais aussi en les performances en généralisation. Ce modèle (CT-SVM) consiste
à entraîner des cartes auto-organisatrices pour construire une partition organisée
des données, constituée de plusieurs sous-ensembles qui vont servir à reformuler
le problème de classement initial en sous-problème de classement. Pour chaque
sous-ensemble, on entraîne un classeur SVM spécifique. Pour la validation expérimentale de notre modèle (CT-SVM), nous avons utilisé quatre jeux de données. La première base est un extrait d’une grande base médicale sur l’étude de
l’obésité réalisée à l’Hôpital Hôtel-Dieu de Paris, et les trois dernières bases sont
issues de la littérature.
- 33 -
RNTI-E-9
Caractérisation des transitions temporisées dans les logs de
conversation de services Web
Didier Devaurs, Fabien De Marchi, Mohand-Saïd Hacid
LIRIS, UMR 5205, CNRS / Université Claude Bernard Lyon 1
Bâtiment Nautibus, 8 boulevard Niels Bohr, F-69622 Villeurbanne, France
[email protected], {fabien.demarchi, mohand-said.hacid}@liris.cnrs.fr
Résumé. La connaissance du protocole de conversation d’un service Web est
importante pour les utilisateurs et les fournisseurs, car il en modélise le comportement externe ; mais, il n’est souvent pas spécifié lors de la conception. Notre
travail s’inscrit dans une thématique d’extraction du protocole de conversation
d’un service existant à partir de ses données d’exécution. Nous en étudions un
sous-problème important qui est la découverte des transitions temporisées (i.e.
les changements d’état liés à des contraintes temporelles). Nous proposons un
cadre formel aboutissant à la définition des expirations propres, qui représentent
un équivalent dans les logs des transitions temporisées. A notre connaissance,
ceci représente la première contribution à la résolution de ce problème.
1
Introduction
Les services Web constituent la nouvelle génération des technologies du Web pour l’intégration d’applications. Ce sont des composants logiciels mis à disposition par des fournisseurs,
invocables sur Internet par des clients (des utilisateurs ou d’autres services), et communiquant
de façon asynchrone, par le biais de messages. Ils permettent de réaliser une intégration à faible
couplage et à moindre coût, du fait qu’ils utilisent des standards généralistes fortement répandus (XML, HTTP). Toutefois, cette souplesse d’intégration n’est possible que si les utilisateurs
d’un service savent comment interagir avec celui-ci. A un service doivent donc être associées
des descriptions assez riches pour permettre de comprendre sa sémantique d’exécution.
Le langage WSDL, par exemple, spécifie l’interface d’un service : les opérations, les types
de messages, le format des entrées-sorties. Cependant, Benatallah et al. (2004) ont montré que
ceci était insuffisant dans l’optique d’une utilisation automatique des services Web, et ont défini le protocole de conversation, qui permet de spécifier quelles sont les séquences ordonnées
de messages (appelées conversations) qu’un service peut émettre ou recevoir. Benatallah et al.
(2005a,b) ont ensuite ajouté des contraintes temporelles à leur modèle, rebaptisé protocole
de conversation temporisé. Son utilisation offre de nombreuses applications, pour la vérification automatique de bon fonctionnement, de compatibilité, etc. Néanmoins, en pratique, de
nombreux services ne possèdent pas une telle spécification. Il est donc légitime de chercher à
obtenir le protocole de conversation d’un service s’il n’a pas été défini lors de la conception.
Fournir le protocole d’un service à ses partenaires et clients est bien sûr l’application la plus
directe de ce problème de découverte ; mais il possède un intérêt bien plus grand pour l’ingé-
- 45 -
RNTI-E-9
Construction coopérative de carte de thèmes : vers une
modélisation de l’activité socio-sémantique
L’Hédi Zaher, Jean-Pierre Cahier
Christophe Lejeune, Manuel Zacklad
Institut Charles Delaunay, Laboratoire Tech-CICO,
Université de technologie de Troyes - FRE CNRS 2848
12 rue Marie Curie – 10 010 – Troyes cedex
{zaher, cahier, lejeune, zacklad}@utt.fr
Résumé. Nous présentons dans cette contribution un cadre de modélisation
recourant conjointement au modèle Hypertopic (Cahier et al., 2004) pour la
représentation des connaissances de domaine et au modèle SeeMe (Herrmann
et al., 1999) pour la représentation de l’activité. Ces deux approches
apparaissent complémentaires, et nous montrons comment elles peuvent être
combinées, pour mieux ancrer, sur les plans formel et méthodologique, les
approches de cartographie collective des connaissances.
1 Introduction
Nous nous intéressons dans cette contribution aux applications à forte composante
d’activité socio-sémantique – notion que nous définissons exemples à l’appui. Nous avons
analysé ce type d’applications dans de précédents articles comme relevant du « Web sociosémantique » matérialisé en particulier par des cartes de thèmes co-construites au sein de
groupes en s’appuyant sur le modèle Hypertopic (Cahier et al., 2004).
L’approche proposée dans cet article vise à lever certaines difficultés qui subsistent dans
la mise en œuvre effective de ces cartes de thèmes co-construites au sein de communautés
réelles. Le souci de mieux modéliser l’activité socio-sémantique accompagne une série
importante d’expérimentations et de travaux menés au laboratoire Tech-CICO, pour mettre
en œuvre le modèle Hypertopic dans le cadre du Web socio-sémantique (applications
utilisant les outils Agoræ, Porphyry ou Cassandre) ou le comparer aux modèles sous-jacents
à d’autres applications (telles que l’Open Directory Project, Del.icio.us ou Flickr, en partie
basées sur les folksonomies et illustrant la tendance du Web2.0). Ces applications permettent
à une communauté non seulement de partager des ressources, mais aussi de s’organiser pour
mettre en commun et rendre manipulable la description de ces ressources, et faciliter la
recherche ou la navigation selon de multiples points de vue (Lejeune, 2002).
Nous proposons une approche basée sur des modèles génériques, s’adressant non
seulement aux professionnels de la modélisation (analystes, informaticiens, etc.) en termes
de méthode de conception externe mais aussi – à terme – aux utilisateurs finaux en termes de
conception participative. Ces modèles génériques visent la représentation des connaissances,
mais aussi la représentation de l’activité socio-sémantique qui la rend possible.
Pour cela nous présentons un cadre recourant conjointement au modèle Hypertopic pour
la représentation des connaissances de domaine, et au modèle SeeMe (Hermann et al., 1999)
pour la représentation des rôles et de l’activité. Nous montrons comment ces deux modèles
- 57 -
RNTI-E-9
Apport du Web sémantique dans la réalisation d’un moteur
de recherche géo-localisé à usage des entreprises
Frédéric Triou∗ , Fabien Picarougne∗
Henri Briand∗
∗
LINA CNRS FRE 2729 - Équipe COD
École Polytechnique de l’Université de Nantes
rue Christian Pauc, 44306 NANTES Cedex 3, France
{frederic.triou, fabien.picarougne, henri.briand}@univ-nantes.fr
http://www.sciences.univ-nantes.fr/lina/fr/research/teams/ECD/index.html
Résumé. La recherche d’une entreprise sur le Web, relative à un savoir-faire
particulier, n’est pas une tâche toujours facile à mener. Les outils mis à la disposition de l’internaute ne donnent pas entièrement satisfaction. D’un côté les
moteurs de recherche éprouvent des difficultés à faire ressortir clairement le résultat escompté. De l’autre côté, les annuaires spécialisés (type Pages Jaunes)
sont tributaires d’une organisation figée, nuisant à leur efficacité.
Face à ce constat, nous nous proposons de créer un nouveau moteur spécialisé
dans la recherche d’entreprise, associant Web sémantique et géo-localisation.
Cette approche novatrice nécessite l’implémentation d’une ontologie ayant pour
objectif la formalisation des connaissances du domaine.
Cette tâche a mis en évidence l’intérêt des structures économiques, maintenues
par l’INSEE, et leur utilisation au sein de l’ontologie. Les nomenclatures économiques ont été retenues pour gérer la classification des activités et produits
pouvant être dispensés par les entreprises. La structure des unités administratives, telle que gérée au sein du fichier SIRENE, s’est avérée judicieuse pour
répondre à la problématique de géo-localisation des entreprises. Une opération
de désambiguïsation est réalisée en associant à chaque nœud d’activité les mots
clés et synonymes lui correspondant.
Enfin, nous comparons les résultats obtenus par notre moteur à ceux obtenu par
le principal moteur de recherche d’activités géo-localisées en France : les Pages
jaunes. Que ce soit au niveau de la précision et du rappel, notre moteur obtient
des résultats significativement meilleurs.
1
Introduction
Les moteurs de recherche classiques sur le web ont des caractéristiques étonnantes : ils possèdent des milliards de documents dans leur index, ils peuvent traiter des millions de requêtes
quotidiennement, ils donnent des réponses très volumineuses quasiment en temps réel et ils
nécessitent des ressources informatiques et humaines considérables. On peut dire aujourd’hui
- 69 -
RNTI-E-9
Mesure d’entropie asymétrique et consistante
Djamel A. Zighed∗ , Simon Marcellin∗
Gilbert Ritschard∗∗
∗
Université Lumière Lyon 2, Laboratoire ERIC
{abdelkader.zighed,simon.marcellin}@univ-lyon2.fr
http://eric.univ-lyon2.fr
∗∗
Université de Genève, Département d’économétrie, Suisse
[email protected]
Résumé. Les mesures d’entropie, dont la plus connue est celle de Shannon,
ont été proposées dans un contexte de codage et de transmission d’information. Néanmoins, dès le milieu des années soixante, elles ont été utilisées dans
d’autres domaines comme l’apprentissage et plus particulièrement pour construire
des graphes d’induction et des arbres de décision. L’usage brut de ces mesures
n’est cependant pas toujours bien approprié pour engendrer des modèles de prédiction ou d’explication pertinents. Cette faiblesse résulte des propriétés des entropies, en particulier le maximum nécessairement atteint pour la distribution
uniforme et l’insensibilité à la taille de l’échantillon. Nous commençons par
rappeler ces propriétés classiques. Nous définissons ensuite une nouvelle axiomatique mieux adaptée à nos besoins et proposons une mesure empirique d’entropie plus flexible vérifiant ces axiomes.
1 Introduction
Dans les méthodes qui génèrent des règles de décision du type Si condition Alors Conclusion comme les arbres de décision (Breiman et al., 1984; Quinlan, 1993), les graphes d’induction (Zighed et Rakotomalala, 2000),... les mesures d’entropie sont fréquemment utilisées. Or
celles-ci reposent sur de nombreuses hypothèses implicites qui ne sont pas toujours justifiées.
Les mesures d’entropie ont été définies mathématiquement par un ensemble d’axiomes
en dehors du contexte de l’apprentissage machine. On peut trouver des travaux détaillés dans
Rényi (1960), et Aczél et Daróczy (1975). Leur transfert vers l’apprentissage s’est fait de
manière peut-être hâtive et mérite d’être revu en détail.
Le présent travail examine et discute des propriétés des entropies dans le cadre des arbres
d’induction.
Dans la section suivante, nous fixons quelques notations et rappelons le contexte d’utilisation des mesures d’entropie. Dans la section 3, nous présentons les mesures d’entropie et
discutons leurs propriétés et leurs conséquences dans les processus d’induction. Dans la section 4, nous proposons une axiomatique conduisant à une nouvelle mesure d’entropie.
- 81 -
RNTI-E-9
Une règle d’exception en Analyse Statistique Implicative
Régis Gras *, Pascale Kuntz *, Einoshin Suzuki **
*Laboratoire d’Informatique de Nantes Atlantique FRE CNRS 2729
Equipe COD - Connaissances & Décision
Site Ecole Polytechnique de l’Université de Nantes
La Chantrerie BP 60601 44306 Nantes cedex
** Department of Informatics, ISEE, Kyushu University, Japan
[email protected] , [email protected]
[email protected]
Résumé. En fouille de règles, certaines situations exceptionnelles défient le
bon sens. C’est le cas de la règle R : a → c et b → c et (a et b) → non c. Une
telle règle, que nous étudions dans l’article, est appelée règle d’exception. A la
suite des travaux précurseurs de E. Suzuki et Y. Kodratoff (1999), qui ont
étudié un autre type de règle d’exception, nous cherchons ici à caractériser les
conditions d’apparition de la règle R dans le cadre de l’Analyse Statistique
Implicative.
1 Introduction
Depuis les travaux de Agrawal et al., (1993) les règles d’association ont été un modèle
très utilisé pour extraire des tendances implicatives dans des bases de données. Rappelons
que lorsqu’on dispose d’un ensemble E d’individus décrits par p variables {a, b, ….}, qui
peuvent être des conjonctions de variables atomiques et que l’on supposera ici binaires, une
règle d’association a → b signifie que si a est vérifiée alors généralement b l’est également.
Lorsque l’on extrait un ensemble de telles règles partielles d’association, il est pertinent de
s’interroger sur les « relations » que ces règles entretiennent entre elles. Cette question a été
abordée dans la littérature selon différents points de vue. Dans une optique de structuration
de l’ensemble des règles, différentes méthodes de classification ont été proposées (e.g. Lent
et al., 1997 ; Gras et Kuntz, 2005). Des représentations visuelles bien adaptées permettent
également de mettre en évidence des dépendances entre les règles (e.g. Lehn, 2000 ou
Couturier et Gras, 2005).
Si l’on étudie localement avec attention ces relations, on peut découvrir une situation qui
défie l’intuition. Supposons que l’on ait, entre trois variables (par exemple, des attributs) a, b
et c, conjonction de variables binaires dans l’étude présente et vérifiant a → c et b → c.
Dans des cas exceptionnels, on n’a pas (a et b) → c, comme le bon sens nous le suggère,
mais (a et b) → non c. Cette dernière règle sera appelée ici règle d’exception.
Remarquons que des travaux antérieurs (Suzuki et Kodratoff, 1999 ; Suzuki et Zytkow,
2005) considèrent comme situation d’exception la situation suivante :
a → c (dite règle de sens commun), non ( b→ c’) (dite règle de référence) et (a et b)
→ c’ (dite règle d’exception) où c ≠ c’ et où a et b sont respectivement des conjonctions( a =
- 87 -
RNTI-E-9
Optimal histogram representation of large data sets: Fisher vs
piecewise linear approximation.
Antonio Irpino*, Elvira Romano**
* Dipartimento di studi europei e mediterranei
Seconda Università degli Studi di Napoli
Via del Setificio, 15 Complesso Monumentale Belvedere - San Leucio
I-81020 Caserta (CE)
[email protected]
** Dipartimento di Matematica e Statistica
Universita' degli Studi di Napoli "Federico II"
Via Cintia - Complesso Monte Sant'Angelo
I-80126 Napoli
[email protected]
Summary. Histogram representation of a large set of data is a good way to
summarize and visualize data and is frequently performed in order to optimize
query estimation in DBMS. In this paper, we show the performance and the
properties of two strategies for an optimal construction of histograms on a single real valued descriptor on the base of a prior choice of the number of buckets. The first one is based on the Fisher algorithm, while the second one is
based on a geometrical procedure for the interpolation of the empirical distribution function by a piecewise linear function. The goodness of fit is computed
using the Wasserstein metric between distributions. We compare the proposed
method performances against some existing ones on artificial and real datasets.
1 Introduction
Today’s storage information mechanism fails to capture a large amount of data and preprocess them in their entirety, while only a summary is stored. In this context histogram plays
the role of a tool for producing a suitable summarizing description and quickly answering to
decision support queries. Following the guide phrase "An image says more than one hundred words", the histogram represents a simple and intuitive graphical tool to describe data
distribution. It smoothes the data to display the general shape of an empirical distribution. The
problem is that it can give a false impression of the shape of the dataset distribution, because
its construction depends on the choice of the number and the length of the subintervals - usually called buckets or bins - of the real lines on which the histogram is based. Ideally it could
have the situation in which for large bins the nature of the dataset is bimodal and for small
bins the plot reduces to unimodal representation. The matter at stake here concerns the kind of
bin width that can take into account the best graphical representation of the underlying DBMS
and how it can be constructed with minimal error approximation.
- 99 -
RNTI-E-9
Une approche non paramétrique Bayesienne pour
l’estimation de densité conditionnelle sur les rangs
Carine Hue∗ , Marc Boullé∗
∗
France Télécom R & D; 2, avenue Pierre Marzin; 22307 Lannion cedex
[email protected]; [email protected]
Résumé. Nous nous intéressons à l’estimation de la distribution des rangs d’une
variable cible numérique conditionnellement à un ensemble de prédicteurs numériques. Pour cela, nous proposons une nouvelle approche non paramétrique
Bayesienne pour effectuer une partition rectangulaire optimale de chaque couple
(cible,prédicteur) uniquement à partir des rangs des individus. Nous montrons
ensuite comment les effectifs de ces grilles nous permettent de construire un
estimateur univarié de la densité conditionnelle sur les rangs et un estimateur
multivarié utilisant l’hypothèse Bayesienne naïve. Ces estimateurs sont comparés aux meilleures méthodes évaluées lors d’un récent Challenge sur l’estimation
d’une densité prédictive. Si l’estimateur Bayésien naïf utilisant l’ensemble des
prédicteurs se révèle peu performant, l’estimateur univarié et l’estimateur combinant deux prédicteurs donne de très bons résultats malgré leur simplicité.
1 Introduction
Dans cette introduction, nous décrivons tout d’abord une situation particulière de l’apprentissage supervisé où l’on s’intéresse à prédire le rang d’une cible plutôt que sa valeur.
Nous exposons ensuite deux approches qui permettent de passer d’une prédiction ponctuelle
en régression à une description plus fine de la loi prédictive. Nous présentons ensuite notre
contribution qui vise à fournir une estimation de la densité conditionnelle complète du rang
d’une cible par une approche Bayesienne non paramétrique.
1.1 Régression de valeur et régression de rang
En apprentissage supervisé on distingue généralement deux grands problèmes : la classification supervisée lorsque la variable à prédire est symbolique et la régression lorsqu’elle prend
des valeurs numériques. Dans certains domaines tels que la recherche d’informations, l’intérêt
réside cependant plus dans le rang d’un individu par rapport à une variable plutôt que dans la
valeur de cette variable. Par exemple, la problématique initiale des moteurs de recherche est
de classer les pages associées à une requête et la valeur intrinsèque du score n’est qu’un outil
pour produire ce classement. Indépendamment de la nature du problème à traiter, utiliser les
rangs plutôt que les valeurs est une pratique classique pour rendre les modèles plus robustes
aux valeurs atypiques et à l’hétéroscédasticité. En régression linéaire par exemple, un estimateur utilisant les rangs centrés dans l’équation des moindres carrés à minimiser est proposé
- 111 -
RNTI-E-9
Application des réseaux bayésiens à l’analyse des facteurs
impliqués dans le cancer du Nasopharynx
Alexandre Aussem∗ , Sergio Rodrigues de Morais∗ , Marilys Corbex∗∗
∗
Université de Lyon 1,
EA 2058 PRISMa, F-69622 Villeurbanne
[email protected],
∗∗
Unité d’épidémiologie génétique,
Centre International de Recherche sur le Cancer (CIRC),
150 cours Albert Thomas - 69280 Lyon Cedex 08
[email protected]
Résumé. L’apprentissage de la structure des réseaux bayésien à partir de données est un problème NP-difficile. Une nouvelle heuristique de complexité polynômiale, intitulée Polynomial Max-Min Skeleton (PMMS), a été proposée
en 2005 par Tsamardinos et al. et validée avec succès sur de nombreux bancs
d’essai. PMMS présente, en outre, l’avantage d’être performant avec des jeux
de données réduits. Néanmoins, comme tous les algorithmes sous contraintes,
celui-ci échoue lorsque des dépendances fonctionnelles (déterministes) existent
entre des groupes de variables. Il ne s’applique, par ailleurs, qu’aux données
complètes. Aussi, dans cet article, nous apportons quelques modifications pour
remédier à ces deux problèmes. Après validation sur le banc d’essai Asia, nous
l’appliquons aux données d’une étude épidémiologique cas-témoins du cancer
du nasopharynx (NPC) de 1289 observations, 61 variables et 5% de données
manquantes issues d’un questionnaire. L’objectif est de dresser un profil statistique type de la population étudiée et d’apporter un éclairage utile sur les
différents facteurs impliqués dans le NPC.
1
Introduction
L’apprentissage de la structure des réseaux bayésiens (RB) à partir de données est un
problème ardu ; la taille de l’espace des graphes orientés sans circuits (DAG en anglais) est
super-exponentielle en fonction du nombre de variables et le problème combinatoire associé
est NP-difficile (Chickering et al., 2004). Deux grandes familles de méthodes existent pour
l’apprentissage de la structure des RB : celles fondées sur la satisfaction de contraintes d’indépendance conditionnelle entre variables et celles à base de score fondées sur la maximisation
d’un score (BIC, MDL, BDe, etc.). Les deux méthodes ont leurs avantages et leurs inconvénients. Les méthodes sous contraintes sont déterministes, relativement rapides et bénéficient
des critères d’arrêt clairement définis. Les contraintes imposées à la structure du graphe proviennent des informations statistiques sur les dépendances et indépendances conditionnelles
observées dans les données. Elles reposent cependant sur un niveau de signification arbitraire
- 123 -
RNTI-E-9
Construction incrémentale et visualisation de graphes de
voisinage par des fourmis artificielles
Julien Lavergne∗ , Hanene Azzag∗∗
Christiane Guinot∗,∗∗∗ , Gilles Venturini∗
∗
Laboratoire d’Informatique,
Ecole Polytechnique de l’Université de Tours,
64 avenue Jean Portalis, 37200 Tours, France
{julien.lavergne,gilles.venturini}@univ-tours.fr,
http://www.antsearch.univ-tours.fr/webrtic
∗∗
Laboratoire d’Informatique de l’Université Paris-Nord
99, avenue Jean-Baptiste Clément, 93430 Villetaneuse, France
[email protected],
http://www-lipn.univ-paris13.fr/A3/
∗∗∗
CE.R.I.E.S, 20 rue Victor Noir, 92521 Neuilly-Sur-Seine, France
[email protected],
http://www.ceries.com
Résumé. Cet article décrit un nouvel algorithme incrémental nommé AntGraph
pour la construction de graphes de voisinage. Il s’inspire du comportement d’autoassemblage observé chez des fourmis réelles où ces dernières se fixent progressivement à un support fixe puis successivement aux fourmis déjà fixées afin de
créer une structure vivante. Nous utilisons ainsi une approche à base de fourmis
artificielles où chaque fourmi représente une donnée. Nous indiquons comment
ce comportement peut être utilisé pour construire de manière incrémentale un
graphe à partir d’une mesure de similarité entre les données. Nous montrons
finalement que notre algorithme obtient de meilleurs résultats en comparaison
avec le graphe de Voisins Relatifs, notamment en terme de temps de calcul.
1
Introduction
Dans cet article, nous nous intéressons au problème suivant : étant donné un ensemble
de n données d1 , ..., dn et une matrice de similarité M (di , dj ) entre ces données, comment
permettre à un expert d’explorer cet ensemble de données de manière visuelle et avec une approche guidée par le contenu. Nous considérons que l’expert souhaite avoir une vue globale des
données mais également exploiter localement les données Shneiderman (1996), et en particulier passer de l’une à l’autre par une relation de voisinage tenant compte de la similarité. Notre
problème se décompose en deux parties : établir un graphe de voisinage entre les données à
partir de la similarité, et visualiser ce graphe afin de permettre à l’utilisateur de l’explorer.
Nous allons donc nous concentrer sur les méthodes de construction de graphes de voisinage
(voir un état de l’art dans Hacid et Zighed (2005)). Ce type de structure est également appelée
- 135 -
RNTI-E-9
Visualisation de graphes avec Tulip : exploration interactive
de grandes masses de données en appui à la fouille de
données et à l’extraction de connaissances.
David Auber∗ , Yves Chiricota ∗∗
Maylis Delest ∗
Jean-Philippe Domenger ∗
Patrick Mary ∗
Guy Melançon∗∗∗
∗
LaBRI UMR 5800
Université Bordeaux I
351 Cours de la Libération
33405 Talence Cedex – France
{auber,maylis,domenger,mary}@labri.fr
www.labri.fr
∗∗
Département de mathématiques et d’informatique
Université du Québec à Chicoutimi
555, boulevard de l’Université
Chicoutimi, G7H 2B1 – Canada
[email protected]
wwwdim.uqac.ca
∗∗∗
INRIA Futurs & LIRMM UMR 5506
161 rue Ada
34392 Montpellier Cedex 5 – France
[email protected]
www.inria.fr – www.lirmm.fr
Résumé. Cet article décrit une étude de cas exhibant les qualités de la plateforme de visualisation de graphes Tulip, démontrant l’apport de la visualisation
à la fouille de données interactive et à l’extraction de connaissances. Le calcul
dŠun graphe à partir d’indices de similarité est un exemple typique où l’exploration visuelle et interactive de graphes vient en appui au travail de fouille de
données. Nous penchons sur le cas où l’on souhaite étudier une collection de
documents afin d’avoir une idée des thématiques abordées dans la collection.
- 147 -
RNTI-E-9
Visualisation exploratoire des résultats d'algorithmes d'arbre
de décision
Thanh-Nghi Do*, Nguyen-Khang Pham**, François Poulet***
*Equipe InSitu, INRIA Futurs, LRI, Bat.490, Université Paris Sud 91405 Orsay Cedex
[email protected]
http://www.lri.fr/~dtnghi
**Equipe Texmex, IRISA, 35042 Rennes Cedex
[email protected]
***ESIEA-Ouest, 38, rue des Docteurs Calmette et Guérin, 53000 Laval
[email protected]
http://visu.egc.free.fr
Résumé. Nous présentons une méthode d'exploration des résultats des
algorithmes d'apprentissage par arbre de décision (comme C4.5). La méthode
présentée utilise simultanément une visualisation radiale, focus+context,
fisheye et hiérarchique pour la représentation et l'exploration des résultats des
algorithmes d'arbre de décision. L'utilisateur peut ainsi extraire facilement des
règles d'induction et élaguer l'arbre obtenu dans une phase de post-traitement.
Cela lui permet d'avoir une meilleure compréhension des résultats obtenus. Les
résultats des tests numériques avec des ensembles de données réelles montrent
que la méthode proposée permet une bien meilleure compréhension des
résultats des arbres de décision.
1 Introduction
Le volume de données stocké double actuellement tous les 9 mois (Lyman et al, 2003) et
donc le besoin d'extraction de connaissances dans les grandes bases de données est de plus en
plus important (Fayyad et al, 2004). La fouille de données (Fayyad et al, 1996) vise à traiter
des ensembles de données pour identifier des connaissances nouvelles, valides,
potentiellement utilisables et compréhensibles. Cette utilisabilité est fonction des buts de
l'utilisateur donc seul l'utilisateur peut déterminer si les connaissances extraites répondent à
ses attentes. Les outils de fouille de données doivent donc être interactifs et anthropocentrés.
Notre approche consiste à impliquer plus fortement l'utilisateur dans le processus de fouille
par des méthodes graphiques interactives dans un environnement de fouille.
De nombreuses méthodes de visualisation ont été développées dans différents domaines
et utilisées pour l'analyse exploratoire et la fouille de données (Fayyad et al, 2001), (Keim,
2002). Les méthodes de visualisation peuvent être utilisées pour le pré-traitement de données
(par exemple la sélection de données) ou en post-traitement (par exemple pour voir les
résultats). Des méthodes récentes (Ankerst, 2001), (Do et Poulet, 2004a et b), (Munzner,
1997) essayent d'impliquer plus significativement l'utilisateur dans le processus de fouille de
- 157 -
RNTI-E-9
Validation des visualisations par axes principaux de données
numériques et textuelles.
Ludovic Lebart
CNRS-ENST
[email protected]
http://www.lebart.org
Résumé. Parmi les outils de visualisation de données multidimensionnelles
figurent d’une part les méthodes fondées sur la décomposition aux valeurs
singulières, et d’autre part les méthodes de classification, incluant les cartes
auto-organisées de Kohonen. Comment valider ces visualisations ? On
présente sept procédures de validation par bootstrap qui dépendent des
données, des hypothèses, des outils : a) le bootstrap partiel, qui considère les
réplications comme des variables supplémentaires; b) le bootstrap total de type
1, qui réanalyse les réplications avec changements éventuels de signes des
axes; c) le bootstrap total de type 2 qui corrige aussi les interversions d’axes;
d) le bootstrap total de type 3, sur lequel on insistera, qui corrige les
réplications par rotations procrustéenne; e) le bootstrap spécifique (cas des
hiérarchies d’individus statistiques et des données textuelles). f) le bootstrap
sur variables. g) les extensions des procédures précédentes à certaines cartes
auto-organisées.
1 Introduction
On veut montrer brièvement les divers degrés d’exigence (vis-à-vis des résultats) que l’on
peut avoir lorsque l’on procède à une analyse en axes principaux. Ces degrés correspondent à
des modalités d’usage du bootstrap (Diaconis et Efron, 1983; Efron et Tibshirani, 1993). On
examinera successivement le bootstrap partiel (section 2), trois types de bootstrap dit total
(section 3), d’autres formes plus spécifiques de bootstrap (section 4). On revient ensuite sur
les subtilités du bootstrap total de type 3 (section 5). On illustrera ces propos par une étape
de travail extraite d’une analyse en composante principales (ACP).
2 Bootstrap partiel
Les axes principaux calculés à partir des données originales, non perturbées, jouent un
rôle privilégié (en ACP, par exemple, la matrice des corrélations initiale C est en effet
l’espérance mathématique des matrices Ck « perturbées » par la réplication k). Pourquoi
calculer des sous-espaces de représentation prenant en compte des perturbations, et donc
moins exacts que le sous-espace calculé sur les données initiales? La variabilité bootstrap
- 169 -
RNTI-E-9
Logiciel d’Aide à l’Évaluation des Catégorisations
Julien Velcin, William Vacher, Jean-Gabriel Ganascia
LIP6 - 104, avenue du président Kennedy - 75016 Paris
{Julien.Velcin, Jean-Gabriel.Ganascia}@lip6.fr, [email protected]
http://www-poleia.lip6.fr/~velcin
Les méthodes de classification automatique sont employées dans des domaines variés et
de nombreux algorithmes ont été proposés dans la littérature. Au milieu de cette “jungle”, il
semble parfois difficile à un simple utilisateur de choisir quel algorithme est le plus adapté à
ses besoins. Depuis le milieu des années 90, une nouvelle thématique de recherches, appelée
clustering validity, tente de répondre à ce genre d’interrogation en proposant des indices pour
juger de la qualité des catégorisations obtenues. Mais le choix est parfois difficile entre ces
indices et il peut s’avérer délicat de prendre la bonne décision. C’est pourquoi nous proposons
un logiciel adapté à cette problématique d’évaluation.
1
Evaluer les catégorisations
La validation manuelle n’est pas forcément toujours faisable ou souhaitable. C’est pourquoi
il convient de prendre en considération des méthodes automatiques quantitatives afin de donner une idée de la qualité des catégorisations. Nous nous basons sur la distinction entre critères
“externes” et “internes” faite par Halkidi et al. (2002). Alors que les premiers reposent sur l’hypothèse d’une partition idéale des données (étiquettes données par l’utilisateur, par exemple),
les seconds n’utilisent aucune information a priori pour juger de la qualité des catégorisations.
C’est cette seconde approche que nous avons choisi d’adopter dans notre logiciel.
Contrairement à l’approche externe, aucun étiquetage préalable des données ne permet ici
de comparer le résultat du clustering à un quelconque modèle idéal. De nombreux indices de
validité ont été proposés et des travaux récents attestent de la vitalité de cette perspective de
recherche. Ils se basent sur la recherche, thème classique en apprentissage non supervisé, d’un
compromis entre les principes de similarité intra-classe et de dissimilarité inter-classes. Des
indices caractéristiques de cette approche interne sont les indices de Dünn, Davies-Bouldin et
Hubert modifié, qui ont été implémentés dans notre logiciel.
2
Logiciel et expérimentations
L’objectif du logiciel que nous proposons est d’aider l’utilisateur à comparer différentes
partitions d’un même jeu de données sur la base de critères internes. Ces partitions peuvent être
les résultats obtenus à l’aide d’un ou de plusieurs algorithmes de classification automatique,
tels les k-means ou EM. Les données d’entrée sont, d’une part, la définition du langage de
description et des exemples d’apprentissage décrits à l’aide de ce langage, et, d’autre part, les
- 175 -
RNTI-E-9
Logiciel d’Aide à l’Évaluation des Catégorisations
partitions qui feront l’objet de la comparaison. L’évaluation repose sur trois composantes :
l’indice utilisé, la mesure de distance (ou de similarité) choisie, ainsi que la normalisation
effectuée sur les attributs numériques. Le logiciel permet de lancer plusieurs évaluations en
même temps et propose, en sortie, une visualisation des résultats obtenus. La visualisation est
différente suivant que l’on traite un ou plusieurs critères. De plus, le caractère évolutif de notre
logiciel donne l’opportunité d’ajouter très facilement de nouveaux indices ou de nouvelles
distances.
La figure ci-dessus présente les résultats obtenus avec quatre algorithmes (k-means, EM,
Farthest-first et PRESS) sur la célèbre base “vote” du répertoire UCI. Elle permet de constater
la supériorité de l’un des algorithmes dans le cas mono-critère (indice de Davies-Bouldin),
ici celui qui a obtenu la plus petite des aires. Le cas multi-critères, par contre, semble indiquer
deux types de résultats distincts. L’utilisation de notre logiciel peut ainsi suggérer à l’utilisateur
d’étudier plus attentivement les raisons de cette différence.
3
Conclusion et perspectives
Nous présentons un logiciel pour aider l’utilisateur à comparer les résultats obtenus par
des algorithmes de classification. La caractéristique principale de ce travail est son caractère
évolutif : ajout de nouveaux indices, de nouvelles distances, etc. Dans les perspectives à court
terme, nous souhaitons étendre le logiciel aux indices externes, tels la F-mesure ou les fonctions entropiques. A plus long terme, cet outil devrait nous permettre de comparer, non plus les
partitions ou les algorithmes, mais directement les critères de pertinence. Ces derniers pourraient alors être regroupées et mis en relation avec la nature des données traitées (données
clairsemées, bruitées, à grande dimension, etc.). Ceci devrait mener à une contribution concernant l’évaluation des techniques d’apprentissage non supervisé, évaluation qui présente encore
de réelles difficultés au jour d’aujourd’hui.
Summary
This paper details a software that can assist the user for clustering comparison. It gives a
clear visualization of different criteria (Dunn, Silhouette, etc.) calculated on one or more partitions of the data. The main feature is its modularity in three components: a quality criterion,
a comparison measure and a normalization on numerical attributes. Furthermore, it allows the
user to add its own items into those components.
RNTI-E-9
- 176 -
Un segmenteur de texte en phrases guidé par l’utilisateur
Thomas Heitz∗
∗
Université Paris-Sud XI, 91405 Orsay CEDEX
[email protected],
http://www.lri.fr/∼heitz
Résumé. Ce programme effectue une segmentation en phrases d’un texte. Contrairement aux procédures classiques, nous n’utilisons pas d’annotations préliminaires et tirons parti d’un apprentissage guidé par l’utilisateur.
La segmentation en phrases entièrement automatisée et avec une importante proportion des
corpus annotés en phrases manuellement est déjà très efficace. De même, la segmentation en
phrases à l’aide de dictionnaires et de règles syntaxiques spécifiquement adaptées à un corpus
donné est aussi relativement efficace.
Ce qui nous intéresse ici est donc la segmentation d’un corpus en phrases sans aucune
segmentation initiale et avec l’aide de l’utilisateur pour diriger les traitements et notamment
l’apprentissage. Ce que nous appelons apprentissage guidé. Le but est de minimiser le temps
consacré par l’utilisateur à annoter des fins de phrases. C’est pourquoi nous utilisons au maximum les connaissances générales de l’écriture du langage naturel et nous présentons à l’utilisateur les seuls cas les plus ambigus.
Le but est d’annoter le mot précédent et suivant de chaque point suivi d’un espace afin de
déterminer si la phrase doit être terminée sur ce point ou non.
L’idée qui est utilisée dans ce segmenteur est la suivante. Le mot précédent le point peut
être une abréviation et dans ce cas il est fort probable que le point ne soit pas une fin de phrase.
Le mot suivant le point peut être un mot toujours capitalisé, c’est-à-dire commençant par une
majuscule dans tout le texte, et dans ce cas il est fort probable que le point ne soit pas une fin
de phrase.
Les annotations utilisées pour classer les mots précédents et suivants les points suivis d’un
espace sont les annotations certain et impossible qui correspondent aux mots que l’utilisateur
considère comme étant (respectivement n’étant pas) certainement une abréviation terminée
par un point ou un mot toujours capitalisé. L’annotation possible correspond aux éléments
indéterminés qui deviendront certain ou impossible ultérieurement.
La procédure globale de segmentation se déroule selon les étapes suivantes :
① Établissement de statistiques sur les abréviations probables et les mots capitalisés probables sur le corpus complet. Notamment le nombre d’occurrences avec et sans point
final et avec et sans majuscule initiale.
② Annotation automatique sur un extrait du corpus des abréviations à l’aide de listes
de mots communs, d’abréviations et de règles syntaxiques. L’utilisateur peut choisir
d’avoir des résultats plus précis sur les annotations certain et impossible mais obtiendra
en contrepartie une plus grande quantité d’annotations possible. L’utilisateur peut ensuite
classer les abréviations restées possible en certain et impossible.
- 177 -
RNTI-E-9
L’outil SDET pour le complètement des données descriptives
liées aux bases de données géographiques
Khaoula Mahmoudi*
Sami Faïz ** ***
* Laboratoire URISA -Unité de Recherche en Imagerie Satellitaire et ses Applications
Ecole Supérieur des communications de Tunis (SUPCOM)
[email protected]
** Laboratoire de Télédétection et Systèmes d’Informations à Références Spatiales
(LTSIRS)
*** Institut National des Sciences Appliquées et de Technologie (INSAT)
[email protected]
Résumé. L’enrichissement des bases de données est un moyen visant à offrir
un supplément informationnel aux utilisateurs. Dans le cas des données géographiques, cette activité représente de nos jours un problème crucial. Sa résolution permettrait de meilleures prises de décisions ne reposant pas uniquement
sur les informations limitées. Notre outil SDET (Semantic Data Enrichment
Tool) vient proposer une solution d’enrichissement faisant du Système
d’Information Géographiques (SIG) initial une source riche d’informations.
1 Aperçu du processus d’enrichissement
Le processus d’enrichissement que nous avons proposé (Faïz et Mahmoudi, 2005, Mahmoudi et Faïz, 2006b) émane d’un besoin informationnel réclamé par les utilisateurs des SIG.
Pour extraire les connaissances incarnées dans les documents dans des temps raisonnables,
nous procédons d’une manière distribuée en adoptant le paradigme multi-agents (Ferber,
1997).
L’approche que nous proposons est modulaire, elle peut être décomposée en trois grandes
phases. Il s’agit de la segmentation et de l’identification des thèmes abordés dans les documents initiaux. Suite à cette phase, un nouveau document est généré pour chaque thème
regroupant les segments de textes distribués entre les différents agents et traitant le même
thème. La seconde phase consiste à affecter pour chaque thème un délégué responsable de
l’extraction de l’essentiel d’information de son document généré. Enfin, un filtrage textuel
s’opère, il consiste à éliminer toute portion de texte qui s’avère inutile à la compréhension du
thème (Mahmoudi et Faïz, 2006a).
2 SDET : Un outil pour l’enrichissement des données
Notre approche a été mise en œuvre pour permettre un support informationnel pour les
utilisateurs de SIG. L’implémentation de notre approche a été réalisée en utilisant le langage
- 179 -
RNTI-E-9
Extraction de données sur Internet avec Retroweb
Fabrice Estiévenart∗, Jean-Roch Meurisse∗∗
CETIC asbl, rue Clément Ader 8, 6041 Charleroi (Belgique)
[email protected],
∗∗
FUNDP, Institut d’Informatique, rue Grandgagnage 21, 5000 Namur (Belgique)
[email protected]
∗
Résumé. Ce document décrit Retroweb, une boite à outils qui permet l’extraction de données structurées à partir de pages Web. Notre solution est semiautomatique car les données à extraire sont préalablement définies par l’utilisateur. L’intérêt de cette approche est qu’elle permet l’extraction de données
ciblées et conformes aux besoins de l’application utilisatrice (migrateur, moteur
de recherche, outil de veille). Retroweb se caractérise aussi par une grande facilité d’utilisation car il ne nécessite aucune connaissance de langage particulier,
la définition des règles d’extraction se faisant directement de manière interactive
dans le navigateur Internet. Ce document décrit les trois principaux processus de
notre méthode.
1
Classification des pages
L’objectif de cette phase est d’identifier les principaux types de pages composant le site
analysé. Un type de pages est un ensemble de pages relativement similaires tant sur le plan
syntaxique (code HTML) que sémantique (concept représenté par la page).
Pour atteindre cet objectif, un taux de similarité est calculé entre les pages du site sur la
base d’un ensemble de critères tels que ceux décrits dans Ricca et Tonella (2003).
2
Analyse sémantique des pages
Lors de cette étape, l’utilisateur définit les composants qu’il souhaite extraire à partir d’un
échantillon représentatif de pages d’un même type. Un composant est un concept présent au
sein des pages d’un même type. Il peut être absent de certaines pages et/ou y apparaître plusieurs fois. De plus, on lui associe une indication de format (i.e. texte simple ou balisé) et de
localisation. Dans Retroweb, cette dernière propriété est exprimée sous la forme d’un chemin
(XPath) dans l’arborescence formée par les balises HTML.
La figure 1 illustre le scénario de construction d’une règle d’extraction. (1) L’utilisateur
sélectionne une instance du composant à définir et lui assigne un nom représentatif tandis que
l’outil calcule son chemin d’accès XPath. (2) La règle est appliquée à chacune des pages de
l’échantillon afin d’en vérifier la validité. (3) Si la valeur attendue pour chacune des pages n’a
pu être extraite, la règle doit être raffinée. Pour ce faire plusieurs solutions sont proposées :
- 181 -
RNTI-E-9
RAS : Un outil pour l’annotation de documents basée sur les
liens de citation
Lylia Abrouk, Danièle Hérin
LIRMM. 161 rue ada, 34392 Montpellier
{abrouk,dh}@lirmm.fr
Résumé. RAS (Reference Annotation System) est un outil d’annotation de documents. Cet outil est le résultat de l’implémentation de notre approche d’annotation basée sur le contexte de citation. L’approche est indépendante du contenu
et utilise un regroupement thématique des références construit à partir d’une
classification floue non-supervisée. L’outil présenté dans cet article a été expérimentée et évaluée avec la base de documents scientifiques Citeseer.
1
Introduction
RAS1 , Reference Annotation System est un outil semi-automatique d’annotation de documents basé sur le contexte de citation, l’expert du domaine reste décideur de la fiabilité de
l’annotation. L’approche d’annotation permet d’annoter un document sans connaissance préalable de son contenu, en se basant sur les références. Cet outil a été réalisé dans le contexte d’un
besoin réel, celui d’une communauté souhaitant partager l’information existante et ceci sous
certaines contraintes, la plus importante étant celle de l’absence de contenu des documents à
partager. Afin de tester les résultats de l’annotation, nous avons utilisé une base avec un nombre
important de documents qui s’inter-référencent. L’outil utilise les technologies suivantes :
– Python2 comme langage de script ;
– la base documentaire Citeseer3 ;
– L’ontologie dmoz4 (informatique) ;
– l’algorithme de classification fuzzy C-means Dunn (1973).
2
Fonctionnement et principales fonctionnalités
De manière générale l’outil permet de réaliser une annotation sur un document existant
dans la base. L’outil permet de visualiser le résultat de l’annotation sous forme d’une liste de
concepts de l’ontologie présentés sous la forme d’une hiérarchie.
Les étapes d’annotation implémentés dans RAS sont les suivantes Abrouk et al. (2006) :
1. Récupérer l’ensemble des documents cités par d dans un ensemble noté Refd .
1 www.lirmm.fr/annotation
2 http
://www.python.org/
://citeseer.ist.psu.edu/
4 http ://www.dmoz.org/
3 http
- 183 -
RNTI-E-9
Un outil pour la visualisation de relations entre gènes
Marie Agier∗ , Jean-Marc Petit∗∗
∗
LIMOS, UMR 6158 CNRS, Univ. Clermont-Ferrand II
∗∗
LIRIS, UMR 5205 CNRS, INSA Lyon
[email protected], [email protected]
Résumé. La reconstruction de réseaux de gènes est un des défis majeurs de
la post-génomique. A partir de données d’expression issues de puces à ADN,
différentes techniques existent pour inférer des réseaux de gènes. Nous proposons dans ce papier une approche pour la visualisation de réseaux d’interactions
entre gènes à partir de données d’expression. L’originalité de notre approche est
de superposer des règles avec des sémantiques différentes au sein d’un même
support visuel et de ne générer que les règles qui impliquent des gènes dits centraux. Ceux-ci sont spécifiés en amont par les experts et permettent de limiter la
génération des règles aux seuls gènes qui intéressent les spécialistes. Une implémentation a été réalisée dans le logiciel libre MeV de l’institut TIGR.
1
Introduction
Suite au succès rencontré par les techniques de puces à ADN pour mesurer l’expression
des gènes à grande échelle, la reconstruction de réseaux de gènes à partir de ces données
d’expression a suscité depuis quelques années un intérêt croissant. Dans des travaux antérieurs
[1, 2], nous avons proposé une approche ayant pour but de découvrir différents types de
règles entre gènes. Pour faciliter l’interprétation des règles par les experts, nous proposons
dans ce papier une visualisation conviviale des règles générées. Nous montrons comment les
règles peuvent être visualisées sous forme de graphe orienté présentant les diverses relations
découvertes dans les données. L’originalité de notre proposition est de superposer différents
types de règles dans un même suppport visuel. Nous proposons également aux utilisateurs
de spécifier plusieurs gènes dits centraux, à partir desquels seront présentées uniquement les
règles impliquant ces gènes centraux et limitant ainsi le coût de la génération des règles.
2
Approche proposée
Nous souhaitons avant tout réaliser un outil convivial et proposer ainsi une méthode de
visualisation intuitive pour les experts. D’autre part, nous proposons d’appliquer un filtre sur
les règles générées en fonction de cinq indices de qualité (support, confiance, lift, leverage et
conviction). Ne seront donc visualisées que les règles les plus intéressantes pour les experts, il
est donc suffisant de pouvoir visualiser les indices pour la règle ou l’attribut sélectionnés par
un simple clic. L’interprétation des règles est une étape particulièrement délicate et très difficile, puisqu’une règle entre deux gènes impliquent également divers produits associés (protéines, facteurs de transcription...). C’est pourquoi les biologistes sont rarement intéressés par
- 185 -
RNTI-E-9
Traitement et exploration du fichier Log du Serveur Web,
pour l’extraction des connaissances : Web Usage Mining
Mostafa Hanoune*, Faouzia Benabbou*
* Université Hassan II- Mohammedia, Faculté des sciences Ben M’Sik, Laboratoire TIM
(Technologies de l’information et Modélisation), Casablanca, Maroc
[email protected], [email protected].
Résumé. Le but dans ce travail consiste à concevoir et réaliser un Outil Logiciel, en utilisant les concepts du Web Usage Mining pour offrir aux web masters l’ensemble des
connaissances, y inclut les statistiques sur leurs sites, afin de prendre les décisions adéquates. Il s’agit en fait, d’extraire de l’information à partir du fichier log du serveur Web, hébergeant le site Web, et de prendre les décisions pour découvrir les habitudes des internautes, et de répondre à leurs besoins en adaptant le contenu, la forme et l’agencement des
pages web.
1 Introduction
L’activité sur le Web et les données résultantes ont connu une croissance très rapide, vu
la croissance exponentielle du nombre des documents mis en ligne.
D’après des statiques sur des sites spécialisés, le nombre des utilisateurs d’Internet dans
le monde a dépassé le milliard (1 022 863 307), au mois de mars 20061, et le nombre de sites
Web a atteint 74,4 millions au mois d’Octobre 20052. Ces données, en particulier celles relatives à l’usage du Web, sont traitées dans le Web Usage Mining (WUM). Dans cet article,
nous décrivons les fonctionnalités majeures du logiciel que nous avons conçu et réalisé, et
qui permet l’analyse des fichiers Logs afin de comprendre le comportement des internautes
sur un site Web (Site de l’université Hassan II- Mohammedia www.univh2m.ac.ma Casablanca, Maroc).
2 Proposition
L'apport de ce travail réside principalement dans les points suivants :
1. Connaissances sur les visiteurs :
(a) Le pourcentage des visiteurs par semaine par mois et par an
(b) Avoir une visibilité internationale : d’où proviennent nos visiteurs ?
2. Connaissances sur les pages :
(a) Les pages les plus et les moins consultées (pages populaires et pages impopulaires)
(b) Les combinaisons des pages consultées
(c) Savoir quels sont les liens qui nous référencent le mieux
3. Connaissances sur les navigateurs et les OS
(a) Le pourcentage des navigateurs les plus utilisés
1
2
http://www.internetworldstats.com/stats.htm
http://www.netcraft.com
- 187 -
RNTI-E-9
SyRQuS - Recherche par combinaison de graphes RDF.
Adrian Tanasescu∗
∗
Université Lyon 1, Villeurbanne, F-69622, France, LIRIS CNRS UMR 5205 43,
Bat. Nautibus, 43 Bld. du 11 Novembre 1918, 69622 Villeurbanne
[email protected],
http://bat710.univ-lyon1.fr/ atanases/
Résumé. Nous nous intéressons à un mécanisme permettant la construction de
réponses combinés à partir de plusieurs graphes RDF. Nous imposons, par souci
de cohérence, que cette combinaison soit réalisée uniquement si les graphes RDF
ne se contredisent pas. Pour déterminer la non-contradiction entre deux graphes
RDF nous utilisons une mesure de similarité, calculée au moment de l’ajout de
documents RDF dans la base de documents.
1
La plateforme SyRQuS
Même si cela fait plusieurs années que RDF est devenu un standard recommandé par W3C,
le développement des langages de requête RDF a été plus long. Après l’apparition de RDF, des
langages permettant d’accéder aux triplets RDF ont émergé, comme TRIPLE (Sintek et al.,
2002) ou encore Squish (SquishQL, 2002). De ces premiers sont inspirés d’autre langages
comme RQL, RDQL - langage d’origine de la plateforme Jena (Jen) - ou encore SeRQL langage de base de Sesame (Kampman et Broekstra). Tous ces efforts convergent aujourd’hui vers
un langage SQL-like qui est en train de devenir la future recommandation W3C : SPARQL
(Seaborne et Prud’hommeaux, 2006). Déjà en statut de recommandation candidate dans sa
version d’avril 2006, ce langage est petit à petit adopté par les plateformes orienté vers le Web
sémantique utilisant RDF.
Pour cette raison nous avons orienté notre effort vers le développement d’un outil permettant d’interpréter les requêtes formulées à l’aide de ce langage. SyRQuS (Syntetizing RDF
Query System) a été développé dans un environnement PHP/MySQL afin d’assurer un déploiement indépendant par rapport aux systèmes d’exploitation. Il utilise le parseur ARC RDF/XML
afin d’extraire les triplets des documents RDF et l’analyseur de requêtes SPARQL de RAP
(RDF API for PHP).
Les fonctionnalités de la plateforme SyRQuS se décomposent en deux parties :
1. Ajout de nouveaux documents RDF. Cette fonctionnalité réalise, d’une part, l’insertion
des documents RDF dans la base de données et, d’autre part, la mise à jour de la matrice
de similarité pour chaque nouveau document RDF ajouté.
2. Interrogation de la base de données. Après la formulation d’un requête en SPARQL,
le moteur de recherche suit les étapes suivantes :
(a) Décomposition de la requête et récupération des triplets de la clause WHERE ;
- 189 -
RNTI-E-9
Une méthode d’interprétation de scores
Vincent Lemaire, Raphaël Féraud
France Telecom R&D - 2 avenue Pierre Marzin 22300 Lannion
[email protected]
Résumé. Cet article présente une méthode permettant d’interpréter la sortie
d’un modèle de classification ou de régression. L’interprétation se base sur l’importance de la variable et l’importance de la valeur de la variable. Cette approche
permet d’interpréter la sortie du modèle pour chaque instance.
1
Introduction
Dans les applications de gestion de la relation clients, les scores permettent d’identifier les
clients les plus susceptibles de réagir positivement à une campagne marketing. L’interprétation
du score apporte alors une information supplémentaire pour améliorer l’efficacité des campagnes marketing. L’utilisation de la méthode présentée1 ici doit se faire après une étape de
sélection de variable qui aura supprimer les variables redondantes pour ne pas risquer de diluer
l’interprétation. L’interprétation d’un score est constituée de l’association de l’importance à
l’instance (I) d’une variable d’entrée et de l’influence à l’instance d’une variable d’entrée (Iv )
présentées ci-dessous.
Notations - Soit Vj : la variable explicative j, X : un vecteur de dimension J, K : le nombre
d’instances, Xn : le vecteur représentant l’instance n, Xnj : la composante j du vecteur n, F :
le modèle, p : la sortie p du modèle, F p (X) : la valeur de la sortie p du modèle pour le vecteur
X et Fjp (Xn ; Xk ) désigne la sortie p du modèle étant donné le remplacement de la composante
j de l’instance Xn par celle de l’instance Xk .
2
Importance à l’instance d’une variable d’entrée
Etant donné2 le modèle F , l’instance considérée Xn , la variable explicative Vj du modèle
et la variable à expliquer p du modèle, on définit la sensibilité du modèle S(Vj /F, Xn , p)
par : la moyenne des variations mesurées en sortie du modèle lorsqu’on perturbe l’instance
considérée Xn en fonction de la distribution de probabilité de la variable Vj . La variation
mesurée, pour l’instance Xn est la différence entre la “vraie sortie” du modèle Fj (Xn ) et la
“sortie perturbée” du modèle Fj (Xn , Xk ).
La sensibilité du modèle pour l’exemple Xn à la variable Vj est alors la moyenne des
||Fj (Xn ) − Fj (Xn , Xk )||2 sur la distribution de probabilité (distribution empirique obser1 PK
vée sur K exemples) de la variable Vj . On a alors : S(Vj |F, Xn , p)= K
k=1 ||Fj (Xn ) −
1 Voir
le rapport technique associé sur perso.rd.francetelecom.fr/lemaire pour plus de détails.
définit ici les notions "d’importance (I) d’une variable pour une instance" et "d’influence (Iv ) d’une variable
pour une instance" pour l’une des variables Vj en entrée du modèle sur l’une des variables de sortie p du modèle.
Ces définitions sont rigoureusement les mêmes pour toutes les variables en entrée et en sortie du modèle. On simplifie
donc les notations en remplaçant Fjp par Fj .
2 On
- 191 -
RNTI-E-9
Annotation et navigation de données archéologiques*
Bernardo Lopez, Samira Hammiche, Samir Sebahi et Mohand-Saïd Hacid
Université de Lyon, Villeurbanne, F-69622, France ;
Université Lyon 1, Villeurbanne, F-69622, France ;
LIRIS CNRS UMR 5205
43, boulevard du 11 novembre 1918. 69622 Villeurbanne
{blopez, shammich, mshacid, ssebahi}@liris.univ-lyon1.fr
Résumé. Dans cet article, nous proposons un cadre et un outil pour l’annotation et la
navigation de données archéologiques. L’objectif principal est de structurer les
annotations de façon à permettre une navigation incrémentale où l’utilisateur peut, à
partir d’un ensemble d’objets initialement retournés par une requête, découvrir des liens
approximatifs avec d’autres objets de la base. L’approche a été implémentée et est en
cours de validation.
1. Introduction
La fouille archéologique est un processus technique visant à recueillir toutes les informations
pertinentes sur les manifestations présentes dans un site archéologique [1]. Le processus de fouille
d’un site archéologique passe par les étapes suivantes [2]: (1) explorer le site pour repérer les
vestiges, (2) analyser et interpréter les objets et (3) diffuser les résultats. La diffusion du savoir
archéologique nécessite le développement de systèmes d’annotations et de recherche d’œuvres
archéologiques numérisées (images). C’est dans ce contexte que s’inscrit notre travail. Il s’agit de
concevoir un cadre d’annotation d’œuvres d’art et un outil de navigation de ces œuvres. L’objectif
est d’asseoir l’annotation sur une structure qui puisse fournir une navigation par découverte de liens
entre les œuvres dynamiquement
2. Annotation XML des objets archéologiques
Les données archéologiques sont décrites en utilisant les informations recueillies et enregistrées. Les
informations de description concernent : les aspects matériaux, le contexte de fouille et la sémantique
des œuvres (c.-à-d. ce que les objets représentent). Un standard de description appelé “CIDOCICOM” est développé par le groupe de travail CIDOC-IDOC [3] sur les sites archéologiques. Ce
dernier définit les catégories minimales d'informations à enregistrer sur des objets archéologiques
afin d’en faciliter la recherche dans un cadre international. Notre modélisation des œuvres
archéologiques s’appuie sur ce standard avec une structure XML qui permette de générer des
associations de façon dynamique.
L’architecture générale de notre application «musée virtuel TARCHNA» est illustrée dans la Figure 1.
Les différents composants qui constituent notre application sont : le moteur de présentation, le
gestionnaire de profiles utilisateurs et le processeur de sémantique.
• Le moteur de présentation (“Presentation Engine”) : il gère la présentation. Son but est de
supporter un maximum de technologies clients : support des différents navigateurs, type
d’interfaces tout en assurant l’adaptation des structures de données renvoyées au client.
• Le processeur de sémantique (“Semantic Processor”) : son rôle est d’appuyer
l’exploration/navigation en fournissant des outils pour la recherche, la comparaison et la
proposition dynamique d’objets archéologiques à l’utilisateur en tenant compte des relations
sémantiques entre les concepts des différentes annotations. La recherche peut être faite selon
plusieurs modes, à savoir : le mode exact (stricte comparaison entre concepts et leurs valeurs), le
*
Ce travail entre dans le cadre du projet européen TARCHNA (http://www.tarchna.org/)
- 193 -
RNTI-E-9
Utilisation de WordNet dans la catégorisation de textes
multilingues
Mohamed Amine Bentaallah∗,∗∗ Mimoun Malki∗,∗∗∗
∗
Département d’informatique, Université Djillali Liabès, 22000 Sidi Bel Abbès, ALGERIE
http://www.univ-sba.dz
∗∗
[email protected]
∗∗∗
[email protected]
Résumé. Cet article est consacré au problème de la catégorisation multilingue
qui consiste à catégoriser des documents de différentes langues en utilisant le
même classifieur. L’approche que nous proposons est basée sur l’idée d’étendre
l’utilisation de WordNet dans la catégorisation monolingue vers la catégorisation
multilingue.
1 Introduction
La Catégorisation de Textes (C.T) consiste à assigner une ou plusieurs catégories parmi
une liste prédéfinie à un document. En d’autres termes, elle permet de chercher une liaison
fonctionnelle entre un ensemble de textes et un ensemble de catégories (Sebastiani (2002)). La
grande importance accordée cette dernière décennie au traitement des données multilingues, a
donné naissance à un nouveau domaine de recherche. C’est la catégorisation de textes multilingues.
Dans cet article, nous allons proposer une nouvelle approche qui consiste à étendre l’utilisation de WordNet en C.T pour catégoriser des documents provenant de différentes langues.
L’approche proposée est basée sur la traduction des documents à catégoriser vers la langue
de Shakespeare afin de pouvoir bénéficier de l’utilisation de WordNet par la suite. Cette hybridation entre l’utilisation des techniques de traduction et l’utilisation de WordNet offre les
avantages suivants:
– Sans l’utilisation des techniques de traduction, il devient nécessaire de construire une
ontologie WordNet pour chaque langue. Cette construction est très coûteuse en terme de
temps et personnels.
– L’utilisation d’une ontologie bien construite et riche tel que WordNet permet de corriger certains erreurs de traduction en utilisant des relations tel que l’hypéronymie et la
synonymie(Cruse (1986)).
- 195 -
RNTI-E-9
Une nouvelle méthode d’alignement et de visualisation
d’ontologies OWL-Lite
Sami Zghal∗,∗∗ , Karim Kamoun∗ , Sadok Ben Yahia∗ , Engelbert Mephu Nguifo∗∗
∗
Département des Sciences de l’Informatique, Faculté de Sciences de Tunis, Tunisie
[email protected]
∗∗
CRIL CNRS FRE 2499, Université d’Artois, IUT de Lens, France
{sami.zghal, mephu}@cril.univ-artois.fr
Résumé. Dans ce papier, une nouvelle plate-forme d’alignement et de visualisation des ontologies, appelée POVA1 (Prototype OWL-Lite Visual Alignment),
est décrite. Le module d’alignement implémente une nouvelle approche d’alignement d’ontologies remédiant au problème de la circularité et de l’intervention de l’utilisateur.
Une seule ontologie ne suffit plus pour effectuer toutes les tâches envisageables dans un
environnement distribué. Les techniques d’alignement peuvent fournir un cadre dans lequel
plusieurs ontologies peuvent être exploitées. Aligner deux ontologies consiste à comparer les
différences ou les ressemblances définies dans celles-ci.
La nouvelle méthode d’alignement proposée est intégrée dans un prototype d’alignement
et de visualisation d’ontologies OWL-Lite, appelé POVA (Prototype OWL-Lite Visual Alignment). Ce prototype est constitué des trois modules : module de construction du graphe
OWL-Graph, module d’alignement d’ontologies et module de visualisation. Le premier module, B UILD OWL G RAPH, permet la construction d’une nouvelle représentation, appelée
OWL-Graph pour représenter l’ontologie décrite en OWL-Lite. Le graphe ainsi construit permet de décrire toutes les informations existantes dans une ontologie OWL-Lite. Le deuxième
module, EDOLA (Extended Diameter OWL-Lite Alignment), implémente le nouveau algorithme automatique d’alignement. À chaque couple d’entités appartenant à une même catégorie, l’algorithme d’alignement calcule les mesures de similarité locale. Il définit un modèle
global de calcul de similarité globale à travers le voisinage, tout en remédiant au problème de
la circularité et de l’intervention de l’utilisateur dans le processus d’alignement. Le troisième
module, OWL-Lite V ISUALIZATION, permet de visualiser les deux ontologies à aligner, ainsi
que le résultat de l’alignement produit par le deuxième module.
Dans le cadre des expérimentations menées pour évaluer la méthode d’alignement d’ontologies EDOLA, quelques tests fournis dans la base benchmark mise à la disposition de la communauté par la compétition EON (Evaluation of Ontology-based Tools), EON (2004)2 , sont
utilisés. L’ontologie de base est constituée par un ensemble de références bibliographiques.
Elle représente une version plus allégée en nombre d’entités ontologiques comparativement à
des ontologies réelles. L’ontologie de base est composée en tout de 97 entités réparties comme
1 Ce
travail est partiellement financé par le projet franco-tunisien CMCU 05G1412.
://oaei.ontologymatching.org/2004/Contest/
2 http
- 197 -
RNTI-E-9
Vers un algorithme multi-agents de clustering dynamique
Gaële Simon∗ , Dominique Fournier∗∗, Bruno Mermet∗
∗
GREYC CNRS UMR 6072, 6 Boulevard du Maréchal Juin 14050 CAEN cedex
{gaele.simon, bruno.mermet}@univ-lehavre.fr,
∗∗
LITIS EA 4051, 25 rue Philippe Lebon, BP 540 76058 Le Havre cedex
[email protected]
Résumé. Dans cet article, nous présentons un algorithme multi-agents de clustering dynamique. Ce type de clustering doit permettre de gérer des données
évolutives et donc être capable d’adapter en permanence les clusters construits.
1
Introduction
Dans cet article, nous proposons une technique de clustering dynamique de données évolutives. Cette problématique est née de l’objectif initial de nos travaux visant à permettre, au
cours de l’exécution d’un système multi-agents, de détecter des groupes d’agents liés à des
phénomènes d’auto-organisation. On se trouve donc face à un problème de clustering dynamique qui présente les deux particularités suivantes : le cardinal de l’ensemble de données à
clusteriser n’est pas constant et des données déjà clusterisées peuvent être modifiées du fait de
l’évolution des agents correspondants.
Cela peut entraîner des modifications ou des réorganisations de l’ensemble existant de clusters. Ainsi, une méthode de clustering dynamique est nécessaire afin d’adapter continuellement
l’ensemble des clusters afin qu’ils reflètent le mieux possible l’état courant des données.
2
Travaux connexes
Il existe de nombreux travaux portant sur les techniques de clustering où l’ensemble des
données à clusteriser n’est pas totalement connu dès le départ comme en clustering classique.
On trouve en particulier dans cette catégorie les techniques de clustering de flux de données et
de flux de données évolutifs. Malheureusement, ces algorithmes ne prennent pas en compte le
fait que des données déjà clusterisées puissent elles aussi évoluer.
Les travaux les plus proches de notre problématique concernent un algorithme de clustering
de données mobiles présenté dans [Li et al. (2004)] : un micro-clustering est effectué en enrichissant les données d’un vecteur vitesse. Cependant, dans un deuxième temps, l’algorithme
k-means doit être utilisé pour regrouper les micro-clusters, ce qui oblige à donner un nombre
de clusters attendu et à ce que ce nombre soit constant.
3
Notre approche
Les algorithmes fourmis de clustering semblent plus adaptés à la prise en compte de l’évolution des données. Ainsi, l’algorithme AntClass [Monmarché (2000)] associe successivement
en quatre phases un algorithme de fourragement et l’algorithme k-means. Cette approche
n’étant pas compatible avec l’aspect dynamique de notre problématique, nous avons décidé
- 199 -
RNTI-E-9
Notion de conversation dans les communications
interpersonnelles instantanées sur IP
Alexandre Bouchacourt*, Luigi Lancieri**
*France Telecom R&D 42 Rue des coutures 14000 Caen
[email protected]
**France Telecom R&D 42 Rue des coutures 14000 Caen
[email protected]
Résumé. Dans cet article nous étudions la contribution des techniques de
fouille de données à l'amélioration des services de communications instantanées sur IP tel que la messagerie instantanée (IM) et la téléphonie sur IP
(ToIP).
Dans cet article nous étudions les aspects temporels de traces d'activité de messagerie instantanée. Nous souhaitons pour ce faire détecter les conversations, en d'autres mots le début
et la fin d'échanges de messages cohérents. Dans ce qui suit nous assimilons une conversation à un ensemble de messages consécutifs échangés entre deux interlocuteurs.
Nous partons du constat que bien souvent en IM on ne dispose pas d'information sur la
durée des conversations (i.e. qu'on ne sait pas quand une conversation entre deux utilisateurs
débute et quand elle se termine) car chaque message est daté indépendamment des autres.
Nous avons pour objectif de trouver une méthode permettant de positionner ces conversations dans le temps. Le matériau sur lequel nous nous appuyons est un corpus IPDR (Internet Protocol Detail Record). Le format IPDR enregistre des traces d'activité au niveau session (le contenu des conversations texte ou voix n'est pas accessible). De nombreuses
informations peuvent en être extraites comme les identifiants des utilisateurs, des dates ou
encore des tailles de messages. Le corpus que nous étudions représente 6 mois d'activité
professionnelle et nous considérons les échanges de 778 couples d'utilisateurs.
Nous avons abordé la question de la segmentation des conversations à l'aide de 2 méthodes statistiques différentes et qui donnent des résultats assez proches.
Nous raisonnons d'abord sur les temps entre deux messages consécutifs (ou inter-temps) et
sur la taille des messages. Nous avons ainsi calculé la distribution des inter-temps et tracé en
parallèle la taille moyenne de ces inter-temps (comme taille du 1er ou du 2nd message, ou
comme moyenne de ces deux tailles). On observe que la taille des messages augmente pour
des inter-temps compris entre 0 et 2 minutes et qu'ensuite elle décroit. Nous l'expliquons par
la probabilité qu'au-delà d'un inter-temps de 2 minutes les messages correspondent à des
conversations distinctes.
Nous raisonnons ensuite sur la taille des conversations. En prenant un seuil d'inter-temps en
deçà duquel on reste dans la conversation et au-delà duquel on en sort on peut extraire les
conversations. Suivant le seuil d'inter-temps choisi elles ne seront pas toutes constituées du
même nombre de messages. Nous traçons donc la taille moyenne (en nombre de messages)
des conversations extraites en fonctions du seuil d'inter-temps choisi. La courbe est bien
entendu croissante. On observe qu'entre 0 et 3 minutes de seuil d'inter-temps la taille des
- 201 -
RNTI-E-9
Préservation de l’Intimité dans les Protocoles de
Conversations
Nawal Guermouche∗ , Salima Benbernou∗∗
Emmanuel Coquery∗∗ , Mohand-Said Hacid∗∗
∗
LORIA, INRIA Lorraine, Campus scientifique,
BP 239, 54506 Villiers-Lès-Nancy.
[email protected],
∗∗
LIRIS - UFR d’Informatique,
Université Claude Bernard Lyon 1,
43, boulevard du 11 Novembre 1918,
69622 Villeurbanne cedex.
{salima.benbernou,emmanuel.coquery,mshacid}@liris.cnrs.fr
Résumé. Le travail présenté dans cet article, rentre dans le cadre de la
gestion des données privées en vue de la substitution, appelée remplaçabilité, dynamique des services Web. Trois contributions sont apportées,
(1) modélisation des politiques privées spécifiant les règles d’utilisation
des données privées, prenant en compte des aspects se rapportant aux
services Web, (2) étendre les protocoles de conversations des services
Web par le modèle proposé, afin d’apporter les primitives nécessaires
pour l’analyse des protocoles en présence de ces règles, (3) définition
d’un mécanisme d’analyse de la remplaçabilité d’un service par un autre
en vue de ses politiques privées.
En se reposant sur des standards, les services Web sont devenus le candidat naturel
à une architecture d’échange inter-applications, à la fois au sein d’une entreprise et
également en B2B. Pour réaliser des services, les entreprises ont souvent besoin de
collecter des données privées de leurs clients. La sensibilité de l’échange des données
privées a fait naître le besoin de définir des règles guidant l’utilisation de ces données. Dans cette optique, plusieurs travaux ont été développés visant à fournir des
mécanismes et des modèles expressifs [Agrawal et al. (2005), Kagal et al. (2004)]. Principalement nous citons la plate-forme P3P qui est une plateforme de standardisation
et de spécification des politiques privées pour les sites Web [Agrawal et al. (2003)].
Dans cet article, nous introduisons le modèle des règles privées que nous avons
proposé ainsi que son intégration aux protocoles de conversation [Benatallah et al.
(2004)]. Ceci afin d’apporter les primitives nécessaires pour l’analyse de la remplaçabilité des services Web en vue de ces règles. Sachant qu’un service Web peut être
un client ou un fournisseur, nous distinguons deux types de règles : (1) Les règles
spécifiées par le service fournisseur appelées politiques privées [Agrawal et al. (2003)],
et (2) Les règles spécifiées par le service client appelées préférences privées [Agrawal
et al. (2003)].
- 203 -
RNTI-E-9
Calcul et Représentation Efficace de Cubes de Données pour
une Visualisation Orientée Pixel
Noël Novelli∗ , David Auber∗∗
∗
Université de la Méditerranée ; Faculté des Sciences de Luminy
163, av. de Luminy - Case 901 - LIF ; F-13288 Marseille cedex 9 ; France
[email protected]
http://www.lif.univ-mrs.fr
∗∗
Université de Bordeaux I ; Bât A30, LaBRI
351, cours de la Libération ; F-33405 Talence cedex ; France
[email protected]
http://www.labri.fr/∼auber
Résumé. Les cubes de données fournissent une aide non négligeable lorsqu’il
s’agit d’interroger des entrepôts de données. Un cube de données représente un
pré-calcul de toutes les requêtes OLAP et ainsi améliore leur temps de réponses.
Les approches proposées jusqu’à présent réduisent les temps de calcul et d’entrée sortie mais leur utilisation reste très coûteuse. D’autres travaux de recherche
se sont intéressés à la visualisation de données pour les exploiter de façon interactive.
Nous proposons une adaptation de la représentation condensée des cubes de données basée sur le modèle partitionnel. Cette technique nous permet de calculer
efficacement un cube de données et de représenter les liens entre les données
pour la visualisation. La visualisation proposée dans cet article est basée sur des
techniques de visualisation orientée pixel et sur des techniques de diagramme de
liens entre nœuds pour offrir à la fois une vision globale et locale pour l’exploitation. Cette nouvelle approche utilise d’une part les calculs efficaces de cubes
de données et d’autre part les techniques avancées de visualisation.
Contribution
Notre objectif est de fournir aux analystes un outil de visualisation interactive de cubes de
données (Gray et al. (1996)). Pour cela, nous proposons une technique à la fois globale et locale
à l’aide de deux représentations. Notre visualisation permet non seulement de visualiser le
cube mais aussi les liens entre ses éléments. Pour réduire les besoins mémoire, la visualisation
n’utilise pas de mémoire pour les calculs de représentation ou d’interaction. Pour les calculs
liés aux cubes de données et à leurs manipulations, nous proposons un algorithme (extension
de P CUBE (Casali et al. (2006)) basé sur la notion de partition (Cosmadakis et al. (1986)) pour
calculer le cube et retrouver les connexions entre les éléments du cube.
- 205 -
RNTI-E-9
Génération et enrichissement automatique de listes de patrons
de phrases pour les moteurs de questions-réponses
Co-financé par l'Association Nationale de la Recherche Technologique
Cédric Vidrequin*, Juan-Manuel Torres-Moreno*
Jean-Jacques Schneider**, Marc El-Beze*
* Laboratoire Informatique d'Avignon, Agroparc BP1228, 84911 Avignon CEDEX 9, France
{cedric.vidrequin, marc.elbeze, juan-manuel.torres}@univ-avignon.fr
** Société SEMANTIA
30 avenue du château de Jouques, Parc d'activité de Gémenos, 13420 Gémenos, France
[email protected]
Résumé. Nous utilisons un algorithme d'amorce mutuelle (Riloff et Jones 99),
entre des couples de termes d'une relation et des patrons de phrase. À partir de
couples d'amorce, le système génère des listes de patrons qui sont ensuite
enrichies de façon semi-supervisée, puis utilisées pour trouver de nouveaux
couples. Ces couples sont à leur tour réutilisés pour générer, par itérations
successives, de nouveaux patrons. L'originalité de l'étude réside dans
l'interprétation du rappel, estimé comme la couverture d'un patron sur
l'ensemble des exemples auxquels il s'applique.
Summary. We use a mutual bootstrapping algorithm (Riloff & Jones 99),
between couples of terms of a relation and pattern phrases. Starting from
bootstrap couples, the system generates lists of patterns, which are then
enriched in a semi-supervised way and used to find new couples. These
couples are used iterativly to find new patterns. The originality of the study
lies in the interpretation of recall, estimated as the overlap of the pattern with
the set of examples to which it applies.
1 Méthode
Constitution de l'amorce. Actuellement, nous construisons manuellement l'amorce sous la
forme d'une dizaine de couples de termes pour lesquels nous sommes sûrs de leur lien à
travers la relation qui les unit (Brin 99). Mais cette amorce peut également se trouver dans
des mini bases de connaissances ou dans toute table de base de données disponible.
Génération de patrons. Tout d'abord, nous sélectionnons les termes de la base de
connaissance qui seront utilisés pour la génération des patrons. Dans le but d'en générer le
plus possible de nouveaux, nous utilisons les termes a) générés lors de la dernière itération
ou lors des précédentes ; b) de l'amorce : choisis en dernier lieu ou pour la première itération.
Nous réalisons ensuite la recherche d'information qui renvoie les données textuelles parmi
lesquelles nous recherchons les plus petits segments contenant les deux termes de la relation.
Ces patrons de base sont étendus à gauche et à droite, en gardant l’ensemble des patrons
intermédiaires. Afin d'en améliorer la couverture, tout en essayant de ne pas diminuer leur
précision, nous factorisons si possible les nouveaux patrons avec des patrons déjà existants,
si et seulement si ceux-ci ne diffèrent que d'un seul mot.
- 207 -
RNTI-E-9
Construction d’ontologie à partir de corpus de textes
Rokia Bendaoud ∗ , Yannick Toussaint ∗
Amedeo Napoli ∗
∗
LORIA - Campus scientifique BP 239
54506 Vandoeuvre-Lès-Nancy, CEDEX.
{bendaoud,napoli,yannick}@loria.fr
Résumé. Cet article présente une méthode semi-automatique de construction
d’ontologie à partir de corpus de textes sur un domaine spécifique. Cette méthode repose en premier lieu sur un analyseur syntaxique partiel et robuste des
textes, et en second lieu, sur l’utilisation de l’analyse formelle de concepts "FCA"
pour la construction de classes d’objets en un treillis de Galois. La construction
de l’ontologie, c’est à dire d’une hiérarchie de concepts et d’instances, est réalisée par une transformation formelle de la structure du treillis. Cette méthode
s’applique dans le domaine de l’astronomie.
1
Introduction
Une ontologie est une structure formelle dans laquelle les concepts d’un domaine et les
relations entre ces concepts sont définis (Gruber (1993)). Notre ontologie porte sur l’astronomie : dans leurs articles scientifiques, les astronomes identifient manuellement les caractéristiques des objets célestes, afin de les associer ensuite à une catégorie (galaxie, étoile, ...).
Les catégories sont pré-définies et l’astronome détermine la classe correspondant le mieux à
l’objet étudié. Cette classification a permis de catégoriser 3.751.128 objets célestes. Pourtant,
il reste encore des milliards d’objets à classifier et à caractériser de la manière la plus exhaustive possible. L’utilisation des articles scientifiques, très facilement accessibles sous format
électronique, permettent de répondre à ces attentes.
Nous proposons une méthode semi-automatique de construction d’une ontologie sur le
domaine de l’astronomie. Les concepts de l’ontologie sont des classes dont les instances sont
les objets célestes. Les propriétés de chaque classe sont partagées par toutes ses instances.
Ces propriétés sont extraites automatiquement des textes par un analyseur syntaxique partiel et
robuste "Enju" de Miyao et Tsujii (2005). Objets et propriétés sont classés dans un treillis de
Galois selon l’analyse formelle des concepts : FCA présentée dans Ganter (1999). Le résultat
de cette méthode est fourni aux astronomes afin d’étiqueter chaque classe d’après les propriétés
partagées par les instances de la classe.
Notre méthode présente plusieurs avantages :
– elle peut être appliquée quelque soit le corpus de textes et le domaine spécifique sur
lequel elle est utilisée,
– elle est formalisée par la FCA,
– elle est rapide comparée à une ontologie construite manuellement,
– et elle permet d’enrichir l’ontologie résultante par la mise à jour du corpus de textes.
- 209 -
RNTI-E-9
WebDocEnrich : Enrichissement Sémantique Flexible de
Documents Semi-Structurés
Mouhamadou Thiam ∗ , Nacéra Bennacer ∗∗ , Nathalie Pernelle ∗
∗
LRI, Université Paris-Sud 11, F-91405 Orsay Cedex,
INRIA Futurs, 2-4 rue Jacques Monod, F-91893 Orsay Cedex, France
{prenom.nom}@lri.fr
∗∗
Supélec, Plateau du Moulon, 91192 Gif-sur-Yvette Cedex, France
{prenom.nom}@supelec.fr
Résumé. WebdocEnrich est une approche d’enrichissement sémantique automatique de documents HTML hétérogènes qui exploite une description du domaine pour enrichir le contenu des documents et les représenter en XML.
Notre Approche d’Enrichissement Sémantique
Une grande partie des informations en provenance du web est disponible en HTML et donc
sous une forme peu structurée. De nombreux travaux issus de champs disciplinaires complémentaires tels que l’intelligence artificielle, l’ingénierie des connaissances et la linguistique
s’intéressent au problème d’enrichissement sémantique, d’organisation et d’interrogation de
tels documents [Gagliardi et al. (2005), Davulcu et al. (2005), Crescenzi et al. (2001), Alani
et al. (2004), Cimiano et al. (2005), Borislav et al. (2004)]. Notre approche d’enrichissement
sémantique de documents HTML est automatique et exploite une description du domaine, plus
précisément un ensemble de concepts, leurs propriétés, leurs relations et les cardinalités associées pour enrichir sémantiquement le contenu des documents. Le processus d’enrichissement
consiste à repérer des instances de concepts et de propriétés tout en gardant l’intégralité des
documents selon leur structure initiale. L’enrichissement est également guidée par la structure
arborescente du document HTML dans laquelle chaque sous arbre est appelé unité structurelle.
La difficulté réside dans la structuration hétérogène des documents et dans le fait que les instances de concepts et de propriétés sont parfois difficilement repérables et dissociables. Nous
avons défini un ensemble de règles de repérage et d’annotation permettant de s’adapter à cette
hétérogénéité. Les documents ainsi enrichis sont représentés par un modèle sémantique XML
utilisant la description du domaine et sur lequel se basera l’interrogation. La figure 1 présente
l’architecture de notre système.
WebDocEnrich a été appliqué à un corpus d’appels à participation à des conférences (33
sites, 444 documents HTML). Le but de cette première expérimentation est d’évaluer notre
approche sur le concept multivalué topic qui peut apparaître dans trois types de structuration
différentes : des topics bien structurés, un ensemble de topics indissociables ou des topics mêlés à d’autres sortes d’instances dans une même unité structurelle. Nous avons obtenu un rappel
de 65,1% et une précision de 84,3% sur les deux premiers cas. Nous avons montré qu’une requête utilisateur peut être réécrite afin de bénéficier de ces différents types de structuration.
- 211 -
RNTI-E-9
Méthodes statistiques et modèles thermiques compacts
Grégory Mallet∗,∗∗ , Philippe Leray∗ , Hubert Polaert∗∗
[email protected]
∗
Laboratoire LITIS - EA 4051, INSA de Rouen
Avenue de l’Université - BP 8 - 76801 Saint-Étienne-du-Rouvray Cedex
∗∗
Thales Air Defence (TAD), Site de Rouen
Z.I. du Mont Jarret - 76520 Boos
Résumé. Dans le domaine thermique, la plupart des études reposent sur des modèles à éléments finis. Cependant, le coût en calcul et donc en temps de ces méthodes ont renforcé le besoin de modèles plus compacts. Le réseau RC équivalent
est la solution la plus souvent utilisée. Toutefois, ses paramètres doivent souvent
être ajustés à l’aide de mesures ou de simulation. Dans ce contexte d’identification de système, les méthodes statistiques seront comparées aux méthodes
classiquement utilisées pour la prédiction thermique.
Le contrôle de la température de jonction des composants est l’un des enjeux majeurs de
l’évolution actuelle de l’électronique du fait qu’elle influe sur leur fiabilité et leurs caractéristiques. L’analyse par éléments finis apporte une solution numérique à ce problème mais ne
peut pas être utilisée concrètement du fait d’un nombre de calculs trop important. C’est dans
ce contexte que les CTM (Compact Thermal Model) ont été developpés (Lasance (2003)).
Toutefois, en se rapprochant de l’identification de système, ces modèles ont ouvert la voie aux
méthodes statistiques, et notamment à celles pouvant être utilisées dans des cas non-linéaires.
Le problème de la prédiction thermique en trois dimensions peut se résumer à trouver la
fonction u(x, y, z, t), représentant la température du système à un instant donné. En discrétisant le système, via un maillage, l’équation de diffusion thermique peut être ré-écrite sous
forme matricielle (Bergheau et Fortunier (2004)) :
C
du
+ Ku = F
dt
(1)
où u(t) est un vecteur représentant la température aux différents points du maillage, C la matrice élémentaire de masse et K la matrice élémentaire de rigidité. F (t) représente toujours la
puissance dissipée mais discrétisée. Le système est alors représenté sous la forme de plusieurs
blocs de matériaux homogènes mis bout à bout pour obtenir une structure réaliste.
Si le flux de chaleur est supposé être unidirectionnel, alors un bloc peut être remplacé par
un circuit électrique équivalent de type RC. Le modèle se trouve donc mis sous la forme d’un
réseau RC correspondant aux différents "étages" du système. Toutefois, les conditions de cette
simplification étant rarement respectées, les paramètres doivent souvent être ajustés à l’aide
de simulations ou de mesures. Les équations d’un réseau RC sont mal adaptées pour identifier
numériquement des paramètres. Or, les équations différentielles mises en jeu sont équivalentes
- 213 -
RNTI-E-9
Détermination du niveau de consommation des abonnés en
téléphonie mobile par la théorie des ensembles flous
Rachid El Meziane (*), Ilham Berrada (*), Ismail Kassou (*), Karim Baina (*)
Laboratoire Al Khawarizmi - ENSIAS - BP 713 - Agdal - Rabat - Maroc
(*){meziane, iberrada, kassou, [email protected]}
Résumé. La détermination du niveau de consommation chez les clients est
essentielle pour tout objectif de segmentation stratégique et de churn. Nous
présentons sur un cas réel l’utilisation de la théorie des ensembles flous pour la
définition d’une fonction d’appartenance permettant d’évaluer, de manière
précise, le niveau de consommation, des abonnés en téléphonie mobile.
1 Contexte
Notre travail s’inscrit dans le contexte d’un projet de fouille de données mis en oeuvre à
Maroc Telecom et visant à mieux connaître la clientèle de la téléphonie mobile. Le niveau de
consommation d’un abonné est souvent calculé à partir de la durée facturée qui s’avère
insuffisante pour la plupart des cas. En effet, deux abonnés peuvent avoir la même durée
d’appel pour des services différents mais sans avoir le même degré de consommation. D’où
la nécessité d’introduire d’autres critères dans la détermination du niveau de consommation.
2 Problématique et approche de résolution préconisée
La problématique à laquelle on s’intéresse consiste à établir une échelle de mesure
permettant de quantifier les niveaux de consommation afin discriminer entre les abonnés
(Viertl, R. (2005)). L’approche de résolution proposée comporte trois étapes principales. Son
originalité réside dans l’utilisation de la théorie des ensembles flous à travers la définition
expérimentale d’une fonction d’appartenance (Mitaim, S. et B, Kosko. (2001)).
Dans une première étape, on attribue un score aux abonnés par rapport aux critères de
type catégoriels (trafic, produits, services, plage horaire) caractérisant le niveau de
consommation. La binarisation de chaque modalité de ces critères induit la création de plus
de 60 variables indicatrices dans notre exemple qui traite 2 millions d’enregistrements. Afin
de réduire la taille de ces indicatrices, l’Analyse des Correspondances Multiples (ACM) a été
utilisée fournissant ainsi 10 facteurs expliquant 80,62% d’inertie totale.
L’objectif de l’étape 2 est la segmentation des abonnés par produits et services afin de
discriminer entre les abonnés en se basant sur le comportement d’utilisation des produits et
services. Les facteurs obtenus par l’ACM ont été utilisés comme variables d’entrée des
différents algorithmes non supervisés (K-means, Two Step, Réseau de Kohonen) qui ont été
comparés. Le réseau de Kohonen a été plus concluant en terme d’homogénéité entre les
classes. Les inerties intra classes de chaque facteur ont ensuite été utilisées dans l’étape 3
comme indicateur de la variation du niveau de consommation au sein de chaque classe. Un
tel indicateur a permis d’établir une mesure du niveau de consommation tenant compte de la
durée facturée en appliquant la théorie des ensembles flous (Masson, M. H. (2003)).
- 215 -
RNTI-E-9
Intégration des connaissances utilisateurs pour des analyses
personnalisées dans les entrepôts de données évolutifs
Cécile Favre, Fadila Bentayeb, Omar Boussaïd
ERIC, Université Lumière Lyon 2
5 avenue Pierre Mendès-France
69676 Bron Cedex
{cfavre|bentayeb}@eric.univ-lyon2.fr, [email protected]
Résumé. Dans cet article, nous proposons une approche d’évolution de schéma
dans les entrepôts de données qui permet aux utilisateurs d’intégrer leurs propres
connaissances du domaine afin d’enrichir les possibilités d’analyse de l’entrepôt.
Nous représentons cette connaissance sous la forme de règles de type «si-alors».
Ces règles sont utilisées pour créer de nouveaux axes d’analyse en générant
de nouveaux niveaux de granularité dans les hiérarchies de dimension. Notre
approche est fondée sur un modèle formel d’entrepôts de données évolutif qui
permet de gérer la mise à jour des hiérarchies de dimension.
1
Introduction
Les entrepôts de données centralisent des données provenant de différentes sources pour
répondre aux besoins d’analyse des utilisateurs. Le schéma de l’entrepôt est défini avec l’objectif d’analyser des mesures qui caractérisent des faits, en fonction de dimensions qui peuvent
être organisées sous forme de hiérarchies, composées de différents niveaux de granularité,
déterminant la manière selon laquelle sont agrégées les données.
Pour concevoir le schéma d’un entrepôt, nous distinguons dans la littérature différents types
d’approches : celles guidées par les sources de données (Golfarelli et al., 1998), celles guidées
par les besoins d’analyse (Kimball, 1996) et les approches mixtes qui combinent les deux approches précédentes, mettant en adéquation des schémas candidats générés à partir des sources
de données avec les besoins d’analyse exprimés par les utilisateurs (Nabli et al., 2005).
Cependant, en pratique, les sources de données, tout comme les besoins d’analyse sont
amenés à évoluer. Dans la littérature, il existe deux alternatives qui permettent l’évolution
de schéma nécessaire suite à ces modifications. D’une part la mise à jour de schéma qui est
réalisée grâce à des opérateurs qui font évoluer un schéma donné (Hurtado et al., 1999). D’autre
part, la modélisation temporelle qui consiste à garder la trace de ces évolutions en utilisant des
labels de validité temporelle. Ces labels sont apposés soit au niveau des instances (Bliujute
et al., 1998), soit au niveau des liens d’agrégation (Mendelzon et Vaisman, 2000), ou encore
au niveau des versions du schéma (Morzy et Wrembel, 2004). L’inconvénient de ce type de
solutions est la nécessité d’une réimplémentation des outils d’analyse, de chargement, ... afin
de gérer les particularités de ces modèles.
Les deux alternatives sont intéressantes pour répondre au problème de l’évolution de schéma
suite à une modification dans les sources de données, puisque ce sont des solutions techniques
- 217 -
RNTI-E-9
Des fonctions d’oubli intelligentes dans les entrepôts de
données
Aliou Boly*, Sabine Goutier**, Georges Hébrail*,**
*46, Rue Barrault, 75634 PARIS Cedex 13 - FRANCE
[email protected], [email protected]
**1, Av. du Général de Gaulle, 92141 CLAMART Cedex - FRANCE
[email protected], [email protected]
Résumé. Les entrepôts de données stockent des quantités de données de plus
en plus massives et arrivent vite à saturation. Un langage de spécifications de
fonctions d’oubli est défini pour résoudre ce problème. Dans le but d’offrir la
possibilité d’effectuer des analyses sur l’historique des données, les spécifications définissent des résumés par agrégation et par échantillonnage à conserver
parmi les données à ‘oublier’. Cette communication présente le langage de
spécifications ainsi que les principes et les algorithmes pour assurer de façon
mécanique la gestion des fonctions d’oubli.
1 Introduction
De nos jours, bien que les moyens de stockage soient de plus en plus performants et de
moins en moins chers, les entrepôts de données arrivent vite à saturation et la question des
données à conserver sous forme d’historique va se poser rapidement. Il faut donc choisir
quelles données doivent être archivées, et quelles données doivent être conservées actives
dans les entrepôts de données. La solution qui est appliquée en général est d’assurer un archivage périodique des données les plus anciennes. Cette solution n’est pas satisfaisante car
l’archivage et la remise en ligne des données sont des opérations coûteuses au point que l’on
peut considérer que des données archivées sont des données perdues (en pratique inutilisables dans le futur) du point de vue de leur utilisation dans le cadre d’une analyse des données.
Dans cette communication, nous proposons une solution pour éviter la saturation des entrepôts de données. Un langage de spécifications de fonctions d’oubli des données anciennes
est défini pour déterminer les données qui doivent être présentes dans l’entrepôt de données à
chaque instant. Ces spécifications de fonctions d’oubli conduisent à supprimer de façon
mécanique les données à ‘oublier’, tout en conservant un résumé de celles-ci par agrégation
et par échantillonnage. L’agrégation et l’échantillonnage constituent deux techniques standard et complémentaires pour résumer des données. Considérons un entrepôt de données
d’analyse des click-stream sur les sites web. Avec le temps, les données détaillées anciennes
deviennent de moins en moins ‘utiles’ et peuvent donc être agrégées par jour ou par mois par
exemple. En plus d’agréger des données, on peut conserver certaines données jugées intéressantes ou choisies de façon aléatoire dans le but de pouvoir effectuer des analyses sur les
données de l’entrepôt.
Le langage de spécifications est défini dans le cadre du modèle relationnel : sur chaque
table, est défini au moyen de spécifications un ensemble de n-uplets à archiver. Pour des
raisons applicatives, parmi les n-uplets à archiver, des échantillons peuvent être conservés
dans le cadre de l’utilisation de l’entrepôt. De plus, des algorithmes pour mettre à jour le
- 223 -
RNTI-E-9
Vers une plate-forme interactive pour la visualisation de
grands ensembles de règles d’association
Olivier Couturier∗, Tarek Hamrouni∗∗, Sadok Ben Yahia∗∗ , Engelbert Mephu Nguifo∗
∗
CRIL CNRS FRE 2499, IUT de Lens
Rue Jean Souvraz, SP-18
62307 Lens Cedex France
{couturier,mephu}@cril.univ-artois.fr
∗∗
Faculté des Sciences de Tunis, Université El-Manar
Campus Universitaire 1060 Tunis, Tunisie
{tarek.hamrouni,sadok.benyahia}@fst.rnu.tn
Résumé. La recherche de règles d’association est une question centrale en Extraction de Connaissances dans les Données (ECD). Dans cet article, nous nous
intéressons plus particulièrement à la restitution visuelle de règles pertinentes
dans un corpus très important. Nous proposons ainsi un prototype basé sur une
approche de type "wrapper" par intégration des phases d’extraction et de visualisation de l’ECD. Tout d’abord, le processus d’extraction génère une base
générique de règles et dans un second temps, la tâche de visualisation s’appuie
sur un processus de regroupement (“clustering”) permettant de grouper et de visualiser un sous-ensemble de règles d’association génériques. Le rendu visuel à
l’écran exploite une représentation de type “Fisheye view” de manière à obtenir
simultanément une représentation globale des différents groupes de règles et une
vue détaillée du groupe sélectionné.
1
Introduction
L’Extraction de Connaissances dans les Données (ECD) a été proposée afin d’aider les
utilisateurs à mieux comprendre et appréhender des quantités de données de plus en plus volumineuses. La recherche de règles d’association constitue une question centrale de l’ECD.
La plupart des travaux se sont focalisés sur la tâche d’extraction de règles d’association alors
que les aspects visualisation de ces règles et interaction avec l’utilisateur-expert sont très peu
représentés. De manière générale, le nombre de règles générées croît de manière exponentielle
avec la taille des données. En situation réelle, un expert n’a ni le temps, ni les capacités cognitives de traiter ces flots d’information. Pour l’aider à y faire face, différents travaux proposés
dans la littérature tournent autour de deux axes complémentaires : la réduction du nombre de
règles d’association extraites et le développement d’outils de visualisation interactive. Dans ce
papier, nous focalisons notre intérêt sur les méthodes de visualisation.
Un état de l’art des différentes techniques de visualisation de règles d’association est décrit dans Couturier et Mephu-Nguifo (2007). La limitation commune qui en ressort est que
lorsque le nombre de règles est élévé, l’interaction avec l’utilisateur devient difficile. Partant
- 235 -
RNTI-E-9
Les itemsets essentiels fermés : une nouvelle représentation
concise
Tarek Hamrouni∗ , Islem Denden∗
Sadok Ben Yahia∗ , Engelbert Mephu Nguifo∗∗ , Yahya Slimani∗
∗
Département des Sciences de l’Informatique
Faculté des Sciences de Tunis
Campus Universitaire 1060 Tunis, Tunisie
{tarek.hamrouni, sadok.benyahia, yahya.slimani}@fst.rnu.tn
∗∗
CRIL CNRS FRE 2499
Université d’Artois, IUT de Lens
Rue Jean Souvraz, SP-18
F-62307 Lens Cedex France
[email protected]
Résumé. Devant l’accroissement constant des grandes bases de données, plusieurs travaux de recherche en fouille de données s’orientent vers le développement de techniques de représentation compacte. Ces recherches se développent
suivant deux axes complémentaires : l’extraction de bases génériques de règles
d’association et l’extraction de représentations concises d’itemsets fréquents.
Dans ce papier, nous introduisons une nouvelle représentation concise exacte
des itemsets fréquents. Elle se situe au croisement de chemins de deux autres représentations concises, à savoir les itemsets fermés et ceux dits essentiels. L’idée
intuitive est de profiter du fait que tout opérateur de fermeture induit une fonction surjective. Dans ce contexte, nous introduisons un nouvel opérateur de fermeture permettant de calculer les fermetures des itemsets essentiels. Ceci a pour
but d’avoir une représentation concise de taille réduite tout en permettant l’extraction des supports négatif et disjonctif d’un itemset en plus de son support
conjonctif. Un nouvel algorithme appelé D-C LOSURE permettant d’extraire les
itemsets essentiels fermés est aussi présenté. L’étude expérimentale que nous
avons menée a permis de confirmer que la nouvelle approche présente un bon
taux de compacité comparativement aux autres représentations concises exactes.
1
Introduction
L’apparition de la "fouille de connaissances" a été un tournant dans les intérêts prioritaires
de la communauté de la fouille de données. En effet, les efforts ne sont plus seulement déployés dans la réduction des temps d’extraction des motifs fréquents mais de plus en plus de
travaux s’intéressent à l’extraction d’une connaissance de meilleure qualité tout en préservant
la vertu de la compacité. Dans ce registre, nous relevons les travaux visant l’extraction des
représentations concises. Ainsi, parmi les représentations exactes les plus connues, nous citons
- 241 -
RNTI-E-9
Sous-bases k-faibles pour des règles d’association valides au
sens de la confiance
Jean Diatta, Régis Girard
IREMIA, Université La Réunion
15, Avenue Réné Cassin- 97715-St Denis, FRANCE
{ jean.diatta, rgirard}@univ-reunion.fr
Résumé. Nous introduisons la notion de sous-base k-faible pour les règles d’association valides au sens de la confiance. Ces sous-bases k-faibles sont caractérisées en termes d’opérateurs de fermeture correspondant à des familles de Moore
k-faiblement hiérarchiques.
1
Introduction
L’un des problèmes majeurs rencontrés dans la fouille des règles d’association valides au
sens de la confiance est le nombre souvent très élevé de ces règles. Plusieurs solutions à ce
problème ont été proposées ou considérées dans la littérature. Parmi ces solutions figurent
les bases, c’est-à-dire, des familles génératrices minimales (Zaki et Ogihara, 1998; Pasquier
et al., 1999). La plupart de ces bases se caractérisent en terme d’un opérateur de fermeture
de Galois sur l’ensemble des motifs du contexte considéré. Or, cet opérateur de fermeture
correspond à une famille de Moore m-faiblement hiérarchique, où m ≥ 2 est un entier (Diatta,
2004). Plus précisément, les fermés de cet opérateur de fermeture coïncident avec les classes
faibles associées à une certaine mesure de dissimilarité m-voies et forment donc, de ce fait, la
hiérarchie m-faible associée à cette mesure de dissimilarité.
Dans cet article, nous considérons la caractérisation de ces bases pour les règles d’association, en remplaçant l’opérateur de fermeture de Galois par un opérateur de fermeture correspondant à la hiérarchie k-faible associée à une mesure de dissimilarité k-voies donnée, où
2 ≤ k ≤ m. Pour chaque valeur de k, l’ensemble de règles ainsi caractérisé sera appelé sousbase k-faible. Ces sous-bases k-faibles offrent une approximation de l’ensemble des règles
valides, relativement à des ensembles d’items (classes k-faibles) ayant un certain degré d’homogénéité exprimé par le biais d’un indice d’isolation. Par ailleurs, la possibilité d’associer une
sous-base (k−) faible à une mesure de dissimilarité (k-voies) permet d’intégrer la sémantique
de cette mesure de dissimilarité dans le choix des règles à générer.
2
Règles d’association
2.1 Définition générale
Étant donné un contexte binaire K = (E, V), où E désigne un ensemble fini d’entités et
V un ensemble fini de variables booléennes (ou attributs) définies sur E. On appelle motifs les
- 253 -
RNTI-E-9
Un cadre théorique pour la gestion
de grandes bases de motifs1
François Jacquenet, Baptiste Jeudy et Christine Largeron
Laboratoire Hubert Curien, UMR CNRS 5516, St-Etienne
[email protected]
Résumé. Les algorithmes de fouille de données sont maintenant capables de
traiter de grands volumes de données mais les utilisateurs sont souvent submergés par la quantité de motifs générés. En outre, dans certains cas, que ce soit
pour des raisons de confidentialité ou de coûts, les utilisateurs peuvent ne pas
avoir accès directement aux données et ne disposer que des motifs. Les utilisateurs n’ont plus alors la possibilité d’approfondir à partir des données initiales
le processus de fouille de façon à extraire des motifs plus spécifiques. Pour remédier à cette situation, une solution consiste à gérer les motifs. Ainsi, dans cet
article, nous présentons un cadre théorique permettant à un utilisateur de manipuler, en post-traitement, une collection de motifs préalablement extraite. Nous
proposons de représenter la collection sous la forme d’un graphe qu’un utilisateur pourra ensuite exploiter à l’aide d’opérateurs algébriques pour y retrouver
des motifs ou en chercher de nouveaux.
1 Introduction
La quantité d’information stockée dans les bases de données du monde entier n’a cessé de
croître au cours du temps. Afin d’explorer ces mines potentielles de connaissance, des outils
de fouille de données ont été conçus depuis plusieurs années. Ainsi, il est maintenant possible
de fouiller de très grandes bases de données afin d’en extraire toute sorte de motifs modélisant
de la connaissance. Selon les outils utilisés par les utilisateurs finaux pour leurs besoins, les
motifs extraits peuvent être très variés. On peut citer par exemple les arbres de décision, les
règles d’association, les concepts formels, etc. Toutefois, alors que la fouille de très grandes
bases de données est devenue une tâche relativement aisée pour les utilisateurs finaux, ceux-ci
sont maintenant confrontés à un nouveau problème : comment vont-ils pouvoir exploiter les
grandes masses de motifs couramment extraites par les outils de fouille de données ? En fait,
de la même façon qu’il était impossible il y a quelques années d’extraire manuellement de la
connaissance à partir de grandes bases de données, il est de nos jours impossible de gérer de
très grands volumes de motifs et les utilisateurs finaux sont donc en attente de nouveaux outils
pour résoudre ce problème.
1 Ce travail a été partiellement soutenu par le projet BINGO de l’ACI Masse de données 2004 - 2007, financé par
le ministère de la recherche.
- 259 -
RNTI-E-9
Extraction des Top-k Motifs par Approximer-et-Pousser
Arnaud Soulet et Bruno Crémilleux
GREYC, CNRS - UMR 6072, Université de Caen
Campus Côte de Nacre
14032 Caen Cedex France
{Prenom.Nom}@info.unicaen.fr
Résumé. Cet article porte sur l’extraction de motifs sous contraintes globales.
Contrairement aux contraintes usuelles comme celle de fréquence minimale,
leur vérification est problématique car elle entraine de multiples comparaisons
entre les motifs. Typiquement, la localisation des k motifs maximisant une mesure d’intérêt, i.e. satisfaisant la contrainte top-k, est difficile. Pourtant, cette
contrainte globale se révèle très utile pour trouver les motifs les plus significatifs
au regard d’un critère choisi par l’utilisateur. Dans cet article, nous proposons
une méthode générale d’extraction de motifs sous contraintes globales, appelée
Approximer-et-Pousser. Cette méthode peut être vue comme une méthode de
relaxation d’une contrainte globale en une contrainte locale évolutive. Nous appliquons alors cette approche à l’extraction des top-k motifs selon une mesure
d’intérêt. Les expérimentations montrent l’efficacité de l’approche Approximeret-Pousser.
Mots clés : extraction de motifs, contraintes.
1
Introduction
L’extraction de motifs contraints est un champ significatif de l’Extraction de Connaissances
dans les Bases de Données, notamment pour dériver des règles d’association. L’intérêt des
motifs extraits est garanti par le point de vue de l’analyste exprimé à travers la sémantique de la
contrainte. Par ailleurs, la complétude de l’extraction assure qu’aucun motif jugé pertinent par
l’utilisateur ne sera manqué. La contrainte la plus populaire est certainement celle de fréquence
minimale (Agrawal et al., 1993) qui permet de rechercher des régularités au sein d’une base de
données. Malheureusement, le nombre de motifs fréquents est souvent prohibitif. Les motifs
les plus pertinents sont alors noyés au milieu d’informations triviales ou redondantes que même
d’autres contraintes d’agrégats (Ng et al., 1998) n’arrivent pas davantage à isoler.
Dans ces conditions, plusieurs approches proposent de comparer les motifs entre eux pour
ne sélectionner que les meilleurs (Fu et al., 2000) ou une couverture (Mannila et Toivonen,
1997; Pasquier et al., 1999). De tels motifs révèlent alors une structure globale au sein des données. Le critère d’appartenance ou non à cette structure s’apparente à une contrainte globale.
L’extraction de motifs satisfaisant une contrainte globale présente donc une finalité importante
pour les utilisateurs. Cependant, leur extraction s’avère souvent ardue car leur localisation dans
l’espace de recherche est loin d’être triviale. En particulier, trouver les k motifs maximisant
- 271 -
RNTI-E-9
Extraction de Séquences Multidimensionnelles Convergentes
et Divergentes
Marc Plantevit, Anne Laurent, Maguelonne Teisseire
LIRMM, Université Montpellier 2, CNRS, 161 Rue Ada 34392 Montpellier, France
[email protected], http://www.lirmm.fr
Résumé. Les motifs séquentiels sont un domaine de la fouille de données très
étudié depuis leur introduction par Agrawal et Srikant. Même s’il existe de nombreux travaux (algorithmes, domaines d’application), peu d’entre eux se situent
dans un contexte multidimensionnel avec la prise en compte de ses spécificités : plusieurs dimensions, relations hiérarchiques entre les éléments de chaque
dimension, etc. Dans cet article, nous proposons une méthode originale pour extraire des connaissances multidimensionnelles définies sur plusieurs niveaux de
hiérarchies mais selon un certain point de vue : du général au particulier ou vice
et versa. Nous définissons ainsi le concept de séquences multidimensionnelles
convergentes ou divergentes ainsi que l’algorithme associé, M2S_CD, basé sur
le paradigme "pattern growth". Des expérimentations, sur des jeux de données
synthétiques et réelles, montrent l’intérêt de notre approche aussi bien en terme
de robustesse des algorithmes que de pertinence des motifs extraits.
1
Introduction
Les motifs séquentiels sont étudiés depuis plus de dix ans (Agrawal et Srikant (1995)), ils
permettent de mettre en exergue des corrélations entre événements suivant leur chronologie
d’apparition. Les motifs séquentiels ont été récemment étendus dans un contexte multidimensionnel par Pinto et al. (2001), Plantevit et al. (2005) et Yu et Chen (2005). Ils permettent ainsi
de découvrir des motifs définis sur plusieurs dimensions et ordonnés par une relation d’ordre
(e.g. temporelle). Par exemple, dans Plantevit et al. (2005), des motifs de la forme "La plupart
des consommateurs achètent une planche de surf et un sac à N.Y., puis ensuite une combinaison à SF" sont découverts. Les motifs séquentiels multidimensionnels sont bien adaptés aux
contextes de stockage et de gestion des données actuels (entrepôts de données). En effet, les
motifs ou règles obtenus permettent une autre appréhension des données sources. Cependant
leur découverte nécessite certains paramètres dont en particulier le support minimal. Celui-ci
correspond à la fréquence minimale d’apparition des motifs au sein de la base considérée. Si
le support minimal choisi est trop élevé, le nombre de règles découvertes est faible mais si le
support est trop bas, le nombre de règles obtenues est très important et rend difficile l’analyse
de celles-ci. Un autre problème est la longueur des motifs extraits. Comment ajuster au mieux
le support afin d’obtenir des séquences suffisamment longues pour être réellement utilisables ?
L’utilisateur est alors confronté au problème suivant : comment baisser le support minimal sans
- 283 -
RNTI-E-9
Découverte de chroniques à partir de séquences
d’événements pour la supervision de processus dynamiques
Nabil Benayadi∗ , Marc Le Goc∗ , Philippe Bouché∗
∗ LSIS,
UMR CNRS 6168,
Université Paul Cézanne,
Domaine Universitaire St Jérôme,
13397 Marseille cedex 20, France
{nabil.benayadi,marc.legoc,philippe.bouche}@lsis.org
Résumé. Ce papier adresse le problème de la découverte de connaissances temporelles à partir des données datées, générées par le système de supervision d’un
processus de fabrication. Par rapport aux approches existantes qui s’appliquent
directement aux données, notre méthode d’extraction des connaissances se base
sur un modèle global construit à partir des données. L’approche de modélisation
adoptée, dite stochastique, considère les données datées comme une séquence
d’occurrences de classes d’événements discrets. Cette séquence est représentée
sous les formes duales d’une chaîne de Markov homogène et d’une superposition de processus de Poisson. L’algorithme proposé, appelé BJT4R, permet
d’identifier les motifs séquentiels, les plus probables entre deux classes d’événements discrets et les représentent sous la forme de modèles de chroniques. Ce
papier présente les premiers résultats de l’application de cet algorithme sur des
données générées par un processus de fabrication de semi-conducteur d’un site
de production du groupe STMicroelectronics1 .
1
Introduction
Le problème de la découverte des modèles temporels caractérisant le comportement des
systèmes dynamiques est un enjeu majeur pour les tâches de contrôle et de surveillance. La
raison de base réside dans la difficulté des experts humains d’apprendre et de formuler leurs
connaissances sur la dynamique de ces processus. La surveillance est effectuée à partir d’un
ensemble d’observations (séquences d’occurrences d’événements discret) produites par le système de pilotage. Les séquences d’observations remontées par le système de supervision sont
porteuses de connaissances temporelles sur les relations causales entre les différentes variables
du processus.
Notre approche est centrée sur la découverte des séquences particulières d’événements
signe d’un comportement particulier. Nous proposons de représenter le comportement du systèmes sous la forme de chroniques (un formalisme graphique pour la représentation des motifs
1 Ce papier a été effectué sous l’aide financière de la Communauté du Pays d’Aix, de conseil général de Bouches
du Rhône, conseil régional de Provence Alpes Côte d’Azur et du STMicroelectronics. Zone Industrielle de Rousset
13106 ROUSSET cedex, France.
- 295 -
RNTI-E-9
Vers une nouvelle approche d’extraction des motifs
séquentiels non-dérivables
Chedy Raïssi∗,∗∗ , Pascal Poncelet∗∗
∗
LIRMM, 161 rue Ada,34392 Montpellier Cedex 5, France
[email protected],
∗∗
EMA-LGI2P, Parc Scientifique Georges Besse, 30035 Nîmes Cedex, France
pré[email protected]
Résumé. L’extraction de motifs séquentiels est un défi important pour la communauté fouille de données. Même si les représentations condensées ont montré leur intérêt dans le domaine des itemsets, à l’heure actuelle peu de travaux
considèrent ce type de représentation pour extraire des motifs. Cet article propose d’établir les premières bases formelles pour obtenir les bornes inférieures
et supérieures du support d’une séquence S. Nous démontrons que ces bornes
peuvent être dérivées à partir des sous-séquences de S et prouvons que ces règles
de dérivation permettent la construction d’une nouvelle représentation condensée de l’ensembles des motifs fréquents. Les différentes expérimentations menées montrent que notre approche offre une meilleure représentation condensée
que celles des motifs clos et cela sans perte d’information.
1
Introduction
Motivée par de nombreux domaines d’applications (e.g. marketing web, analyses financières, détections d’anomalies dans les réseaux, traitements de données médicales), l’extraction
de motifs séquentiels fréquents est un domaine de recherche très actif Mobasher et al. (2002);
Ramirez et al. (2000); Lattner et al. (2005). Les travaux menés ces dernières années ont montré
que toutes les approches qui visent à extraire l’ensemble des motifs séquentiels deviennent cependant inefficaces dès que le support minimal spécifié par l’utilisateur est trop bas ou lorsque
les données sont fortement corrélées. En effet, dans ce cas, et plus encore que pour les itemsets, les recherches sont pénalisées par un espace de recherche trop important. Par exemple,
avec i attributs (appelés aussi items), il y a potentiellement O(ik ) séquences fréquentes de
taille k Zaki (2001). Pour essayer de gérer au mieux ces problèmes de complexités spatiale
et temporelle, deux grandes tendances se distinguent à l’heure actuelle. Dans le premier cas,
les propositions comme PrefixSPAN Pei et al. (2004) ou SPADE Zaki (2001) se basent sur
de nouvelles structures de données et une génération de candidats efficace. Les approches de
la seconde tendance considèrent l’extraction d’une représentation condensée Mannila et Toivonen (1996). Même si l’utilisation d’une représentation compacte a montré son intérêt dans
le domaine de l’extraction d’itemsets, la complexité structurelle des motifs séquentiels fait
qu’il existe cependant peu de travaux utilisant une représentation condensée dans ce contexte.
- 307 -
RNTI-E-9
Evaluation supervisée de métrique : application à la
préparation de données séquentielles
Sylvain Ferrandiz∗,∗∗ , Marc Boullé∗
∗
France Télécom R&D
2, avenue Pierre Marzin, 22300 Lannion
[email protected]
[email protected]
∗∗
GREYC, Université de Caen
boulevard du Maréchal Juin, BP 5186, 14032 Caen Cedex
Résumé. De nos jours, le statisticien n’a plus nécessairement le contrôle sur
la récolte des données. Le besoin d’une analyse statistique vient dans un second
temps, une fois les données récoltées. Par conséquent, un travail est à fournir lors
de la phase de préparation des données afin de passer d’une représentation informatique à une représentation statistique adaptée au problème considéré. Dans
cet article, nous étudions un procédé de sélection d’une bonne représentation en
nous basant sur des travaux antérieurs.
Nous proposons un protocole d’évaluation de la pertinence d’une représentation
par l’intermédiaire d’une métrique, dans le cas de la classification supervisée. Ce
protocole exploite une méthode de classification non paramétrique régularisée,
garantissant l’automaticité et la fiabilité de l’évaluation. Nous illustrons le fonctionnement et les apports de ce protocole par un problème réel de préparation de
données de consommation téléphonique. Nous montrons également la fiabilité
et l’interprétabilité des décisions qui en résultent.
1
Préparation de données
Avec l’émergence des systèmes d’information au tournant des années 90, la récolte des
données brutes a été rendue complètement indépendante de toute finalité statistique. L’analyse
de ces données est un objectif qui intervient dans un second temps. La phase de préparation,
dont le but est de construire à partir des données brutes une table de données pour modélisation,
est donc devenue une partie critique et souvent coûteuse en temps du processus de fouille de
données (Chapman et al., 2000).
L’analyste se trouve dans la situation suivante. D’une part, il dispose d’un entrepôt de
données mis en place et alimenté dans un autre but que celui d’une quelconque analyse statistique. D’autre part, le propriétaire de l’entrepôt envisage d’exploiter ses données afin de
compléter ses connaissances et pose une question à l’analyste. Celui-ci doit alors tourner la
question en un problème d’analyse statistique, extraire de l’entrepôt les données susceptibles
d’être pertinentes vis-à-vis de la question posée, les mettre sous forme d’une table, procéder à
la modélisation et interpréter les résultats afin de répondre à la question initiale.
- 319 -
RNTI-E-9
Classement des fragments de documents XML par une
méthode d’aide à la décision
Faïza Abbaci∗ , Pascal Francq∗∗
∗
Departement de sciences de l’information et de la communication,
Université Libre de Bruxelles.
50, Av. F. D. Roosevelt, CP 123,B-1050 Bruxelles, Belgique
[email protected] http://homepages.ulb.ac.be/ fabbaci
∗∗
Departement de sciences de l’information et de la communication,
Université Libre de Bruxelles.
50, Av. F. D. Roosevelt, CP 123,B-1050 Bruxelles, Belgique
[email protected]
Résumé. Vu l’accroissement constant du volume d’information accessible en
ligne sous format XML, il devient primordial de proposer des modèles adaptés
à la recherche d’information dans les documents XML. Tandis que la recherche
d’information classique repose sur l’indexation du contenu des documents, la
recherche d’information dans les documents XML tente d’améliorer la qualité
des résultats en tirant profit de la sémantique véhiculée par la structure des documents. Dans cet article, nous présentons une méthode de classement des items
(éléments XML) retournés lors d’une recherche dans une collection de documents XML. Le classement repose sur la prise en compte d’un ensemble de critères discriminants. La particularité de notre approche réside dans la façon dont
nous les utilisons : Nous employons une méthode décisionnelle pour classer les
items en les comparant deux-à-deux là où en général une fonction de scoring
globale est utilisée.
1
Introduction
L’une des conséquences de la prolifération de l’information en ligne de nos jours est la diversité des données. XML se distingue comme le format par excellence pour la représentation,
le stockage et l’échange de données sur Internet.
Les systèmes de recherche d’information dans les documents XML (RI-XML) utilisent soit
le paradigme de l’appariement exact soit celui de l’appariement approximatif (ou appariement
par classement). Dans le premier cas, la requête doit vérifier les contraintes sur le contenu et
la structure spécifiées dans la requête, ainsi chaque item (document, fragment de document ou
élément XML) sur lesquels la recherche est effectuée et jugé pertinent ou non. Dans le second
cas, les items sont classés selon leur pertinence à la requête. Dans le contexte du Web, l’appariement approximatif est plus approprié. En effet, l’appariement exact nécessite un langage
- 331 -
RNTI-E-9
Filtrage des sites Web à caractère violent par analyse du
contenu textuel et structurel
Radhouane Guermazi∗ , Mohamed Hammami∗∗ et Abdelmajid Ben Hamadou∗
∗
MIRACL-ISIMS, Route Mharza Km 1 BP 1030 Sfax Tunisie
[email protected]
[email protected]
http://www.isimsf.rnu.tn/
∗∗
MIRACL-FSS, Route Sokra Km 3 BP 802, 3018 Sfax Tunisie
[email protected]
Résumé. Dans cet article, nous proposons une solution pour la classification et
le filtrage des sites Web à caractère violent. A la différence de la majorité de
systèmes commerciaux basés essentiellement sur la détection de mots indicatifs
ou l’utilisation d’une liste noire manuellement collectée, notre solution baptisée,
« WebAngels Filter », s’appuie sur un apprentissage automatique par des techniques de data mining et une analyse conjointe du contenu textuel et structurel
de la page Web. Les résultats expérimentaux obtenus lors de l’évaluation de
notre approche sur une base de test sont assez bons. Comparé avec des logiciels,
parmi les plus populaires, « WebAngels Filter » montre sa performance en terme
de classification.
1 Introduction
L’Internet représente un extraordinaire outil d’accès à un ensemble quasi infini de ressources et un puissant outil de communication. Elle prend une place grandissante dans la vie
quotidienne et dans le monde professionnel. Le public qui y a accès est de plus en plus large,
mais aussi de plus en plus jeune. Les enfants trouvent chaque jour un accès plus facile à la toile.
Cet accès de plus en plus large ne va pas sans inconvénients, les sites à caractère adulte, violent,
raciste exposent les enfants à des contenus qui peuvent heurter leur sensibilité, voire les choquer. En effet, ces sites sont souvent en accès libre, ce qui pose un problème évident vis à vis
des enfants. Ces utilisations litigieuses de l’Internet, par des individus mal intentionnés, n’ont
pas occulté les énormes possibilités de progrès personnel et social, d’enrichissement culturel
et éducatif offertes par ce réseau. Ainsi, un ensemble de produits commerciaux sur le marché
proposent des solutions de filtrage de sites Web. La majorité de ces produits traitent principalement le caractère adulte, alors que les autres caractères, comme le caractère néonazie, raciste
et violent, ont été marginalisé. C’est ce dernier caractère qui sera traité dans cet article. La
section suivante présente une revue de littérature sur les travaux qui ont porté sur le filtrage de
sites web. Nous décrivons dans la section 3 notre approche de classification des sites Web à
caractère violent par une analyse du contenu textuel et structurel des pages Web. Les résultats
de l’expérimentation de l’approche proposée seront détaillés dans la section 4. La section 5
- 343 -
RNTI-E-9
Segmentation thématique par calcul de distance thématique
Alexandre Labadié∗ , Jacques Chauché∗
∗
LIRMM, Université Montpellier 2
UMR 5506
161 rue Ada
34392 Montpellier Cedex 5 - France
[email protected],
[email protected]
Résumé. Dans cet article, nous présentons une approche de la segmentation
thématique fondée sur une représentation en vecteurs sémantiques des phrases et
des calculs de distance entre ces vecteurs. Les vecteurs sémantiques sont générés
par le système SYGFRAN, un analyseur morpho-syntaxique et conceptuel de la
langue française. La segmentation thématique s’effectue elle en recherchant des
zones de transition au sein du texte grâce aux vecteurs sémantiques. L’évaluation
de cette méthode s’est faite sur les données du défi DEFT’06.
1
Introduction
Le volume toujours plus important de textes rend l’exploitation de ces derniers par des
méthodes automatiques de plus en plus complexes. Face à ce problème, la segmentation thématique offre la possibilité d’isoler dans un texte, des segments cohérents du point de vue de
leur contenu informationnel. Ainsi, d’autres tâches telles que le résumé automatique ou la recherche d’information par exemple s’en trouve simplifiées. Mais l’on peut imaginer des tâches
plus spécifiques telles que la création automatique de table des matières ou de plans à partir
d’un gros volume de données non structurées. Nous présentons ici une approche originale de
la segmentation thématique en nous appuyant sur les données du défi DEFT’06, Azé et al.
(2006).
Pour son édition 2006, DEFT a fixé comme tâche de retrouver les différents segments thématiques d’un grand volume de textes. Trois catégories de textes nous ont été soumises :
– un ensemble de discours politiques.
– un ensemble d’articles de loi.
– un extrait d’un livre à teneur scientifique.
Chacune de ces catégories a été divisées en deux corpus distincts :
– Un corpus d’apprentissage, fourni au début du défi avec les segments thématiques étiquetés, afin d’entraîner nos méthodes.
– Un corpus de test, fourni à la fin du défi, sur lequel nous avons été évalués.
Un calcul de F score sur les phrases frontières rapportées par les méthodes a permis l’évaluation des résultats. Les modalités du calcul du F score, et du couple rappel / précision qui lui
est lié, dans le cadre de ce défi sont explicités par Azé et al. (2006).
- 355 -
RNTI-E-9
Extension sémantique du modèle de similarité basé sur la
proximité floue des termes
Zoulikha Heddadji*,**, Nicole Vincent*
Séverine Kirchner**, Georges Stamon*
*
Université René Descartes
45, rue des Saints Pères 75270 Paris CEDEX06
**
CSTB-84, avenue Jean Jaurès Champs-sur-Marne
77421 Marne-la-Vallée CEDEX2
{zoulikha.heddadji, kirchner}@cstb.fr
{nicole.vincent, Georges.Stamon}@math-info.univ-pris5.fr
Résumé. Le modèle flou de proximité repose sur l'hypothèse que plus les
occurrences des termes d'une requête se trouvent proches dans un document,
plus ce dernier est pertinent. Cette mesure floue est très avantageuse dans le
traitement des documents à textes courts, toutefois elle ne tient pas compte de
la sémantique des termes. Nous présentons dans cet article l'intégration d'une
métrique conceptuelle au modèle de proximité floue des termes pour la
formalisation de notre propre modèle.
1 Introduction
Dans le cadre de la modélisation des étapes du raisonnement à partir de cas pour la
réalisation d’un outil logiciel qui fera office d’un tuteur d’aide pour l’évitement des
circonstances de pollution domestique exprimées dans des plaintes (Z. Bellia, 2004), nous
souhaitons améliorer la méthode de tri basée sur la contiguïté des termes de la requête dans
le texte d’un document source. À l’évidence, il est dans l’intérêt de l’usager du système de
retrouver les cas les plus pertinents parmi les plaintes déjà traitées. Généralement, lorsqu’un
utilisateur formule une requête au système, il compte retrouver les documents dont la
signification du contenu se rapproche le plus de sa demande. Par exemple, pour la résolution
d’une nouvelle plainte comportant le terme «couverture », il sera judicieux de retrouver les
anciens cas de la mémoire archive relatifs non seulement au terme « couverture » lui-même,
mais aussi aux «couettes », aux « duvets », aux « édredons », etc. Les documents contenant
ces termes sont sans doute pertinents pour la plainte courante, néanmoins, ils ne seront pas
sélectionnés par un modèle de recherche basé uniquement sur les occurrences directes des
termes. Une solution incontournable est l’utilisation d’un réseau sémantique pour gérer le
vocabulaire très variés qui peut être employé dans les plaintes. Dans l’étape de
l’« élaboration » des cas en RàPC nous avons opté pour un modèle semi-structuré pour la
constitution de la base. L’interface usager de notre système propose une série d'indexes sous
forme de questions, dont les réponses apportent de l'information pour la description du
problème. Nous avons proposé de traduire ces indexes sous forme de modèles de balise dans
- 367 -
RNTI-E-9
Vers une base de connaissances biographiques : extraction
d’information et ontologie
Laurent Kevers∗ et Cédrick Fairon∗
∗
Cental, Université catholique de Louvain (UCL)
Place Blaise Pascal, 1 - 1348 Louvain-la-Neuve - Belgique
[email protected] - [email protected]
Résumé. Le projet B-Ontology a pour but l’extraction, l’organisation et l’exploitation de connaissances biographiques à partir de dépêches de presse. Sa
réalisation requiert l’intégration de diverses technologies, principalement l’extraction d’information, les ontologies et bases de connaissances, les techniques
de data mining. Cet article propose un aperçu des choix réalisés dans le cadre du
projet. Cette démarche permet également de définir un environnement d’outils
utiles pour les applications d’extraction et de gestion de connaissances.
1
Introduction
B-Ontology est un projet de recherche appliquée dont l’objectif est de construire le prototype d’une application capable d’extraire et d’organiser de l’information biographique. Cette
information sera exploitée dans le cadre du processus de rédaction d’une agence de presse.
L’agence Belga diffuse quotidiennement plus de 250 dépêches en deux langues (français et
néerlandais). Cette masse textuelle représente environ 70.000 mots par jour (25 millions de
mots en un an) par langue. Dans ce projet, nous nous intéresserons aux informations qui
concernent les personnes, les organisations et les événements dans lesquels elles interviennent.
Le résultat est stocké dans un ensemble de données structurées facilement consultable. Des
systèmes comparables existent déjà (NewsExplorer1 , KIM 2 ) mais ne couvrent cependant pas
toutes les fonctionnalités désirées ici et sont souvent uniquement adaptés aux textes en anglais.
La première partie exposera les méthodes d’extraction d’information. La deuxième s’attardera sur le choix de l’organisation des données. Une troisième partie, présentera une réalisation
concrète, mais limitée, de la base de connaissances et quelques aspects de data mining.
2
Extraction d’information
2.1
Définitions des entités et du formalisme d’annotation
L’extraction d’information passe par l’annotation sémantique du texte. Cette tâche nécessite avant tout une bonne définition des types d’entités recherchées. On définit le concept
1 http
2 http
://press.jrc.it/NewsExplorer/home/en/latest.html
://www.ontotext.com/kim/index.html
- 373 -
RNTI-E-9
Une extension de XQuery pour la recherche textuelle
d’information dans des documents XML
Nicolas Faessel*, Jacques Le Maitre**
*LSIS (UMR CNRS 6168)
Université Paul CézanneDomaine Universitaire de Saint-Jérôme
Avenue Escadrille Normandie-Niemen
13397 Marseille Cedex 20
[email protected]
**LSIS (UMR CNRS 6168)
Université du Sud Toulon-Var
BP 20132, 83957 La Garde
[email protected]
Résumé. Nous présentons dans cet article une extension de XQuery que nous
avons développée pour interroger le contenu et la structure de documents
XML. Cette extension consiste à intégrer dans XQuery le langage NEXI, un
sous-ensemble de XPath, défini dans le cadre de l’initiative INEX. Notre
proposition est double : (i) équiper NEXI d’une sémantique floue, (ii) intégrer
NEXI dans XQuery au moyen d’une métafonction appelée nexi, ayant une
requête NEXI comme paramètre, et d’une extension de la clause for de
l’opérateur FLWOR de XQuery. De plus, nous décrivons le prototype
paramétrable que nous avons développé au dessus de deux moteurs XQuery
classiques : Galax et Saxon.
1 Introduction
Il y a deux visions d’un document XML : une vision « centrée données » et une vision
« centrée document ». Les documents XML « centrés données » sont constitués d’un
ensemble d’éléments ayant une structure régulière : un ensemble de fiches bibliographiques,
par exemple. Les documents XML « centrés document » décrivent des textes plus ou moins
structurés : des livres scientifiques, par exemple. Pour interroger des documents XML
« centrés données », le langage de requêtes XQuery (le SQL de XML), défini par le W3C
(W3C, 2006b), est tout à fait bien adapté. Par contre, pour interroger des documents XML
« centrés document » XQuery n’est pas suffisant lorsque l’interrogation est de nature
sémantique, comme par exemple, la recherche des chapitres de livres qui concernent un
certain sujet. De telles requêtes sont traitées traditionnellement par les systèmes de recherche
d’information (Baeza-Yates et Ribeiro-Neto, 1999). Ce constat a conduit le W3C à proposer
une extension de XQuery, XQuery Full-Text (W3C, 2006a), pourvue de fonctionnalités de
recherche plein-texte. Le cœur de XQuery Full-Text est une fonction nommée ftcontains qui
permet de tester si le contenu textuel d’un élément est conforme à une requête exprimée à
l’aide d’opérateurs spécifiques : troncatures, connecteurs logiques, calcul de distance entre
- 379 -
RNTI-E-9
Téléchargement