télécharger egc08_actes_RNTI-E

publicité
Revue des Nouvelles Technologies de l’Information
Sous la direction de Djamel A. Zighed et Gilles Venturini
RNTI-E-11
Extraction
et gestion des connaissances :
EGC'2008
Rédacteurs invités :
Fabrice Guillet (LINA, Université de Nantes)
Brigitte Trousse (INRIA Sophia Antipolis-Méditerranée)
Volume II
CÉPADUÈS-ÉDITIONS
111, rue Vauquelin
31100 TOULOUSE – France
Tél. : 05 61 40 57 36 – Fax : 05 61 41 79 89
(de l’étranger ) + 33 5 61 40 57 36 – Fax : + 33 5 61 41 79 89
www.cepadues.com
courriel : [email protected]
Chez le même éditeur
RNTI-Revue des Nouvelles Technologies de l'Information
Sous la direction de Djamel A. Zighed et Gilles Venturini
n°1 : Entreposage fouille de données
E1 : Mesures de qualité pour la fouille de données
E2 : Extraction et gestion des connaissances EGC 2004
C1 : Classification et fouille de données
E3 : Extraction et gestion des connaissances EGC 2005
B1 : 1re Journée Francophone sur les Entrepôts de Données
et l’Analyse en ligne EDA 2005
E4 : Fouille de données complexes
E5 : Extraction des connaissances : Etat et perspectives
E6 : Extraction et gestion des connaissances EGC 2006
E7 : Visualisation en extraction des connaissances
E8 : Systèmes d'Information pour l'Aide à la Décision
en Ingénierie Système
B2 : 2re Journée Francophone sur les Entrepôts de Données
et l’Analyse en ligne EDA 2006
E9 : Extraction et gestion des connaissances EGC 2007
E10 : Défi fouille de textes
B3 : 3re Journée Francophone sur les Entrepôts de Données
W1 : Fouille du Web
A1 : Data Mining et Apprentissage Statistique :
applications en assurance, banque et marketing
A2 : Apprentissage artificiel et fouille de données
SM1 : ISoLA 2007 Workshop On Leveraging Applications
of Formal Methods, Verification and Validation
Ensemble composé de 2 volumes :
978 2 85428 819 3 (volume I)
978 2 85428 820 9 (volume II)
© CEPAD 2008
ISBN : 978.2.85428.818.6
Le code de la propriété intellectuelle du 1 juillet 1992 interdit expressément la photocopie
à usage collectif sans autorisation des ayants droit. Or, cette pratique en se généralisant
provoquerait une baisse brutale des achats de livres, au point que la possibilité même pour les
auteurs de créer des œuvres nouvelles et de les faire éditer correctement serait alors menacée.
er
Nous rappelons donc que toute reproduction, partielle ou totale, du présent ouvrage est
interdite sans autorisation de l'éditeur ou du Centre français d'exploitation du droit de copie
(CFC – 3, rue d'Hautefeuille – 75006 Paris).
Dépôt légal : janvier 2008
N° éditeur : 81800
LE MOT DES DIRECTEURS DE LA COLLECTION RNTI
Chères Lectrices, Chers Lecteurs,
La Revue des Nouvelles Technologies de l’Information a pour objectif d’être un outil de
communication de très grande qualité et ouvert à tous les chercheurs impliqués dans les technologies de l’information. Nous continuons à faire paraître des numéros dans les thèmes liés à
l’Extraction de connaissances à partir des Données, à la Fouille de données et à la Gestion des
connaissances, mais cette année marque une évolution dans notre revue qui ouvre plus largement sa thématique à d’autres domaines de l’Informatique, toujours avec les mêmes niveaux
d’exigence sur les numéros publiés. A ce titre, nous vous rappelons que RNTI accueille deux
types de numéros (pour lesquels une procédure d’évaluation à trois relecteurs est systématiquement mise en place) :
– des numéros à thème faisant l’objet d’un appel à communication. Chaque numéro à
thème est édité par un ou plusieurs rédacteurs en chef invités. Un comité de programme
spécifique d’une quinzaine de personnes est formé à cette occasion. Si vous avez un projet éditorial vous pouvez nous le soumettre et s’il est dans le créneau de RNTI vous serez
désigné rédacteur invité et vous vous chargerez ensuite de manière libre et indépendante
de la mise en place de la collecte, de l’évaluation, de la sélection et de la publication du
numéro,
– des actes de conférences sélectives garantissant une haute qualité des articles. Si vous
présidez une conférence dans des thématiques liées aux technologies de l’information,
vous pouvez nous contacter.
Dans le présent numéro, nous publions les papiers sélectionnés par la conférence EGC’2008
qui se tient à Sophia Antipolis du 30 janvier au 1er février 2008. Nous tenons à remercier particulièrement les organisateurs de cette conférence ainsi que l’association EGC pour la confiance
qu’ils accordent à cette revue et nous les félicitons pour la qualité du travail accompli. Nous
espérons vivement que ce numéro vous donnera à toutes et à tous une entière satisfaction. Pour
tout renseignement, nous vous invitons à consulter notre site Web et à nous contacter.
Djamel A. Zighed et Gilles Venturini.
http ://www.antsearch.univ-tours.fr/rnti
- iii -
RNTI-E-11
PRÉFACE
La sélection d’articles publiés dans le présent recueil constitue les actes de la huitième
conférence Extraction et Gestion des Connaissances (EGC’2008) qui s’est déroulée à Sophia
Antipolis du 30 janvier au 1er février 2008. Comme les précédentes éditions, ces journées
francophones sont consacrées à toutes les problématiques, théories, méthodes et applications
de la fouille de données, de l’apprentissage, de l’extraction et de la gestion de connaissances.
Il s’agit de rassembler les chercheurs universitaires et les acteurs d’entreprises concernés par
ces domaines afin de présenter des travaux de qualité, de communiquer, et de stimuler les
innovations.
Lors de cette huitième édition, parmi les 156 résumés déposés qui ont donné lieu à 134 soumissions d’articles ou de démonstrations, ont été retenus : 42 articles en format long (environ
30% des soumissions), 27 articles en format court, 15 posters et 6 démonstrations de logiciel.
Ce volume de soumissions ainsi que le taux de sélection illustrent à la fois le dynamisme de
cette communauté scientifique ainsi que la qualité des travaux menés dans ce domaine.
Les articles de ce numéro sont regroupés selon les sessions dans lesquelles ils ont été
présentés, et dans l’ordre chronologique. Ces regroupements thématiques sont, d’une certaine
manière, arbitraires : de nombreux autres arrangements auraient été possibles, aussi nous invitons les lecteurs à parcourir l’ensemble des titres pour se faire une idée de la couverture d’un
domaine particulier, plutôt que de s’en tenir uniquement aux intitulés des sessions.
Remerciements
Nous tenons à remercier tous les auteurs qui ont soumis des articles à cette conférence.
Nous félicitons ceux dont la proposition a été acceptée, et nous espérons que les commentaires
des relecteurs auront été constructifs et encourageants pour les autres auteurs. Nous espérons
que cette conférence et ce numéro seront profitables à tous.
Compte tenu du grand nombre de relectures (trois relecteurs par article donnent lieu à près
de 400 relectures), nous tenons à remercier tous les membres du comité de lecture ainsi que les
relecteurs additionnels pour leur travail d’évaluation et les commentaires qu’ils ont pu fournir
aux auteurs.
Nous tenons à remercier et féliciter particulièrement le comité d’organisation : un grand
merci à eux pour tout le temps qu’ils ont consacré au succès de cette conférence. En particulier un grand merci à Hakim Hacid pour la gestion du site de soumission, Monique Simonetti
pour la logistique locale, Bernard Senach et Gaëlle Leblond pour leur aide à de nombreuses
tâches, Florent Masséglia pour la réalisation du logo EGC08, Sémi Gaieb pour son aide pour le
site Web, Claudia Marinica pour les inscriptions, Fabien Picarougne pour la construction des
actes. Merci également à Alice Marascu et Florent Masséglia pour l’organisation des ateliers,
Hicham Behja et Bernard Senach pour l’organisation des tutoriaux et enfin Alzennyr Da Silva
et Mohand-Said Hacid pour l’organisation des démonstrations logicielles. Nos remerciements
vont également à Marie-Claire Forgue (W3C), Jacques Lemaire (IUT Menton) pour leur soutien pour cet évènement, à Dany Sergeant, Agnès Cortell, Sophie Honnorat, Stéphanie Aubin,
Yves Lechevallier, Abdelmoujib Elkhoumri et Reda Kabbaj sans oublier le personnel des services GENER (services généraux) et SEMIR (moyens informatiques) de l’Inria pour leur aide
avant et/ou lors de la conférence elle-même.
-v-
RNTI-E-11
Cette conférence ne pourrait voir le jour sans le soutien de l’Association EGC, soutien qui
s’exprime de multiples manières : parution des actes, organisation locale, et dotation de deux
prix attribués lors de la conférence. (consulter www.polytech.univ-nantes.fr/AssociationEGC/ pour
une description plus complète)
Enfin, nous remercions spécialement le Centre de Recherche Inria Sophia Antipolis - Méditerranée d’une part pour nous avoir offert le plaisir d’inaugurer son nouvel amphithéeatre1 et
d’autre part pour son soutien financier et logistique.
Fabrice Guillet et Brigitte Trousse.
1 Financé en partie par la Région PACA, la Communauté d’Agglomération Sophia Antipolis (CASA), le Conseil
Général et l’Etat.
RNTI-E-11
- vi -
Président d’honneur d’EGC’2008 : Osmar Zaïane, Université d’Alberta, Canada.
Le Comité de lecture de ce numéro est constitué des Comités de programme et de pilotage.
Comité de programme d’EGC’2008, sous la présidence de Fabrice Guillet :
J. Akoka (CNAM, Paris, F)
T. Aluja-Banet (EIO, UPC, Barcelone, E)
D. Aubert (LaBRI, U. Bordeaux 1, F)
M.-A. Aufaure (Supelec, Paris, F)
N. Aussenac-Gilles (IRIT, U. Toulouse, F)
B. Bachimont (UTC, F)
J.-P. Barthès (UTC, F)
N. Belkhiter (Faculté des sciences et de génie, U. Laval, C)
A. Bellaachia (The George Washington U., USA)
S. Ben Yahia (U. Tunis, T)
S. Benbernou (LIRIS, U. Claude Bernard Lyon1, F)
S. Bengio (Google Inc., Mountain View California, USA)
Y. Bennani (LIPN-U. Paris 13, F)
G. Berio (Dipartimento di Informatica, U. di Torino, I)
L. Berti-Equille (IRISA, Rennes, F)
H. Bock (Institute of Statistics, RWTH Aachen U., USA)
P. Bosc (IRISA-ENSSAT, U. Rennes 1, F)
F. Bouali (U. Lille 2, F)
M. Boughanem (IRIT, U. Toulouse, F)
J.-F. Boulicaut (LIRIS, U. lyon 1, F)
M. Boullé (Frane Télécom R&D, F)
O. Boussaid (ERIC, U. Lyon, F)
M. Bouzeghoub (PRISM, U. Versailles, F)
P. Brito (NIAAD-LIACC, U. Porto, P)
S. Canu (LITIS, INSA de Rouen, F)
F. Chateau (U. Lyon 2, F)
M. Chavent (MAB, U. Bordeaux 1, F)
F. Cloppet (CRIP5, U. Paris 5, F)
M. Collard (I3S, U. Nice Sophia Antipolis, F)
A. Cornuejols (LRI, U. Paris Sud, F)
B. Crémilleux (GREYC, U. Caen, F)
J. Darmont (ERIC, U. Lyon 2, F)
F. De Marchi (LIRIS, U. lyon 1, F)
S. Després (LIPN, U.Paris 13, F)
E. Diday (CEREMADE, U. PARIS-DAUPHINE, F)
R. Dieng-Kuntz (INRIA Sophia Antipolis - Méditerranée, F)
C. Djeraba (LIFL, U. Lille 1, F)
S. Faiz (LTSIRS, INSAT, T)
G. Falquet (U. Genève, S)
A. Magda Florea (U. Polytechnique de Bucarest, R)
C. Froidevaux (LRI, U. Paris Sud, F)
P. Gallinari (LIP6, U. Pierre et Marie Curie, F)
J.-G. Ganascia (LIP6, U. Pierre et Marie Curie, F)
P. Gancarski (LSIIT-AFD, F)
F. Gandon (INRIA Sophia-Antipolis - Méditerranée, F)
C. Garbay (CLIPS-IMAG, Grenoble, F)
G. Gardarin (PRISM, U. Versailles Saint-Quentin, F)
P. Geurts (U. Liège, B)
A. Giacometti (LI, U. Tours, F)
R. Gilleron (INRIA Lille, F)
G. Govaert (UTC, F)
C. Guinot (CERIES, U. Biométrie et Epidémiologie, F)
A. Hardy (FUNDP, Namur, B)
- vii -
F. Jaquenet (EURISE, U. Saint-Etienne, F)
A. Khenchaf (ENSIETA, Brest, F)
P. Kuntz (LINA, U. Nantes, F)
S. Lallich (ERIC, U. Lyon 2, F)
M. Lamure (U. Lyon 1, F)
L. Lancieri (France Telecom R&D, F)
P. Laublet (LaLIC, U. Paris-Sorbonne, F)
A. Laurent (LIRMM, Polytech’Montpellier, F)
A. Lazraq (ENIM, Ecole des Mines de Rabat, M)
J. Le Maitre (LSIS - U. Sud Toulon-Var, F)
Y. Lechevallier (INRIA Paris - Rocquencourt, F)
R. Lehn (LINA, U. Nantes, F)
P. Lenca (GET/ENST Bretagne, Brest, F)
P. Leray (LINA, U. Nantes, F)
I.-C. Lerman (IRISA, U. Rennes 1, F)
S. Loiseau (LERIA, U. Angers, F)
F. Masseglia (INRIA Sophia Antipolis - Méditerranée, F)
E. Mephu Nguifo (CRIL, U. Artois, F)
R. Missaoui (U. du Québec en Outaouais, C)
A. Morin (IRISA, Rennes, F)
A. Napoli (LORIA, Nancy, F)
M. Noirhomme-Fraiture (FUNDP, Namur, B)
J.-M. Ogier (L3i, U. Rochelle, F)
N. Pasquier (I3S, U. Nice Sophia Antipolis, F)
S. Pinson (LAMSADE, U. Paris Dauphine, F)
P. Poncelet (LGI2P/EMA, F)
F. Poulet (IRISA, Rennes, F)
P. Preux (LIFL, U. Lille, F)
J.-C. Régnier (Laboratoire SDP, U. Lyon 2, F)
C. Reynaud (U. Paris-Sud, LRI & INRIA (Futurs), F)
C. Roche (Equipe CONDILLAC, U. Savoie, F)
M.-C. Rousset (LSR-IMAG, U. Grenoble 1, F)
L. Saitta (U. del Piemonte Orientale, I)
I. Saleh (Paragraphe, U. Paris 8, F)
G. Saporta (CNAM, Chaire de Stat. Appl. Paris, F)
M. Schneider (LIMOS, U. Blaise Pascal, F)
M. Sebban (U. Saint-Etienne, F)
F. Sèdes (IRIT, U. Toulouse 3, F)
D. Simovici (U. of Massachusetts, Boston, USA)
E. Ghazali Talbi (LIFL, U. Lille, F)
M. Teisseire (LIRMM, Polytech’Montpellier, F)
F. Toumani (LIMOS, U. Clermont-Ferrand, F)
S. Trausan-Matu (U. Polytechnique de Bucarest, R)
F. Trichet (LINA, U. Nantes, F)
B. Trousse (INRIA Sophia Antipolis - Méditerranée, F)
G. Venturini (U. Tours, F)
R. Verde (Facoltà di Studi Politici Jean Monnet, I)
J.-P. Vert (Ecole des Mines de Paris, F)
N. Vincent (Crip5, U. Paris 5, F)
C. Vrain (LIFO, U. Orléans, F)
J. Wijsen (U. Mons-Hainaut, B)
F. Zehraoui (LAMI, U. Evry-Val d’Esonne, F)
K. Zreik (Paragraphe, U. Paris 8, F)
RNTI-E-11
Comité de pilotage d’EGC, sous la présidence de Djamel Zighed :
Danielle Boulanger (IAE, U. Lyon 3)
Henri Briand, (LINA, U. de Nantes)
Régis Gras (LINA, U. de Nantes)
Fabrice Guillet (LINA, U. de Nantes)
Mohand-Saïd Hacid (LIRIS, U. Lyon 1)
Georges Hébrail (ENST, Paris)
Danièle Hérin (LIRMM, U. Montpellier 2)
Yves Kodratoff (LRI, U. Paris-sud)
Ludovic Lebart (ENST, Paris)
Jean-Marc Petit (LIRIS, INSA Lyon)
Jacques Philippé (PerfomanSe)
Gilbert Ritschald (U. Genève, Suisse)
Relecteurs non membres du Comité de lecture :
Marie Agier, Jorge Anacleto Louça, Sujeevan Aseervatham, Alexandre Aussem, Hanane Azzag, Julien Blanchard,
Alexandre Blansché, Nacim Fateh Chikhi, Etienne Cuvelier, Lisa Di Jorio, Thanh-Nghi Do, Mohamed Amir Esseghir,
Frédéric Flouvat, Frédéric Fürst, Moultazem Ghazal, Allel Hadjali, Tienté Hsu, Hélène Jaudoin, Zeina Jrad, Mouna
Kamel, Mustapha Lebbah, Lynda Lechani-Tamine, Stéphane Lopes, Patrick Marcel, Fabrice Muhlenbach, Olivier Pivert, Marc Plantevit, Elie Prudhomme, Cheddy Raïssi, Mathieu Roche, Paola Salle, Karen Sauvagnat, Isabelle Tellier,
Fabien Torre, Sami Zghal.
Comité d’organisation, sous la présidence de Brigitte Trousse :
Service REV - Organisation Colloques et Communication :
Monique Simonetti, REV, INRIA SA - Méditerranée
Agnès Cortell, REV, INRIA SA - Méditerranée
Gaelle Leblond, REV, INRIA SA - Méditerranée
Dany Sergeant,REV, INRIA SA - Méditerranée
Services GENER et SEMIR, Inria SA - Méditerranée
Equipe-Projet AxIS :
Stéphanie Aubin, INRIA Paris - Rocquencourt
Hicham Behja, INRIA SA - Méditerranée & ENSAM (Meknes, Maroc)
Alzennyr Da Silva, INRIA Paris - Rocquencourt
Abdelmoujib Elkhoumri, INRIA SA - Méditerranée & Université Hassan 1er, Settat, Maroc), France
Sémi Gaïeb, INRIA SA - Méditerranée
Sophie Honnorat, INRIA SA - Méditerranée
Reda Kabbaj, INRIA SA - Méditerranée & Université de Fès, Maroc), France
Yves Lechevallier, INRIA paris - Rocquencourt
Alice Marascu, INRIA SA - Méditerranée
Florent Masséglia, INRIA SA - Méditerranée
Bernard Senach, INRIA SA - Méditerranée
Avec la participation de :
Mohand-Saïd Hacid, LIRIS, Université Lyon I
Hakim Hacid, ERIC, Université Lyon 2
Claudia Marinica, LINA, Université Nantes
Fabien Picarougne, LINA, Université Nantes
Marie-Claire Forgue, W3C , Sophia Antipolis
Jacques Lemaire, IUT Menton
RNTI-E-11
- viii -
TABLE DES MATIÈRES
VOLUME I
Conférences invitées
Industrialiser le data Mining : enjeux et perspectives,
Françoise Fogelman-Soulié ................................................................................................. 1
Le forage de réseaux sociaux,
Osmar Zaïane ....................................................................................................................... 3
From Mining the Web to Inventing the New Sciences Underlying the Internet,
Usama Fayyad ...................................................................................................................... 5
Session Web sémantique et ontologies
Extraction et exploitation des annotations contextuelles,
Noureddine Mokhtari, Rose Dieng-Kuntz ............................................................................ 7
Vers une fouille sémantique des brevets: Application au domaine biomédical,
Nizar Ghoula, Khaled Khelif, Rose Dieng-Kuntz ............................................................... 19
Utilisation du Web Sémantique pour la gestion d’une liste de diffusion d’une CoP,
Bassem Makni, Khaled Khelif, Hacène Cherfi, Rose Dieng-Kuntz.................................... 31
Approche d’annotation automatique des événements dans les articles de presse,
Rim Faiz, Aymen Elkhlifi .................................................................................................... 37
Web Content Data Mining : la classification croisée pour l’analyse textuelle
d’un site Web,
Malika Charrad, Yves Lechevallier, Gilbert Saporta, Mohamed Ben Ahmed ................... 43
Session Recherche d’information et visualisation
Recherche d’information personnalisée dans les bibliothèques
numériques scientifiques,
Thanh-Trung Van, Michel Beigbeder ................................................................................. 55
Requêtes alternatives dans le contexte d’un entrepôt de données génomiques,
Christine Froidevaux, Frédéric Lemoine ........................................................................... 61
Enhancing Personal File Retrieval in Semantic File Systems
with Tag-Based Context,
Ba-Hung Ngo, Frédérique Silber-Chaussumier, Christian Bac ........................................ 73
Clustering Visuel Semi-Supervisé pour des systèmes en coordonnées en étoiles 3D,
Loïc Lecerf, Boris Chidlovskii ............................................................................................ 79
Les cartes cognitives hiérarchiques,
Lionel Chauvin, David Genest, Stéphane Loiseau ............................................................. 91
- ix -
RNTI-E-11
Session Ontologies
Une mesure de similarité contextuelle pour l’aide à la navigation dans un treillis,
Saoussen Sakji, Marie-Aude Aufaure, Géraldine Polaillon, Bénédicte Le Grand .......... 103
Une approche ontologique pour automatiser le contrôle de conformité
dans le domaine du bâtiment,
Catherine Faron-Zucker, Anastasiya Yurchyshyna, Nhan Le Thanh, Celson Lima ........ 115
Sémantique et réutilisation d’ontologie générique,
Sylvie Després, Sylvie Szulman ........................................................................................ 121
Gradients de prototypicalité conceptuelle et lexicale : une contribution
à la pragmatisation des ontologies de domaine,
Xavier Aimé, Frédéric Fürst, Pascale Kuntz, Francky Trichet........................................ 127
Mesures Hiérarchiques pondérées pour l’évaluation d’un système
semi-automatique d’annotation de génomes utilisant des arbres de décision,
Lucie Gentils, Jérôme Azé, Claire Toffano-Nioche, Valentin Loux, Anne Poupon,
Jean-François Gibrat, Christine Froidevaux ................................................................... 133
Méthodologie d’Évaluation Intelligente des Concepts Ontologiques,
Lobna Karoui, Marie-Aude Aufaure ................................................................................ 139
Session Flux de données
Échantillonnage pour l’extraction de motifs séquentiels : des bases de données
statiques aux flots de données,
Chedy Raïssi, Pascal Poncelet ......................................................................................... 145
Le FIA: un nouvel automate permettant l’extraction efficace d’itemsets fréquents
dans les flots de données,
Jean-Emile Symphor, Alban Mancheron, Lionel Vinceslas, Pascal Poncelet ................. 157
Échantillonnage spatio-temporel de flux de données distribués,
Raja Chiky, Jérôme Cubille, Alain Dessertaine, Georges Hébrail,
Marie-Luce Picard ...................................................................................................... 169
Semantics of Spatial Window over Spatio-Temporal Data Stream,
Yi Yu, Talel Abdessalem, Junwei Yan ............................................................................... 181
Délestage pour l’analyse multidimensionnelle de flux de données,
Sylvain Ferrandiz, Georges Hébrail ................................................................................ 193
Session Posters
Classification des documents en réseaux petits-mondes en vue d’apprentissage,
Mohamed Khazri, Mohamed Tmar, Mohand Boughanem, Mohamed Abid .................... 199
Apport des traitements morphosyntaxiques pour l’alignement des définitions par une
classification SVM,
Laura Diosan, Alexandrina Rogozan, Jean-Pierre Pécuchet .......................................... 201
Vers l’intégration de la prédiction dans les cubes OLAP,
Anouck Bodin -Niemczuk, Riadh Ben Messaoud, Sabine Loudcher Rabaséda,
Omar Boussaid ............................................................................................................ 203
RNTI-E-11
-x-
Un nouveau système immunitaire artificiel pour l’apprentissage non supervisé,
Rachid El Meziane, Ilham Berrada, Ismail Kassou ......................................................... 205
Génération de séquence résumée par une nouvelle approche basée
sur le Soft Computing,
Youssef Hadi, Rachid El Meziane, Rachid Oulad Haj Thami .......................................... 207
Évaluation des critères asymétriques pour les arbres de décision,
Simon Marcellin, Djamel A Zighed, Gilbert Ritschard .................................................... 209
Principes d’Analyse des données symboliques et application à la détection
d’anomalies sur des ouvrages publics,
Edwin Diday ..................................................................................................................... 211
Échantillonnage adaptatif de jeux de données déséquilibrés
pour les forêts aléatoires,
Julien Thomas, Pierre-Emmanuel Jouve, Elie Prudhomme............................................. 213
Une proposition pour l’extraction de relations non prédicatives,
Mouna Kamel.................................................................................................................... 215
Méthodologie de définition de e-services pour la gestion des connaissances
à partir d’un plateau de créativité : application au e-learning instrumental,
Noel Conruyt, David Grosser, Olivier Sebastien ............................................................. 217
Stratégies de classification non supervisée sur fenêtres superposées :
application aux données d’usage du Web,
Alzennyr Da Silva, Yves Lechevallier ............................................................................... 219
Une J-mesure orientée pour élaguer des modèles de chroniques,
Nabil Benayadi, Marc Le Goc .......................................................................................... 221
Extraction et validation par croisement des relations d’une ontologie de domaine,
Lobna karoui, Marie-Aude Aufaure ................................................................................. 223
Ontologies et raisonnement à partir de cas : Application
à l’analyse des risques industriels,
Amjad Abou Assali, Dominique Lenne, Bruno Debray .................................................... 225
Classification Automatique Non supervisée de Documents Textuels
basés sur Wordnet,
Amine Abdelmalek, Zakaria Elberrichi, Ladjel Bellatreche, Michel Simonet,
Mimoum Malki ............................................................................................................. 227
Session Démonstrations
Khiops : outil de préparation et modélisation des données pour la fouille
des grandes bases de données,
Marc Boullé ...................................................................................................................... 229
Processus d’acquisition d’un dictionnaire de sigles et de leurs définitions
à partir d’un corpus,
Vladislav Matviico, Nicolas Muret, Mathieu Roche ........................................................ 231
Cas d’utilisation réelle de Nautilus : Calcul d’indicateurs chez un opérateur mobile,
Adrien Schmidt, Serge Fantino ......................................................................................... 233
FIASCO : un nouvel algorithme d’extraction d’itemsets fréquents
dans les flots de données,
Lionel Vinceslas, Jean-Émile Symphor, Alban Mancheron et Pascal Poncelet .............. 235
- xi -
RNTI-E-11
Visualisation des motifs séquentiels extraits à partir d’un corpus
en Ancien Français,
Julien Rabatel, Yuan Lin, Yoann Pitarch, Hassan Saneif, Claire Serp,
Mathieu Roche, Anne Laurent ..................................................................................... 237
Le logiciel SODAS : avancées récentes Un outil permettant d’analyser
et de visualiser des données symboliques,
Myriam Touati, Mohamed Rahal, Filipe Afonso, Edwin Diday ....................................... 239
Session Données volumineuses
Vers l’exploitation de grandes masses de données,
Raphaël Féraud, Marc Boullé, Fabrice Clérot, Françoise Fessant ................................ 241
Clustering en haute dimension par accumulation de clusterings locaux,
Marc-Ismael Akodjenou-Jeannin, Kave Salamatian, Patrick Gallinari .......................... 253
Binary Block GTM : Carte auto-organisatrice probabiliste
pour les grands tableaux binaires,
Rodolphe Priam, Mohamed Nadif, Gérard Govaert ........................................................ 265
Session Apprentissage
Optimisation du Primal pour les SVM,
Trinh-Minh-Tri Do, Thierry Artières ............................................................................... 273
Vers des Machines à Vecteurs Support "Actionnables" : Une Approche Fondée
sur le Classement,
Ansaf Salleb-Aouissi, Bert C. Huang, David L. Waltz ..................................................... 285
Algorithmes rapides de boosting de SVM,
Thanh-Nghi Do, Jean-Daniel Fekete, François Poulet.................................................... 297
Approche hybride de classification supervisée à base de treillis de Galois :
application à la reconnaissance de visages,
Brahim Douar, Chiraz Latiri, Yahya Slimani .................................................................. 309
Pondération locale des variables en apprentissage numérique non-supervisé,
Nistor Grozavu, Younès Bennani, Mustapha Lebbah ...................................................... 321
Optimisation de réseaux de neurones RBF pour la régression via un algorithme
évolutionnaire: RBF-Gene,
Virginie Lefort, Guillaume Beslon ................................................................................... 331
Structure Inference of Bayesian Networks from Data: A New Approach
Based on Generalized Conditional Entropy,
Dan Simovici, Saaid Baraty.............................................................................................. 337
Discretization of Continuous Features by Resampling,
Taimur Qureshi, Djamel A Zighed ................................................................................... 343
Une nouvelle approche du Boosting face aux données réelles,
Emna Bahri, Mondher Maddouri ..................................................................................... 349
Une approche ensembliste inspirée du boosting en classification non supervisée,
Romain Billot, Henri-Maxime Suchier, Stéphane Lallich ................................................ 361
RNTI-E-11
- xii -
VOLUME II
Session Fouille de motifs et règles
Mining Implications from Lattices of Closed Trees,
Jose Luis Balcazar, Albert Bifet, Antoni Lozano .............................................................. 373
Suppression des Itemsets Clés Non-Essentiels en Classification basée
sur les Règles d’Association,
Viet Phan Luong ............................................................................................................... 385
Détection de groupes atypiques pour une variable cible quantitative,
Sylvie Guillaume, Florian Guillochon, Michel Schneider ............................................... 397
Extraction d’itemsets compacts,
Bashar Saleh, Florent Masseglia ..................................................................................... 409
Étude de l’interaction entre variables pour l’extraction des règles d’influence,
Leila Nemmiche Alachaher, Sylvie Guillaume ................................................................. 415
Recherche adaptative de structures de régulation génétique,
Mohamed Elati, Céline Rouveirol .................................................................................... 427
Session Données multimédia
Data mining for activity extraction in video data,
Jose Luis Patino, Etienne Corvee, François Bremond, Monique Thonnat ...................... 433
Fouille de données audio pour la discrimination automatique de mots homophones,
Rena Nemoto, Martine Adda-Decker, Ioana Vasilescu.................................................... 445
Recherche d’images par noyaux sur graphes de régions,
Philippe-Henri Gosselin, Justine Lebrun, Sylvie Philipp-Foliguet .................................. 457
Interprétation d’images basée sur une approche évolutive guidée par une ontologie,
Germain Forestier, Sébastien Derivaux, Cédric Wemmert, Pierre Gançarski ............... 469
Une nouvelle approche pour la recherche d’images par le contenu,
Nguyen-Khang Pham, Annie Morin ................................................................................. 475
Classification adaptative de séries temporelles : application à l’identification
des gènes exprimés au cours du cycle cellulaire.,
Alpha Diallo, Ahlame Douzal, Françoise Giroud ............................................................ 487
Session Fouille de séquences et graphes
Visualisation et classification des parcours de vie,
Nicolas S. Müller, Sylvain Lespinats, Gilbert Ritschard, Matthias Studer,
Alexis Gabadinho ........................................................................................................ 499
Approches de type n-grammes pour l’analyse de parcours de vie familiaux,
Matthias Studer, Alexis Gabadinho, Nicolas S. Müller, Gilbert Ritschard ..................... 511
Recherche de motifs spatio-temporels de cas atypiques pour le trafic routier urbain,
Marc Joliveau, Florian De Vuyst ..................................................................................... 523
Découverte de motifs séquentiels et règles inattendues,
Dong (Haoyuan) Li, Anne Laurent, Pascal Poncelet ....................................................... 535
- xiii -
RNTI-E-11
Extraction de Motifs Séquentiels Multidimensionnels Clos sans Gestion
d’Ensemble de Candidats,
Marc Plantevit, Anne Laurent, Maguelonne Teisseire..................................................... 541
Prétraitement des bases de données de réactions chimiques pour la fouille
de schémas de réactions,
Frédéric Pennerath, Géraldine Polaillon, Amedeo Napoli.............................................. 547
La prise en compte de la dimension temporelle dans la classification de données,
Éloïse Loubier, Bernard Dousset ..................................................................................... 559
Session Fouille de texte
Analyse exploratoire d’opinions cinématographiques : co-clustering
de corpus textuels communautaires,
Damien Poirier, Cécile Bothorel, Marc Boullé................................................................ 565
Assignation automatique de solutions à des classes de plaintes liées
aux ambiances intérieures polluées,
Zoulikha Heddadji, Nicole Vincent, Séverine Kirchner, Georges Stamon ...................... 577
Un système de vote pour la classification de textes d’opinion,
Michel Plantié, Mathieu Roche, Gérard Dray ................................................................. 583
ExpLSA : utilisation d’informations syntaxico-sémantiques associées à LSA
pour améliorer les méthodes de classification conceptuelle.,
Nicolas Béchet, Mathieu Roche, Jacques Chauché.......................................................... 589
Un modèle d’espace vectoriel de concepts pour noyaux sémantiques,
Sujeevan Aseervatham ...................................................................................................... 601
Intégration de la structure dans un modèle probabiliste de documents,
Mathias Géry, Christine Largeron, Franck Thollard ...................................................... 613
Session Classification
Un algorithme de classification topographique non supervisée
à deux niveaux simultanés,
Guénaël Cabanes, Younès Bennani .................................................................................. 619
Segmentation hiérarchique des cartes topologiques,
Mustapha Lebbah, Hanane Azzag .................................................................................... 631
Intégration de contraintes dans les cartes auto-organisatrices,
Anouar BenaHassena, Khalid Benabdeslem, Fazia Bellal, Alexandre Aussem,
Bruno Canitia .............................................................................................................. 643
Une nouvelle méthode divisive de classification non supervisée
pour des données symboliques intervalles,
Nathanaël Kasoro, André Hardy ...................................................................................... 649
Co-classification sous contraintes par la somme des résidus quadratiques,
Ruggero Gaetano Pensa, Jean-François Boulicaut ......................................................... 655
Étude comparative de deux approches de classification recouvrante : Moc vs. Okm,
Guillaume Cleuziou, Jacques-Henri Sublemontier .......................................................... 667
RNTI-E-11
- xiv -
Session Connaissances Distribuées et ontologies
Système multi-agent argumentatif pour la classification
des connaissances cruciales,
Imène Brigui, Inès Saad.................................................................................................... 679
Un processus d’acquisition d’information pour les besoins
d’enrichissement des BDG,
Khaoula Mahmoudi, Sami Faiz ........................................................................................ 691
Un modèle et une algèbre pour les systèmes de gestion d’ontologies,
Gilles Falquet, Claire-Lise Mottaz-Jiang, Jacques Guyot ............................................... 697
La découverte de mappings dans SomeRDFS,
François-Elie Calvier, Chantal Reynaud ......................................................................... 703
- xv -
RNTI-E-11
Mining Implications from Lattices of Closed Trees
José L. Balcázar , Albert Bifet , Antoni Lozano
Departament de Llenguatges i Sistemes Informàtics
Universitat Politècnica de Catalunya
{balqui,abifet,antoni}@lsi.upc.edu
Abstract. We propose a way of extracting high-confidence association rules
from datasets consisting of unlabeled trees. The antecedents are obtained through
a computation akin to a hypergraph transversal, whereas the consequents follow
from an application of the closure operators on unlabeled trees developed in previous recent works of the authors. We discuss in more detail the case of rules
that always hold, independently of the dataset, since these are more complex
than in itemsets due to the fact that we are no longer working on a lattice.
1
Introduction
In the field of data mining, one of the major notions contributing to the success of the area
has been that of association rules. Many studies of various types have provided a great advance
of the human knowledge about these concepts. One particular family of studies is rooted on
the previous notions of formal concepts, Galois lattices, and implications, which correspond to
association rules of maximum confidence.
These notions have allowed for more efficient works and algorithmics by reducing the
computation of frequent sets, a major usual step towards association rules, to the computation
of so-called closed frequent sets, a faster computation of much more manageable output size,
yet losing no information at all with respect to frequent sets.
It was realized some time ago that the plain single-relational model for the data, as employed by the computation of either closed sets or association rules, whereas useful to a certain
extent, was a bit limited in its applicability by the fact that, often, real-life data have some sort
of internal structure that is lost in the transactional framework. Thus, studies of data mining in
combinatorial structures were undertaken, and considerable progress has been made in recent
years. Our work here is framed in that endeavor.
In previous work, we have proposed a mathematical clarification of the closure operator
underlying the notion of closed trees in datasets of trees; the closure operator no longer works
on single trees but on sets of them. In a sense, made precise there, closed trees do not constitute
a lattice. A mathematically precise replacement lattice can be defined, though, as demonstrated
in (Balcázar et al., 2006), consisting not anymore of trees but of sets of trees, and with the
peculiar property that, in all experiments with real-life data we have undertaken, they turn out
to be actually lattices of trees, in the sense that every closed set of trees was, in all practical
cases, a singleton.
- 373 -
RNTI-E-11
Suppression des Itemsets Clés Non Essentiels en
Classification basée sur les Règles d’Association
Viet Phan-Luong
Université de Provence
Laboratoire d’Informatique Fondamentale de Marseille
(LIF - UMR CNRS 6166)
CMI, 39 rue F. Joliot Curie
13453 Marseille, France
[email protected]
Résumé. En classification basée sur les règles d’association, les itemsets clés
sont essentiels : la suppression des itemsets non clés n’affecte pas la précision
du classifieur en construction. Ce travail montre que parmi ces itemsets clés, on
peut s’intéresser seulement à ceux de petites tailles. Plus loin encore, il étudie
une généralisation d’une propriété importante des itemsets non clés et montre
que parmi les itemsets clés de petites tailles, il y a ceux qui ne sont pas significatifs pour la classification. Ces itemsets clés sont dits non essentiels. Ils sont
définis via un test de χ2 . Les expériences menées sur les grands jeux de données
montrent que l’optimisation par la suppression de ces itemsets est correcte et
efficace.
1 Introduction
Etant donné un ensemble d’objets et un ensemble d’étiquettes de classes, le problème de
classification est de chercher une fonction pour attribuer à chaque objet une étiquette de classe.
Une telle fonction est appelée un classifieur. Les constructions de ces classifieurs sont en général basées sur les données d’exemples (d’entraînement). Il existe plusieurs méthodes de classification, telles que l’arbre de décision Quinlan (1993), la méthode naïve-Bayes Duda et Hart
(1973), les méthodes basées sur les règles Clark et Niblett (1995); Cohen (1995). Ce papier
présente une approche à la construction de classifieurs basée sur les règles classe-associations
Lent et al. (1997); Liu et al. (1998); Li et al. (2001), en utilisant une structure d’arbre de préfixes pour l’extraction des itemsets fréquents et les règles d’association Agrawal et al. (1993).
Dans les approches telles que CMAR Li et al. (2001), HARMONY Wang et Karypis
(2005), par optimisations, les règles d’association sont essentiellement construites sur les itemsets clés Bastide et al. (2000). Ce présent travail montre que parmi ces itemsets clés, on peut
s’intéresser seulement à ceux de petites tailles. Ensuite, via un test de χ 2 , il montre que parmi
ces derniers, il existe encore ceux qui ne sont pas significatifs pour la classification. Ces itemsets clés sont dits non essentiels. Les résultats d’expérimentations sur les grands jeux de données de UCI Coenen (2004) montrent que l’optimisation par la suppression de ces itemsets est
correcte et efficace.
- 385 -
RNTI-E-11
Détection de groupes atypiques pour une variable cible
quantitative
Sylvie Guillaume , Florian Guillochon , Michel Schneider
Laboratoire LIMOS, UMR 6158 CNRS, Université Blaise Pascal
Complexe scientifique des Cézeaux, 63177 Aubière Cedex - France
[email protected], [email protected], [email protected]
Résumé. Une tâche importante en analyse des données est la compréhension
de comportements inattendus ou atypiques de groupes d’individus. Quelles
sont les catégories d’individus qui gagnent de particulièrement forts salaires ou
au contraire, quelles sont celles qui ont de très faibles salaires ? Nous présentons le problème d’extraction de tels groupes atypiques vis-à-vis d’une variable cible quantitative, comme par exemple la variable ″salaire″, et plus particulièrement pour les faibles et fortes valeurs d’un intervalle déterminé par
l’utilisateur. Il s’agit donc de rechercher des conjonctions de variables dont la
distribution diffère significativement de celle de l’ensemble d’apprentissage
pour les faibles et fortes valeurs de l’intervalle de cette variable cible. Une
adaptation d’une mesure statistique existante, l’intensité d’inclination, nous
permet de découvrir de tels groupes atypiques. Cette mesure nous libère de
l’étape de transformation des variables quantitatives, à savoir l’étape de discrétisation suivie d’un codage disjonctif complet. Nous proposons donc un algorithme d’extraction de tels groupes avec des règles d’élagage pour réduire la
complexité du problème. Cet algorithme a été développé et intégré au logiciel
d’extraction de connaissances WEKA. Nous terminons par un exemple
d’extraction sur la base de données IPUMS du bureau de recensement américain.
1 Introduction
Un problème important en analyse des données est la compréhension de comportements
inattendus ou atypiques de groupes d’individus. Quelles sont les catégories d’individus qui
gagnent de particulièrement forts salaires ou au contraire, quelles sont celles qui ont de très
faibles salaires ?
Notre but est de détecter automatiquement tous les groupes d’individus ayant un comportement différent de celui de l’ensemble d’apprentissage pour une variable quantitative donnée et plus particulièrement pour les faibles et les fortes valeurs d’un intervalle déterminé par
l’utilisateur. Nous recherchons donc les motifs ou conjonctions de variables dont la distribution diffère significativement de celle de l’ensemble d’apprentissage pour les faibles et fortes
valeurs de l’intervalle de cette variable cible.
- 397 -
RNTI-E-11
Extraction d’itemsets compacts
Bashar Saleh, Florent Masseglia
Inria Sophia-Antipolis Méditérranée
Equipe-Projet AxIS
2004 route des lucioles - BP 93
FR-06902 Sophia Antipolis
{Prénom.Nom}@sophia.inria.fr,
http://www-sop.inria.fr/axis
Résumé. L’extraction d’itemsets fréquents est un sujet majeur de l’ECD et son
but est de découvrir des corrélations entre les enregistrements d’un ensemble de
données. Cependant, le support est calculé en fonction de la taille de la base dans
son intégralité. Dans cet article, nous montrons qu’il est possible de prendre en
compte des périodes difficiles à déceler dans l’organisation des données et qui
contiennent des itemsets fréquents sur ces périodes. Nous proposons ainsi la
définition des itemsets compacts, qui représentent un comportement cohérent
sur une période spécifique et nous présentons l’algorithme D E IC O qui permet
leur découverte.
1
Introduction
Le problème de la recherche de règles d’association, introduit dans Agrawal et al. (1993),
est basé sur l’extraction de corrélations fréquentes entre les enregistrements et connaît de nombreuses applications dans le marketing, la gestion financière ou l’analyse décisionnelle (par
exemple). Au cœur de ce problème, la découverte d’itemsets fréquents représente un domaine
de recherche très étudié. Dans l’analyse du panier de la ménagère, par exemple, les itemsets
fréquents ont pour but de découvrir des ensembles d’items qui correspondent à un nombre
significatif de clients. Si ce nombre est supérieur à un support défini (par l’utilisateur) alors
cet itemset est considéré comme fréquent. Cependant, dans la définition initiale des itemsets
fréquents, l’extraction est effectuée sur la base de données toute entière (i.e. soit min supp , le
support minimum donné par l’utilisateur, les itemsets extraits doivent apparaître dans au moins
|D| × minsupp enregistrements de D). Toutefois, il est possible que des itemsets intéressants
reste ignorés malgré des caractéristiques particulières (y compris de support). Effectivement,
les itemsets intéressants sont souvent liés au moment qui correspond à leur observation. On
pourrait prendre pour exemple le comportement des utilisateurs d’un site de commerce en
ligne pendant une offre spéciale sur les DVD et les CD vierges pour laquelle une publicité est
faite par mailing. De la même manière, le site Web d’une conférence peut voir le nombre de
connexions augmenter dans une fenêtre de quelques heures avant la date limite de soumission.
Une condition nécessaire à la découverte de ce type de données est liée à l’aspect temporel des
données. Cet aspect a déjà été abordé pour les règles d’association dans Ale et Rossi (2000);
- 409 -
RNTI-E-11
Étude de l’interaction entre variables pour l’extraction des
règles d’influence
L. Nemmiche Alachaher et S. Guillaume
LIMOS, UBP UMR 6158 CNRS
Complexe des Cézeaux
63177 AUBIERE Cedex - France
{nemmiche, sylvie.guillaume}@isima.fr
Résumé. Cet article présente une méthode efficace pour l’extraction de règles
d’influence quantitatives positives et négatives. Ces règles d’influence introduisent une nouvelle sémantique qui vise à faciliter l’analyse d’un volume important de données. Cette sémantique fixe la direction de la règle entre deux
variables en positionnant, au préalable, l’une comme étant l’influent et l’autre
comme étant l’influé. Elle permet, de ce fait, d’exprimer la nature de l’influence :
positive, en maximisant le nombre d’éléments en commun ou négative, en maximisant le nombre d’éléments qui violent l’influé.
Notre approche s’appuie sur une stratégie qui comporte cinq étapes dont deux
exécutées en parallèle. Ces deux étapes constituent les étapes clé de notre approche. La première combine une méthode d’élagage et de regroupement tabulaire basée sur les tableaux de contingence. Cette dernière construit et classe les
zones potentiellement intéressantes. La seconde, injecte la sémantique et évalue le degré d’influence que produirait l’introduction d’une nouvelle variable sur
un ensemble de variables en utilisant une nouvelle mesure d’intérêt, l’Influence.
Cette étape vient affiner les résultats de la première étape, et permet de se focaliser sur des zones valides par rapport aux contraintes spécifiées. Enfin, un
système de règles d’influence jugées intéressantes est construit basé sur la juxtaposition des résultats des deux étapes clé de notre approche.
1 Introduction
L’extraction de connaissances est un processus qui permet d’analyser une masses de données importante afin d’en extraire des connaissances nouvelles, valides et utiles. Ces connaissances sont ensuite présentées sous différentes formes notamment sous forme de règles d’association. Une règle d’association (RA) (Agrawal et al. (1993)) est une implication de la forme
C1 → C2 , où C1 et C2 sont des conditions C sur les attributs de la base. Soient minsup et
minconf des seuils prédéfinis. Une RA est dite forte si elle satisfait deux contraintes :
– son support supp(C) ≥ minsup, avec supp(C) : nombre de transactions dans la base
qui satisfont l’ensemble des conditions C tel que supp(C1 → C2 ) = supp(C1 ∧ C2 ) ;
1 →C2 )
– sa confiance conf (C1 → C2 ) ≥ minconf , avec conf (C1 → C2 ) = supp(C
supp(C1 ) .
- 415 -
RNTI-E-11
Recherche adaptative de structures de régulation génétique
Mohamed Elati∗,∗∗ , Céline Rouveirol∗
∗
LIPN — CNRS UMR 7030, Université Paris 13
99, av. J-B Clément, F-93430 Villetaneuse
[email protected]
∗∗
Institut Curie, CNRS UMR 144
26 rue d’Ulm F-75248 Paris
Résumé. Nous avons proposé un algorithme original de Fouille de Données,
L ICORN, afin d’inférer des relations de régulation coopérative à partir de données d’expression. L ICORN donne de bons résultats s’il est appliqué à des données de levure, mais le passage à l’échelle sur des données plus complexes (e.g.,
humaines) est difficile. Dans cet article, nous proposons une extension de L I CORN afin qu’il puisse gérer une contrainte de co-régulation adaptative. Une
évaluation préliminaire sur des données de transcriptome de tumeurs de vessie
montre que les réseaux significatifs sont obtenus à l’aide d’une contrainte de
corégulation adaptative de manière beaucoup plus efficace, et qu’ils ont des performances de prédiction équivalentes voire meilleures que celles obtenues par
L ICORN.
1
Introduction
Un des principaux objectifs de la biologie moléculaire consiste à comprendre la régulation
des gènes d’un organisme vivant dans des contextes biologiques spécifiques. Les facteurs de
transcription sont les régulateurs de la transcription qui vont réagir avec les promoteurs de la
transcription des gènes cibles. Les techniques récentes d’analyse du transcriptome, telles que
les puces à ADN permettent de mesurer simultanément les niveaux d’expression de plusieurs
milliers de gènes. Nous avons déjà décrit le système L ICORN (Elati et al., 2007a) qui se fonde
sur un modèle de régulation locale coopérative : chaque gène peut être régulé par un ensemble
des coactivateurs et/ou un ensemble de coinhibiteurs, ces corégulateurs agissent collectivement pour influencer leur(s) gène(s) cible(s). L ICORN met en œuvre une approche originale de
Fouille de Données afin d’inférer des relations de régulation coopérative à partir de données
d’expression. Cet algorithme a été évalué avec succès sur des données publiques de transcriptome de levure. L’application de L ICORN sur des données de transcriptome humaines est plus
complexe, car le nombre de régulateurs connus est plus important, et nécessite un temps de
calcul considérable. En effet, les gènes de faible support vont avoir un nombre très élevé de
régulateurs candidats. Nous proposons dans ce travail d’étendre L ICORN pour qu’il puisse traiter une contrainte de sélection de corégulateurs candidats adaptative pour chaque gène, prenant
en compte le support du gène cible et bornant le nombre de corégulateurs candidats possibles.
La suite de cet article est organisée comme suit. Dans la section 2, nous introduisons brièvement le principe de L ICORN. Dans la section 3, nous détaillons l’extension de L ICORN à la
- 427 -
RNTI-E-11
Data mining for activity extraction
in video data
JoseLuis Patino, Etienne C orvee
François Bremond , Monique T honnat
INRIA, 2004 route des Lucioles, 06902 Sophia Antipolis (FRANCE)
{jlpatino, Etienne.Corvee, Francois.Bremond, Monique.Thonnat}@sophia.inria.fr
http://www-sop.inria.fr/orion/
Summary. The exploration of large video data is a task which is now possible
because of the advances made on object detection and tracking. Data mining
techniques such as clustering are typically employed. Such techniques have
mainly been applied for segmentation/indexation of video but knowledge extraction of the activity contained in the video has been only partially addressed.
In this paper we present how video information is processed with the ultimate
aim to achieve knowledge discovery of people activity in the video. First, objects of interest are detected in real time. Then, in an off-line process, we aim
to perform knowledge discovery at two stages: 1) finding the main trajectory
patterns of people in the video. 2) finding patterns of interaction between people and contextual objects in the scene. An agglomerative hierarchical clustering is employed at each stage. We present results obtained on real videos of the
Torino metro (Italy).
1 Introduction
Nowadays, more than ever, the technical and scientific progress requires human operators
to handle more and more quantities of data. To treat this huge amount of data, most of the
work can now be performed in the data-mining field to synthesize, analyze and extract valuable information, which is generally hidden in the raw data. Clustering is one of the most
commonly used techniques in data mining to perform knowledge discovery tasks on large
amount of data with no prior knowledge of what could be hidden in the data. There exists
many clustering techniques in the literature, and the main goal of all these techniques is to
obtain a partition of the data by organizing it automatically into separate groups where the
objects inside a specific group are more similar to each other (with regards to their extracted
and measured attributes, or variables) than to the objects of the other groups. Mining of text
documents (Blatak 2005; Lemoine et al., 2005; Xing et Ah-Hwee 2005) and web-related
- 433 -
RNTI-E-11
Fouille de données audio pour la classification automatique
de mots homophones
Rena Nemoto, Martine Adda-Decker
Ioana Vasilescu
LIMSI-CNRS B.P. 133 91403 Orsay Cedex France
{nemoto, madda, ioana}@limsi.fr
http://www.limsi.fr
Résumé. Cet article présente une contribution à la modélisation acoustique des
mots à partir de grands corpus oraux, faisant appel aux techniques de fouilles
de données. En transcription automatique, de nombreuses erreurs concernent
des mots fréquents homophones. Deux paires de mots (quasi-)homophones à/a
et et/est sont sélectionnées dans les corpus, pour lesquels sont définis et examinés 41 descripteurs acoustiques permettant potentiellement de les distinguer.
17 algorithmes de classification, mis à l’épreuve pour la discrimination automatique de ces deux paires de mots, donnent en moyenne 77% de classification correcte sur les 5 meilleurs algorithmes. En réduisant le nombre de descripteurs à 10 (sélectionnés par l'algorithme le plus performant), les résultats
de classification restent proches du résultat obtenu avec 41 attributs. Cette
comparaison met en évidence le caractère discriminant de certains attributs,
qui pourront venir enrichir à la fois la modélisation acoustique et nos connaissances des prononciations de l’oral.
1 Introduction
En transcription automatique de la parole, de grands corpus audio (incluant généralement
des centaines d'heures de parole) servent à estimer des modèles acoustiques précis de phonèmes contextuels. Ces modèles de sons élémentaires sont ensuite concaténés pour aboutir à
des modèles de mots en s’appuyant sur la connaissance de leur prononciation. Cette connaissance est incomplète à l’heure actuelle et une partie importante de l'information caractérisant
les variantes de prononciations se trouve encodée implicitement dans les modèles acoustiques. L’objectif de ce travail est de s’appuyer sur les techniques de fouille de données afin
d’extraire des connaissances relatives aux spécificités acoustiques et prosodiques caractérisant les prononciations. Cette approche a déjà pu montrer son intérêt pour la caractérisation
des accents étrangers (Vieru-Dimulescu et al., 2007). Nous nous intéresserons ici aux mots
considérés comme homophones, i.e. phonémiquement pareils, et qui sont de ce fait sujets à
de nombreuses erreurs de confusion lors de la transcription automatique. Partant de ces constats, nous nous sommes interrogés si les mots homophones ne déploieraient pas de particularités acoustiques/prosodiques qui n'ont été prises en compte ni par les paramètres acoustiques
classiques (vecteurs de cepstres), ni par les modèles acoustiques (Modèles de Markov Cachés
à trois états) et qui permettrait leur discrimination. Nous faisons ainsi l’hypothèse que des
informations prosodiques (concernant durée, fréquence fondamentale notée f0, cooccurrence
avec des pauses, etc.) puissent contribuer à lever certains types d’homophonie, en particulier
s’il s’agit d’homophones issus de classes syntaxiques différentes (hétéro-syntaxiques). Nous
avons fait appel aux techniques de fouille de données afin de classer automatiquement ces
- 445 -
RNTI-E-11
Recherche d’images par noyaux sur graphes de régions
Philippe-Henri Gosselin, Justine Lebrun et Sylvie Philipp-Foliguet
∗
ETIS CNRS
6 ave du Ponceau
95014 Cergy-Pontoise Cedex
{gosselin,lebrun,philipp}@ensea.fr
Résumé. Dans le cadre de la recherche interactive d’images dans une base de
données, nous nous intéressons à des mesures de similarité d’image qui permettent d’améliorer l’apprentissage et utilisables en temps réel lors de la recherche. Les images sont représentées sous la forme de graphes d’adjacence de
régions floues. Pour comparer des graphes valués nous employons des noyaux de
graphes s’appuyant sur des ensembles de chaînes, extraites des graphes comparés. Nous proposons un cadre général permettant l’emploi de différents noyaux
et différents types de chaînes(sans cycle, avec boucles) autorisant des appariements inexacts. Nous avons effectué des comparaisons sur deux bases issues de
Columbia et Caltech et montré que des chaînes de très faible dimension (longueur inférieur à 3) sont les plus efficaces pour retrouver des classes d’objets.
1
Introduction
Le problème de la comparaison de graphes est un sujet qui a été largement étudié dans la
littérature depuis plusieurs décennies. S’il existe des algorithmes pour la recherche d’isomorphisme entre deux graphes, c’est-à-dire dans le cas où les deux graphes ont la même structure,
même nombre de nœuds et même nombre d’arêtes, le cas plus général de comparaison entre
deux graphes de tailles différentes est un problème NP-complet. Le problème est encore plus
difficile lorsque les graphes sont valués et que l’on recherche une mesure de similarité entre
graphes, afin de pouvoir les ordonner, les classer, etc.
On est confronté à ce problème dans certaines approches de la reconnaissance des formes
où on cherche à construire des classes d’objets représentés par des ensembles structurés de régions, lignes, points, etc. Une des problématiques de la recherche d’image par le contenu est de
retrouver dans une base, les images contenant un objet particulier ou un type d’objet, d’animal
ou de personne, pouvant prendre des aspects très variables dans des environnements eux aussi
variables. Les signatures globales ne permettent pas toujours de résoudre ce problème et les
approches par points d’intérêt ne sont pas bien adaptées aux changements d’aspect d’un animal ou d’une personne, selon la prise de vue. Une approche prometteuse semble donc être de
représenter un objet par un ensemble de régions adjacentes valuées à la fois par des caractéristiques intrinsèques de couleur, texture et forme, mais aussi par leurs dispositions relatives (cf.
Philipp-Foliguet et Gony (2006)). Le graphe d’adjacence de régions constitue donc la structure
- 457 -
RNTI-E-11
Interprétation d’images basée sur une approche évolutive
guidée par une ontologie
Germain Forestier, Sébastien Derivaux, Cédric Wemmert et Pierre Gançarski
LSIIT - CNRS - Université Louis Pasteur - UMR 7005
Pôle API, Bd Sébastien Brant - 67412 Illkirch, France
{forestier,derivaux,wemmert,gancarski}@lsiit.u-strasbg.fr
Résumé. Les approches de fouille et d’interprétation d’images consistant à considérer les pixels de façon indépendante ont montré leurs limites pour l’analyse
d’images complexes. Pour résoudre ce problème, de nouvelles méthodes s’appuient sur une segmentation préalable de l’image qui consiste en une agrégation
des pixels connexes afin de former des régions homogènes au sens d’un certain
critère. Cependant le lien est souvent complexe entre la connaissance de l’expert
sur les objets qu’il souhaite identifier dans l’image et les paramètres nécessaires
à l’étape segmentation permettant de les identifier. Dans cet article la connaissance de l’expert est modélisée dans une ontologie qui est ensuite utilisée pour
guider un processus de segmentation par une approche évolutive. Cette méthode
trouve automatiquement des paramètres de segmentation permettant d’identifier
les objets décrits par l’expert dans l’ontologie.
1
Introduction
L’interprétation automatique d’images devient un processus de fouille de données de plus
en plus complexe. Pour les images à très haute résolution, l’utilisation de l’approche dite orientée objet consiste à identifier dans l’image, souvent à l’aide d’une segmentation de l’image,
des objets composés de plusieurs pixels connexes et ayant un intérêt pour l’expert du domaine.
Il existe de nombreux algorithmes de segmentation. Néanmoins, ces techniques nécessitent souvent une paramétrisation complexe telle que le choix de seuils ou de pondérations. Le
nombre de paramètres augmente bien souvent avec la complexité des algorithmes. Ainsi, l’utilisateur amené à définir ces paramètres a souvent du mal à faire le lien entre sa connaissance sur
les objets présents dans l’image et les paramètres adéquats pour les construire et les identifier
dans une segmentation.
L’utilisation des algorithmes génétiques (Goldberg, 1989) est une solution à ce problème
de recherche des paramètres optimaux. Ils peuvent être utilisés pour optimiser un ensemble
d’attributs si une fonction d’évaluation des paramètres est disponible. Les méthodes existantes
d’optimisation de segmentation par approche génétique (Pignalberi et al., 2003; Bhanu et al.,
1995; Song et Ciesielski, 2003; Feitosa et al., 2006) se basent sur des fonctions d’évaluations demandant des exemples d’objets segmentés fournis par l’expert. Si aucun exemple n’est
disponible, il est possible d’utiliser des critères non supervisés (Bhanu et al., 1995; Feitosa
- 469 -
RNTI-E-11
Nouvelle approche pour la recherche d’images par le contenu
Nguyen-Khang Pham *,**, Annie Morin *
* IRISA, Campus de Beaulieu, F - 35042, Rennes Cedex
{pnguyenk,amorin}@irisa.fr
http://www.irisa.fr
** Université de Cantho, Campus III, 1 Ly Tu Trong, Ville de Cantho, Vietnam
[email protected]
http://www.cit.ctu.edu.vn
Résumé. On utilise l’analyse factorielle des correspondances (AFC) pour la
recherche d’images par le contenu en s’inspirant directement de son utilisation
en analyse des données textuelles (ADT). L’AFC permet ici de réduire les dimensions du problème et de sélectionner des indicateurs pertinents pour la recherche par le contenu.
En ADT, l’AFC est appliquée à un tableau de contingence croisant mots et documents. La première étape consiste donc à définir des « mots visuels » dans
les images (analogue des mots dans les textes). Ces mots sont construits à partir des descripteurs locaux (SIFT) des images. La méthode a été testée sur la
base Caltech4 (Sivic et al., 2005) sur laquelle elle fournit de meilleurs résultats
(qualité des résultats de recherche et temps d’exécution) que des méthodes plus
classiques comme TF*IDF/Rocchio (Rocchio, 1971) ou pLSA (Hofmann,
1999a, 1999b).
Enfin, pour passer à l'échelle et améliorer la qualité de recherche, nous proposons un nouveau prototype de recherche qui utilise des fichiers inversés basés
sur la qualité de représentation des images sur les axes après avoir fait une
AFC. Chaque fichier inversé est associé à une partie d'un axe (positive ou négative) et contient des images ayant une bonne qualité de représentation sur cet
axe. Les tests réalisés montrent que ce nouveau prototype réduit le temps de
recherche sans perte de qualité de résultat et dans certains cas, améliore le taux
de précision par rapport à la méthode exhaustive.
1 Introduction
L’utilisation des descripteurs locaux permet d’obtenir de bons résultats pour la reconnaissance d’images, la classification d’images et la recherche d’images par le contenu. Ces descripteurs sont robustes aux changements de contenu. Cette méthode a été proposée en 1997
par C. Schmid dans (Schmid et Mohr, 1997). Récemment, les méthodes développées originellement pour l’analyse des données textuelles (ADT) comme pLSA (probabilistic Latent
Semantic Analysis) (Hofmann, 1999a), LDA (Latent Dirichlet Allocation) (Blei, 2003) sont
appliquées en analyse d’images, par exemple pour la classification des images (Willamowski, 2004), la découverte des thèmes dans l’image (Sivic et al., 2005), la classifications des
scènes (Bosch et al., 2006), et la recherche d’images (Lienhart et Slaney (2007)).
Dans ce travail, nous utilisons l’analyse factorielle des correspondances (AFC) pour la
recherche d’images. Etant donné une image requête, le système doit retourner les images
- 475 -
RNTI-E-11
- 487 -
RNTI-E-11
Visualisation et classification des parcours de vie
Nicolas S. Müller∗ , Sylvain Lespinats∗∗ , Gilbert Ritschard∗ , Matthias Studer∗ ,
Alexis Gabadinho∗
∗
Département d’économétrie, Université de Genève
{nicolas.muller, gilbert.ritschard, matthias.studer}@metri.unige.ch
[email protected]
∗∗
INSERM Unité 722 et Université Denis Diderot
Paris 7, Faculté de médecine, site Xavier Bichat
[email protected]
Résumé. Cet article propose une méthodologie pour la visualisation et la classification des parcours de vie. Plus spécifiquement, nous considérons les parcours
de vie d’individus suisses nés durant la première moitié du XXème siècle en utilisant les données provenant de l’enquête biographique rétrospective menée en
2002 par le Panel suisse de ménages. Nous nous sommes concentrés sur ces événements du parcours de vie : le départ du foyer parental, la naissance du premier
enfant, le premier mariage et le premier divorce. A partir des données de base
sur ces événements, nous discutons de leur transformation en séquences d’états.
Nous présentons ensuite notre méthodologie pour extraire de la connaissance
des parcours de vie. Cette méthodologie repose sur des distances calculées par
un algorithme d’optimal matching. Ces distances sont ensuite utilisées pour la
classification des parcours de vie et leur visualisation à l’aide de techniques de
« Multi Dimensional Scaling ». Cet article s’intéresse en particulier aux problématiques entourant l’application de ces méthodes aux données de parcours de
vie.
1
Introduction
Nous proposons dans ce travail d’étudier et de comparer diverses techniques de visualisation et de classification de parcours de vie 1 . Plus spécifiquement, nous considérons les
parcours de vie familiale d’individus suisses nés durant la première moitié du XXème siècle à
partir de données récoltées par le Panel suisse de ménages. Les parcours de vie familiale sont
composés d’événements constitutifs de la vie familiale, comme le départ du foyer parental,
le premier enfant, le premier mariage ou le premier divorce. Il est possible, à partir de ces
événements, de considérer des parcours de vie individuels sous la forme de séquences d’états,
chaque événement survenant dans la vie de l’individu correspondant à un changement d’état.
Une méthodologie ad hoc destinée à créer une typologie des parcours de vie et à visualiser les
1 Etude soutenue par le Fonds national suisse de la recherche (FNS) FN-100012-113998, et réalisée avec les données collectées dans le cadre du projet « Vivre en Suisse 1999-2020 », piloté par le Panel suisse de ménages et supporté
par le FNS, l’Office fédéral de la statistique et l’Université de Neuchâtel.
- 499 -
RNTI-E-11
Approches de type n-grammes pour l’analyse de parcours de
vie familiaux
Matthias Studer, Alexis Gabadinho, Nicolas S. Müller, Gilbert Ritschard
Département d’économétrie et Laboratoire de démographie, Université de Genève
{matthias.studer, nicolas.muller, gilbert.ritschard}@metri.unige.ch,
[email protected]
http://www.unige.ch/ses/metri/
Résumé. Cet article1 porte sur l’analyse de parcours de vie représentés sous
forme de séquences d’événements. Plus spécifiquement, on examine les possibilités d’exploiter des codages de type n-grammes de ces séquences pour en
extraire des connaissances. En fait, compte tenu de la simultanéité de certains
événements, une procédure stricte de n-grammes comme on peut par exemple
l’appliquer sur des textes, n’est pas applicable ici. Nous discutons diverses alternatives qui s’avèrent finalement plus proches de la fouille de séquences fréquentes. Les concepts discutés sont illustrés sur des données de l’enquête biographique rétrospective réalisée par le Panel suisse de ménages en 2002. Enfin,
on précisera sur quels aspects l’approche proposée peut apporter un éclairage
complémentaire utile par rapport à d’autres techniques plus classiques d’analyse
exploratoire de parcours de vie.
1
Introduction
Existe-t-il des séries typiques d’événements qui structurent la vie familiale ? Est-ce que
certaines séquences d’événements sont typiques d’une partie de la population ou d’une souspopulation ? Pour répondre à ces questions, les sciences sociales ont besoin de méthodes pour
analyser les parcours de vie dans leur totalité. Mais comment décrire ou comparer des séquences d’événements ? Dans cet article, nous proposons de nous centrer sur les transitions
dans les parcours de vie pour les décrire. Ainsi, l’approche proposée adopte un point de vue
complémentaire à l’alignement de séquences, par exemple, qui se base sur des séquences
d’états.
Les parcours de vie familiaux peuvent être compris comme des séries de transitions entre
états de la vie familiale telles que fonder un nouveau foyer, l’arrivée d’un nouvel enfant ou le
remariage d’un parent...2 Ces transitions peuvent être caractérisées par plusieurs événements
simultanés, par exemple, lorsqu’une personne fonde un foyer en quittant son domicile parental
1 Etude soutenue financièrement par le Fonds national suisse de la recherche (FNS) FN-100012-113998, et réalisée
avec les données collectées dans le cadre du projet « Vivre en Suisse 1999-2020 », piloté par le Panel suisse de ménages
et supporté par le FNS, l’Office fédéral de la statistique et l’Université de Neuchâtel.
2 Dans cet article, nous nous centrerons sur la vie familiale, mais nous pourrions inclure d’autres ensembles d’événements tels que ceux affectant la vie professionnelle.
- 511 -
RNTI-E-11
Recherche de motifs spatio-temporels de cas atypiques pour
le trafic routier urbain
Marc Joliveau, Florian De Vuyst
Laboratoire Mathématiques Appliquées aux Systèmes, ECP
Grande Voie des Vignes
92295 Chatenay-Malabry cedex, France.
[email protected], [email protected]
Résumé. Un large panel de domaines d’application utilise des réseaux de capteurs géoréférencés pour mesurer divers évènements. Les séries temporelles fournies par ces réseaux peuvent être utilisées dans le but de dégager des connaissances sur les relations spatio-temporelles de l’activité mesurée.
Dans cet article, nous proposons une méthode permettant d’abord de détecter
des situations atypiques (au sens de l’occurrence) puis de construire des motifs
spatio-temporels relatant leur propagation sur un réseau. Le cas étudié est celui du trafic routier urbain. Notre raisonnement se fonde sur l’application de la
méthode Space-Time Principal Component Analysis (STPCA) et de la combinaison entre l’information mutuelle et l’algorithme Isomap.
Les résultats expérimentaux exécutés sur des données réelles de trafic routier démontrent l’efficacité de la méthode introduite à identifier la propagation de cas
atypiques fournissant ainsi un outil performant de prédiction de la circulation
intraday à court et moyen terme.
1
Introduction
Durant les dernières décennies, l’utilisation de réseaux de capteurs a été largement développée pour mesurer et observer l’évolution de systèmes complexes à forte dynamique. Les
applications sont par exemple le trafic routier, le transport d’énergie, les processus d’entreprise
et la météorologie. Dégager des liens de corrélations dans un tel réseau à travers le temps permet, par exemple, d’établir des prévisions probabilistes à court ou moyen terme. Dans ce qui
suit, on suppose que les capteurs, effectuant des mesures sur le trafic routier urbain, sont fixes
et géoréférencés. Un graphe de connexion logique représente les échanges ou les causalités
directes possibles entre ces différents lieux géographiques. Le graphe est supposé connu.
A l’aide d’un outil d’estimation efficace, on peut prédire le comportement usuel du trafic devant chaque capteur. Cependant, lorsque la circulation est atypique, au sens de l’occurrence,
la qualité des prévisions s’en retrouve considérablement affectée. Nous proposons d’identifier
des motifs spatio-temporels de propagation de ces cas atypiques ayant pour objectif d’aider à
prévoir les conséquences d’un évènement inhabituel sur l’intégralité du réseau.
Les motifs se réfèrent généralement à des structures répétitives sur le graphe sous-jacent dans
- 523 -
RNTI-E-11
Découverte de motifs séquentiels et de règles inattendus
D. H. Li∗ , A. Laurent∗∗ , P. Poncelet∗
∗
LGI2P - EMA, SITE EERIE
{haoyuan.li,pascal.poncelet}@ema.fr
∗∗
LIRMM - CNRS - Université Montpellier II
[email protected]
Résumé. Les travaux autour de l’extraction de motifs séquentiels se sont particulièrement focalisés sur la définition d’approches efficaces pour extraire, en
fonction d’une fréquence d’apparition, des corrélations entre des éléments dans
des séquences. Même si ce critère de fréquence est déterminant, le décideur est
également de plus en plus intéressé par des connaissances qui sont représentatives d’un comportement inattendu dans ces données (erreurs dans les données,
fraudes, nouvelles niches, . . . ). Dans cet article, nous introduisons le problème
de la détection de motifs séquentiels inattendus par rapport aux croyances du domaine. Nous proposons l’approche USER dont l’objectif est d’extraire les motifs
séquentiels et les règles inattendues dans une base de séquences.
1
Introduction
Pour faire face aux besoins des nouvelles applications (médicales, suivi de consommation,
suivi des navigations sur un serveur Web, etc), de plus en plus de données sont stockées sous
la forme de séquences. Pour traiter ces bases et en extraire des connaissances pertinentes, les
motifs séquentiels ont été proposés Agrawal et Srikant (1995). Ils permettent, étant donnée
une base de données de séquences, de trouver toutes les séquences maximales fréquentes au
sens d’un support minimal défini par l’utilisateur.Si la découverte de corrélations dans les
données séquentielles est primordiale pour le décideur, il n’en reste pourtant pas moins que
certains problèmes ne peuvent être résolus par la recherche de tendances. De nouveaux motifs
intéressent le décideur : les motifs inattendus qui contredisent les croyances acquises sur le
domaine pour, par exemple, détecter des attaques sur un réseau.
Rappelons que notre objectif n’est pas de trouver les motifs rares, mais bien les motifs
contredisant une connaissance, ce qui n’existe pas dans la littérature. La recherche de connaissance inattendue à partir d’une base de croyance a été introduite dans Silberschatz et Tuzhilin (1995) et Padmanabhan et Tuzhilin (2006) présentent une approche de découverte de
règles d’association inattendues. Spiliopoulou (1999) propose un cadre basé sur la connaissance du domaine et des croyances pour trouver des règles séquentielles inattendues à partir
de séquences fréquentes. Même si ces travaux considèrent des séquences inattendues, ils sont
différents de notre problématique dans la mesure où la notion d’inattendue concerne des séquences fréquentes sur la base afin de trier les résultats obtenus. Notre objectif est d’extraire, à
- 535 -
RNTI-E-11
Extraction de Motifs Séquentiels Multidimensionnels Clos
sans Gestion d’Ensemble de Candidats
Marc Plantevit, Anne Laurent, Maguelonne Teisseire
LIRMM, Université Montpellier 2, CNRS,
[email protected]
Résumé. L’extraction de motifs séquentiels permet de découvrir des corrélations entre événements au cours du temps. Introduisant plusieurs dimensions
d’analyse, les motifs séquentiels multidimensionnels permettent de découvrir
des motifs plus pertinents. Mais le nombre de motifs obtenus peut devenir très
important. C’est pourquoi nous proposons, dans cet article, de définir une représentation condensée garantie sans perte d’information : les motifs séquentiels
multidimensionnels clos extraits ici sans gestion d’ensemble de candidats.
1
Introduction
Les motifs séquentiels sont étudiés depuis plus de 10 ans (Agrawal et Srikant (1995)). Ils
ont donné lieu à de nombreuses applications.Des algorithmes ont été proposés, basés sur le
principe d’Apriori (Masseglia et al. (1998); Zaki (2001); Ayres et al. (2002)) ou sur d’autres
propositions (Pei et al. (2004)). Récemment, les motifs séquentiels ont été étendus aux motifs
séquentiels multidimensionnels par Pinto et al. (2001), Plantevit et al. (2005), et Yu et Chen
(2005) dans l’objectif de prendre en compte plusieurs dimensions d’analyse. Par exemple, dans
Plantevit et al. (2005), les règles telles que Un client qui achète une planche de surf avec un
sac à NY achète plus tard une combinaison à SF sont découvertes. Toutefois, le nombre de
motifs extraits dans une base de données peut être très important. C’est pourquoi des représentations condensées telles que les motifs clos ont été proposées pour l’extraction des itemsets
(Pasquier et al. (1999); Pei et al. (2000); Zaki et Hsiao (2002); El-Hajj et Zaïane (2005)) et
des séquences (Yan et al. (2003); Wang et Han (2004)). Les clos permettent de disposer à
la fois d’une représentation condensée des connaissances extraites et d’un mécanisme d’extraction plus efficace afin d’élaguer significativement l’espace de recherche. Néanmoins, ces
propositions ne peuvent pas être directement appliquées aux motifs séquentiels multidimensionnels pour la raison suivante : une super séquence peut être obtenue de deux façons (1) une
plus longue séquence (plus d’items) ou (2) une séquence plus générale (plus de valeurs non
spécifiées) ce qui modifie les définitions des méthodes précédemment introduites.
Notre contribution majeure est la définition d’un cadre théorique pour l’extraction de motifs séquentiels multidimensionnels clos ainsi qu’un algorithme permettant de rechercher de
tels motifs. Nous adoptons une méthode basée sur le paradigme “pattern growth" (Pei et al.
(2004)) afin de proposer une solution d’extraction de motifs séquentiels multidimensionnels
clos efficace. De plus, nous souhaitons définir un algorithme qui se dispense de gérer un ensemble de clos candidats, seules les séquences closes étant ajoutées à l’ensembles des clos.
- 541 -
RNTI-E-11
Prétraitement des bases de données de réactions chimiques
pour la fouille de schémas de réactions
Frédéric Pennerath∗,∗∗∗ , Géraldine Polaillon∗∗ , Amedeo Napoli∗∗∗
∗
Supélec, campus de Metz
2 rue Edouard Belin 57070 Metz
[email protected]
∗∗
Supélec, campus de Gif-sur-Yvette
3 rue Joliot-Curie 91192 Gif-sur-Yvette
[email protected]
∗∗∗
Equipe Orpailleur, Loria
BP 239, 54506 Vandoeuvre-lès-Nancy Cedex
[email protected]
Résumé. Un grand nombre de réactions chimiques sont aujourd’hui répertoriées dans des bases de données. Les chimistes aimeraient pouvoir fouiller les
graphes moléculaires contenus dans ces données pour en extraire des schémas
de réactions fréquents. Deux obstacles s’opposent à cela : d’une part la manière
dont les chimistes représentent les réactions par des graphes ne permet pas aux
techniques de fouille de graphes d’extraire les schémas de réactions fréquents.
D’autre part les bases de données contiennent des descriptions de réactions souvent incomplètes, ambiguës ou erronées. Le présent article décrit un processus
de prétraitement opérationnel qui permet de filtrer, compléter puis transformer
le contenu d’une base de réactions en des données fiables constituées de graphes
abstraits répondant au problème de la fouille de schémas de réactions. Le processus place ainsi les bases de réactions à portée des techniques de fouille de
graphes comme en attestent les résultats expérimentaux.
1
Introduction
Les chimistes mettent au point de nouveaux procédés de synthèse de molécules en consultant de très grandes bases de données recensant les réactions chimiques disponibles. Les chimistes aimeraient pouvoir fouiller les graphes moléculaires contenus dans ces données pour en
extraire des schémas de réactions fréquents qui serviront de candidats privilégiés lors de nouveaux problèmes de synthèse. Deux obstacles s’opposent à cela. D’une part la manière dont les
chimistes représentent les réactions par des graphes ne permet pas aux techniques de fouille
de graphes d’extraire les schémas de réactions fréquents. Il existe des algorithmes efficaces
(Yan et Han, 2002, 2003; Nijssen et Kok, 2004) pour extraire d’un ensemble E de graphes
étiquetés l’ensemble des sous-graphes G connexes fréquents dont le support, défini comme le
nombre de graphes de E qui contiennent au moins un sous-graphe isomorphe à G, est supérieur à un certain seuil. Si ces méthodes peuvent s’appliquer avec succès à la fouille de graphes
- 547 -
RNTI-E-11
La prise en compte de la dimension temporelle
dans la classification de données
Eloïse Loubier , Bernard Dousset
I.R.I.T. (Institut de Recherche en Informatique de Toulouse),
118 route de Narbonne, 31062 TOULOUSE Cedex 9
{loubier, dousset}@irit.fr;
Résumé. Dans un contexte d’ingénierie de la connaissance, l’analyse des données relationnelles évolutives est une question centrale. La représentation de ce
type de données sous forme de graphe optimisé en facilite l'analyse et l'interprétation par l’utilisateur non expert. Cependant, ces graphes peuvent rapidement devenir trop complexes pour être étudiés dans leur globalité, il faut
alors les décomposer de manière à en faciliter la lecture et l’analyse. Pour cela,
une solution est de les simplifier, dans un premier temps, en un graphe réduit
dont les sommets représentent chacun un groupe distinct de sommets : acteurs
ou termes du domaine étudié. Dans un second temps, il faut les décomposer en
instances (un graphe par période) afin de prendre en compte la dimension temporelle.
La plateforme de veille stratégique Tétralogie, développée dans notre laboratoire, permet de synthétiser les données relationnelles évolutives sous forme de
matrices de cooccurrence 3D et VisuGraph, son module de visualisation, permet de les représenter sous forme de graphes évolutifs.
VisuGraph assimile les différentes périodes à des repères temporels et chaque
sommet est placé en fonction de son degré d’appartenance aux différentes périodes. Ce prototype est aussi doté d’un module de la classification interactive
de données relationnelles basé sur une technique de Markov Clustering, qui
conduit à une visualisation sous forme de graphe réduit. Nous proposons ici de
prendre en compte la dimension temporelle dans notre processus de classification des données. Ainsi, par la visualisation successive des différentes instances, il devient plus facile d’analyser l’évolution des classes au niveau intra
mais aussi au niveau inter classes.
1 Introduction
L’étude de la migration des termes, en particulier de l’évolution des données relationnelles issues de la synthèse de grands corpus d’information est un aspect majeur dans
l’ingénierie de la connaissance et en particulier dans le cadre de la veille. Dans ce contexte,
le recours à la visualisation de données par des graphes apporte un réel confort aux utilisateurs, qui, de façon intuitive, peuvent s’approprier une forme de connaissance difficile à
décrire autrement. Bien souvent, ces graphes sont trop complexes pour être étudiés dans leur
globalité, il faut alors les décomposer de manière à faciliter la lecture et l’analyse des données. Une première simplification du graphe est réalisé par le biais de la classification en un
graphe réduit dont les sommets représentent chacun un groupe distinct d’acteurs ou de
- 559 -
RNTI-E-11
Analyse exploratoire d’opinions cinématographiques :
co-clustering de corpus textuels communautaires
Damien Poirier , Cécile Bothorel
Marc Boullé
TECH / EASY
France Telecom RD
2 avenue Pierre Marzin
22300 Lannion
pré[email protected],
http://www.francetelecom.com/fr/groupe/rd/
Résumé. Les sites communautaires sont un endroit privilégié pour s’exprimer
et publier des opinions. Le site www.flixster.com est un exemple de site participatif sur lequel se rassemblent plus de 20 millions de cinéphiles qui partagent des
commentaires sur les films qu’ils ont ou non aimés. Explorer les contenus autoproduits est un challenge pour qui veut comprendre les attentes des internautes.
Par une méthode d’apprentissage non supervisée, nous montrerons qu’il est possible de mieux comprendre le vocabulaire utilisé pour décrire des opinions. En
particulier, grâce à une méthode de co-clustering, nous montrerons qu’un rapprochement peut être fait entre des films particuliers sur la base de l’usage d’un
vocabulaire particulier. L’analyse des résultats peut conduire à retrouver une certaine typologie de films ou encore des rapprochements entre films. Cette étude
peut être complémentaire avec des analyses linguistiques des corpus, ou encore
être exploitée dans un contexte applicatif de recommandation de contenus multimédias.
1
Introduction
Les avancées technologiques en matière de haut débit favorisent l’apparition de nouveaux
services de vente ou location en ligne de fichiers vidéos et musicaux. De tels services se veulent
pro-actifs et proposent, en plus des actes promotionnels classiques, des choix personnalisés de
films (ou de musique). Des méthodes de recommandation sont déjà utilisées sur certains sites
Internet de vente par correspondance (Amazon, Fnac, Virgin, etc.) ou encore sur les platesformes musicales (Lastfm, Radioblog, Pandora, etc.). Candillier et al. (2007) fait un panorama
des techniques de recommandation : qu’elles soient basées sur des notations d’internautes ou
des descriptions de contenus (techniques user- and item-based utilisant le filtrage collaboratif)
ou des rapprochements thématiques de profils d’internautes et de descriptions de contenus
(filtrage de contenus), voire des techniques hybrides combinant les différentes approches, la
problématique reste de gérer les matrices creuses. En effet, devant la variété d’un catalogue
et le grand nombre d’utilisateurs, le faible nombre de notes qu’un utilisateur donne rend la
- 565 -
RNTI-E-11
Assignation automatique de solutions à des classes de plaintes
liées aux ambiances intérieures polluées
Zoulikha Heddadji*,**, Nicole Vincent*
Séverine Kirchner**, Georges Stamon*
*
Université René Descartes
45, rue des Saints Pères 75270 Paris CEDEX06
**
CSTB
84, avenue Jean Jaurès Champs-sur-Marne
77421 Marne-la-Vallée CEDEX2
{zoulikha.heddadji, severine.kirchner}@cstb.fr
{nicole.vincent, Georges.Stamon}@math-info.univ-paris5.fr
Résumé. Nous présentons dans cet article un système informatique pour le
traitement des plaintes en lien avec des situations de pollution domestique
écrites en français. Après la construction automatique d’une base de scénarii
de plaintes, un module de recherche apparie la plainte à traiter à la thématique
de la plainte la plus similaire. Enfin, il s’agit d’assigner au problème courant la
solution correspondante au scénario de pollution auquel est affectée la plainte
pertinente. Nous montrons ici l’intérêt de l’introduction dans l’appariement des
textes de l’aspect sémantique géré par un dictionnaire généraliste de
synonymes et en quoi il n’est pas réalisable pour notre problème particulier de
construire une ontologie.
1 Introduction
L’objectif de notre étude est de pouvoir semi-automatiser le processus de réponse aux
plaintes exprimées en français, en langue naturelle et relatives à la pollution de l’air au sein
des logements. Ces plaintes reflètent chacune un cas particulier, cependant elles abordent des
problèmes communs que les experts aimeraient identifier de manière objective. Notre
démarche est de construire de manière automatique des scénarii. Dans la première étape nous
établissons un modèle de représentation et de recherche en ne négligeant pas l’aspect
sémantique. Le choix de la ressource sémantique est guidé par l'étude du vocabulaire du
corpus, il est présenté dans la partie suivante. Enfin, nous présentons l’évaluation de la
qualité des partitions (scénarii) obtenues.
2 Modélisation de l’espace des plaintes
Par manque de place ici, nous ne pouvons rappeler de manière détaillée nos nombreuses
positions pour formaliser les textes et pour définir les différentes mesures de similarité
textuelle correspondantes. Néanmoins, nous pouvons noter que pour le traitement des textes
- 577 -
RNTI-E-11
Un système de vote pour la classification de textes d'opinion
Michel Plantié*, Mathieu Roche**, Gérard Dray*
* LGI2P, Ecole des Mines d'Alès, Site EERIE
(michel.plantie, gerard.dray)@ema.fr
** LIRMM, UMR 5506, Univ. Montpellier 2, CNRS,
[email protected]
Résumé : Les tâches de classification textuelle ont souvent pour objectif de regrouper
thématiquement différents textes. Dans cet article, nous nous sommes intéressés à la
classification de documents en fonction des opinions et jugements de valeurs qu'ils
contiennent. L'approche proposée est fondée sur un système de vote utilisant plusieurs
méthodes de classification.
1 Introduction
La classification de textes a pour objectif le regroupement de documents selon différents
critères. Dans les travaux présentés dans cet article, nous nous intéressons à la classification
de textes d'opinion qui consiste à classer les textes selon un jugement tel que l'aspect positif
ou négatif d'une critique, l'aspect favorable ou défavorable donné par un expert, etc. Nous
proposons dans cet article une approche fondée sur plusieurs classifieurs combinés à un
système de vote. Dans un premier temps, nous présentons les corpus du défi
DEFT'07(Grouin et al., 2007) sur lesquels nous avons mené nos expérimentations ainsi que
les représentations des textes utilisées. La section 3 décrit les classifieurs et les systèmes de
vote proposés. Enfin, la partie 4 présente les résultats obtenus.
2 Représentation des données textuelles
La troisième édition du défi francophone DEFT'07 consistait à déterminer des catégories
de jugements à partir de quatre corpus français très différents en terme de thème, taille,
tournures de phrases, richesse du vocabulaire, représentation des catégories de jugement :
✔ Corpus 1 : Critiques de films, livres, spectacles et bandes dessinées. Trois catégories :
bon, moyen, mauvais.
✔ Corpus 2 : Critiques de jeux vidéo. Trois catégories : bon, moyen, mauvais.
✔ Corpus 3 : Commentaires de révision d'articles de conférences scientifiques. Trois
catégories : acceptation, acceptation sous conditions, rejet.
- 583 -
RNTI-E-11
ExpLSA : utilisation d’informations syntaxico-sémantiques
associées à LSA pour améliorer les méthodes de classification
conceptuelle
Nicolas Béchet, Mathieu Roche, Jacques Chauché
Équipe TAL, LIRMM - UMR 5506, CNRS
Université Montpellier 2, 34392 Montpellier Cedex 5 - France
{nicolas.bechet,mroche,chauche}@lirmm.fr
Résumé. L’analyse sémantique latente (LSA - Latent Semantic Analysis) est
aujourd’hui utilisée dans de nombreux domaines comme la modélisation cognitive, les applications éducatives mais aussi pour la classification. L’approche
présentée dans cet article consiste à ajouter des informations grammaticales à
LSA. Différentes méthodes pour exploiter ces informations grammaticales sont
étudiées dans le cadre d’une tâche de classification conceptuelle.
1
Introduction
Le domaine de la classification de données textuelles se décline en de nombreux axes
parmi lesquels la classification conceptuelle. Cette dernière consiste à regrouper des termes
dans des concepts définis par un expert. Citons par exemple les termes pot d’échappement,
pare-brise et essuie glace qui peuvent être classés dans le concept automobile. Afin d’établir
une telle classification sémantique, la proximité de chacun des termes issus des textes doit
être mesurée. Ces termes sont ensuite classés en fonction de leurs proximités sémantiques par
un algorithme de fouille de données tels que les Kppv (K plus proches voisins) ou bien les K
moyennes (Cornuéjols et Miclet (2002)).
Nous nous focalisons dans cet article sur la première étape de la réalisation d’une classification conceptuelle : l’étude de la proximité des termes. Afin de calculer une telle proximité, nous
nous appuyons sur une méthode appelée Latent Semantic Analysis (LSA) développée par Landauer et Dumais (1997)1 . La méthode LSA est uniquement fondée sur une approche statistique
appliquée à des corpus de grande dimension consistant à regrouper les termes (classification
conceptuelle) ou les contextes (classification de textes). Une fois l’analyse sémantique latente
appliquée à un corpus, un espace sémantique associant chaque mot à un vecteur est retourné.
La proximité de deux mots peut alors être obtenue par un calcul de similarité comme le cosinus
entre deux vecteurs. L’objectif de nos travaux est d’améliorer les performances de LSA par une
approche nommée ExpLSA (Expansion des contextes avec LSA).
L’approche ExpLSA consiste à enrichir le corpus qui constituera l’entrée d’une analyse
sémantique latente classique. Cet enrichissement utilise les informations sémantiques obtenues
1 voir
aussi, http ://www.msci.memphis.edu/∼wiemerhp/trg/lsa-followup.html
- 589 -
RNTI-E-11
Un modèle d’espace vectoriel de concepts pour noyaux
sémantiques
Sujeevan Aseervatham
LIPN - UMR 7030
CNRS - Université Paris 13
99, Av. J.B. Clément
F-93430 Villetaneuse, France
[email protected]
Résumé. Les noyaux ont été largement utilisés pour le traitement de données
textuelles comme mesure de similarité pour des algorithmes tels que les Séparateurs à Vaste Marge (SVM). Le modèle de l’espace vectoriel (VSM) a été amplement utilisé pour la représentation spatiale des documents. Cependant, le VSM
est une représentation purement statistique. Dans ce papier, nous présentons un
modèle d’espace vectoriel de concepts (CVSM) qui se base sur des connaissances linguistiques a priori pour capturer le sens des documents. Nous proposons aussi un noyau linéaire et un noyau latent pour cet espace. Le noyau linéaire
exploite les concepts linguistiques pour l’extraction du sens alors que le noyau
latent combine les concepts statistiques et linguistiques. En effet, le noyau latent utilise des concepts latents extraits par l’Analyse Sémantique Latente (LSA)
dans le CVSM. Les noyaux sont évalués sur une tâche de catégorisation de texte
dans le domaine biomédical. Le corpus Ohsumed, bien connu pour sa difficulté
de catégorisation, a été utilisé. Les résultats ont montré que les performances de
catégorisation sont améliorées dans le CSVM.
1
Introduction
Les mesures de similarité sont des éléments clés dans les algorithmes de traitement automatique des langues. Elles sont utilisées pour orienter le processus d’extraction de connaissance. Ainsi, elles sont les principales responsables des performances d’un algorithme. Si une
mesure de similarité pertinente améliorera les performances, une mauvaise mesure risque de
mener à des résultats incohérents. La définition d’une bonne mesure n’est pas un processus
aisé. En effet, la mesure doit donner une bonne indication sur le degré de similarité entre deux
documents. La notion de sémantique n’est pas clairement définie. Bien que nous essayons
d’imiter la perception humaine, l’information sémantique peut prendre différente forme selon
l’approche adoptée. Il existe deux grandes approches : l’une basée sur l’information statistique
tel que la fréquence de co-occurrence des termes et l’autre basée sur des sources de connaissances externes telles que les ontologies.
Dans la communauté de l’apprentissage, les noyaux (Shawe-Taylor et Cristianini, 2004)
sont utilisés depuis une décennie comme fonctions de similarité basées sur le cosinus formé
- 601 -
RNTI-E-11
Intégration de la structure dans un modèle probabiliste de
document
Mathias Géry, Christine Largeron et Franck Thollard
Université Jean Monnet,
Laboratoire Hubert Curien, UMR CNRS 5516, St-Etienne
[email protected]
Résumé. En fouille de textes comme en recherche d’information, différents modèles, de type probabiliste, vectoriel ou booléen, se sont révélés bien adaptés
pour représenter des documents textuels mais, ces modèles présentent l’inconvénient de ne pas tenir compte de la structure du document. Or la plupart des
informations disponibles aujourd’hui sur Internet ou dans des bases documentaires sont fortement structurées. Dans cet article1 , nous proposons d’étendre le
modèle probabiliste de représentation des documents de façon à tenir compte du
poids d’une certaine catégorie d’éléments structurels : les balises représentant
la structure logique et la structure de mise en forme. Ce modèle a été évalué à
l’aide de la collection de la campagne d’évaluation INEX 2006.
1
Introduction
En fouille de texte comme en recherche d’information (RI), plusieurs modèles sont utilisés pour représenter un document. Ces modèles, de type probabiliste, booléen ou vectoriel, se
sont révélés bien adaptés pour représenter des documents textuels. Cependant, ils présentent
l’inconvénient de ne pas tenir compte de la structure du document. Or, la plupart des informations disponibles aujourd’hui sur Internet ou dans des bases documentaires sont fortement
structurées. C’est la raison pour laquelle des travaux récents, en RI comme en fouille de données se sont intéressés à la structure des documents. Ceci a notamment conduit à l’émergence
de la recherche d’information XML orientée contenu dont l’objectif est justement d’exploiter l’information structurelle contenue dans les documents pour concevoir des systèmes de RI
plus efficaces. La compétition INEX2 (INitiative for Evaluation of XML Retrieval) produit
d’ailleurs depuis 2002 de larges collections de documents utilisables pour l’évaluation de tels
systèmes. L’exploitation de la structure a aussi été étudiée dans des tâches de classement, supervisé ou non, de documents . Dans ce contexte, plusieurs voies ont été envisagées, parmi
lesquelles on citera l’extension des modèles usuels de représentation de documents textuels
[Doucet et Ahonen-Myka (2002)] ou l’exploitation de la structure arborescente des documents
XML [Yi et Sundaresan (2000); Marteau et al. (2005); Vercoustre et al. (2006)]. Enfin, dans
le contexte de la détection d’information nouvelle (Novelty Detection), d’autres travaux ont
1 Ce
travail a été partiellement soutenu par l’action collaborative Web Intelligence de la région Rhône-Alpes
://inex.is.informatik.uni-duisburg.de/2007/
2 http
- 613 -
RNTI-E-11
Un algorithme de classification topographique non
supervisée à deux niveaux simultanés
Guénaël Cabanes, Younès Bennani
LIPN - UMR 7030
Université Paris 13 - CNRS
99, av. J-B Clément - F-93430 Villetaneuse
{cabanes, younes}@lipn.univ-paris13.fr
Résumé. Une des questions les plus importantes pour la plupart des applications réelles de la classification est de déterminer un nombre approprié de groupes (clusters). Déterminer le nombre optimal de groupes est un problème difficile, puisqu’il n’y a pas de moyen simple pour connaître ce nombre sans connaissance a priori. Dans cet article, nous proposons un nouvel algorithme de classification non supervisée à deux niveaux, appelé S2L-SOM (Simultaneous Twolevel Clustering - Self Organizing Map), qui permet de déterminer automatiquement le nombre optimal de groupes, pendant l’apprentissage d’une carte
auto-organisatrice. L’estimation du nombre correct de groupes est en relation
avec la stabilité de la segmentation et la validité des groupes générés. Pour
mesurer cette stabilité nous utilisons une méthode de sous-échantillonnage. Le
principal avantage de l’algorithme proposé, comparé aux méthodes classiques
de classification, est qu’il n’est pas limité à la détection de groupes convexes,
mais est capable de détecter des groupes de formes arbitraires. La validation
expérimentale de cet algorithme sur un ensemble de problèmes fondamentaux
pour la classification montre sa supériorité sur les méthodes standards de classification à deux niveaux comme SOM+K-Moyennes et SOM+HierarchicalAgglomerative-Clustering.
1
Introduction
La classification non supervisée, ou clustering, est un outil très performant pour la détection automatique de sous-groupes pertinents (ou clusters) dans un jeu de données, lorsqu’on
n’a pas de connaissances a priori sur la structure interne de ces données. Les membres d’un
même cluster doivent êtres similaires entre eux, contrairement aux membres de groupes différents (homogénéité interne et séparation externe). La classification non supervisée joue un rôle
indispensable pour la compréhension de phénomènes variés décrits par des bases de données.
Un problème de regroupement peut être défini comme une tâche de partitionnement d’un ensemble d’items en un ensemble de sous-ensembles mutuellement disjoints. La classification est
un problème de regroupement qui peux être considéré comme un des plus compétitifs en apprentissage non-supervisé. De nombreuses approches ont été proposées (Jain et Dubes, 1988).
Les approches les plus classiques sont les méthodes hiérarchiques et les méthodes partitives.
- 619 -
RNTI-E-11
Segmentation hiérarchique des cartes topologiques
Mustapha Lebbah∗,∗∗ , Hanane Azzag∗∗
∗
LIM&BIO - UFR (SMBH)- Université Paris 13,
74, rue Marcel Cachin 93017 Bobigny Cedex France
∗∗
LIPN - UMR 7030
Université Paris 13 - CNRS
99, av. J-B Clément - F-93430 Villetaneuse
{hanane.azzag, mustapha.lebbah}@lipn.univ-paris13.fr
Résumé. Dans ce papier, nous présentons une nouvelle mesure de similarité
pour la classification des référents de la carte auto-organisatrice qui sera réalisée
à l’aide d’une nouvelle approche de classification hiérarchique. (1) La mesure
de similarité est composée de deux termes : la distance de Ward pondérée et
la distance euclidienne pondérée par la fonction de voisinage sur la carte topologique. (2) Un algorithme à base de fourmis artificielles nommé AntTree sera
utilisé pour segmenter la carte auto-organisatrice. Cet algorithme a l’avantage de
prendre en compte le voisinage entre les référents et de fournir une hiérarchie
des référents avec une complexité proche du nlog(n). La segmentation incluant
la nouvelle mesure est validée sur plusieurs bases de données publiques.
1
Introduction
Le problème de la classification de données est identifié comme une des problématiques majeures en extraction des connaissances à partir de données. Depuis des décennies, de nombreux sous-problèmes ont été identifiés, comme par exemple la sélection des données ou des
variables, la variété des espaces de représentation (numérique, symbolique, etc), l’incrémentalité, la nécessité de découvrir des concepts, ou d’obtenir une hiérarchie, etc. La popularité,
la complexité et toutes ces variantes du problème de la classification de données, (Jain et al.
(1999)), ont donné naissance à une multitude de méthodes de résolution. Ces méthodes peuvent
faire appel à des principes heuristiques ou encore mathématiques.
Les méthodes qui nous intéressent dans ce travail, sont celles qui permettent de faire de la
classification non supervisée de données en utilisant les cartes topologiques (appelées aussi
SOM :Self-organizing Map). Celles-ci sont souvent utilisées parce qu’elles sont considérées à
la fois comme outils de visualisation et de partitionnement non supervisé de différents types de
données (quantitatives et qualitatives). Elles permettent de projeter les données sur des espaces
discrets qui sont généralement en deux dimensions. Le modèle de base, proposé par Kohonen
(Kohonen (2001)), est uniquement dédié aux données numériques. Des extensions et des reformulations du modèle de Kohonen ont été proposées dans la littérature, (Bishop et al. (1998);
- 631 -
RNTI-E-11
Intégration de contraintes dans les cartes auto-organisatrices
Anouar Benhassena∗ , Khalid Benabdeslem∗∗ , Fazia Bellal∗∗ , Alexandre Aussem∗∗ et Bruno
Canitia∗∗∗
∗
IRISA - Projet CORDIAL
6, rue de Kerampont - BP 447, 22305 Lannion Cedex, France
[email protected]
∗∗
Université Lyon1, UFR d’Informatique, LIESP
8, Avenue Niels Bohr, 69622 Villeurbanne Cedex, France
{kbenabde, fbellal, aaussem}@bat710.univ-lyon1.fr
∗∗∗
VISOON
60, Avenue de Rockefeller, 69008 Lyon, France
[email protected]
Résumé. Le travail présenté dans cet article décrit une nouvelle version des
cartes topologiques que nous appelons CrTM. Cette version consiste à modifier
l’algorithme de Kohonen de telle façon à ce qu’il contrôle les violations des
contraintes lors de la construction de la topologie de la carte. Nous validons notre
approche sur des données connues de la littérature en utilisant des contraintes
artificielles. Une validation supplémentaire sera faite sur des données réelles
issues d’images médicales pour la classification des mélanomes chez l’humain
sous contraintes médicales.
1
Introduction
La prise en compte des connaissances additionnelles constitue un problème essentiel et
un vrai défi pour la recherche actuelle dans le domaine de la classification automatique. Il
s’agit à la fois de l’expression, de la structuration et de la formalisation des connaissances
(appelées aussi connaissances a priori) pour les intégrer dans le processus de la classification
automatique. Les premiers travaux dans ce domaine ont été réalisés par (Wagstaff et Cardie,
2000) en modifiant l’algorithme COBWEB proposé par (Fisher, 1987). Les auteurs ont montré,
à partir de résultats expérimentaux, une amélioration claire de la précision de la classification.
Les mêmes auteurs ont proposé une autre approche qui intègre les contraintes dans l’algorithme
K-means (MacQueen, 1967). L’algorithme proposée est appelé COP-Kmeans (Wagstaff et al.,
2001). Son principe consiste à contrôler la violation des contraintes dans la phase de mise à
jour des classes. Les auteurs arrivent à démontrer qu’il est possible d’améliorer sensiblement
la précision du partitionnement même avec un nombre réduit de contraintes. Les auteurs dans
(Davidson et Ravi, 2005) ont étudié le problème de la faisabilité de la classification en présence
de plusieurs combinaisons de contraintes dans une approche de type K-means. Récemment,
nous avons proposé dans (Elghazel et al., 2007) une nouvelle méthode de classification sous
contraintes basée sur la b-coloration de graphes. Convaincus par l’importance de l’intégration
- 643 -
RNTI-E-11
Une nouvelle méthode divisive en classification non
supervisée pour des données symboliques intervalles
Nathanaël Kasoro ∗ , André Hardy ∗∗
∗
Université de Kinshasa
Département de Mathématique et d’Informatique
B.P. 190, Kinshasa, République Démocratique du Congo
[email protected]
∗∗
Université de Namur
Unité de Statistique - Département de Mathématique
8 Rempart de la Vierge - B - 5000 Namur - Belgique
[email protected]
Résumé. Dans cet article nous présentons une nouvelle méthode de classification non supervisée pour des données symboliques intervalles. Il s’agit de l’extension d’une méthode de classification non supervisée classique à des données
intervalles. La méthode classique suppose que les points observés sont la réalisation d’un processus de Poisson homogène dans k domaines convexes disjoints
de Rp . La première partie de la nouvelle méthode est une procédure monothétique divisive. La règle de coupure est basée sur une extension à des données
intervalles du critère de classification des Hypervolumes. L’étape d’élagage utilise un test statistique basé sur le processus de Poisson homogène. Le résultat
est un arbre de décision. La seconde partie de la méthode consiste en une étape
de recollement, qui permet, dans certains cas, d’améliorer la classification obtenue à la fin de la première partie de l’algorithme. La méthode est évaluée sur un
ensemble de données réelles.
1
Introduction
Le but de la classification non supervisée est de décomposer un groupe d’objets, sur lesquels on mesure un ensemble de variables, en un nombre relativement restreint de sous-groupes
d’objets semblables. De nombreuses méthodes de classification ont été publiées dans la littérature scientifique. La plupart d’entre elles utilisent un critère de classification basé sur une
mesure de dissimilarité. Pour éviter ce choix (bien souvent arbitraire) d’une dissimilarité nous
utilisons un modèle statistique pour la classification basé sur le processus de Poisson homogène
(Hardy (1983)). De ce modèle est issue la méthode de classification des Hypervolumes (Hardy
(1983)). Pirçon (2004) a développé une nouvelle méthode divisive de classification basée sur
le critère de classification des Hypervolumes. Notre objectif est d’étendre cette méthode à des
données intervalles. Une variable Y dont le domaine d’observation est Y est appelée à valeurs
d’ensemble si ∀xi ∈ E, Y : E → B : xi −→ Y (xi ) où B = P(Y) = {U = ∅ | U ⊆ Y}.
- 649 -
RNTI-E-11
Co-classification sous contraintes par la somme des résidus
quadratiques
Ruggero G. Pensa∗ , Jean-François Boulicaut∗∗
∗
KDD-Lab, ISTI-CNR - Via Giuseppe Moruzzi, 1 - I-56124 Pisa, Italy
[email protected]
∗∗
INSA-Lyon, LIRIS CNRS UMR5205, F-69621 Villeurbanne cedex, France
[email protected]
Résumé. Dans de nombreuses applications, une co-classification est plus facile
à interpréter qu’une classification mono-dimensionnelle. Il s’agit de calculer une
bi-partition ou collection de co-clusters : chaque co-cluster est un groupe d’objets associé à un groupe d’attributs et les interprétations peuvent s’appuyer naturellement sur ces associations. Pour exploiter la connaissance du domaine et
ainsi améliorer la pertinence des partitions, plusieurs méthodes de classification
sous contraintes ont été proposées pour le cas mono-dimensionnel, e.g., l’exploitation de contraintes "must-link" et "cannot-link". Nous considérons ici la
co-classification sous contraintes avec la gestion de telles contraintes étendues
aux dimensions des objets et des attributs, mais aussi l’expression de contraintes
de contiguité dans le cas de domaines ordonnés. Nous proposons un algorithme
itératif qui minimise la somme des résidus quadratiques et permet l’exploitation
active des contraintes spécifiées par les analystes. Nous montrons la valeur ajoutée de ce type d’extraction sur deux applications en analyse du transcriptome.
1
Introduction
Dans de nombreux domaines applicatifs, l’analyste se trouve devant des jeux de données
matriciels dans lesquels un certain nombre d’objets sont décrits par un certain nombre d’attributs qui prennent leurs valeurs dans un domaine numérique, éventuellement restreint au
domaine 0/1. L’une des techniques phares pour l’étude exploratoire de tels jeux de données est
la classification, i.e., le calcul de partitions, soit sur l’ensemble des objets, soit sur l’ensemble
des attributs. On peut aussi vouloir faciliter l’interprétation des groupements calculés en développant des méthodes de co-classification. Dans ce cas, les partionnements selon les deux
dimensions sont couplés et les algorithmes comme ceux présentés dans Robardet et Feschet
(2001); Dhillon et al. (2003); Ritschard et Zighed (2003); Jollois et al. (2003) produisent une
bi-partition, i.e., une collection de co-clusters. Chacun des co-clusters est un groupe d’objets
associé à un groupe d’attributs et la co-classification apparaît comme une méthode de classification conceptuelle. La co-classification a été particulièrement étudiée dans le contexte de
l’analyse du transcriptome (voir, e.g., Cheng et Church (2000); Madeira et Oliveira (2004)). En
effet, les technologies à haut débit permettent de construire des matrices d’expression de (tous
- 655 -
RNTI-E-11
Étude comparative de deux approches de classification
recouvrante : M OC vs. O KM
Guillaume Cleuziou et Jacques-Henri Sublemontier
Laboratoire d’Informatique Fondamentale d’Orléans (LIFO)
Université d’Orléans
Rue Léonard de Vinci - 45067 ORLEANS Cedex 2
[email protected]
Résumé. La classification recouvrante désigne les techniques de regroupements
de données en classes pouvant s’intersecter. Particulièrement adaptés à des domaines d’application actuels (e.g. Recherche d’Information, Bioinformatique)
quelques modèles théoriques de classification recouvrante ont été proposés très
récemment parmi lesquels le modèle M OC (Banerjee et al. (2005a)) utilisant les
modèles de mélanges et l’approche O KM (Cleuziou (2007)) consistant à généraliser l’algorithme des k-moyennes. La présente étude vise d’une part à étudier les
limites théoriques et pratiques de ces deux modèles, et d’autre part à proposer
une formulation de l’approche O KM en terme de modèles de mélanges gaussiens, laissant ainsi entrevoir des perspectives intéressantes quant à la variabilité
des schémas de recouvrements envisageables.
1
Introduction
La classification recouvrante (en anglais overlapping clustering) constitue un domaine de
recherche étudié depuis les années 60 et relancé par des besoins applicatifs dans des domaines
importants tels que la Recherche d’Information ou encore la Bioinformatique.
Le but recherché est alors d’extraire une collection de classes recouvrantes à partir d’une
population d’individus de telle manière que : chaque individu appartienne à une ou plusieurs
classes, les individus d’une même classe soient similaires, et deux individus n’appartenant pas
au moins à une classe commune soient dissimilaires. Différentes directions ont été prospectées
afin d’obtenir ce type de schéma de classification.
Des modèles hiérarchiques ont été proposés ; Jardine et Sibson (1971) ont permis, en introduisant les k-ultramétriques, d’envisager des structures hiérarchiques (ou pseudo-hiérarchiques)
moins contraignantes que les arbres, par exemple des pyramides (Diday (1984)) ou encore
des hiérarchies dites “faibles” étudiées par Bertrand et Janowitz (2003) notamment. L’un des
avantages de ces modèles est de proposer une interprétation visuelle des classes et de leur organisation. En revanche, ces modèles ne permettent pas de prendre en compte la globalité des
schémas de recouvrements possibles ; par exemple Bertrand et Janowitz (2003) montrent que
dans une k-hiérarchie faible (le modèle hiérarchique le moins contraignant), “l’intersection de
(k + 1) classes arbitraires peut être réduite à l’intersection de k de ces classes”.
Les approches par partitionnement proposées ont consisté dans un premier temps à déterminer des centres, des axes ou des représentants de classes auxquels les individus sont affectés
- 667 -
RNTI-E-11
Système multi-agent argumentatif pour la classification des
connaissances cruciales
Imène Brigui-Chtioui ∗ , Inès Saad ∗∗
∗
Institut Supérieur de Gestion - IRSAM 147 Avenue Victor Hugo 75116 Paris
[email protected]
∗∗
LaRIA-Université de Picardie Jules Verne 33 Rue Saint Leu 80039 Amiens
[email protected]
Résumé. Dans cet article, nous proposons une approche multi-agent argumentative permettant d’automatiser la résolution des conflits entre décideurs dans un
système d’aide à l’identification des connaissances cruciales nommé K-DSS.
En effet, des divergences concernant la crucialité des connaissances peuvent
apparaître entre les décideurs et aboutir ainsi à des incohérences dans la base
commune de connaissances la rendant inexploitable. Notre objectif à travers ce
travail est de proposer une approche argumentative permettant de résoudre les
conflits entre décideurs. Afin de concevoir cette approche, nous nous appuyons
sur la théorie multi-agents pour représenter les acteurs humains par des agents
logiciels connaissant leurs préférences et leurs règles de décision et pouvant
ainsi argumenter leurs choix ou mettre à jour leurs croyances en fonction des
arguments qu’ils reçoivent des autres agents décideurs.
1
Introduction
L’objectif de la gestion des connaissances dans une entreprise est de favoriser la croissance,
la transmission et la conservation des connaissances. Saad (2005) s’intéresse au repérage des
connaissances cruciales pour justifier le choix d’investissement dans des opérations de capitalisation sur les connaissances. Dans la revue de la littérature, nous constatons qu’il existe peu
de travaux, s’intéressant à la délimitation du champ des connaissances sur lesquelles il faut capitaliser. Les auteurs Dieng et al. (1998) ; Grundstein et al. (2003) ;B.Tseng et Huang (2005),
précisent que le processus de détermination des connaissances cruciales est une action difficile
à mener.
Dans cet article, nous proposons une approche multi-agents argumentative permettant de
résoudre des conflits dans un système d’aide à l’identification des connaissances cruciales
nommé K-DSS Saad (2005), Saad et Chakhar (pear). Les connaissances cruciales sont des
savoirs et des savoir-faire nécessaires aux processus essentiels qui constituent le cœur des activités de l’entreprise. Le système proposé est basé sur une méthode composée de trois phases.
La première phase consiste à déterminer l’ensemble d’apprentissage que nous appelons les
"connaissances cruciales de référence". La deuxième phase consiste à évaluer les "connaissances cruciales de références" sur une famille de critères et à inférer des règles de décision.
- 679 -
RNTI-E-11
Un processus d’acquisition d’information pour les besoins de
l’enrichissement des BDG
Khaoula Mahmoudi*
Sami Faïz ** ***
* Laboratoire URISA -Unité de Recherche en Imagerie Satellitaire et ses Applications
Ecole Supérieur des communications de Tunis (SUPCOM)
[email protected]
** Institut National des Sciences Appliquées et de Technologie (INSAT)
*** Laboratoire de Télédétection et Systèmes d’Informations à Références Spatiales
(LTSIRS)
[email protected]
Résumé. Les données constituent l'élément central d'un Système
d’Information Géographiques (SIG) et leur coût est souvent élevé en raison de
l'investissement substantiel qui permet leur production. Cependant, ces
données sont souvent restreintes à un service ou pour une catégorie
d’utilisateurs. Ce qui a fait ressortir la nécessité de proposer des moyens
d'enrichissement en informations pertinentes pour un nombre plus important
d’utilisateurs. Nous présentons dans ce papier notre approche d’enrichissement
de données qui se déroule selon trois étapes : une identification de segments et
de thèmes associés, une délégation et enfin, un filtrage textuel. Un processus
de raffinement est également offert. Notre approche globale a été intégrée à un
SIG. Son évaluation a été accomplie montrant ainsi sa performance.
1 Introduction
Les données dans un SIG (Faïz, 1999), sont souvent recueillies pour les besoins propres
d’une institution, voire d’un service. Face à cette réalité, il devient judicieux de déployer de
nouvelles sources pour répondre aux besoins d’un nombre plus important d’utilisateurs. Ceci
est qualifié d’enrichissement de bases de données géographiques (BDG). C’est dans ce
contexte que s’inscrit notre approche (Mahmoudi et Faïz, 2006a, Mahmoudi et Faïz, 2006b,
Faïz et Mahmoudi, 2005). Cette dernière utilise la technique de résumé de documents
multiples (Barzilay et McKeown, 2005) permettant d’extraire l'information pertinente sous
une forme abrégée. Pour assurer l’extraction dans des temps raisonnables et conformément
au paradigme multi-agents (Ferber, 1999), nous adoptons trois classes d’agents: agent
interface, agent géographique et agent tâche. L’interaction entre les agents est achevée par
envoi de messages. L’enrichissement est réalisé en trois phases : une identification de
segments et de thèmes, une délégation et enfin, un filtrage textuel. S’ajoute à ces étapes de
base, une approche, exercée à la demande, pour un raffinement du processus.
La section 2 présente, certains travaux d’enrichissement des BDG dans les SIG ainsi que
notre approche pour cet enrichissement. La section 3 est dédiée à la mise en œuvre et
l’évaluation de notre système.
- 691 -
RNTI-E-11
Un modèle et une algèbre pour les systèmes de gestion
d’ontologies
Gilles Falquet∗ Claire-Lise Mottaz-Jiang∗ Jacques Guyot ∗
∗
Centre universitaire d’informatique, Université de Genève
falquet, mottaz, [email protected]
Résumé. Nous présentons ici une approche pour la gestion de bases d’ontologies basée sur un modèle comprenant, outre la définition formelle des concepts
(sous forme d’axiomes de logique de description), d’autres éléments descriptifs
(termes, commentaires et arguments), ainsi que leurs liens d’alignement avec
des concepts d’autres ontologies. L’adaptation ou la combinaison d’ontologies
se font grâce à une algèbre comprenant des opérations telles que la sélection, la
projection, l’union ou la jointure d’ontologies. Ces opérations agissent au niveau
des axiomes, des éléments descriptifs et des liens d’alignement.
1
Introduction
L’interconnexion croissante des systèmes d’information, de même que des initiatives telles
que le Web sémantique requièrent la création de nombreuses ontologies pour assurer la cohérence sémantique des opérations. Il devient donc nécessaire de développer des systèmes de
gestion qui permettent non seulement de les stocker mais également de les aligner et de les
combiner pour créer de nouvelles ontologies adaptées à des besoins particuliers, favorisant
ainsi la réutilisation.
Contrairement à une démarche d’intégration où l’on ne cherche à obtenir qu’une seule
ontologie homogénéisée, notre approche s’attache à conserver au sein d’une même base les
différents points de vue (c’est-à-dire les différentes ontologies), mettant ainsi en évidence les
apports de chaque contributeur. Cependant, les outils utilisant des ontologies ont besoin d’ontologies "normales" (mono-point de vue) pour fonctionner. Nous proposons donc un ensemble
d’opérations et laissons le soin aux utilisateurs de les utiliser pour extraire de la base une ontologie "sur mesure", dans un contexte et un but spécifiques.
2
Un modèle de bases d’ontologies
Une ontologie est composée d’un vocabulaire V = VC ∪ VP ∪ VI ∪ VL (contenant les
identifiants de concepts, de propriétés, d’individus (instances de concepts) et les littéraux),
d’un ensemble T d’axiomes terminologiques (TBox) et d’un ensemble A d’annotations (terminologiques et argumentatives). Dans le vocabulaire VP nous distinguerons les propriétés
ontologiques (servant aux définitions) des propriétés d’annotation. Nous ne considérerons pas,
dans cet article, les axiomes assertionnels (ABox).
- 697 -
RNTI-E-11
Une aide à la découverte de mappings dans SomeRDFS
François-Élie Calvier, Chantal Reynaud
LRI, Univ Paris-Sud & INRIA Futurs
4, rue Jacques Monod - Bât. G
91893 Orsay Cedex
[email protected],
[email protected]
http://www.lri.fr/iasi
Résumé. Dans cet article, nous nous intéressons à la découverte de mises en
correspondance entre ontologies distribuées modélisant les connaissances de
pairs du système de gestion de données P2P SomeRDFS. Plus précisément, nous
montrons comment exploiter les mécanismes de raisonnement mis en œuvre
dans SomeRDFS pour aider à découvrir des mappings entre ontologies. Ce travail est réalisé dans le cadre du projet MediaD en partenariat avec France Telecom R&D.
1 Introduction
Nous nous intéressons à la découverte de correspondances, ou mappings, entre ontologies distribuées modélisant les connaissances de pairs du système de gestion de données P2P
(PDMS) SomeRDFS. Un PDMS est un système constitué de pairs autonomes qui communiquent pour répondre collectivement à une requête. Les communications entre pairs s’établissent grâce à des mappings qui définissent des relations sémantiques entre leurs connaissances. Un PDMS est sollicité via l’interrogation d’un des pairs qui pourra ensuite faire appel
aux autres pour répondre. Une spécificité des PDMS est que chaque pair ne connaît que ses
propres connaissances et les mappings le connectant à d’autres pairs. Dans ce cadre, nous
cherchons à augmenter le nombre de mappings de chaque pair afin d’améliorer les réponses
fournies globalement par le système, en quantité et en qualité.
Nous travaillons, dans le cadre du projet MediaD (projet financé par France Telecom
R&D), dont l’objectif est la création d’un environnement déclaratif de construction de systèmes de gestion de données P2P. Ces travaux ont conduit au développement de la plate-forme
SomeRDFS (Adjiman et al., 2006) au sein de laquelle nous situons notre travail.
Nous présenterons dans un premier temps le contexte de notre travail. Nous montrerons
ensuite comment les requêtes des utilisateurs peuvent être exploitées pour identifier des raccourcis de mappings ainsi que des relations cibles à partir desquelles des mises en correspondances intéressantes peuvent être trouvées. Étant données ces relations cibles, nous proposerons alors des techniques basées sur l’interrogation du système pour construire des ensembles
de candidats à un mapping. Nous présenterons ensuite quelques travaux proches. Enfin, nous
conclurons et présenterons quelques perspectives.
- 703 -
RNTI-E-11
Téléchargement