Avant-propos:
Troisième atelier "Fouille de Données Complexes dans un
processus d’extraction des connaissances"
1 Présentation
L’atelier sur la fouille de données complexes dans un processus d’extraction de connais-
sances est organisé à l’instigation du groupe de travail “Fouilles de Données Complexes” GT
FDC et s’inscrit dans le cadre de la conférence EGC. Cet atelier se veut être un lieu de ren-
contre annuel où chercheurs/industriels peuvent partager leurs expériences et expertises dans le
domaine de la fouille de données. L’atelier se veut ouvert en terme de propositions. On pourra
y présenter aussi bien un travail abouti, des réflexions sur la fouille de données complexes ou
un travail préliminaire (qui présentera davantage un problème qu’une solution). Enfin, les dis-
cussions sur les liens entre différentes disciplines sont également bienvenues.
Les deux premières éditions de cet atelier au sein des deux précédentes conférences EGC
(2004 à Clermont-Ferrand et 2005 à Paris) furent une réelle réussite, accueillant des cher-
cheurs/doctorants représentant plus de 30 laboratoires francophones différents. Ils auront per-
mis d’avancer sur la compréhension de la complexité d’un processus d’extraction de connais-
sances à partir de bases de données et d’initier de nouveaux échanges scientifiques entre cher-
cheurs.
La troisième édition de cet atelier a lieu dans le cadre de EGC06 (Lille) et est constitué
de seize exposés scientifiques (13 articles longs, 2 courts et 1 poster). Les articles retenus ont
fait l’objet de rapports de lecture dans le double but d’améliorer leur qualité et de donner des
conseils aux auteurs. Une place privilégiée a été accordée aux jeunes chercheurs et à la pré-
sentation des travaux en cours dans les différentes équipes. Cela peut être l’occasion pour un
doctorant de présenter son projet de recherche. Cette partie est particulièrement importante
pour les travaux qui commencent et pour la mise en place de groupes de recherche sur des
thèmes partagés.
Dans cette troisième édition, on note de nombreux travaux sur trois thèmes principalement,
deux relatifs à la fouille de données (classification, approches hybrides) et un plus orienté sur
le prétraitement de données complexes
Classification non supervisée d’objets complexes : citons la pondération des attributs
des objets, la prise en compte d’objets incomplètement définis, la classification de flots
de séquences, la classification d’images, la fusion de classifieurs, la classification de
données Web en commerce électronique.
Approches hybrides en fouille de données complexes : classification en vue d’une extrac-
tion de motifs séquentiels dans les data streams, classification en pré-traitement en vue
d’extraire des motifs séquentiels de faible support, approche multi agent pour améliorer
la classification et enfin approche RàPC pour la classification.
Pré-traitement d’objets complexes : il est à noter cette année de nombreux articles sur
la prise en compte de connaissances hétérogènes, de connaissances voire d’ontologies
dans la constitution d’entrepots de données, dans le pré-traitement en vue de faciliter la
fouille de données ainsi que l’interpétation des résultats.
Une discussion sur cette troisième édition de l’atelier est prévue en fin de journée.
2 Quelques mots sur la fouille de données complexes
Dans tous les domaines, les données à traiter pour y extraire de la connaissance utilisable
sont de plus en plus complexes et volumineuses. Ainsi est-on amené à devoir manipuler des
données : Souvent peu ou non structurées; Issues de plusieurs sources comme des capteurs
ou sources physiques d’informations variées; Représentant la même information à des dates
différentes; Regroupant différents types d’informations (images, textes, video, son,...); ou re-
groupant encore des données de différentes natures (logs, contenu de documents, connais-
sances/ontologies, etc.). Aussi la fouille de données complexes ne doit plus être considérée
comme un processus isolé mais davantage comme une des étapes du processus plus général
d’extraction de connaissances à partir de données (ECD). En effet, les difficultés liées à la com-
plexité des données se répercutent sur toutes les étapes du processus d’ECD : avant d’appliquer
des techniques de fouille dans les données complexes, ces dernières nécessitent un travail pré-
paratoire (principalement de structuration et d’organisation de ces données complexes). Paral-
lèlement, de nouvelles méthodes de fouille (classification, catégorisation, recherche de motifs
fréquents, etc.) doivent également être définies dans ce contexte de la complexité des don-
nées. Enfin la notion d’utilité des paradigmes extraits (anticiper la pertinence des résultats de
la fouille) est également un problème à étudier.
Les thèmes liés à la fouille de données complexes peuvent donc comprendre :
Pré-traitement, structuration et organisation de données complexes;
Données inférées, Modélisation guidée par les résultats,
Enrichissement des données, Sélection, nettoyage des données, codage, transforma-
tion des données, ETL (Extracting, Transforming and Loading);
Cubes de données pour la fouille des données;
OLAP et fouille de données;
Intégration des données complexes;
Modélisation des données complexes et XML;
– Métadonnées;
Espaces de représentation des données complexes;
Fusion de données;
Processus et méthodes de fouille de données complexes;
Evaluation des méthodes actuelles;
Proposition d’approches nouvelles (par exemple hybrides ou multi-stratégies);
Sélection de sources des données et d’attributs;
Utilisation de relations spatiales ou temporelles entre les données;
Utilisation de connaissances du domaine pour optimiser l’extraction;
– Post-traitement;
Visualisation et aide à l’interprétation des résultats ;
Validation des motifs extraits;
Mise à jour des connaissances;
Rôle des Connaissances, Ontologies, Méta données en ECD complexe;
Utilisation de connaissances du domaine analysé;
Utilisation de connaissances du domaine de l’analyste;
Rôle des Métadonnées dans un processus global ECD;
Aide à la réutilisation d’un processus ECD, Web sémantique en ECD;
Retours d’expériences (Web, sciences du vivant) etc.
3 Responsables
Boussaid Omar Trousse Brigitte
(Laboratoire ERIC, Lyon) (Equipe-Projet Axis, Inria Sophia-Antipolis )
email : omar.boussaid@univ-Lyon2.fr email : [email protected]
Tel : 04 78 77 23 77 Tel : 04 92 38 77 45
4 Comité de lecture
Le comité de lecture est composé de membres du GT "Fouilles de Données Complexes" et
d’experts du domaine.
Aufaure Marie-Aude (SUPELEC) Bentayeb F. (ERIC)
Bouet Marinette (LIMOS) Boussaid Omar (ERIC)
Briand Henri (IRIN) Collard Martine (I3S)
Darmont Jérome (ERIC) Djeraba Chabane (LIFL)
Elfaouzi Nour-eddin (Inrets) Fertil Bernard (IMED)
Gancarski Pierre (LSIIT) Gallinari Patrick (LIP6)
Hacid Mohand-Said (LIRIS) Jomier Genevie‘ve (Lasmade)
Lechevallier Yves (INRIA) Martin Arnaud (ENSIETA)
Masséglia Florent (INRIA) Morin Annie (IRISA)
Napoli Amedeo (LORIA) Nugier Sylvaine (EDF)
Petit Jean-Marc (LIMOS) Poncelet Pascal (LGI2P)
Saidi-Glandus Alexandre (LIRIS Sheeren David (LSIIT)
Teisseire Maguelonne (LIRMM) Trousse Brigitte (INRIA)
Vrain Christel (LIFO) Wemmert Cedric (LSIIT)
Zeitouni Karine (PRISM) Zighed Djamel (ERIC)
5 Remerciements
Les responsables de l’atelier tiennent à remercier chaleureusement :
les auteurs pour la qualité de leurs contributions,
les membres du comité de lecture pour leur travail indispensable à la qualité de cet atelier
Sophie Honnorat pour son aide précieuse dans la constitution des actes de l’atelier ainsi
que Sergiu Chelcea pour son soutien au niveau informatique,
Philippe Preux et Fatima Belkouche, responsables des ateliers pour EGC 2006 pour leur
gentillesse,
Chabane Djeraba, président du comité d’organisation d’EGC 2006 de nous accueillir à
Lille.
PROGRAMME
Le 17 janvier 2006
8h30-9h Accueil
9h-9h10 Présentation de l’atelier
9h10-10h30 Fouille de données complexes : classification
Trois stratégies d’évolution pour la pondération automatique d’attributs en
classification non supervisée d’objets complexes
Pierre Gançarski, Alexandre Blansché (LSIIT-AFD, Univ. Strasbourg – Illkirch)
Evaluation d’une approche probabiliste pour le classement d’objets incomplètement
connus dans un arbre de décision
Lamis Hawarah, Ana Simonet, Michel Simonet (TIMC-IN3S – La Tronche)
LSA : les limites d’une approche statistique
Mathieu Roche, Jacques Chauché (LIRMM – Montpellier)
Fouille d’images IRMf : alogirthme CURE
Jerzy Korczak, Aurélie Bertaux (LSIIT, Univ. Strasbourg – Illkirch)
10h30-11h Pause
11h-11h20 Fouille de données complexes : classification (suite)
Estimation et fusion des temps de parcours routiers par la théorie de l’évidence
Eric Lefevre (LGI2A, Univ. Artois -Béthune),
Nour-Eddin El Faouzi (LICIT INRETS-ENTPE – Bron)
1 / 185 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !