Sommaire
Introduction ...............................................................................................................................1
CHAPITRE 1 Etat de l’art........................................................................3
1. Approches d’intégration --------------------------------------------------------3
1.1 Les bases de données fédérées......................................................................................3
1.2 Notre approche .............................................................................................................4
2. Le langage XML -----------------------------------------------------------------6
2.1 Définition......................................................................................................................7
2.2 Modèle de données.......................................................................................................8
2.3 Mapping XML..............................................................................................................8
CHAPITRE 2 Méthodologie.....................................................................10
1 Modèle conceptuel UML---------------------------------------------------------10
2. Modèle logique XML-------------------------------------------------------------12
2 Mise en œuvre -------------------------------------------------------------------13
3.1 Extraction des attributs.........................................................................................13
3.2 Génération du fichier XML.......................................................................................13
CHAPITRE 3 Discussion.....................................................................17
1. Modèle conceptuel ----------------------------------------------------------------17
2. Implémentation--------------------------------------------------------------------17
2.1 Traitement des modalités manquantes........................................................................17
2.2 Traitement des valeurs manquantes............................................................................18
2.4 Amélioration du traitement du texte...........................................................................18
Conclusions et Perspectives.....................................................................................................20
1. Bilan--------------------------------------------------------------------------------- 20
2. Perspectives ----------------------------------------------------------------------- 20
Références................................................................................................................................21
Bibliographie............................................................................................................................23
1
Introduction
L’évolution du commerce électronique a poussé les grandes entreprises à capitaliser leurs
données au sein de grandes bases de données ou d’entrepôts de données. Cette modélisation
centralisée permet, en utilisant les outils OLAP et/ou des techniques d’extraction de
connaissances à partir des données (ECD), d’analyser, de comprendre et de prédire le
comportement des clients et l’évolution des ventes de leurs produits par exemple. La
connaissance extraite à l’aide de ces techniques d’analyses constitue un support pour l’aide à
la décision.
Nous appelons ces bases de données dédiées à l’aide à la décision «les bases de données
décisionnelles» (BDD). La phase de gestion de données dans une base de données
décisionnelle consiste à alimenter en premier lieu la base par des données provenant de
différentes sources et, en second lieu, à créer des espaces d’analyses (cubes
multidimensionnels, tableaux, vues relationnelles, magasins de données) en agrégeant des
attributs.
L’application d’algorithmes de data mining et d’outils OLAP se fait généralement sur des
données bien structurées (cubes multidimensionnels, tableaux, vues relationnelles). Or les
bases de données décisionnelles peuvent nécessiter des données externes. Par exemple, une
entreprise souhaitant faire de la vaille concurrentielle ne peut pas se contenter d’analyser
uniquement ses propres bases de production. Dans ce contexte, le Web est une source de
données prépondérante.
Néanmoins, comme les données diffusées sur ce médium sont hétérogènes cela rend leur
intégration dans une BDD difficile. Pourtant, les concepts d’entreposage de données [CHA97]
demeurent valides dans cette approche. Les mesures, bien que pas nécessairement
numériques, restent les indicateurs pour l’analyse, qui est toujours appliqué selon différentes
perspectives représentées par les dimensions. Les gros volumes de données considérés et leur
historisation sont d’autres arguments en faveur de cette approche [KIM00a].
Notre objectif est d’utiliser le Web comme une source de données à part entière pour les
BDD, de façon transparente. Cela soulève plusieurs problèmes:
• Structuration de données multiformes en provenance du Web (bases de données,
textes, données multimédia, données structurées)dans une base de données;
• Intégration de ces données dans l’architecture particulière d’un entrepôt de données
(Faits, dimensions, magasins,…);
• Réorganisation physique des données pour l’optimisation des performances des
requêtes.
Notre travail concerne le premier point. Nous proposons un modèle de données unifié pour un
objet complexe représentant une super classe des données multiformes que nous souhaitons
intégrer dans une BDD. Notre objectif n’est pas seulement de stocker des données, mais aussi
de les préparer véritablement à l’analyse. En ce sens, ce n’est pas une simple tâche d’ETL
(Extraction, Transforming and Loading).