
 Sommaire 
 
 
Introduction ...............................................................................................................................1 
CHAPITRE 1                                 Etat de l’art........................................................................3 
1. Approches d’intégration --------------------------------------------------------3 
1.1 Les bases de données fédérées......................................................................................3 
1.2 Notre approche .............................................................................................................4 
2. Le langage XML -----------------------------------------------------------------6 
2.1 Définition......................................................................................................................7 
2.2 Modèle de données.......................................................................................................8 
2.3 Mapping XML..............................................................................................................8 
CHAPITRE 2                               Méthodologie.....................................................................10 
1  Modèle conceptuel UML---------------------------------------------------------10 
2. Modèle logique XML-------------------------------------------------------------12 
2 Mise en œuvre -------------------------------------------------------------------13 
3.1  Extraction des attributs.........................................................................................13 
3.2  Génération du fichier XML.......................................................................................13 
CHAPITRE 3                                    Discussion.....................................................................17 
1. Modèle conceptuel ----------------------------------------------------------------17 
2. Implémentation--------------------------------------------------------------------17 
2.1 Traitement des modalités manquantes........................................................................17 
2.2 Traitement des valeurs manquantes............................................................................18 
2.4 Amélioration du traitement du texte...........................................................................18 
Conclusions et Perspectives.....................................................................................................20 
1. Bilan--------------------------------------------------------------------------------- 20 
2. Perspectives ----------------------------------------------------------------------- 20 
Références................................................................................................................................21 
Bibliographie............................................................................................................................23 
 
 
 
 
 
 
 
 
1 
 Introduction 
 
 
L’évolution du commerce électronique a poussé les grandes entreprises à capitaliser leurs 
données au sein de grandes bases de données ou d’entrepôts de données. Cette  modélisation 
centralisée permet, en utilisant les outils OLAP et/ou des techniques d’extraction de 
connaissances à partir des données (ECD), d’analyser, de comprendre et de prédire le 
comportement des clients et l’évolution des ventes de leurs produits par exemple. La 
connaissance extraite à l’aide de ces techniques d’analyses constitue un support pour l’aide à 
la décision. 
Nous appelons ces bases de données dédiées à l’aide à la décision «les bases de données 
décisionnelles» (BDD). La phase de gestion de données dans une base de données 
décisionnelle consiste à alimenter en premier lieu la base par des données provenant de 
différentes sources et, en second lieu, à créer des espaces d’analyses (cubes 
multidimensionnels, tableaux, vues relationnelles, magasins de données) en agrégeant des 
attributs. 
L’application d’algorithmes de data mining et d’outils OLAP se fait généralement sur des 
données bien structurées (cubes multidimensionnels, tableaux, vues relationnelles). Or les 
bases de données décisionnelles peuvent nécessiter des données externes. Par exemple, une 
entreprise souhaitant faire de la vaille concurrentielle ne peut pas se contenter d’analyser 
uniquement ses propres bases de production. Dans ce contexte, le Web est une source de 
données prépondérante. 
Néanmoins, comme les données diffusées sur ce médium sont hétérogènes cela rend leur 
intégration dans une BDD difficile. Pourtant, les concepts d’entreposage de données [CHA97] 
demeurent valides dans cette approche. Les mesures, bien que pas nécessairement 
numériques, restent les indicateurs pour l’analyse, qui est toujours appliqué selon différentes 
perspectives représentées par les dimensions. Les gros volumes de données considérés et leur 
historisation sont d’autres arguments en faveur de cette approche [KIM00a]. 
Notre objectif est d’utiliser le Web comme une source de données à part entière pour les 
BDD, de façon transparente. Cela soulève plusieurs problèmes: 
•  Structuration de données multiformes en provenance du Web (bases de données, 
textes, données multimédia, données structurées)dans une base de données; 
•  Intégration de ces données dans l’architecture particulière d’un entrepôt de données 
(Faits, dimensions, magasins,…); 
•  Réorganisation physique des données pour l’optimisation des performances des 
requêtes. 
Notre travail concerne le premier point. Nous proposons un modèle de données unifié pour un 
objet complexe représentant une super classe des données multiformes que nous souhaitons 
intégrer dans une BDD. Notre objectif n’est pas seulement de stocker des données, mais aussi 
de les préparer véritablement à l’analyse. En ce sens, ce n’est pas une simple tâche d’ETL 
(Extraction, Transforming and Loading).