THÈSE DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Imen MEGDICHE Ep BOUSARSAR

THÈSE
THÈSE
En vue de l’obtention du
DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE
Délivré par : l’Université Toulouse 3 Paul Sabatier (UT3 Paul Sabatier)
Présentée et soutenue le 10/12/2015 par :
Intégration holistique et entreposage automatique des données ouvertes
JURY
Jacky AKOKA Professeur, CNAM Examinateur
Alain BERRO Maître de conférence, Université Toulouse 1 Co-directeur
Jérôme DARMONT Professeur, Université Lyon 2 Rapporteur
Bernard ESPINASSE Professeur, Université Aix-Marseille Rapporteur
François PINET Directeur de Recherche, Irstea Clermont-Ferrand Président de jury
Franck RAVAT Professeur, Université Toulouse 1 Examinateur
Olivier TESTE Professeur, Université Toulouse 2 Directeur
Gilles ZURFLUH Professeur, Université Toulouse 1 Examinateur
École doctorale et spécialité :
MITT : Domaine STIC : Réseaux, Télécoms, Systèmes et Architecture
Unité de Recherche :
Institut de Recherche en Informatique de Toulouse (UMR 5505)
Directeur(s) de Thèse :
Olivier TESTE et Alain BERRO
Rapporteurs :
Jérôme DARMONT et Bernard ESPINASSE
L émergence de nombreuses sources de données ouvertes (Open Data) a encouragé la
communauté scientifique ainsi que les entreprises à développer des outils permettant
leur exploitation. En effet, les données statistiques présentes dans les Open Data constituent
très souvent des informations précieuses dans un système d’aide à la décision. L’intégration
de ces données dans un entrepôt, qui constitue l’espace de stockage d’un système décision-
nel, se fait à travers des processus d’Extraction, Transformation et Loading (ETL). Ceux-ci
demandent une expertise et s’avèrent également chronophage ce qui ralentit la mise en place
d’un entrepôt de données. A l’ère de l’information décisionnelle ouverte (Open BI ou self-
service BI), les utilisateurs souhaitent de plus en plus intégrer et analyser eux-mêmes les
données sans l’aide d’experts. Les processus ETL classiques sont ainsi remis en cause.
Pour intégrer les données ouvertes, les processus ETL font face à plusieurs problèmes :
Les données ouvertes sont très hétérogènes structurellement et sont très souvent pré-
sentées sous forme tabulaire, représentation visuelle très utilisée.
Les sources tabulaires n’ont pas de schémas, ce qui remet en cause l’approche classique
des ETL où le schéma des sources est toujours disponible.
Les données ouvertes sont rarement significatives individuellement; il est générale-
ment plus intéressant de croiser plusieurs sources.
Les données ouvertes sont dispersées et proviennent de plusieurs fournisseurs, ce qui
aboutit à une forte hétérogénéité sémantique en particulier dans les vocabulaires uti-
lisés.
Pour répondre à ces problématiques, nous proposons une démarche ETL permettant
d’automatiser le plus possible l’entreposage des données ouvertes tabulaires. Cette dé-
marche comprend trois étapes basées sur une représentation commune des données en
graphes.
La première étape permet de découvrir le contenu des sources tabulaires et l’extraction
de leurs schémas. Nous définissons un modèle de représentation des données tabulaires sur
lequel nous nous appuyons pour la détection et l’annotation automatique des composants.
Nous nous sommes également focalisés sur la découverte de relations hiérarchiques entre
les données pour faciliter l’obtention de hiérarchies dans le schéma multidimensionnel de
l’entrepôt. Nos propositions permettent de remédier au problème d’hétérogénéité structu-
relle et d’absence de schéma grâce à un modèle de tableau commun et générique. A l’issue
de cette étape chaque source de données ouvertes est modélisée par un graphe annoté.
La deuxième étape consiste à intégrer simultanément et automatiquement plusieurs
graphes. Cette intégration simultanée, appelée intégration holistique, automatise la phase
de transformation des données dans le processus ETL. Nous proposons une nouvelle modé-
lisation, sous la forme d’un programme linéaire, qui permet d’inférer plusieurs contraintes
sur la structure des graphes et sur le type de correspondances recherchées. Nous répon-
dons au problème d’hétérogénéité sémantique en combinant plusieurs mesures de simila-
rité. Notre modèle met l’accent sur la structure hiérarchique des graphes intégrés afin de
préparer et faciliter la découverte de schémas multidimensionnels de l’entrepôt.
La troisième étape permet de définir le schéma multidimensionnel pour l’alimentation
d’un entrepôt de données. Parallèlement le graphe intégré est augmenté par des annotations
multidimensionnelles.
Pour valider nos propositions, nous avons développé un prototype couvrant chaque
étape et nous avons évalué expérimentalement l’efficacité de ces propositions. La détec-
tion du contenu des tableaux a été évaluée sur des données ouvertes disponibles sur
data.gouv.fr et la proposition d’intégration holistique a été évaluée sur la qualité des cor-
respondances en l’appliquant sur deux bancs d’essais de référence [Melnik et al., 2002]
[Duchateau et Bellahsene, 2014].
THE emergence of several Open Data, rich in information, urges the scientific commu-
nity as well as corporates to develop tools allowing their exploitation. The statistics
present into tabular Open Data are very useful for decision support systems (DSS). Their
integration in a data warehouse, which is the storage space in DSS, is achieved through Ex-
traction, Transformation and Loading (ETL) processes. These later require an expertise and
turn out expensive, what slows down the implementation of data warehouses. In the ear of
open business intelligence (Open BI or Self-service BI), users expect to integrate and analyse
themselves data without experts assistance, hence classical ETL processes are called into
question.
ETL processes have to deal with several problems spanned by the integration of tabular
Open Data :
Open Data are structurally heterogeneous and they are often presented in tables.
Tabular Open Data lack schemes, which shakes classical ETL processes where schemes
are always available.
Open Data are rarely significant individually so it is more interesting to cross several
sources.
Open Data are scattered over several suppliers leading to a highly semantic heteroge-
neity.
To meet these issues, we propose a new ETL approach automating as much as possible
the warehousing of tabular Open Data. This approach encompasses three steps based on a
common representation of data in graphs.
The first step is about discovering the contents of tabular sources and the extraction of
their schemes. We define a table model which supports several automatic activities detec-
ting the table components. We also focused on the discovery of hierarchical relationships
between the data in order to prepare hierarchies of the multidimensional schema of the
data warehouse. The results of the detection activities are transformed into a graph. Our
propositions lead to a homogenous and common representation of data which resolves the
problems of structural heterogeneity and lack of schema.
The second step consists of integrating simultaneously and automatically several graphs.
This is known as holistic integration which is able to automate the transformation phase of
the ETL process. We propose a new linear program encompassing different constraints on
the graph structure and the tuning of correspondences. This model emphasizes the hierar-
chical structure of the integrated graphs in order to facilitate the discovery of the multidi-
mensional schema. We combine also several similarity measures to face out the problem
of semantic heterogeneity. The third step is devoted to the definition of the multidimensio-
nal schema of the data warehouse. At the same time, the integrated graph is increased by
1 / 200 100%

THÈSE DOCTORAT DE L’UNIVERSITÉ DE TOULOUSE Imen MEGDICHE Ep BOUSARSAR

La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !