L’ émergence de nombreuses sources de données ouvertes (Open Data) a encouragé la
communauté scientifique ainsi que les entreprises à développer des outils permettant
leur exploitation. En effet, les données statistiques présentes dans les Open Data constituent
très souvent des informations précieuses dans un système d’aide à la décision. L’intégration
de ces données dans un entrepôt, qui constitue l’espace de stockage d’un système décision-
nel, se fait à travers des processus d’Extraction, Transformation et Loading (ETL). Ceux-ci
demandent une expertise et s’avèrent également chronophage ce qui ralentit la mise en place
d’un entrepôt de données. A l’ère de l’information décisionnelle ouverte (Open BI ou self-
service BI), les utilisateurs souhaitent de plus en plus intégrer et analyser eux-mêmes les
données sans l’aide d’experts. Les processus ETL classiques sont ainsi remis en cause.
Pour intégrer les données ouvertes, les processus ETL font face à plusieurs problèmes :
– Les données ouvertes sont très hétérogènes structurellement et sont très souvent pré-
sentées sous forme tabulaire, représentation visuelle très utilisée.
– Les sources tabulaires n’ont pas de schémas, ce qui remet en cause l’approche classique
des ETL où le schéma des sources est toujours disponible.
– Les données ouvertes sont rarement significatives individuellement; il est générale-
ment plus intéressant de croiser plusieurs sources.
– Les données ouvertes sont dispersées et proviennent de plusieurs fournisseurs, ce qui
aboutit à une forte hétérogénéité sémantique en particulier dans les vocabulaires uti-
lisés.
Pour répondre à ces problématiques, nous proposons une démarche ETL permettant
d’automatiser le plus possible l’entreposage des données ouvertes tabulaires. Cette dé-
marche comprend trois étapes basées sur une représentation commune des données en
graphes.
La première étape permet de découvrir le contenu des sources tabulaires et l’extraction
de leurs schémas. Nous définissons un modèle de représentation des données tabulaires sur
lequel nous nous appuyons pour la détection et l’annotation automatique des composants.
Nous nous sommes également focalisés sur la découverte de relations hiérarchiques entre
les données pour faciliter l’obtention de hiérarchies dans le schéma multidimensionnel de
l’entrepôt. Nos propositions permettent de remédier au problème d’hétérogénéité structu-
relle et d’absence de schéma grâce à un modèle de tableau commun et générique. A l’issue
de cette étape chaque source de données ouvertes est modélisée par un graphe annoté.
La deuxième étape consiste à intégrer simultanément et automatiquement plusieurs
graphes. Cette intégration simultanée, appelée intégration holistique, automatise la phase
de transformation des données dans le processus ETL. Nous proposons une nouvelle modé-
lisation, sous la forme d’un programme linéaire, qui permet d’inférer plusieurs contraintes