I) Introduction
Les SGBDR (Systèmes de Gestion de Bases de Données Relationnelles) traditionnels ne permettent
pas de gérer le phénomène du Big data. Les SGBD de type NoSQL sont une solution pour manipuler
ce type de données.
Nous proposons de réaliser une étude de performances de bases de données PostgreSQL fédérées
pour des données NoSQL au moyen d’une interface de gestion de scenarii pour la soumission de
requêtes.
PostgreSQL est actuellement au quatrième rang des bases de données les plus utilisés tous modèles
confondus (http://db-engines.com/en/ranking). Parmi les modèles NoSQL actuels
(http://blog.datagraph.org/2010/04/rdf-nosql-diff) PostgreSQL inclut le modèle clé-valeur (avec
hstore) et le modèle document (avec JSON et JSONB).
Nous souhaitons étudier les performances PostgreSQL sur un jeu de données comparable à celui
mise en œuvre par Limagrain avec MongoDB (BSON), dans le but d’initier d’éventuelles
collaborations de recherche. Cependant la génération de données type Limagrain n’est pas réalisable
en deux mois. C’est pourquoi nous utiliserons une base de données SQL d’analyse pour LSST, le futur
télescope implanté au Chili (http://www.lsst.org/lsst/). Cette base sera convertie au format JSON et
JSONB.
Une étude comparative entre MongoDB et PostgreSQL a été réalisée par EntrepriseDB mais sur un
seul serveur : http://fr.enterprisedb.com/postgres-plus-edb-blog/marc-linster/postgres-
outperforms-mongodb-and-ushers-new-developer-reality. Nous étudierons les performances de
PostgreSQL pour des bases de données de documents en mode fédéré (distribué sur un réseau local
avec une machine médiateur).
Nous orientons donc notre étude sur des requêtes massive en insertion et en lecture en JSONB
disponible depuis la version 9.4 de PostgreSQL (actuellement la dernière version). En ce qui concerne
les connexions distantes sur Ethernet entre la base de données « médiateur » et les bases de
données contenant les données, nous utiliserons SQL/MED et DBLINK.
Dans un premier temps nous testerons la lecture d’une requête contenant des documents JSON avec
SQL/MED. L’interface de gestion de scenarii doit être conçue de manière simple et adaptable.
[Autres études similaires en cours au LIMOS…]