PLDAC
Titre: Requêtes sur les grandes bases de connaissance
Prérequis: avoir suivi l'UE M1-MLBDA.
1) Lire l'article "Spark SQL: Relational Data Processing in Spark", publié à SIGMOD 2015. Disponible
en ligne:
https://amplab.cs.berkeley.edu/wp-content/uploads/2015/03/SparkSQLSigmod2015.pdf
Relire le cours RDF et SPARQL de l'UE MLBDA.
Etude bibliographique sur l’exécution de requêtes SPARQL dans environnement distribué (partir de
l’article suivant : Günes Aluç, M. Tamer Özsu, Khuzaima Daudjee and Olaf Hartig. "Executing Queries
over Schemaless RDF Databases", In Proc. 31st International Conference on Data Engineering, pages
807-818, 2015
2) Proposer une solution pour traduire une requête SPARQL en une expression algébrique. L'algèbre
cible est celle des RDD et contient les opérations filter, map, join, distinct, union, intersect, etc...
3) Proposer une solution pour exécuter un requête SPARQL dans la plateforme Spark.
4) Montrer un cas il est possible d'optimiser la requête SPARQL en générant une expression
algébrique équivalente à celle obtenue en 2) mais qui s'exécute plus rapidement.
Ref: Voir la liste des opérations algébriques dans
http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD
ou
http://spark.apache.org/docs/latest/api/python/pyspark.html?highlight=rdd#pyspark.RDD