PLDAC
Contact : Hubert.Naack[email protected]
Titre: Requêtes sur les grandes bases de connaissance
Prérequis: avoir suivi l'UE M1-MLBDA.
1) Lire l'article "Spark SQL: Relational Data Processing in Spark", publié à SIGMOD 2015. Disponible
en ligne:
https://amplab.cs.berkeley.edu/wp-content/uploads/2015/03/SparkSQLSigmod2015.pdf
Relire le cours RDF et SPARQL de l'UE MLBDA.
Etude bibliographique sur l’exécution de requêtes SPARQL dans environnement distribué (partir de
l’article suivant : Günes Aluç, M. Tamer Özsu, Khuzaima Daudjee and Olaf Hartig. "Executing Queries
over Schemaless RDF Databases", In Proc. 31st International Conference on Data Engineering, pages
807-818, 2015
2) Proposer une solution pour traduire une requête SPARQL en une expression algébrique. L'algèbre
cible est celle des RDD et contient les opérations filter, map, join, distinct, union, intersect, etc...
3) Proposer une solution pour exécuter un requête SPARQL dans la plateforme Spark.
4) Montrer un cas il est possible d'optimiser la requête SPARQL en générant une expression
algébrique équivalente à celle obtenue en 2) mais qui s'exécute plus rapidement.
Ref: Voir la liste des opérations algébriques dans
http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD
ou
http://spark.apache.org/docs/latest/api/python/pyspark.html?highlight=rdd#pyspark.RDD
1 / 1 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !