PLDAC Contact : [email protected] Titre: Requêtes sur les grandes bases de connaissance Prérequis: avoir suivi l'UE M1-MLBDA. 1) Lire l'article "Spark SQL: Relational Data Processing in Spark", publié à SIGMOD 2015. Disponible en ligne: https://amplab.cs.berkeley.edu/wp-content/uploads/2015/03/SparkSQLSigmod2015.pdf Relire le cours RDF et SPARQL de l'UE MLBDA. Etude bibliographique sur l’exécution de requêtes SPARQL dans environnement distribué (partir de l’article suivant : Günes Aluç, M. Tamer Özsu, Khuzaima Daudjee and Olaf Hartig. "Executing Queries over Schemaless RDF Databases", In Proc. 31st International Conference on Data Engineering, pages 807-818, 2015 2) Proposer une solution pour traduire une requête SPARQL en une expression algébrique. L'algèbre cible est celle des RDD et contient les opérations filter, map, join, distinct, union, intersect, etc... 3) Proposer une solution pour exécuter un requête SPARQL dans la plateforme Spark. 4) Montrer un cas il est possible d'optimiser la requête SPARQL en générant une expression algébrique équivalente à celle obtenue en 2) mais qui s'exécute plus rapidement. Ref: Voir la liste des opérations algébriques dans http://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD ou http://spark.apache.org/docs/latest/api/python/pyspark.html?highlight=rdd#pyspark.RDD