Ecole Spark 14-15 mars 2017 Présentation • Tour d’horizon en deux jours intégrant cours et TP sur les principales technologies de l’éco-système Spark • Pré-requis, connaissances attendues – Connaissance du langage python, (le langage Scala sera abordé sans prérequis) – Pratique des environnements Unix (bash) • Organisation de l’école – Deux jours pleins – au LAL (salle d’enseignement 203). – 20 postes Mac => possibilité pour 40 personnes en binôme • Participation de la société Databricks • Souhait de coller au plus près des besoins des équipes scientifiques du projet ERM Programme • Structure et principes de Spark/Hadoop • La programmation fonctionnelle (lambda) – la logique MAPREDUCE • Elements du langage Scala • Les connecteurs Spark pour les différentes structures de données – – – – – Les données textuelles Les bases de données SQL Une base de données noSQL (MongoDB) La structure généraliste : les dataframes Sérialisation avec AVRO • Les outils de pilotage Spark disponibles sur la plateforme Spark/OpenStack – Construction d’une application Spark – Monitoring du cluster Spark – Monitoring des ressources