Programme formation Date d'impression : 17/04/2017 Apache Spark pour développeurs de Cloudera Formation officielle "Cloudera Developer Training for Apache Spark" DESCRIPTION Cette formation pose les bases du développement avec Apache Spark, tout en présentant l’écosystème Hadoop dans lequel il s’intègre. Le principal objectif est la prise en main de cet outil incontournable du paysage du Big Data ainsi que l’acquisition de notions essentielles relatives à son architecture. Des éléments de Spark Streaming et Spark SQL sont aussi abordés. Stage pratique HADOOP Code : CLSPK OBJECTIFS PÉDAGOGIQUES Durée : 3 jours (21 heures) Découvrir et manipuler les principes fondamentaux d’Apache Spark Découvrir l’environnement Hadoop dans lequel il s’intègre Explorer les différents cas d’usage et les stratégies de performance Exposés : 40% PUBLIC CIBLE Développeur Analyste Architecte PRÉ-REQUIS • Expérience en programmation Python, Java ou Scala • Expérience de la ligne de commande • Notions sur l’écosystème Hadoop Cas pratiques : 50% Échanges d'expérience : 10% Tarif & dates intra : Sur demande MÉTHODE PÉDAGOGIQUE Formation avec apports théoriques, échanges sur les contextes des participants et retours d’expérience pratique du formateur, complétés de travaux pratiques et de mises en situation. PROFILS DES INTERVENANTS Toutes nos formations sont animées par des consultants-formateurs expérimentés et reconnus par leurs pairs. MODALITÉS D’ÉVALUATION L’évaluation des acquis se fait tout au long de la session au travers des ateliers et des mises en pratique. Une évaluation à chaud est réalisée systématiquement en fin de session. POUR ALLER PLUS LOIN : • Site internet Cloudera • Livre blanc "Hadoop, feuille de route" • Toutes nos formations Hadoop • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks 1" (HDP Operations: Hadoop Administration 1) (HWADM) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X Hortonworks : niveau avancé" (HDP Administrator: Hadoop Administration 2) (HWAD2) • Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X [email protected] - www.octo.academy - +33 (0)1 70 36 18 67 OCTO Academy est une marque d’OCTO Technology – N° DA 11 75 48 936 75 1 Programme formation "Apache Spark pour développeurs de Cloudera" Date d'impression : 17/04/2017 Hortonworks : sécurité" (HDP Operations: Security) (HWADS) • Formation officielle Hortonworks "Administrer la base de données HBase avec Hadoop 2.X Hortonworks" (HDP Operations: Apache HBase Advanced Management) (HWHB2) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec HBase" (HDP Analyst: Apache HBase Essentials) (HWHB1) • Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X Hortonworks avec Pig, Hive et Spark" (HDP Developer: Apache Pig and Hive) (HWAPH) • Formation officielle Hortonworks "Développer des applications pour Apache Spark avec Python ou Scala" (HDP Developer: Enterprise Spark 1) (HWSPK) • Formation officielle Hortonworks "Développer des applications pour Hadoop 2.X Hortonworks avec Java" (HDP Developer: Java) (HWJAV) • Formation officielle Hortonworks "Développer des applications pour YARN avec Hadoop 2.X Hortonworks" (HDP Developer: Custom YARN Applications) (HWYAR) • Toutes nos formations Data Science • Formation "Fondamentaux de la Data Science" (DSFDX) • Formation "Data Science : niveau avancé" (DSNVA) [email protected] - www.octo.academy - +33 (0)1 70 36 18 67 OCTO Academy est une marque d’OCTO Technology – N° DA 11 75 48 936 75 2 Programme formation "Apache Spark pour développeurs de Cloudera" Date d'impression : 17/04/2017 Programme pédagogique détaillé par journée Jour 1 INTRODUCTION À APACHE SPARK • • • • • Qu’est-ce que Spark ? Rappel : de MapReduce à Spark Rappel : HDFS Rappel : YARN Vue d’ensemble de Spark LES BASES D’APACHE SPARK • • • • • Qu’est-ce que Spark ? Utilisation de la console Spark RDDs (Resilient Distributed Datasets) Programmation fonctionnelle en Spark Travaux pratiques UTILISATION DES RDDS • Créer des RDDs • Autres opérations générales sur les RDDs • Travaux pratiques AGRÉGER LES DONNÉES À L’AIDE DES PAIR RDDS • • • • Les Pair RDDs clé-valeur MapReduce Autres opérations sur les Pair RDDs Travaux pratiques Jour 2 ÉCRIRE ET DÉPLOYER UNE APPLICATION SPARK • • • • • • • • • Application VS console Spark Créer un Spark Context Build d’une application Spark (en Java ou Scala) Lancer une application Spark L’interface utilisateur web Travaux pratiques Configurer les propriétés de Spark Logging Travaux pratiques : configurer une application Spark TRAITEMENTS PARALLÈLES • • • • Rappel : Spark sur un cluster Partitions d’un RDD Partitionnement d’un RDD créé à partir d’un fichier HDFS et la colocalité [email protected] - www.octo.academy - +33 (0)1 70 36 18 67 OCTO Academy est une marque d’OCTO Technology – N° DA 11 75 48 936 75 3 Programme formation "Apache Spark pour développeurs de Cloudera" Date d'impression : 17/04/2017 • Exécuter des traitements parallèles • Stages et tasks • Travaux pratiques PERSISTANCE DES RDDS • • • • Généalogie des RDDs Vue d’ensemble de la persistance d’un RDD Persistance distribuée Travaux pratiques BASES DE SPARK STREAMING • • • • • Vue d’ensemble de Spark Streaming Exemple : comptage de connexions DStream Déveloper une application Spark Streaming Travaux pratiques Jour 3 SPARK STREAMING AVANCÉ • • • • • Opérations Multi-Batch Opérations avec mémoire (State Operations) Fenêtres glissantes Sources de données avancées Travaux pratiques PATTERNS CLASSIQUES EN SPARK • • • • • • Use cases classiques Algorithmes itératifs en Spark Analyse de Graphe Machine-Learning Exemple : k-means Travaux pratiques AMÉLIORATION DES PERFORMANCES • • • • • Variables partagées : broadcast Variable Variables partagées : accumulateurs Problèmes de performance classiques Diagnostiquer les problèmes de performance Travaux pratiques SPARK SQL ET DATAFRAMES • • • • • • Spark SQL et le SQL Context Créer des dataframes Transformer et interroger un dataframe Sauvegarder un dataframe Lien entre dataframe et RDD Comparaison de Spark SQL, Impala et Hive-on-Spark [email protected] - www.octo.academy - +33 (0)1 70 36 18 67 OCTO Academy est une marque d’OCTO Technology – N° DA 11 75 48 936 75 4 Programme formation "Apache Spark pour développeurs de Cloudera" Date d'impression : 17/04/2017 • Travaux pratiques [email protected] - www.octo.academy - +33 (0)1 70 36 18 67 OCTO Academy est une marque d’OCTO Technology – N° DA 11 75 48 936 75 5