Apache Spark pour développeurs de Cloudera

publicité
Programme formation
Date d'impression : 17/04/2017
Apache Spark pour développeurs de Cloudera
Formation officielle "Cloudera Developer Training for Apache Spark"
DESCRIPTION
Cette formation pose les bases du développement avec Apache Spark, tout
en présentant l’écosystème Hadoop dans lequel il s’intègre. Le principal
objectif est la prise en main de cet outil incontournable du paysage du Big
Data ainsi que l’acquisition de notions essentielles relatives à son architecture.
Des éléments de Spark Streaming et Spark SQL sont aussi abordés.
Stage pratique
HADOOP
Code :
CLSPK
OBJECTIFS PÉDAGOGIQUES
Durée :
3 jours (21 heures)
Découvrir et manipuler les principes fondamentaux d’Apache Spark
Découvrir l’environnement Hadoop dans lequel il s’intègre
Explorer les différents cas d’usage et les stratégies de performance
Exposés :
40%
PUBLIC CIBLE
Développeur
Analyste
Architecte
PRÉ-REQUIS
• Expérience en programmation Python, Java ou Scala
• Expérience de la ligne de commande
• Notions sur l’écosystème Hadoop
Cas pratiques :
50%
Échanges d'expérience :
10%
Tarif & dates intra :
Sur demande
MÉTHODE PÉDAGOGIQUE
Formation avec apports théoriques, échanges sur les contextes des
participants et retours d’expérience pratique du formateur, complétés de
travaux pratiques et de mises en situation.
PROFILS DES INTERVENANTS
Toutes nos formations sont animées par des consultants-formateurs
expérimentés et reconnus par leurs pairs.
MODALITÉS D’ÉVALUATION
L’évaluation des acquis se fait tout au long de la session au travers des
ateliers et des mises en pratique. Une évaluation à chaud est réalisée
systématiquement en fin de session.
POUR ALLER PLUS LOIN :
• Site internet Cloudera
• Livre blanc "Hadoop, feuille de route"
• Toutes nos formations Hadoop
• Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X
Hortonworks 1" (HDP Operations: Hadoop Administration 1) (HWADM)
• Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X
Hortonworks : niveau avancé" (HDP Administrator: Hadoop Administration 2)
(HWAD2)
• Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X
[email protected] - www.octo.academy - +33 (0)1 70 36 18 67
OCTO Academy est une marque d’OCTO Technology – N° DA 11 75 48 936 75
1
Programme formation "Apache Spark pour développeurs de Cloudera"
Date d'impression : 17/04/2017
Hortonworks : sécurité" (HDP Operations: Security) (HWADS)
• Formation officielle Hortonworks "Administrer la base de données HBase
avec Hadoop 2.X Hortonworks" (HDP Operations: Apache HBase Advanced
Management) (HWHB2)
• Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X
Hortonworks avec HBase" (HDP Analyst: Apache HBase Essentials) (HWHB1)
• Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X
Hortonworks avec Pig, Hive et Spark" (HDP Developer: Apache Pig and Hive)
(HWAPH)
• Formation officielle Hortonworks "Développer des applications pour
Apache Spark avec Python ou Scala" (HDP Developer: Enterprise Spark 1)
(HWSPK)
• Formation officielle Hortonworks "Développer des applications pour
Hadoop 2.X Hortonworks avec Java" (HDP Developer: Java) (HWJAV)
• Formation officielle Hortonworks "Développer des applications pour YARN
avec Hadoop 2.X Hortonworks" (HDP Developer: Custom YARN Applications)
(HWYAR)
• Toutes nos formations Data Science
• Formation "Fondamentaux de la Data Science" (DSFDX)
• Formation "Data Science : niveau avancé" (DSNVA)
[email protected] - www.octo.academy - +33 (0)1 70 36 18 67
OCTO Academy est une marque d’OCTO Technology – N° DA 11 75 48 936 75
2
Programme formation "Apache Spark pour développeurs de Cloudera"
Date d'impression : 17/04/2017
Programme pédagogique détaillé par journée
Jour 1
INTRODUCTION À APACHE SPARK
•
•
•
•
•
Qu’est-ce que Spark ?
Rappel : de MapReduce à Spark
Rappel : HDFS
Rappel : YARN
Vue d’ensemble de Spark
LES BASES D’APACHE SPARK
•
•
•
•
•
Qu’est-ce que Spark ?
Utilisation de la console Spark
RDDs (Resilient Distributed Datasets)
Programmation fonctionnelle en Spark
Travaux pratiques
UTILISATION DES RDDS
• Créer des RDDs
• Autres opérations générales sur les RDDs
• Travaux pratiques
AGRÉGER LES DONNÉES À L’AIDE DES PAIR RDDS
•
•
•
•
Les Pair RDDs clé-valeur
MapReduce
Autres opérations sur les Pair RDDs
Travaux pratiques
Jour 2
ÉCRIRE ET DÉPLOYER UNE APPLICATION SPARK
•
•
•
•
•
•
•
•
•
Application VS console Spark
Créer un Spark Context
Build d’une application Spark (en Java ou Scala)
Lancer une application Spark
L’interface utilisateur web
Travaux pratiques
Configurer les propriétés de Spark
Logging
Travaux pratiques : configurer une application Spark
TRAITEMENTS PARALLÈLES
•
•
•
•
Rappel : Spark sur un cluster
Partitions d’un RDD
Partitionnement d’un RDD créé à partir d’un fichier
HDFS et la colocalité
[email protected] - www.octo.academy - +33 (0)1 70 36 18 67
OCTO Academy est une marque d’OCTO Technology – N° DA 11 75 48 936 75
3
Programme formation "Apache Spark pour développeurs de Cloudera"
Date d'impression : 17/04/2017
• Exécuter des traitements parallèles
• Stages et tasks
• Travaux pratiques
PERSISTANCE DES RDDS
•
•
•
•
Généalogie des RDDs
Vue d’ensemble de la persistance d’un RDD
Persistance distribuée
Travaux pratiques
BASES DE SPARK STREAMING
•
•
•
•
•
Vue d’ensemble de Spark Streaming
Exemple : comptage de connexions
DStream
Déveloper une application Spark Streaming
Travaux pratiques
Jour 3
SPARK STREAMING AVANCÉ
•
•
•
•
•
Opérations Multi-Batch
Opérations avec mémoire (State Operations)
Fenêtres glissantes
Sources de données avancées
Travaux pratiques
PATTERNS CLASSIQUES EN SPARK
•
•
•
•
•
•
Use cases classiques
Algorithmes itératifs en Spark
Analyse de Graphe
Machine-Learning
Exemple : k-means
Travaux pratiques
AMÉLIORATION DES PERFORMANCES
•
•
•
•
•
Variables partagées : broadcast Variable
Variables partagées : accumulateurs
Problèmes de performance classiques
Diagnostiquer les problèmes de performance
Travaux pratiques
SPARK SQL ET DATAFRAMES
•
•
•
•
•
•
Spark SQL et le SQL Context
Créer des dataframes
Transformer et interroger un dataframe
Sauvegarder un dataframe
Lien entre dataframe et RDD
Comparaison de Spark SQL, Impala et Hive-on-Spark
[email protected] - www.octo.academy - +33 (0)1 70 36 18 67
OCTO Academy est une marque d’OCTO Technology – N° DA 11 75 48 936 75
4
Programme formation "Apache Spark pour développeurs de Cloudera"
Date d'impression : 17/04/2017
• Travaux pratiques
[email protected] - www.octo.academy - +33 (0)1 70 36 18 67
OCTO Academy est une marque d’OCTO Technology – N° DA 11 75 48 936 75
5
Téléchargement