Apache Spark pour développeurs de Cloudera
Formation officielle "Cloudera Developer Training for Apache Spark"
Stage pratique
HADOOP
Code :
CLSPK
Durée :
3 jours (21 heures)
Exposés :
40%
Cas pratiques :
50%
Échanges d'expérience :
10%
Tarif & dates intra :
Sur demande
DESCRIPTION
Cette formation pose les bases du développement avec Apache Spark, tout
en présentant l’écosystème Hadoop dans lequel il s’intègre. Le principal
objectif est la prise en main de cet outil incontournable du paysage du Big
Data ainsi que l’acquisition de notions essentielles relatives à son architecture.
Des éléments de Spark Streaming et Spark SQL sont aussi abordés.
OBJECTIFS PÉDAGOGIQUES
Découvrir et manipuler les principes fondamentaux d’Apache Spark
Découvrir l’environnement Hadoop dans lequel il s’intègre
Explorer les différents cas d’usage et les stratégies de performance
PUBLIC CIBLE
Développeur
Analyste
Architecte
PRÉ-REQUIS
• Expérience en programmation Python, Java ou Scala
• Expérience de la ligne de commande
• Notions sur l’écosystème Hadoop
MÉTHODE PÉDAGOGIQUE
Formation avec apports théoriques, échanges sur les contextes des
participants et retours d’expérience pratique du formateur, complétés de
travaux pratiques et de mises en situation.
PROFILS DES INTERVENANTS
Toutes nos formations sont animées par des consultants-formateurs
expérimentés et reconnus par leurs pairs.
MODALITÉS D’ÉVALUATION
L’évaluation des acquis se fait tout au long de la session au travers des
ateliers et des mises en pratique. Une évaluation à chaud est réalisée
systématiquement en fin de session.
POUR ALLER PLUS LOIN :
• Site internet Cloudera
• Livre blanc "Hadoop, feuille de route"
• Toutes nos formations Hadoop
• Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X
Hortonworks 1" (HDP Operations: Hadoop Administration 1) (HWADM)
• Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X
Hortonworks : niveau avancé" (HDP Administrator: Hadoop Administration 2)
(HWAD2)
• Formation officielle Hortonworks "Administrer la plateforme Hadoop 2.X
Programme formation
Date d'impression : 17/04/2017
academy@octo.com - www.octo.academy - +33 (0)1 70 36 18 67
OCTO Academy est une marque d’OCTO Technology – N° DA 11 75 48 936 75 1
Hortonworks : sécurité" (HDP Operations: Security) (HWADS)
• Formation officielle Hortonworks "Administrer la base de données HBase
avec Hadoop 2.X Hortonworks" (HDP Operations: Apache HBase Advanced
Management) (HWHB2)
• Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X
Hortonworks avec HBase" (HDP Analyst: Apache HBase Essentials) (HWHB1)
• Formation officielle Hortonworks "Analyse de données pour Hadoop 2.X
Hortonworks avec Pig, Hive et Spark" (HDP Developer: Apache Pig and Hive)
(HWAPH)
• Formation officielle Hortonworks "Développer des applications pour
Apache Spark avec Python ou Scala" (HDP Developer: Enterprise Spark 1)
(HWSPK)
• Formation officielle Hortonworks "Développer des applications pour
Hadoop 2.X Hortonworks avec Java" (HDP Developer: Java) (HWJAV)
• Formation officielle Hortonworks "Développer des applications pour YARN
avec Hadoop 2.X Hortonworks" (HDP Developer: Custom YARN Applications)
(HWYAR)
• Toutes nos formations Data Science
• Formation "Fondamentaux de la Data Science" (DSFDX)
• Formation "Data Science : niveau avancé" (DSNVA)
Programme formation "Apache Spark pour développeurs de Cloudera"
Date d'impression : 17/04/2017
academy@octo.com - www.octo.academy - +33 (0)1 70 36 18 67
OCTO Academy est une marque d’OCTO Technology – N° DA 11 75 48 936 75 2
Programme pédagogique détaillé par journée
Jour 1
INTRODUCTION À APACHE SPARK
• Qu’est-ce que Spark ?
• Rappel : de MapReduce à Spark
• Rappel : HDFS
• Rappel : YARN
• Vue d’ensemble de Spark
LES BASES D’APACHE SPARK
• Qu’est-ce que Spark ?
• Utilisation de la console Spark
• RDDs (Resilient Distributed Datasets)
• Programmation fonctionnelle en Spark
• Travaux pratiques
UTILISATION DES RDDS
• Créer des RDDs
• Autres opérations générales sur les RDDs
• Travaux pratiques
AGRÉGER LES DONNÉES À L’AIDE DES PAIR RDDS
• Les Pair RDDs clé-valeur
• MapReduce
• Autres opérations sur les Pair RDDs
• Travaux pratiques
Jour 2
ÉCRIRE ET DÉPLOYER UNE APPLICATION SPARK
• Application VS console Spark
• Créer un Spark Context
• Build d’une application Spark (en Java ou Scala)
• Lancer une application Spark
• L’interface utilisateur web
• Travaux pratiques
• Configurer les propriétés de Spark
• Logging
• Travaux pratiques : configurer une application Spark
TRAITEMENTS PARALLÈLES
• Rappel : Spark sur un cluster
• Partitions d’un RDD
• Partitionnement d’un RDD créé à partir d’un fichier
• HDFS et la colocalité
Programme formation "Apache Spark pour développeurs de Cloudera"
Date d'impression : 17/04/2017
academy@octo.com - www.octo.academy - +33 (0)1 70 36 18 67
OCTO Academy est une marque d’OCTO Technology – N° DA 11 75 48 936 75 3
• Exécuter des traitements parallèles
• Stages et tasks
• Travaux pratiques
PERSISTANCE DES RDDS
• Généalogie des RDDs
• Vue d’ensemble de la persistance d’un RDD
• Persistance distribuée
• Travaux pratiques
BASES DE SPARK STREAMING
• Vue d’ensemble de Spark Streaming
• Exemple : comptage de connexions
• DStream
• Déveloper une application Spark Streaming
• Travaux pratiques
Jour 3
SPARK STREAMING AVANCÉ
• Opérations Multi-Batch
• Opérations avec mémoire (State Operations)
• Fenêtres glissantes
• Sources de données avancées
• Travaux pratiques
PATTERNS CLASSIQUES EN SPARK
• Use cases classiques
• Algorithmes itératifs en Spark
• Analyse de Graphe
• Machine-Learning
• Exemple : k-means
• Travaux pratiques
AMÉLIORATION DES PERFORMANCES
• Variables partagées : broadcast Variable
• Variables partagées : accumulateurs
• Problèmes de performance classiques
• Diagnostiquer les problèmes de performance
• Travaux pratiques
SPARK SQL ET DATAFRAMES
• Spark SQL et le SQL Context
• Créer des dataframes
• Transformer et interroger un dataframe
• Sauvegarder un dataframe
• Lien entre dataframe et RDD
• Comparaison de Spark SQL, Impala et Hive-on-Spark
Programme formation "Apache Spark pour développeurs de Cloudera"
Date d'impression : 17/04/2017
academy@octo.com - www.octo.academy - +33 (0)1 70 36 18 67
OCTO Academy est une marque d’OCTO Technology – N° DA 11 75 48 936 75 4
• Travaux pratiques
Programme formation "Apache Spark pour développeurs de Cloudera"
Date d'impression : 17/04/2017
academy@octo.com - www.octo.academy - +33 (0)1 70 36 18 67
OCTO Academy est une marque d’OCTO Technology – N° DA 11 75 48 936 75 5
1 / 5 100%
La catégorie de ce document est-elle correcte?
Merci pour votre participation!

Faire une suggestion

Avez-vous trouvé des erreurs dans linterface ou les textes ? Ou savez-vous comment améliorer linterface utilisateur de StudyLib ? Nhésitez pas à envoyer vos suggestions. Cest très important pour nous !