Introduction à Spark

Formation officielle Databricks unique en Europe

Introduction à Apache Spark

Objectifs

A la fin de la journée les participants seront confortables avec :
  • l'ouverture d'un shell Spark en Scala ou Python;
  • l'utilisation de plusieurs algorithmes de machine learning distribué en pratique;
  • la construction/le déploiement d'un livrable JAR d'une application Spark en Java ou Scala;
  • l'exploration d'un jeu de données chargé depuis HDFS;
  • l'utilisation de Spark SQL, Spark Streaming, et MLLib;
  • la mobilisation des resources disponibles sur Apache Spark pour atteindre un objectif métier;
Les participants repartiront avec une démo complète locale (ou dans le cloud) d'une application Spark ainsi qu'avec les pistes nécessaires pour dépasser le cadre de ce cours d'introduction voire entammer les certifications Spark suivantes.

Méthode pédagogique

La session de formation complète (8 heures) requiert que les participants amènent un ordinateur portable avec accès wifi, le SDK Java 6/7 ou 8 et Python 2.7 d'installé. Il y a aura une utilisation limitée d'Amazon AWS, pour accèder au cluster AWS de l'intervenant, il sera donc nécessaire de pouvoir ouvrir une session SSH depuis l'ordinateur.

La formation commencera le matin par couvrir l'installation et le paramètrage, quelques exercices hands-on, ainsi qu'un survol de l'API et un cours théorique sur Apache Spark.

L'après midi sera dédié au développement logiciel, à l'industrialisation, aux demos, aux études de cas, ainsi qu'à l'étude des sujets avancés et des pistes pour la suite.

Dans sa globalité, la formation correspond à 40% de mise en pratique et 60% de théorie avec une emphase particulière sur comment progresser le plus rapidement possible après la formation.

Au programme

Théorie et installation local

S'approprier les bases théoriques du système, avec un retour sur l'histoire du Big Data de Spark
Installation local de Spark pour le prototypage rapide
Introduction à l'écriture et l'execution de quelques exemples simples d'applications Spark

API et Industrialisation

Utiliser l'API core de Spark en Scala, Java, et Python
Mise en place d'un cycle industriel de développement: build, déploiement et monitoring

Déploiement de Spark

Déploiement de Spark sur un cluster Big Data
Comment diagnostiquer et debugger les problèmes d'une application Spark déployée.

Extensions et eco-systèmes

Combiner la puissance des outils Spark SQL, Machine Learning, et Streaming pour mettre en places des pipelines de données complets.
Tooling: SBT, Maven, IPython Notebook, etc.

Sujets avancés

Etudes des sujets avancés et analyse de la stack complète BDAS (Berkeley Data Analytics Stack)
Etudes de cas pour le déploiement en production
Pistes pour continuer l'apprentissage de Spark

Contactez nous