Talend Big Data Advanced – Spark

Cette formation traite des Jobs Talend développés avec le framework Spark, et couvre les deux modes de fonctionnement des Jobs : batch et streaming.

Duration1 jour (7 heures)
Target audience Développeur souhaitant utiliser le Studio Talend pour interagir avec les systèmes Big Data
PrerequisitesAvoir suivi les formations Talend Data Integration Basics et Talend Big Data Basics
Course objectives

À l’issue de cette formation, vous pourrez :

  • Vous connecter à un cluster Hadoop depuis un Job Talend
  • Utiliser des variables de contextes et des métadonnées
  • Lire et écrire des fichiers dans HDFS ou dans HBase, dans des Jobs Big Data Batch ou Big Data Streaming
  • Configurer un Job Big Data Batch pour utiliser le framework Spark ou MapReduce
  • Configurer un Job Big Data Streaming pour utiliser le framework Spark Streaming
Course agenda

Plan du cours :

Introduction à Kafka

  • Contrôler le cluster Hadoop
  • Comprendre les principes de base de Kafka
  • Publier des messages sur un topic Kafka
  • Consommer des messages

Introduction à Spark

  • Comprendre les principes de base de Spark
  • Analyser des données client
  • Produire et consommer des messages en temps réel

Cas d’utilisation de traitement de fichiers log – génération de logs enrichis

  • Introduction au cas d’utilisation
  • Génération de logs bruts
  • Génération de logs enrichis

Cas d’utilisation de traitement de fichiers log – monitoring

  • Contrôle des logs enrichis

Cas d’utilisation de traitement de fichiers log – reporting

  • Générer un rapport d’activité à partir des données

Cas d’utilisation de traitement de fichiers log – analyse batch

  • Ingestion de flux de données
  • Analyse des logs avec un Job batch