Talend Big Data Advanced

Talend fournit un environnement de développement qui permet une interaction avec de nombreuses sources et destinations Big Data sans avoir à apprendre et écrire du code compliqué.

Cette formation traite des Job Big Data Batch utilisant le framework MapReduce ou Spark. Elle couvre ensuite les Jobs Big Data Streaming utilisant le framework Spark Streaming.

DuréeDeux jours (14 heures)
PublicToute personne souhaitant utiliser le Studio Talend pour interagir avec des systèmes Big Data.
PrérequisAvoir suivi les formations Talend Data Integration Basics et Talend Big Data Basics.
Objectifs de la formation
À l’issue de cette formation, vous pourrez :
  • Vous connecter à un cluster Hadoop depuis un Job Talend
  • Utiliser des variables de contextes et des métadonnées
  • Lire et écrire des fichiers dans HDFS ou dans HBase, dans des Jobs Big Data Batch ou Big Data Streaming
  • Utiliser l’API Twitter avec les composants Talend
  • Lire et écrire des messages dans un topic Kafka en temps réel
  • Configurer un Job Big Data Batch pour utiliser le framework Spark ou Map Reduce
  • Configurer un Job Big Data Streaming pour utiliser le framework Spark Streaming
Programme de la formation

Big Data Advanced YARN (1 jour)

Cas d’utilisation de flux de clics

  • Configuration de l’environnement de développement
  • Chargement des données dans HDFS
  • Enrichissement des logs
  • Calcul de statistiques
  • Conversion d'un Job standard en Job Big Data Batch
  • Compréhension d’un Job Map Reduce
  • Utilisation du Studio pour configurer les demandes de ressources à YARN

Cas d’utilisation d’analyse des sentiments

  • Chargement des données de dictionnaire et de fuseaux horaires
  • Chargement des tweets dans HDFS
  • Traitement des tweets avec Map Reduce
  • Planification des exécutions de Jobs

Big Data Advanced Spark (1 jour)

Introduction à Kafka
  • Présentation des bases de Kafka
  • Publication de messages dans un topic Kafka
  • Consommation de messages
Introduction à Spark
  • Présentation des bases de Spark
  • Analyse des données clients
  • Production et consommation des messages en temps réel
Scénario de traitement des logs - Génération de logs enrichis
  • Introduction au scénario de traitement des logs
  • Génération de logs bruts
  • Génération de logs enrichis
Scénario de traitement des logs - Monitoring
  • Monitoring des logs enrichis
Scénario de traitement des logs - Reporting
  • Reporting d’informations utilisateurs
Scénario de traitement des logs - Analyse
  • Ingestions de flux de données
  • Analyse des logs avec un Job Batch

Scénario de classification (facultatif)

  • Présentation de l'apprentissage automatique
  • Création d'un modèle de classification de SMS
  • Test du modèle de classification de SMS