Talend Big Data Advanced – MapReduce

Cette formation traite des Jobs Big Data batch qui utilisent le framework MapReduce.

Duration1 jour (7 heures)
Target audience Développeur souhaitant utiliser Talend Studio pour interagir et exploiter les systèmes Big Data
PrerequisitesAvoir suivi les formations Talend Data Integration Basics et Talend Big Data Basics
Course objectives

À l’issue de cette formation, vous pourrez:

  • Vous connecter à un cluster Hadoop dans un Job Talend
  • Utiliser des variables de contexte et des métadonnées
  • Lire et écrire des fichiers sur HDFS dans un job Big Data batch
  • Utiliser l’API Twitter avec les composants Talend
  • Ordonnancer l’exécution d’un Job Big Data à partir de Talend Administration Center (TAC)
  • Optimiser les allocations mémoire demandées sur YARN
Course agenda

Plan du cours :

Cas d’utilisation : Clickstream

  • Contrôler le cluster Hadoops
  • Installer un environnement de développement
  • Charger des données sur HDFS
  • Enrichir des logs
  • Calculer des statistiques
  • Convertir un Job Talend standard en Job Big Data batch
  • Comprendre les Jobs MapReduce
  • Utiliser le studio Talend pour configurer les demandes de ressources YARN

Cas d’utilisation: Analyse de sentiment

  • Écrire des données de dictionnaire et de fuseau horaire sur HDFS
  • Charger des tweets sur HDFS
  • Traiter les tweets avec MapReduce
  • Ordonnancer l’exécution d’un Job