Talend Big Data Advanced – MapReduce

Cette formation Talend fournit aux participants un environnement de développement complet, qui leur permettra d'interagir avec une architecture Big Data, sans avoir besoin de comprendre ou d'écrire de code complexe.

Cette formation traite des Jobs Big Data batch qui utilisent le framework MapReduce.

DURÉE1 jour (7 heures)
PUBLICDéveloppeur souhaitant utiliser Talend Studio pour interagir et exploiter les systèmes Big Data
PRÉREQUISAvoir suivi les formations Talend Data Integration Basics et Talend Big Data Basics
OBJECTIFS DE LA FORMATION
À l’issue de cette formation, vous pourrez:

  • Vous connecter à un cluster Hadoop dans un Job Talend
  • Utiliser des variables de contexte et des métadonnées
  • Lire et écrire des fichiers sur HDFS dans un job Big Data batch
  • Utiliser l'API Twitter avec les composants Talend 
  • Ordonnancer l'exécution d'un Job Big Data à partir de Talend Administration Center (TAC)
  • Optimiser les allocations mémoire demandées sur YARN
PROGRAMME DE LA FORMATION

Plan du cours:

Cas d'utilisation: Clickstream 
  • Contrôler le cluster Hadoops
  • Installer un environnement de développement
  • Charger des données sur HDFS
  • Enrichir des logs
  • Calculer des statistiques
  • Convertir un Job Talend standard en Job Big Data batch 
  • Comprendre les Jobs MapReduce
  • Utiliser le studio Talend pour configurer les demandes de ressources YARN
Cas d'utilisation: Analyse de sentiment
  • Écrire des données de dictionnaire et de fuseau horaire sur HDFS
  • Charger des tweets sur HDFS
  • Traiter les tweets avec MapReduce
  • Ordonnancer l'exécution d'un Job