Talend Data Preparation with Big Data

Talend Data Preparation est une application en libre service qui permet aux utilisateurs métier de préparer leurs données pour l’analyse ou tout autre traitement. Cette formation leur permettra d’utiliser rapidement et efficacement un data lake avec Talend Data Preparation, et d’utiliser conjointement préparations et outils d’intégration pour corriger des fichiers Big Data stockés sur Hadoop Distributed File System (HDFS).

Vous y apprendrez à créer des jeux de données à partir de données stockées sur HDFS et à exporter des données nettoyées sur le cluster. Vous améliorerez votre connaissance de Data Preparation en nettoyant des fichiers Big Data. Vous verrez également comment utiliser le Studio Talend afin d’exécuter les préparations sur le cluster Hadoop en utilisant le framework Spark.

Durée1 demi-journée
(4 heures)
PublicToute personne souhaitant utiliser Talend Data Preparation pour nettoyer et structurer les fichiers Big Data.
Pré-requis Avoir suivi les formations Talend Data Preparation for Developers et Talend Big Data Basics.
Objectifs

À l’issue de cette formation, vous pourrez :

  • Créer des jeux de données à partir de données stockées sur HDFS
  • Créer des préparations pour nettoyer des fichiers Big Data
  • Exporter des préparations sur HDFS
  • Exécuter une préparation de données définie par l’utilisateur dans un Job Spark batch
  • Exécuter une préparation de données définie par l’utilisateur dans un Job Spark streaming
Plan du cours

Introduction à Talend Data Preparation sur Big Data

  • Concepts et objectifs

Prise en main

  • Monitorer le cluster Hadoop
  • Créer les métadonnées du cluster
  • Générer des données sur le cluster
  • Monitorer les Jobs Big Data

Traitement des données sur HDFS

  • Créer un jeu de données à partir d’une source HDFS
  • Mettre à jour une préparation
  • Exporter la préparation sur HDFS

Exécution d’une préparation dans un Job Big Data batch

  • Créer un Job Spark batch
  • Mettre à jour un Job Spark batch

Exécution d’une préparation dans un Job Big Data streaming

  • Importer un Job streaming
  • Créer un jeu de données et une préparation
  • Utiliser une préparation dans un Job Big Data streaming