Talend Big Data Basics

Talend fournit un environnement de développement qui vous permettra d’interagir avec de nombreux stockages Big Data sources et cibles, sans avoir besoin de comprendre ou d’écrire de code complexe.

La formation Talend Big Data Basics est une introduction aux composants Talend fournis avec les logiciels de la gamme Big Data.

Durée2 jours (14 heures)
PublicToute personne souhaitant utiliser le Studio Talend pour interagir avec les systèmes Big Data.
Pré-requis Avoir suivi les formations Introduction to Talend Studio, Talend Data Integration Basics ou Talend Data Integration Advanced.
Objectifs

À l’issue de cette formation, vous pourrez :

  • Créer des métadonnées de cluster
  • Créer des métadonnées HDFS et Hive
  • Vous connecter à votre cluster pour utiliser HDFS, HBase, Hive, Pig, et MapReduce
  • Lire et écrire des données dans HDFS (HDFS, HBase)
  • Lire et écrire des tables dans HDFS (Hive)
  • Traiter des tables stockées dans HDFS avec Hive
  • Traiter des données stockées dans HDFS avec Pig
  • Traiter des données stockées dans HDFS avec des Jobs Big Data Batch
Plan du cours

Introduction à Talend Big Data

  • Concepts

Connexion au cluster Hadoop

  • Créer des métadonnées de cluster dans le référentiel
  • Créer des métadonnées HDFS dans le référentiel

Lecture et écriture des données dans HDFS

  • Stocker un fichier dans HDFS
  • Stocker des fichiers multiples dans HDFS
  • Lire des données dans HDFS
  • Stocker des jeux de données dispersés avec HDFS

Traitement des données Hive dans des Jobs standard

  • Créer des métadonnées de connexion Hive
  • Sauvegarder des données sous forme de tables Hive
  • Traiter des tables Hive avec un Job standard
  • Effectuer un profiling des tables Hive avec les analyses de qualité de données

Traitment des données avec MapReduce

  • Traiter des données stockées dans HDFS avec Pig, en utilisant des Jobs standard
  • Traiter des données dans HDFS avec des Jobs Big Data Batch
  • Migrer un Job standard vers un Job Big Data Batch

Cas d’utilisation Big Data : flux de clics

  • Installer un environnement de développement
  • Charger des fichiers de données dans HDFS
  • Enrichir des logs
  • Calculer des statistiques
  • Comprendre les Jobs MapReduce
  • Utiliser le Studio Talend pour configurer les demandes de ressources YARN