Talend Big Data Basics

Cette formation Talend fournit aux participants un environnement de développement complet, qui leur permettra d’interagir avec une architecture Big Data, sans avoir besoin de comprendre ou d’écrire de code complexe.
La formation Talend Big Data Basics est une introduction aux composants Talend fournis avec les logiciels de la gamme Big Data.

Durée2 jours
(14 heures)
PublicToute personne souhaitant utiliser le Studio Talend pour interagir et exploiter les systèmes Big Data.
Pré-requis Avoir suivi les formations Introduction to Talend Studio, Talend Data Integration Basics ou Talend Data Integration Advanced.
Objectifs

À l’issue de cette formation, vous pourrez :

• Créer des métadonnées de cluster manuellement, à partir de fichiers de configuration ou via une détection automatique des paramètres
• Créer des métadonnées HDFS et Hive
• Vous connecter à votre cluster pour utiliser HDFS, HBase, Hive, Pig, Sqoop et MapReduce
• Lire et écrire des données sur HDFS (HDFS, HBase)
• Lire et écrire des tables sur HDFS (Hive, Sqoop)
• Traiter des tables stockées sur HDFS avec Hive
• Traiter des données stockées sur HDFS avec Pig
• Traiter des données stockées sur HDFS avec des Jobs Big Data batch

Plan du cours

Introduction à Big Data
• Concepts
Concepts de base
• Ouvrir un projet
• Monitorer le cluster Hadoop
• Créer des métadonnées de cluster manuellement
• Créer des métadonnées de cluster à partir des fichiers de configuration Hadoop
• Créer des métadonnées de cluster en utilisant un assistant
Lecture et écriture des données sur HDFS
• Stocker un fichier sur HDFS
• Stocker des fichiers multiples sur HDFS
• Lire des données sur HDFS
• Stocker des jeux de données épars avec HBase
Utilisation de tables
• Importer des tables avec Sqoop
• Créer des tables avec Hive
Traitement des données et des tables sur HDFS
• Traiter des tables Hive avec les Jobs
• Lancer un profiling des tables Hive (optionnel)
• Traiter des données avec Pig
• Traiter des données avec un Job Big Data batch
• Migrer un Job standard vers un Job batch
Cas d’utilisation : Clickstream
• Cas d’utilisation Clickstream : gestion des ressources avec YARN
• Installer un environnement de développement
• Charger des fichiers de données sur HDFS
• Enrichir des logs
• Calculer des statistiques
• Comprendre les Jobs MapReduce
• Utiliser le Studio Talend pour configurer les demandes de ressources YARN