Talend Big Data Advanced – Spark Batch

Cette formation Talend fournit aux participants un environnement de développement complet, qui leur permettra d’interagir avec une architecture Big Data, sans avoir besoin de comprendre ou d’écrire de code complexe.

Cette formation traite des Jobs Big Data batch qui utilisent le framework Spark.

Durée 1 jour
(7 heures)
Public Toute personne souhaitant utiliser le Studio Talend pour interagir et exploiter les systèmes Big Data.
Pré-requis Avoir suivi la formation Talend Big Data Basics.
Objectifs

À l’issue de cette formation, vous pourrez :

  • Créer un Job Big Data batch en utilisant le framework Spark
  • Copier les données depuis un fichier local sur HDFS
  • Copier les données depuis MySQL sur HDFS
  • Créer une table Hive et y copier les données depuis HDFS
  • Importer des tweets sur HDFS
  • Faire une jointure, trier et agréger des données
  • Utiliser des caches pour accélérer le traitement
  • Faire une requête sur des données depuis une table Hive avec Hive QL
  • Faire une requête sur des données depuis des jeux de données Spark avec Spark QL
Plan du cours

Introduction à Spark

  • Concepts

Découverte de Spark

  • Monitorer le cluster Hadoop
  • Installer l’environnement de développement
  • Comprendre les bases de Spark
  • Analyser des données client

Cas d’utilisation : analyse de sentiment

  • Monitorer le cluster Hadoop
  • Installer l’environnement de développement
  • Charger des tweets sur HDFS
  • Traiter des tweets avec Spark
  • Planifier l’exécution d’un Job

Cas d’utilisation : analyse de données de téléchargement

  • Installer l’environnement de développement
  • Charger les clients sur Hive
  • Analyser les données de téléchargement
  • Utiliser Spark SQL pour faire une requête sur des données