Talend Big Data Advanced – Machine Learning

Cette formation Talend fournit aux participants un environnement de développement complet, qui leur permettra d’interagir avec une architecture Big Data, sans avoir besoin de comprendre ou d’écrire de code complexe.

Cette formation traite de l’implémentation des algorithmes d’apprentissage automatique (machine learning) dans les Jobs Big Data batch avec le framework Spark.

Durée1 jour
(7 heures)
PublicDéveloppeur souhaitant utiliser le Studio Talend afin d'industrialiser les algorithmes d'apprentissage automatique.
Pré-requis Avoir suivi les formations Talend Data Quality Essentials ou Talend Big Data Basics.
Objectifs

À l’issue de cette formation, vous pourrez:

  • Vous connecter à un cluster Hadoop depuis un Job Talend
  • Utiliser les variables de contexte et les métadonnées
  • Lire et écrire des fichiers sur HDFS dans un Job Big Data batch
  • Configurer un Job Big Data batch pour qu’il utilise le framework Spark
  • Créer et tester des modèles de recommandation
  • Créer et tester des modèles de classification
  • Utiliser un algorithme d’apprentissage automatique pour dédoublonner des données
Plan du cours

Introduction à l’apprentissage automatique

  • Concepts

Cas d’utilisation : classification de SMS

  • Monitorer le cluster Hadoop
  • Comprendre le cas d’utilisation de classification des SMS et les arbres de décision
  • Se connecter au cluster
  • Créer un modèle de classification des SMS
  • Tester le modèle de classification des SMS

Cas d’utilisation : recommandation de films

  • Comprendre le cas d’utilisation du moteur de recommandation avec l’algorithme des moindres carrés alternés
  • Créer un modèle de recommandation de films
  • Tester le modèle de recommandation de films

Cas d’utilisation : classification des iris

  • Comprendre le cas d’utilisation de classification des iris avec l’algorithme de classification Naïve Bayes
  • Créer un modèle de classification des iris
  • Tester le modèle de classification des iris

Cas d’utilisation : dédoublonnage de données sur un programme de garde d’enfants

  • Comprendre le cas d’utilisation de données de garde d’enfants et l’algorithme de recherche de correspondance
  • Installer l’environnement
  • Appairer des données
  • Créer un modèle de correspondance
  • Utiliser le modèle de correspondance
  • Fusionner des groupes de doublons