Talend Big Data Advanced – Machine Learning

Cette formation traite de l’implémentation des algorithmes de machine learning dans les Jobs Talend Big Data batch en utilisant le framework Spark.

Duration1 jour (7 heures)
Target audience Développeur souhaitant utiliser le Studio Talend afin d'industrialiser les algorithmes de machine learning
PrerequisitesAvoir suivi les formations Talend Data Quality Essentials et Talend Big Data Basics
Course objectives

À l’issue de cette formation, vous pourrez:

  • Vous connecter à un cluster Hadoop depuis un Job Talend
  • Utiliser les variables de contexte et les métadonnées
  • Lire et écrire des fichiers sur HDFS dans un Job Big Data batch
  • Configurer un Job Big Data batch pour qu’il utilise le framework Spark
  • Créer et tester des modèles de recommandation
  • Créer et tester des modèles de classification
  • Utiliser un algorithme de machine learning pour dédoublonner des données
Course agenda

Plan du cours :

Cas d’utilisation : classification de SMS

  • Contrôler le cluster Hadoop
  • Comprendre le cas d’utilisation de classification des SMS et les arbres de décision
  • Connexion au cluster
  • Création d’un modèle de classification pour SMS
  • Test du modèle de classification

 

Cas d’utilisation : recommandations de films

  • Comprendre le cas d’utilisation du moteur de recommandation avec l’algorithme des moindres carrés alternés
  • Création du modèles de recommandation de films
  • Test du modèle de recommandation

Cas d’utilisation : classification des Iris

  • Comprendre le cas d’utilisation de classification des iris avec l’algorithme de classification Naïve Bayes
  • Création du modèle de classification des iris
  • Test du modèle de classification des iris

Cas d’utilisation : Dédoublonnage de données sur un programme de garde d’enfants

  • Comprendre le cas d’utilisation de données de garde d’enfants et l’algorithme de recherche de correspondances
  • Installation de l’environnement
  • Apairage de données
  • Création du modèle de correspondance
  • Utilisation du modèle de correspondance
  • Fusion des groupes de doublons