Talend Big Data Advanced – Machine Learning

Cette formation Talend fournit aux participants un environnement de développement complet, qui leur permettra d'interagir avec une architecture Big Data, sans avoir besoin de comprendre ou d'écrire de code complexe.

Cette formation traite de l'implémentation des algorithmes de machine learning dans les Jobs Talend Big Data batch en utilisant le framework Spark.

DURÉE1 jour (7 heures)
PUBLICDéveloppeur souhaitant utiliser le Studio Talend afin d'industrialiser les algorithmes de machine learning
PRÉREQUISAvoir suivi les formations Talend Data Quality Essentials et Talend Big Data Basics
OBJECTIFS DE LA FORMATION
À l’issue de cette formation, vous pourrez:

  • Vous connecter à un cluster Hadoop depuis un Job Talend
  • Utiliser les variables de contexte et les métadonnées
  • Lire et écrire des fichiers sur HDFS dans un Job Big Data batch
  • Configurer un Job Big Data batch pour qu'il utilise le framework Spark 
  • Créer et tester des modèles de recommandation
  • Créer et tester des modèles de classification 
  • Utiliser un algorithme de machine learning pour dédoublonner des données
PROGRAMME DE LA FORMATION

Plan du cours:

Cas d'utilisation: classification de SMS
  • Contrôler le cluster Hadoop
  • Comprendre le cas d'utilisation de classification des SMS et les arbres de décision
  • Connexion au cluster
  • Création d'un modèle de classification pour SMS
  • Test du modèle de classification
Cas d'utilisation: recommandations de films
  • Comprendre le cas d'utilisation du moteur de recommandation avec l'algorithme des moindres carrés alternés
  • Création du modèles de recommandation de films
  • Test du modèle de recommandation
Cas d'utilisation: classification des Iris
  • Comprendre le cas d'utilisation de classification des iris avec l'algorithme de classification Naïve Bayes 
  • Création du modèle de classification des iris
  • Test du modèle de classification des iris
Cas d'utilisation: Dédoublonnage de données sur un programme de garde d'enfants
  • Comprendre le cas d'utilisation de données de garde d'enfants et l'algorithme de recherche de correspondances 
  • Installation de l'environnement
  • Apairage de données
  • Création du modèle de correspondance
  • Utilisation du modèle de correspondance
  • Fusion des groupes de doublons