Créer des métadonnées de connexion à un cluster

Dans ce tutoriel, apprenez à créer automatiquement des métadonnées de cluster Hadoop en vous connectant à Cloudera Manager.

Ce tutoriel utilise Talend Data Fabric Studio version 6 et un cluster Hadoop : Cloudera CDH version 5.4.

1. Créer une nouvelle définition de métadonnées de cluster Hadoop

  1. Vérifiez que la perspective Intégration est sélectionnée.
  2. Dans le référentiel des projets, développez Métadonnées, cliquez avec le bouton droit de la souris sur Cluster Hadoop et cliquez sur Créer un cluster Hadoop pour ouvrir l'assistant.
  3. Dans le champ Nom de l'assistant Connexion à un cluster Hadoop, tapez MyHadoopCluster. Dans le champ Objectif, tapez Métadonnées de connexion à un cluster et, dans le champ Description, tapez Métadonnées pour se connecter à un cluster Cloudera CDH 5.4 et cliquez sur Suivant.

L'assistant Importation de la configuration Hadoop s'ouvre.

2. Sélectionner la méthode de configuration automatique

  1. Dans la liste Distribution de l'assistant Importation de la configuration Hadoop, sélectionnez Cloudera et, dans la liste Version, sélectionnez 4(mode YARN).

    Il existe différentes méthodes pour créer des métadonnées de cluster Hadoop :

    - Configuration automatique en récupérant la configuration depuis Ambari ou Cloudera Manager
    - Configuration automatique en important la configuration depuis les fichiers de configuration Hadoop
    - Configuration manuelle
    .
  2. Pour sélectionner la méthode de configuration automatique, dans le panneau Option, sélectionnez Récupérer la configuration depuis Ambari ou Cloudera, puis cliquez sur Suivant.

3. Se connecter à Cloudera Manager

Cloudera Manager est une application de bout en bout permettant de gérer les clusters Cloudera CDH. Pour récupérer les informations relatives à la connexion et créer les métadonnées correspondantes, vous devez vous connecter à Cloudera Manager.

  1. Pour cela, saisissez les informations d'identification Cloudera Manager. Dans la zone URI du Manager (avec port), tapez http://clusterCDH54:7180. Dans les zones Nom d'utilisateur et Mot de passe, tapez admin et cliquez sur Se connecter.

    Le cluster nommé Cluster 1 apparaît dans la liste de clusters Découvert.
    .
  2. Pour récupérer la configuration de cluster découverte, cliquez sur Extraire.

    L'assistant détecte les fichiers de configuration et répertorie les services correspondants. Dans ce tutoriel, nous conserverons la configuration par défaut et créerons des définitions de métadonnées pour YARN, HDFS, Hive et HBase. La définition correspondant à Spark n'est pas disponible.
    .
  3. Pour importer la configuration dans les métadonnées de cluster Hadoop créées, cliquez sur Terminer.

4. Créer les métadonnées correspondant aux services répertoriés (Spark excepté)

  1. Dans le panneau d'authentification de l'assistant Connexion au cluster Hadoop, saisissez le nom d'utilisateur student et cliquez sur Vérifier les services. La fenêtre Vérification des services Hadoop s'ouvre. L'état du gestionnaire de nœuds de nom et de ressources est de 100 %.
    .
  2. Fermez la fenêtre Vérification des services Hadoop. Pour fermer l'assistant Connexion au cluster Hadoop et créer les métadonnées, cliquez sur Terminer.

5. Inspecter les métadonnées créées dans le référentiel

  1. Dans le référentiel, développez Cluster Hadoop.
    Les définitions de métadonnées sont désormais disponibles.
  2. Développez la définition principale nommée MyHadoopCluster, qui correspond au service YARN. Développez HBase, HDFS et Hive.

Les définitions de métadonnées sont désormais prêtes à être utilisées dans un job Talend.