Filtrer les données avec le composant tMap

Dans ce tutoriel, vous découvrirez les fonctionnalités et l'interface du composant tMap, et vous apprendrez à l'utiliser pour filtrer les colonnes d'un schéma.

 

Ce didacticiel utilise Talend Open Studio for Data Integration version 6.

1. Créer un Job, ajouter les métadonnées movies comme source d'entrée et ajouter un composant tMap

  1. Créez un Job standard nommé tMapFilter.
  2. Ajoutez le fichier de métadonnées movies comme composant d'entrée délimité.
  3. Ajoutez un composant tMap pouvant modifier le schéma et filtrer les colonnes.
  4. Créez un flux de données depuis le composant movies vers le composant tMap_1 en liant les deux composants.

2. Configurer le composant tMap_1 pour filtrer les colonnes

  1. Double-cliquez sur le composant tMap_1.
    La fenêtre de l'assistant tMap_1 est divisée en quatre sections :

    - La section de gauche affiche les flux de données entrants. Notez qu'il peut y avoir plusieurs entrées dans le composant tMap.
    - La section du milieu affiche les liens de mappage entre les flux de données d'entrée et de sortie. Vous pouvez également créer des variables utilisant des valeurs d'entrée, puis vous en servir pour créer une sortie.
    - La section de droite affiche les flux de données de sortie.
    - La section du bas est celle de l'outil Éditeur de schéma, qui peut être utilisé pour modifier le schéma d'un flux d'entrée ou de sortie. Pour modifier un schéma, sélectionnez le flux d'entrée ou de sortie correspondant (le flux sélectionné apparaît surligné en jaune) et effectuez les modifications souhaitées dans l'Éditeur de schéma.
    .
  2. Pour créer un composant de sortie, dans la section de sortie de l'assistant tMap_1, cliquez sur le bouton [+], nommez la sortie filteredOutput, puis cliquez sur OK. Une sortie vide est créée.
  3. Pour ajouter des colonnes à cette sortie, dans l'Éditeur de schéma, cliquez sur l'icône [+].
  4. Définissez une colonne pour l'identifiant du film (Colonne : movieID, Type : Integer, Length : 4).
    Remarque : le nom de colonne de la sortie ne doit pas obligatoirement être le même que celui de l'entrée. Pour changer le nom de colonne, modifiez la saisie dans l'Éditeur de schéma.
  5. Pour envoyer les données de la colonne movieID du fichier d'entrée vers la colonne de la sortie, cliquez sur la colonne movieID, puis faites-la glisser vers la colonne Expression de la sortie filteredOutput. Une flèche jaune symbolisant le flux de données apparaît.
  6. Pour ajouter les colonnes title et releaseYear au composant de sortie et les lier, sélectionnez-les et faites-les glisser depuis le composant d'entrée vers le composant de sortie.
  7. Pour modifier l'ordre des colonnes dans le composant de sortie, cliquez sur les icônes [↑] ou [↓]. L'ordre des colonnes et les liens correspondants seront mis à jour.

3. Utiliser le composant tMap_1 configuré

  1. Pour afficher la sortie traitée par le composant tMap_1, ajoutez un composant tLogRow dans le Job Designer et liez la sortie filteredOutput du composant tMap_1 au composant tLogRow_1.
  2. Pour exécuter le Job, cliquez sur Exécuter dans la vue Exécuter.

Seules les données filtrées (colonnes movieID, releaseYear et title) sont affichées.