Lire un fichier

L'obtention de données, que ce soit depuis une base de données ou un fichier, est l'un des éléments de base de l'intégration de données.  Talend Open Studio for Data Integration vous offre un accès facile à vos données grâce à une large gamme de composants qui supportent la connexion aux bases de données ainsi que les formats de fichiers standards et complexes.   Dans ce tutoriel, vous découvrirez  qu'il est très simple d'accéder à des données dans un fichier standard de données séparées par des virgules.  

 

Ce tutoriel utilise Talend Open Studio for Data Integration version 6.

1. Créer un Job

  1. Vérifiez que la perspective Intégration est sélectionnée.
  2. Dans le Référentiel de projet, cliquez avec le bouton droit sur Jobs, puis cliquez sur Créer un Job standard.
  3. Dans le champ Nom de l’assistant Nouveau Job, indiquez le nom du Job sous la forme simpleJob.
  4. Nous vous recommandons de remplir les champs Objectif et Description du Job. Cliquez ensuite sur Terminer pour créer le Job.

Le Job Designer ouvre un Job vide.

2. Ajouter un composant tFileInputDelimited

3. Configurer le composant tFileInputDelimited_1

  1. Dans le Job Designer, cliquez sur tFileInputDelimited_1.
  2. Pour définir les paramètres de base du composant, dans la vue Composant, cliquez sur ce composant.
    La zone Type de propriété définit le mode de lecture des données.
    Le champ Nom de fichier/Flux affiche le chemin d'accès complet du fichier d'entrée ou de sortie. Vous pouvez saisir le chemin manuellement ou utiliser le bouton [...].
    Les champs Séparateur de lignes et Séparateur de champs définissent le type de séparateur de lignes.
    Les champs En-tête et Pied de page indiquent le nombre de lignes devant être ignorées dans le fichier.
    Le champ Limite indique le nombre maximal de lignes à lire dans le fichier.
    Le champ Schéma définit la structure de données du fichier.
  3. Pour indiquer le nom et le chemin d'accès du fichier à lire, cliquez sur le bouton [...] à côté du champ Nom de fichier, sélectionnez le fichier sur votre disque local, puis cliquez sur Ouvrir.

4. Définir le schéma du composant tFileInputDelimited_1

  1. Pour définir le schéma du composant tFileInputDelimited_1, cliquez sur le bouton [...] à côté du champ Modifier le schéma.

    L'assistant Schéma pour tFileInputDelimited_1 s'ouvre.

    Le bouton [+] permet d'ajouter une colonne dans l'assistant Schéma.
    Le bouton [x] supprime les éléments sélectionnés.
    Les boutons [↑] et [↓] permettent de déplacer les éléments sélectionnés vers le haut ou le bas.
    .
  2. Dans l’assistant Schéma, cliquez sur le bouton [+] pour ajouter une colonne.
  3. Dans la colonne Colonne, saisissez le nom movieID.
  4. Pour désigner ce champ comme clé, cochez la case Clé.
  5. Dans la colonne Type, cliquez sur Integer.
  6. Vérifiez que la case sous Nullable est bien décochée, afin que toutes les valeurs nulles soient rejetées pour cette colonne.
  7. Dans la colonne Length, saisissez 4.
  8. Répétez les étapes b à g pour chaque champ du fichier CSV.
  9. Pour fermer l'assistant Schéma, cliquez sur OK.

5. Ajouter le composant de journalisation et propager les données

  1. Ajoutez un composant tLogRow au Job. Le composant tLogRow affiche dans la console toutes les lignes de données qu'il reçoit.
  2. Pour propager des données depuis le composant tFileInputDelimited_1 vers le composant tLogRow_1, dans le Job Designer, cliquez avec le bouton droit sur tFileInputDelimited_1, et faites glisser cet élément vers tLogRow_1.

Autre méthode : pour lier les composants, vous pouvez également cliquer avec le bouton droit sur le composant source, puis sur Row > Main.

6. Exécuter le Job

Dans la vue Exécuter pour le Job readCSVFile, cliquez sur Exécuter.

Le fichier est lu par le composant tFileInputDelimited, et son contenu est affiché dans la console par le composant tLogRow.