Journée typique d’un développeur d’intégration de données : Comment créer votre premier job dans Talend Studio [2e partie]

Cette vidéo inclut un exemple simple de création d’un premier job dans Talend Studio. Les fonctionnalités plus avancées sont décrites dans les autres parties de cette série :

Dans cette Journée typique d’un développeur d’intégration de données, nous allons travailler avec un data warehouse d’évaluations de films pour capturer l’évaluation moyenne de chaque film, par état. Pour ce faire, nous allons :

  1. Joindre deux tables depuis notre data warehouse.
  2. Calculer l’évaluation moyenne par état à l’aide d’un composant regroupé.
  3. L’enregistrer dans une table distincte dans notre data warehouse.

1. Joindre des tables

Cliquez avec le bouton droit dans l’arborescence Jobs et sélectionnez Create Job (Créer un Job). Je vais lui donner un nom et un objectif résumé.

job d’intégration de données

Allons chercher deux définitions de tables de base de données dans le référentiel Metadata, contenant les données source dont nous avons besoin. J’ai une table factuelle contenant des données d’évaluations et une table de dimensions d’utilisateurs qui inclut les informations d’état.

Je vais glisser et déposer chacune d’entre elles dans notre espace de modélisation graphique. Comme il s’agit de définitions de tables de métadonnées génériques, lorsque je dépose chacune dans l’espace de modélisation graphique, je dois les spécifier en tant que composants MysqlInput source.

créer un job de données

Ensuite, nous avons besoin d’un composant tMap pour joindre ces deux composants source. Je peux aller chercher le composant dans la palette de droite, ou je peux cliquer dans l’espace de modélisation graphique, commencer à taper et le sélectionner pour l’intégrer à mon flux de job.

Nous allons connecter les données à l’aide du composant tMap. Je peux cliquer avec le bouton droit et connecter à l’aide de la fonction row, ou je peux étirer les connecteurs à l’aide des icônes à côté des composants. Ce faisant, je vais identifier mes connecteurs en double-cliquant lentement sur chaque libellé existant. Je peux aussi renommer les composants. Cela m’aide à mieux identifier les tables lors de la configuration du composant tMap une fois que mon flux de job est créé.

2. Utiliser un composant agrégé

Le troisième composant dont nous avons besoin est un agrégateur, qui va calculer l’évaluation moyenne par état.

  1. Cliquez à nouveau dans l’espace de modélisation graphique et cherchez « Aggregate » pour trouver et sélectionner le nouveau composant.
  2. Connectez-le au tMap et nommez le fichier de sortie.

3. Définir une table cible

Il nous reste à créer une table cible dans laquelle se retrouveront toutes nos données de résultats. Allons chercher les métadonnées pour ma table cible et spécifions-les en tant que composant MysqlOutput et connectons celui-ci au reste de mon flux.

Configurer les composants

Maintenant que nous avons tous les éléments du job placés et connectés, nous devons configurer les composants pour traiter correctement le flux de données.

Configurer le tMap

D’abord, nous allons configurer le tMap en joignant Ratings_In à lkp_States.

  1. Associez les deux datasets en faisant glisser l’Identifiant utilisateur (User ID) depuis la table Ratings_In dans le champ ID de la table lkp_States.
  2. Lorsque les tables sont jointes, prenez les champs Movie_Id et Rating de la table Ratings_In, et le champ State de la table lkp_States, puis faites-les glisser dans la table Ag_Output. Cela créera le dataset de sortie qui pilotera le reste du flux.
  3. Cliquez sur OK.

Configuration de l’agrégateur

Nous devons ensuite configurer l’agrégateur. Pour ce faire, je dois d’abord confirmer que le schéma de l’agrégateur correspond aux sorties définies du composant. Nous voulons être sûrs que les colonnes Movie_Id et State sont déplacées dans mon agrégateur et qu’une colonne est disponible pour recevoir les données que nous agrégeons. Elle s’appelle Average_Rating.

Comme cette colonne est une moyenne calculée, elle doit prendre en compte les décimales, donc le type de données est Float, avec une longueur de 5 et une précision de 3.

job d’intégration de données

C’est parfait, donc je vais cliquer sur OK.

Maintenant que notre schéma est défini, nous pouvons configurer l’agrégation pour calculer notre évaluation moyenne :

  1. Groupez par Movie_Id et State et, pour nos opérations, nous voulons que notre colonne Output soit Average_Rating, la colonne que nous venons de confirmer dans notre schéma de sortie.
  2. Définissez la fonction sur avg, et la moyenne dans le champ Rating.
  3. Ma source cible est déjà mappée sur ma table MySQL cible. Ce job est donc prêt.

Identifions le flux avec un titre. Je vais sélectionner mon flux, aller dans l’onglet Composants, sélectionner le titre Show subjob (Montrer le sous-job) et l’appeler « Charger l’évaluation moyenne par état ».

Exécutez votre premier job

Exécutons ce job. Je peux aller dans l’onglet Exécuter dans ma palette graphique et lancer une exécution basique. Elle se passe sans accroc.

Pour plus de détails sur la création de votre premier job dans Studio, regardez la vidéo ci-dessus. Ensuite, nous parlerons de l’exécution de processus ou de jobs, du test et du débogage.

| Last Updated: August 7th, 2019