En pratique – Effectuer une analyse structurelle avec Talend Data Quality

Effectuer une analyse structurelle

Résumé de la tâche

Vous pouvez profiler vos données à l'aide des nombreux types d'analyses disponibles dans Talend Studio. Une analyse structurelle fournit des informations de base sur vos bases de données et sur vos catalogues, dont le nombre de tables, de lignes par table, d'index et de clés primaires. Cette vue d'ensemble est souvent le point de départ d'une comparaison entre des sources de données différentes, ou un moyen de vérifier que les données ont la structure nécessaire pour répondre aux exigences de qualité.

Après avoir démarré Talend Studio, vous établirez une connexion au serveur de base de données local. Vous utiliserez ensuite une analyse structurelle pour créer une vue d'ensemble des bases de données stockées sur le serveur MySQL, en vous concentrant sur la base de données CRM.

Votre environnement de formation utilise une seule machine virtuelle (VM, Virtual Machine), disposant de tous les logiciels dont vous avez besoin pour ce tutoriel, y compris Talend Studio et MySQL.

Démarrer Talend Studio

  1. Pour démarrer la VM, ouvrez un nouvel onglet de navigateur avec cette même page et cliquez sur le lien suivant : DÉMARRER LA VM

    La VM est lancée dans votre navigateur. Attendez que Windows démarre.

    Un script est automatiquement lancé. Vous pouvez le fermer en cliquant sur X.

  2. Sélectionnez Yes (Oui) sur le panneau Networks (Réseaux) à droite de votre écran.

  3. Pour démarrer Studio, sur le bureau de votre VM, double-cliquez sur le raccourci Talend Studio.

  4. La fenêtre Talend Data Fabric s'affiche.

    Un projet nommé DQ Essentials est disponible.

    Cliquez sur Finish (Terminer).

  5. Vérifiez que l'écran de démarrage s'affiche.

  6. Cliquez sur le bouton Start now! (Démarrer maintenant) tout en bas de la page.

    La fenêtre s'affiche.

Selon vos préférences et les outils disponibles, l'écran peut varier.

Vous pouvez voir ces panneaux fréquemment utilisés :

  • Le référentiel DQ, où sont stockées les analyses de données et les métadonnées, est disponible en haut à gauche.
  • L'espace de travail, où vous créez et modifiez les Jobs, effectuez des analyses et consultez les résultats, est au centre.

Créer des métadonnées de connexion aux bases de données

  1. Si vous n'avez pas encore ouvert la perspective Profiling, cliquez sur l'icône Profiling (Profilage).

  2. Créez des métadonnées. Sous DQ Repository (Référentiel DQ), développez Metadata (Métadonnées).

    Cliquez avec le bouton droit sur DB connections (Connexions aux bases de données), puis cliquez sur Create Connection (Créer une connexion).

    Vous créez une connexion à une collection de bases de données déjà configurées dans votre environnement de formation.

    1. Dans la zone Name (Nom), saisissez StagingDB.

    2. Cliquez sur Next (Suivant).

    3. Dans la liste DB Type (Type de base de données), cliquez sur MySQL. Ne modifiez pas la valeur par défaut dans la zone Db version (Version de la base de données).

    4. Saisissez ces paramètres :

        • Dans les zones de texte Login (Identifiant) et Password (Mot de passe), saisissez root.

        • Dans la zone de texte Server (Serveur), saisissez localhost.

        • Laissez la zone de texte DataBase (Base de données) vide (afin de pouvoir accéder à toutes les bases de données configurées sur le serveur local).

    5. Pour vérifier vos informations de connexion, cliquez sur le bouton Check (Vérifier).

    6. Dans la fenêtre Check Connection (Vérifier la connexion), cliquez sur OK, ou effectuez les corrections nécessaires et cliquez de nouveau sur Check (Vérifier).
    7. Cliquez sur Finish (Terminer).

      Votre nouvelle connexion aux bases de données, StagingDB, apparaît dans le référentiel.

      L'espace de travail affiche les informations de configuration pour la connexion.

      Si nécessaire, modifiez les paramètres de connexion.

Créer une analyse d'ensembles de connexion

  1. Créez un dossier.
    1. Dans le DQ Repository (Référentiel DQ), développez Data Profiling (Profilage de données).

    2. Pour créer un dossier pour vos analyses, cliquez avec le bouton droit sur Analyses et sélectionnez Create Folder (Créer un dossier).

      Nommez-le CRM_Analysis et cliquez sur Finish (Terminer).

  2. Créez l'analyse.

    1. Cliquez avec le bouton droit sur le dossier CRM_Analysis, puis cliquez sur New Analysis (Nouvelle analyse).
    2. Développez Structural Analysis (Analyse structurelle) et cliquez sur Connection Overview Analysis (Analyse d'ensembles de connexion).

    3. Consultez les informations et cliquez sur Next (Suivant).
  3. Configurez l'analyse.

    1. Vous allez maintenant identifier l'analyse.

      Dans la zone de texte Name (Nom), saisissez Database_Server_Connection_Analysis.

    2. Cliquez sur Next (Suivant).
    3. Choisissez une connexion à analyser. Développez DB connections (Connexions aux bases de données) et cliquez sur StagingDB, le nom des métadonnées de connexion aux bases de données que vous avez créées auparavant.

    4. Cliquez sur Next (Suivant).
    5. Vous pouvez restreindre l'analyse à des tables ou vues spécifiques. Laissez les zones de texte vides afin que l'analyse inclue toutes les informations de la connexion aux bases de données.

    6. Cliquez sur Finish (Terminer).

      L'analyse s'affiche dans l'espace de travail, sans résultats.

Analyser les résultats

  1. Exécutez l'analyse.
    1. En haut de l'espace de travail, cliquez sur l'icône Run (Exécution).

    2. À la fin de l'analyse, l'onglet Analysis Results (Résultats de l'analyse) s'affiche.

      Vous pouvez passer de l'onglet Analysis Settings (Paramètres d'analyse) à Analysis Results (Résultats de l'analyse) depuis la barre d'onglets en bas de l'espace de travail.

      Les statistiques globales de chaque base de données sont affichées dans la section Statistical Information (Informations statistiques).

  2. Explorez le catalogue CRM.
    1. Pour afficher des informations supplémentaires sur un catalogue, sous Statistical Information (Informations statistiques), dans la colonne Catalog (Catalogue), cliquez sur crm.

      La table en bas à gauche affiche le nombre de lignes, de clés primaires et d'index pour chaque table du catalogue sélectionné.

    2. Dans la table en bas à gauche, cliquez avec le bouton droit sur la ligne country, puis cliquez sur View keys (Voir les clés).

    L'affichage est modifié. En cliquant sur View Keys (Voir les clés), vous passez de la perspective Profiling (Profilage) à la perspective Data Explorer (Explorateur de données). La perspective actuelle est indiquée en haut à droite. Vous pouvez ici passer d'une perspective à l'autre d'un simple clic.

    Notez les nouveaux éléments affichés dans la perspective Data Explorer (Explorateur de données) :

    • La vue Database Detail (Détails de la base de données) s'affiche sous les résultats d'analyse. Elle présente des informations de base sur la clé primaire de la table country.

      Les autres onglets de la vue Database Detail (Détails de la base de données) présentent plus d'informations sur cette table.

    • L'arborescence Database Structure (Structure de la base de données) est affichée à droite de la fenêtre.

      La base de données sélectionnée dans la capture d'écran est la même que celle affichée dans la vue Détails de la base de données. La clé primaire de la table est affichée avec une icône spécifique.

    • Les onglets affichés en haut à gauche présentent des informations de base sur les connexions et l'historique SQL.

  3. Cliquez de nouveau sur le bouton Profiling (Profilage).

Dans ce tutoriel, vous avez démarré Talend Studio et découvert les perspectives. Vous avez créé et stocké des informations de connexion aux bases de données sous forme de métadonnées dans le référentiel DQ. Vous avez enfin découvert les analyses structurelles et appris à créer et à exécuter une analyse d'ensembles de connexions pour afficher une vue d'ensemble du type d'informations dans votre base de données.

Vous avez terminé ce tutoriel.

| Last Updated: June 10th, 2019