Talend Open Profiler

Le data profiling ou profilage de données se définit par l'analyse des données présentes dans différentes sources de données (bases de données, applications, fichiers...) et le recueil de statistiques et d'informations sur ces données. Grâce au Data Profiling, il est possible d'évaluer le niveau de qualité des données contenues dans le système d'information selon un ensemble de métriques et d'objectifs définis au préalable.

Talend Open Profiler est un outil sophistiqué mais simple d'utilisation, pour profiler les données. Il définit le contenu, la structure et la qualité des structures de données très complexes. Il permet aux utilisateurs métier ou aux équipes de gestion des données d'effectuer de nombreuses analyses grâce à une série d'indicateurs, de motifs et de règles pour chaque élément de données à analyser ou contrôler. Il analyse les données en continu et les changements des données source dans le temps afin d'améliorer la qualité des données.

Téléchargez Talend Open Profiler maintenant!

Pour en savoir plus sur Talend Open Profiler, consultez notre démo online ou nos témoignages d'utilisateurs.

Vous hésitez entre Talend Open Profiler et Talend Data Quality? Consultez notre matrice de comparaison fonctionnelle.

Découverte des métadonnées

Talend Open Profiler: Metadata discovery

Talend Open Profiler se connecte aux bases de données pour inspecter leurs structures et stocke la description de leurs métadonnées dans son Metadata Manager.

Un système de filtrage permet aux utilisateurs de limiter l’analyse à une partie des tables ou des colonnes, améliorant ainsi la performance de connexion en cas de grand nombre de tables, et permettant aux analystes de se concentrer sur les données les plus pertinentes.

Ces métadonnées permettent ensuite aux analystes de réaliser des comparaisons et des analyses de bases de données et d’établir des métriques et indicateurs de la qualité des données. Ces informations de support décisionnel permettent aux utilisateurs d’évaluer la qualité de leurs données et de prendre les bonnes décisions quant à leur besoin de nettoyage, d’intégration ou d’intendance (stewardship) des données.

En outre, l’explorateur de données intégré permet aux utilisateurs d’examiner directement les tables des bases de données analysées et d’en parcourir les données à l’aide de simples requêtes SQL.

Règles métier personnalisées

Talend Open Profiler: Règles  métiers personnalisées

Les règles métier sont des critères, des seuils ou des plages de valeurs spécifiques qui servent à identifier les correspondances, les enregistrements illogiques (ex.: âge saisi < 0 ou décimal) ou les enregistrements ne correspondant pas aux valeurs attendues.

Un assistant dédié permet de configurer facilement des règles métier personnalisées à l’aide du standard SQL pour définir ces règles et autorisant l’utilisation avancée de jointures afin de répondre à des besoins plus complexes. Des règles métier de qualité de données sont utilisées pour définir des seuils de valeur attendue pour les indicateurs de qualité de données. La plage de valeurs ou la valeur déclarée sert à mesurer la qualité des données de la table sélectionnée directement dans l’outil de profiling.

Modèles

Talend Open Profiler: Modèles

Les modèles sont des données de référence contre lesquelles les données analysées sont comparées. Une bibliothèque de modèles prédéfinis est disponible pour résoudre les problèmes de qualité les plus fréquents.

En outre, des modèles entièrement personnalisés peuvent être créés à partir d’expressions régulières et de requêtes SQL pour une analyse des données optimisée et plus précise.

Les utilisateurs peuvent partager leurs modèles maison et récupérer ceux développés par les autres utilisateurs de la communauté Talend via la plateforme Talend Exchange accessible directement depuis le studio de Talend Open Profiler. Les expressions régulières ou les modèles SQL peuvent également être importés à partir d’un fichier CSV lorsque le nombre de modèles à manipuler est très élevé.

Indicateurs

Talend Open Profiler: Indicateurs

Les indicateurs sont le résultat de l’implémentation de différents modèles. Ils définissent le contenu, la structure et la qualité des données analysées et peuvent résulter d’opérations simples comme très complexes basées sur la correspondance des données ou d’autres opérations de données.

Un certain nombre d’indicateurs système est disponible en natif dans Talend Open Profiler pour aider les utilisateurs à découvrir le profiling de données, notamment :

  • Simple statistics : fournit des statistiques sur le nombre d’enregistrements tels que le nombre de lignes, de valeurs nulles, de valeurs uniques et distinctes, le nombre de doublons et le nombre de champs vides.
  • Text statistics : analyse les caractéristiques des champs texte, telles que les longueurs minimale, maximale et moyenne.
  • Summary statistics : fournit une analyse statistique sur des données numériques, dont le calcul de la médiane, de la moyenne, du premier et dernier quartile, et de la définition des intervalles.
  • Advanced statistics : détermine les valeurs les plus probables et les plus fréquentes et crée des tables de fréquences basées sur ces valeurs.
  • Pattern frequency : calcule la fréquence des enregistrements pour chaque modèle (plus fréquents et moins fréquents).
  • Soundex frequency : indexe les enregistrements selon la phonétique et leur prononciation en anglais.

Des assistants dédiés aident les utilisateurs à paramétrer leurs propres indicateurs personnalisés à l’aide de requêtes SQL ou des déclarations Java pour faire le suivi de nouvelles métriques de qualité de données ou de caractéristiques spécifiques de leurs données.

Interprétation

Talend Open Profiler: Interprétation

Pour chaque table, colonne, élément de données ou indicateur sélectionné, Talend Open Profiler génère des rapports et des graphiques sophistiqués, permettant aux utilisateurs d’évaluer rapidement  les résultats de leurs profilings, dans l’éditeur d’analyse.