Le data profiling ou profilage de données se définit par l'analyse des données présentes dans différentes sources de données (bases de données, applications, fichiers...) et le recueil de statistiques et d'informations sur ces données. Grâce au Data Profiling, il est possible d'évaluer le niveau de qualité des données contenues dans le système d'information selon un ensemble de métriques et d'objectifs définis au préalable.
Talend Open Profiler est un outil sophistiqué mais simple d'utilisation, pour profiler les données. Il définit le contenu, la structure et la qualité des structures de données très complexes. Il permet aux utilisateurs métier ou aux équipes de gestion des données d'effectuer de nombreuses analyses grâce à une série d'indicateurs, de motifs et de règles pour chaque élément de données à analyser ou contrôler. Il analyse les données en continu et les changements des données source dans le temps afin d'améliorer la qualité des données.
Téléchargez Talend Open Profiler maintenant!
Pour en savoir plus sur Talend Open Profiler, consultez notre démo online ou nos témoignages d'utilisateurs.
Vous hésitez entre Talend Open Profiler et Talend Data Quality? Consultez notre matrice de comparaison fonctionnelle.
Découverte des métadonnéesTalend Open Profiler se connecte aux bases de données pour inspecter leurs structures et stocke la description de leurs métadonnées dans son Metadata Manager. Un système de filtrage permet aux utilisateurs de limiter l’analyse à une partie des tables ou des colonnes, améliorant ainsi la performance de connexion en cas de grand nombre de tables, et permettant aux analystes de se concentrer sur les données les plus pertinentes. Ces métadonnées permettent ensuite aux analystes de réaliser des comparaisons et des analyses de bases de données et d’établir des métriques et indicateurs de la qualité des données. Ces informations de support décisionnel permettent aux utilisateurs d’évaluer la qualité de leurs données et de prendre les bonnes décisions quant à leur besoin de nettoyage, d’intégration ou d’intendance (stewardship) des données. En outre, l’explorateur de données intégré permet aux utilisateurs d’examiner directement les tables des bases de données analysées et d’en parcourir les données à l’aide de simples requêtes SQL. Règles métier personnaliséesLes règles métier sont des critères, des seuils ou des plages de valeurs spécifiques qui servent à identifier les correspondances, les enregistrements illogiques (ex.: âge saisi < 0 ou décimal) ou les enregistrements ne correspondant pas aux valeurs attendues. Un assistant dédié permet de configurer facilement des règles métier personnalisées à l’aide du standard SQL pour définir ces règles et autorisant l’utilisation avancée de jointures afin de répondre à des besoins plus complexes. Des règles métier de qualité de données sont utilisées pour définir des seuils de valeur attendue pour les indicateurs de qualité de données. La plage de valeurs ou la valeur déclarée sert à mesurer la qualité des données de la table sélectionnée directement dans l’outil de profiling. ModèlesLes modèles sont des données de référence contre lesquelles les données analysées sont comparées. Une bibliothèque de modèles prédéfinis est disponible pour résoudre les problèmes de qualité les plus fréquents. En outre, des modèles entièrement personnalisés peuvent être créés à partir d’expressions régulières et de requêtes SQL pour une analyse des données optimisée et plus précise. Les utilisateurs peuvent partager leurs modèles maison et récupérer ceux développés par les autres utilisateurs de la communauté Talend via la plateforme Talend Exchange accessible directement depuis le studio de Talend Open Profiler. Les expressions régulières ou les modèles SQL peuvent également être importés à partir d’un fichier CSV lorsque le nombre de modèles à manipuler est très élevé. IndicateursLes indicateurs sont le résultat de l’implémentation de différents modèles. Ils définissent le contenu, la structure et la qualité des données analysées et peuvent résulter d’opérations simples comme très complexes basées sur la correspondance des données ou d’autres opérations de données. Un certain nombre d’indicateurs système est disponible en natif dans Talend Open Profiler pour aider les utilisateurs à découvrir le profiling de données, notamment :
Des assistants dédiés aident les utilisateurs à paramétrer leurs propres indicateurs personnalisés à l’aide de requêtes SQL ou des déclarations Java pour faire le suivi de nouvelles métriques de qualité de données ou de caractéristiques spécifiques de leurs données. Interprétation
|