Qu’est-ce que la redondance des données ?

La redondance des données se produit lorsque des données identiques sont conservées dans différentes bases de données ou différents gisements de données. Ces données redondantes peuvent réapparaître dans différents champs d'une base de données ou dans plusieurs emplacements de différentes plates-formes ou différents environnements logiciels. La redondance des données peut se produire par accident, mais elle peut aussi être spécifiée volontairement à des fins de sauvegarde et restauration.

La redondance accidentelle des données peut se produire lorsque les données sont affectées d'un codage inefficace ou en raison de la complexité d'un processus. La redondance volontaire des données peut souvent protéger les données et favoriser leur cohérence.

La pratique qui consiste à stocker des données identiques dans différents emplacements est parfaitement concevable, mais pour éviter les problèmes de redondance, il est important de prévoir un champ (ou autre type d'espace central) qui contiendra les « données de référence ». Ce champ permet de mettre à jour toutes les occurrences de données identiques à partir d'un seul point d'accès. En l'absence d'une telle précaution, la redondance des données peut entraîner des incohérences si certaines mises à jour ne portent pas systématiquement sur tous les champs contenant des données identiques : des données censées être identiques finissent par avoir des valeurs différentes, ce qui peut entraîner des problèmes lors du traitement.

La technologie MDM réduit la redondance des données

La redondance des données est un problème courant, et présent dans la plupart des entreprises. Ceci s'explique par le fait que la plupart des entreprises disposent d'un portefeuille d'applications hétérogène, avec des fragments de données souvent inexactes, incomplètes et incohérentes qui résident dans divers silos d'applications. La redondance des données se produit généralement lorsque l'entreprise décide de générer une vue cohérente de sa base de clients : le rapprochement des données de nombreux systèmes opérationnels peut s'avérer difficile (voire impossible).

Télécharger Qu'est-ce que la redondance des données ? maintenant
En savoir plus

Par exemple, une cliente peut être connue sous le nom de « Mme Blanc » dans un système et de « Ghislaine Blanc » dans un autre. Ces problèmes ne facilitent pas les prises de décision intelligentes, mais leur résolution réside dans la façon dont les données partagées sont traitées.

La « gestion des données de référence (MDM) » est une méthode complète qui permet de relier l'ensemble des données essentielles de l'entreprise à un « fichier de référence ». Exemples de données de référence : clients, produits, ressources, emplacements, employés, départements, etc.

La technologie MDM est en train de s'imposer comme la solution qui permet de gérer plus efficacement les données partagées, d'éliminer la redondance des données et d'atteindre le graal de la fiabilité ultime (on parle parfois de « une seule version de la vérité » et de « golden records »). La MDM peut garantir à la fois la cohérence et l'agilité des données, offrant ainsi à l'entreprise un avantage concurrentiel majeur et un retour sur investissement (ROI) plus rapide.

À un moment où les entreprises s'efforcent de réduire leurs coûts, de respecter leurs obligations en matière de conformité, d'augmenter leurs ventes et d'offrir un service supérieur à leurs clients et fournisseurs, les analystes s'accordent à penser que MDM est une solution qui va apporter une importante contribution à ces priorités.

La MDM comprend un ensemble de processus et d'outils spécialisés dans la définition et gestion cohérentes des données non transactionnelles. La MDM permet de déployer des processus à l'échelle de l'entreprise (collecte, agrégation, correspondance, consolidation, assurance qualité, persistance et distribution des données). Ces processus garantissent la cohérence des données et facilitent leur contrôle dans le cadre de la maintenance continue et de l'exploitation de ces données par les applications.

Télécharger Qu'est-ce que la redondance des données ? maintenant
En savoir plus

La solution Talend MDM résout les problèmes de redondance des données

Talend MDM est une solution à base de modèles non intrusive, facilement adaptable aux besoins spécifiques de chaque entreprise et très rapide à implémenter. Cette solution a été conçue spécifiquement pour relever les défis de la création et gestion des données de référence pour toutes les entreprise dans lesquelles les données sont hébergées sous divers formats, dans divers systèmes et peuvent changer très souvent.

Talend MDM propose un ensemble complet de fonctionnalités pour le mastering (création des données de référence), puis la gestion et l'intégration des données à l'échelle de l'entreprise. Talend MDM regroupe les données de référence de l'entreprise dans un « Hub » central. Par application des modèles de données requis, ce référentiel standardisé établit les prérequis en fonction desquels les données et mises à jour sont validées.

Talend Studio, élément clé de la solution MDM de Talend, est particulièrement bien adapté aux problèmes de redondance des données. Talend Studio permet de disposer des couches de traitement qui garantissent que les bonnes personnes disposent des bons outils pour modéliser et manipuler les données de référence en mode centralisé. Talend Studio propose également les fonctionnalités nécessaires à la gouvernance et au suivi des données de référence.

La gouvernance des données définit les règles qui doivent être respectées par les données de référence. Le suivi des données permet de s'assurer que les données respectent ces règles. En d'autres termes, il est nécessaire de disposer à la fois de fonctionnalités de gouvernance pour démontrer que les contrôles adaptés sont en place, et de fonctionnalités de suivi pour confirmer que ces contrôles sont appliqués.

Talend Studio propose les fonctionnalités suivantes :

  • L'écran Profiling regroupe les fonctions de profilage et de qualité des données, qui permettent de profiler et nettoyer les données source avant de les charger dans le Hub MDM. Ces opérations contribuent à garantir un niveau élevé de qualité des données de référence dans l'entreprise. Dans l'écran Profiling, les utilisateurs peuvent profiler et nettoyer les données provenant de différentes sources avant de les charger dans le Hub MDM.
  • Les fonctions de gestion des données de référence, regroupées dans l'écran MDM permettent de définir des modèles de données à partir des règles nécessaires en matière de gestion et d'exploitation de l'entreprise. Objectif : créer une seule copie de référence des données qui sera ensuite propagée vers les systèmes source et cible.
  • Les fonctions de résolution des données sont regroupées dans l'interface Talend MDM Web User Interface (via la console Talend Data Stewardship Console). Ces fonctions permettent de traiter les enregistrements importés de différentes sources de données après établissement de leurs correspondances et pour lesquels une décision doit être prise pour définir l'enregistrement contenant les données de référence (ou « golden record »).

Plus les données évoluent en volume, provenance (sources) et diversité, plus leur potentiel de redondance augmente les difficultés pour les entreprises pilotées par les données. Les solutions MDM peuvent fortement contribuer à atténuer les problèmes de redondance des données.

Pour plus de détails, essayez dès aujourd'hui la solution MDM open source de Talend.

| Last Updated: January 28th, 2019