Qu'est-ce que la redondance des données ?

Définition

Sans parler d’informatique, la redondance peut se définir comme la répétition inutile d’une information. Concrètement, cela désigne le fait de répéter une information sous plusieurs formes sans que cela soit nécessaire.

En informatique, la redondance des données (ou data redundancy en anglais) désigne le fait des données identiques soient disponibles dans différentes bases ou différents gisements de données. 

Ces données redondantes peuvent réapparaître dans différents champs d'une base même de données ou dans plusieurs emplacements de différentes plates-formes, infrastructures solutions informatiques ou différents environnements logiciels.

Redondance accidentelle VS redondance volontaire

La redondance des données peut se produire par accident, mais elle peut aussi être spécifiée volontairement à des fins de sauvegarde et restauration.

La redondance accidentelle des données peut se produire lorsque les data sont affectées d'un codage inefficace ou en raison de la complexité d'un processus ou d’un système.

La redondance volontaire des data peut souvent protéger les données sur un serveur, améliorer la sécurité d’un système et favoriser leur cohérence.

Comment éviter la redondance accidentelle de ses informations ?

Le stockage des données identiques dans différents emplacements est parfaitement concevable, mais pour éviter les problèmes de redondance, il est important de prévoir un champ (ou autre type d'espace central) qui contiendra les « données de référence ».

Ce champ permet de mettre à jour toutes les occurrences de données identiques à partir d'un seul point d'accès. En l'absence d'une telle précaution, la redondance des données peut entraîner des incohérences si certaines mises à jour ne portent pas systématiquement sur tous les champs contenant des données identiques.

Des données censées être identiques finissent par avoir des valeurs différentes, ce qui peut entraîner des problèmes et une défaillance lors du traitement. Les analyses qui s’en suivent sont donc faussées car elles ne se basent pas forcément sur la bonne version de la donnée stockée.

La technologie MDM pour réduire la redondance des données

La redondance des données est un problème courant, et présent dans la plupart des entreprises.

Ceci s'explique par le fait que la plupart des entreprises disposent d'un portefeuille d'applications hétérogène, avec des fragments de données souvent inexactes, incomplètes et incohérentes qui résident dans divers silos d'applications.

La redondance des données se produit généralement lorsque l'entreprise décide de générer une vue cohérente de sa base de clients : le rapprochement des données de nombreux systèmes opérationnels peut alors s'avérer difficile (voire impossible).

Par exemple, une cliente peut être connue sous le nom de « Mme Blanc » dans un système et de « Ghislaine Blanc » dans un autre. Ces problèmes ne facilitent pas les prises de décision intelligentes, mais leur résolution réside dans la façon dont les données partagées sont traitées.

La « gestion des données de référence » plus connue sous l’acronyme MDM (Master Data Management) est une méthode complète qui permet de relier l'ensemble des données essentielles de l'entreprise à un « fichier de référence ».

Les données de référence peuvent par exemple concerner :

  • Les clients,
  • Les produits,
  • Les ressources et équipements,
  • Les emplacements,
  • Les employés,
  • Les départements de l’organisation,
  • etc.

La technologie MDM est en train de s'imposer comme la solution qui permet de gérer plus efficacement les données partagées, d'éliminer la redondance des données et d'atteindre le graal de la fiabilité ultime.

Le MDM peut garantir à la fois la cohérence, l'agilité et la sécurité des données, offrant ainsi à l'entreprise un avantage concurrentiel majeur et un retour sur investissement (ROI) plus rapide.

À un moment où les entreprises s'efforcent de réduire leurs coûts, de respecter leurs obligations en matière de conformité, d'augmenter leurs ventes et d'offrir un service supérieur à leurs clients et fournisseurs, les analystes s'accordent à penser que le MDM est une solution qui va apporter une importante contribution à ces priorités.

Le MDM comprend un ensemble de processus et d'outils spécialisés dans la définition et gestion cohérentes des données non transactionnelles. Ce système permet de déployer des processus à l'échelle de l'entreprise (collecte, agrégation, correspondance, consolidation, assurance qualité, persistance et distribution des données).

Ces processus garantissent la cohérence des données et facilitent leur contrôle dans l

La solution Talend MDM résout les problèmes de redondance des données

Talend MDM est une solution non intrusive à base de modèles, facilement adaptable aux besoins spécifiques de chaque entreprise et très rapide à implémenter.

Cette solution a été conçue spécifiquement pour relever les défis de la création et gestion des données de référence pour toutes les entreprises dans lesquelles les informations sont hébergées sous divers formats, dans divers systèmes (cloud, serveur sur place, à distance) et peuvent changer très souvent.

Talend MDM propose un ensemble complet de fonctionnalités pour le mastering (création des données de référence), puis la gestion et l'intégration des data à l'échelle de l'entreprise.

Talend MDM regroupe les données de référence de l'entreprise dans un « Hub » central. Par application des modèles de données requis, ce référentiel standardisé établit les prérequis en fonction desquels les données et mises à jour sont validées.

Talend Studio, élément clé de la solution MDM de Talend, est particulièrement bien adapté aux problèmes de data redundancy. Talend Studio permet de disposer des couches de traitement qui garantissent que les bonnes personnes disposent des bons outils pour modéliser et manipuler les données de référence en mode centralisé.

Talend Studio propose également les fonctionnalités nécessaires à la gouvernance et au suivi des données de référence. La gouvernance des données définit les règles qui doivent être respectées par les données de référence. Le suivi des données permet de s'assurer que les données respectent ces règles.

En d'autres termes, il est nécessaire de disposer à la fois de fonctionnalités de gouvernance pour démontrer que les contrôles adaptés sont en place, et de fonctionnalités de suivi pour confirmer que ces contrôles sont appliqués.

Talend Studio propose les fonctionnalités suivantes :

  • L'écran Profiling regroupe les fonctions de profilage et de qualité des données, qui permettent de profiler et nettoyer les données source avant de les charger dans le Hub MDM. Ces opérations contribuent à garantir un niveau élevé de qualité des données de référence dans l'entreprise. Dans l'écran Profiling, les utilisateurs peuvent profiler et nettoyer les données provenant de différentes sources avant de les charger dans le Hub MDM.
  • Les fonctions de gestion des données de référence, regroupées dans l'écran MDM permettent de définir des modèles de données à partir des règles nécessaires en matière de gestion et d'exploitation de l'entreprise. Objectif : créer une seule copie de référence des données qui sera ensuite propagée vers les systèmes source et cible.
  • Les fonctions de résolution des données sont regroupées dans l'interface Talend MDM Web User Interface (via la console Talend Data Stewardship Console). Ces fonctions permettent de traiter les enregistrements importés de différentes sources de données après établissement de leurs correspondances et pour lesquels une décision doit être prise pour définir l'enregistrement contenant les données de référence (ou « golden record »).

Plus les données évoluent en volume, provenance (sources) et diversité, plus leur potentiel de redondance augmente les difficultés pour les entreprises pilotées par les données. Les solutions MDM peuvent fortement contribuer à atténuer les problèmes de redondance des données.

Prêt à faire vos premiers pas avec Talend ?