Il est temps de combattre les préjugés autour de la qualité des données

Il est temps de combattre les préjugés autour de la qualité des données

  • David Talaga
    David Talaga is Senior Product Marketing Manager for Data Governance at Talend. David has a rich and diverse marketing experience, including strategic, field, and product marketing roles in data-driven organizations. After graduating from EDHEC, David started his career as a Data analyst in the Healthcare Industry. In 2000, he joined Dassault Systèmes where he held several senior positions, notably heading up the technology partnership program in Augmented Reality and the strategic alliance with Microsoft. In 2006, David joined Microsoft as Product Marketer for the Software Engineering Product Line. In 2014, he became Marketing Manager for a new EdTech Offering at John Wiley and Sons before joining Talend as Product Marketing for Data Governance Solutions.
  • mars 02, 2018

Les mauvaises données n'ont jamais été aussi volumineuses. Au cours des dernières années, nous avons vu un déluge incroyable de données qui noie tous les professionnels de la donnée.  Et ça n’est pas près de s’arrêter. Selon le dernier document d'IDC, Data Age 2025, la taille projetée de la sphère de données mondiales en 2025 serait l'équivalent de regarder l'intégralité du catalogue Netflix 489 millions fois (163 ZB de données).

En un mot, c’est dix fois le volume des données en circulation en 2016. Si rien n'est fait, nous pourrions également prévoir que le volume de mauvaises données sera également multiplié par 10. 

Nul doute que chaque professionnel des données continuera sans cesse à chasser les mauvaises données car elles sont le fléau de toute transformation numérique : de mauvaises données conduisent à de mauvaises recommandations qui finalement aboutissent à des décisions erronées. Tout ceci compromet la viabilité de toute entreprise.

Repérer les données incorrectes

C'est pourquoi il est crucial de repérer les mauvaises données dans votre organisation. 

Mais il est aussi difficile de le faire.

Des divisions métiers, des ventes, du marketing ou de l'ingénierie, les mauvaises données surgissent de chaque côté de votre organisation sous des formes très diverses.

  • Inexactes : fautes d'orthographe, mauvais numéros, informations manquantes, vides
  • Non conformes : les données ne répondant pas aux normes réglementaires
  • Non contrôlées : les données laissées sans surveillance continue vont bientôt être polluées.
  • Non sécurisées : les données laissées sans contrôle peuvent être consultées par les pirates et tuer votre entreprise.
  • Statiques : une donnée non mise à jour devient obsolète et inutile.
  • Dormantes : les données laissées inactives et inutilisées dans un référentiel perdent leur valeur car elles ne sont ni mises à jour ni partagées.

Si les données alimentent votre stratégie commerciale, de mauvaises données pourraient tout aussi bien la tuer. 

Si les données sont l'essence qui alimente votre stratégie, les mauvaises données sont comme une essence frelatée qui polluera la meilleure des voitures. Franchement, il n'y a aucune chance d’aller loin rapidement si vous remplissez le réservoir avec de l'essence de mauvaise qualité. La même chose s'applique à votre organisation. Avec des données médiocres, les résultats peuvent être désastreux et coûter des millions à votre organisation.

Si vous suivez aveuglément votre application Waze, vous pouvez finir dans le lac. Les mauvaises données de Waze peuvent être tenues responsables pour cela. Mais vous serez celui qui en pâtira le plus.

Au contraire, en visualisant un avenir proche où votre voiture, alimentée par des capacités de machine learning, sera entièrement autonome et choisit d’elle-même la meilleure direction : si la voiture vous conduit dans le lac en raison de données de géo positionnement inexactes, cela coûtera très cher pour le constructeur et atteindra négativement la réputation de la marque en question. Selon Gartner, le coût de la qualité des données médiocres explose de 50% en 2017 pour atteindre 15 millions dollars par année pour chaque entreprise. L'intelligence artificielle et le machine learning seront inutiles et dangereux s'ils s'appuient sur de mauvaises données. Vous pouvez facilement imaginer que ce coût explosera dans les années à venir si rien n'est fait.

Il est grand temps de tirer la sonnette d’alarme :

Les résultats d’un sondage de Gartner en 2017 montrent que le rôle de la qualité des données est à nouveau classé comme un élément de premier plan pour le Bureau du CDO.

Mais la vérité est que peu a été fait pour résoudre le problème. La qualité des données a toujours été perçue par les organisations comme quelque chose de difficile. De l’avis général, c’est "trop long" et compliqué. " Même si, jamais auparavant il n'a été aussi important de réagir et de s'attaquer au défi des données.

Heureusement, les choses ont changé. Au cours des deux dernières années, l'outillage de qualité des données a radicalement changé. Et il est temps pour vous de prendre « le taureau de données » par les cornes.

[Vous ne savez pas par où commencer ? Suivez notre webinaire à venir sur les bonnes recettes pour gérer la qualité des données dans votre organisation. Au travers de cas pratiques, nous découvrirons comment gérer les données de bout en bout avec la plate-forme Cloud Talend et optimiser vos flux de données à travers l'organisation.]

Essayons de démystifier les fausses perceptions de la qualité des données, de mettre en évidence les outils de qualité des données et pourquoi vous auriez besoin d'une approche collaborative de gestion des données :

"La qualité des données cela concerne juste des data warehouse traditionnels."

Comme les données proviennent de partout, les outils de qualité des données évoluent. Ils sont maintenant capables de couvrir tous types de données quel que soit leurs natures, leurs formes, leurs sources. Pas seulement des entrepôts de données traditionnels.

La qualité de donnée s’étend désormais à la fois à des données sur site mais aussi à des données entreposées dans le Cloud ou provenant d’objets connectés. Face à la complexité des données et au volume croissant des données, l'outillage moderne de qualité des données utilisera le machine learning et les capacités de traitement du langage naturel pour faciliter les opérations de traitement et vous aider à trier ce qui est bénéfique de ce qui est nuisible.

"Une fois que vous appliquez votre qualité de données, vous en avez terminé."

La gestion des données n'est pas une opération à usage unique. Prenons l'exemple des réseaux sociaux : le nombre de posts de médias sociaux, vidéo, tweets, images ajoutées par jour est supérieur à plusieurs milliards d'entrées. Et cela continue à augmenter à la vitesse de la foudre. C'est également vrai pour les opérations commerciales qui se multiplient dans votre entreprise. Les données deviennent de plus en plus “temps réel”. Elles s’accélèrent. Vous avez alors besoin de "qualité de données temps réel". La qualité des données est de plus en plus une opération permanente, un processus continu et itératif où vous contrôlez constamment, validez et enrichissez vos données, lissez vos flux de données et obtenez des informations plus fines. Vous simplifiez également votre travail si vous liez toutes vos opérations de données ensemble sur une plate-forme de données unique. Ne tardez pas : la résolution de la qualité des données en aval, au bord de la chaîne d'information est difficile et coûteuse. C'est dix fois moins cher de résoudre le problème de qualité de données au début de la chaîne qu’à la fin.

"La qualité des données relève de la responsabilité informatique."

Il est terminé le temps où la qualité de données relevait seulement du domaine de la DSI.  En fait, elle devient une priorité stratégique.  Une faille de sécurité, une perte de données ou une mauvaise gestion des données peut conduire votre entreprise à la faillite. Cela devient l’affaire de tous, la priorité de toute l'entreprise. C'est une responsabilité partagée. Aucune organisation centrale, que ce soit la DSI, le service conformité ou le Bureau du CDO peut par magie nettoyer les données. L'approche top-down montre des limites. Cela relève de la responsabilité personnelle. Comme la propreté des espaces publics : tout commence par la citoyenneté.

Prenons l'exemple du scandale Alteryx : un entrepôt de données dans le Cloud contenant des données d’Alteryx, entreprise californienne basée sur l'analyse de données, a été laissé publiquement exposé, révélant des quantités massives de renseignements personnels sensibles pour 123 millions de ménages américains. C'est ce qui se produit lorsque vous ne parvenez pas à établir une approche de gouvernance des données à l'échelle de l'entreprise, dans laquelle les données doivent traverser les contrôles de sécurité et les processus de qualité des données avant de pouvoir être largement diffusés.

La mauvaise gestion des données peut avoir des conséquences commerciales négatives immédiates avec des répercussions au-delà de la DSI. Une bonne gestion des données exige une responsabilité totale de l'entreprise. Sinon, elle provoque des dégâts considérables, des pénalités, une mauvaise réputation et un impact négatif sur la marque.

"Les logiciels de qualité des données sont compliqués et réservés à des experts."

Fini le temps où toute personne sans doctorat pouvait se plaindre de la qualité des données et dépendre des experts pour résoudre les problèmes. Les outils modernes de qualité de données deviennent de plus en plus conviviaux : en écoutant les clients, en analysant les tendances modernes et en interviewant les utilisateurs, les éditeurs de logiciels ont fait beaucoup d'efforts pour rendre certaines opérations de qualité de données plus simples, plus accessibles et plus conviviales.

À titre d'exemple, Talend a développé Talend Data Preparation Cloud. Plus simple qu'Excel, vous pouvez facilement manipuler des jeux de données volumineux sans aucun effet destructeur sur vos données brutes. Vous pouvez les enrichir, les nettoyer facilement sans exiger aucune aide externe. Connecté à vos applications comme Marketo & Salesforce, Talend Data Preparation améliorera considérablement votre productivité quotidienne et améliorera vos flux de données.

N’hésitez pas à le tester ici : https://iam.eu.integrationcloud.talend.com/idp/trial-registration 

"Il est difficile de contrôler la qualité des données."

Ce n'est plus seulement une question de contrôle, mais une question de gouvernance. La DSI doit accepter de déléguer certaines opérations de qualité des données aux métiers, car ils sont souvent mieux placés pour le valider. Les utilisateurs métier deviennent alors des citoyens de données, des « stewards ». Ils se sentent engagés et jouent un rôle actif dans l'ensemble du processus de gestion des données. C'est seulement en passant d'un mode autoritaire à un rôle plus collaboratif que vous allez réussir votre stratégie de gestion de données.

"Mais il est encore plus difficile de faire fonctionner toutes les opérations de données ensemble."

La DSI peut avoir des propres outils et les métiers peuvent avoir leurs propres outils pour gérer leurs données. Mais avoir les bons outils n’est pas suffisant. Vous aurez toujours besoin d'un centre de contrôle pour gérer vos flux de données. Vous avez besoin d'une plate-forme de données unifiée où toutes les opérations de données sont liées et opérationnelles ensemble. La gestion de données est un processus contrôlé, délégué et collaboratif. Sinon, vous risquez de casser vos chaînes de données et vous ne pourrez plus les améliorer. 

Une stratégie de qualité de données pertinente sur la bonne plateforme de gestion de données n’est plus chose impossible.  Mais cela exige que tous les professionnels des données de votre organisation réagissent et établissent ensemble une stratégie de données claire, transparente et gouvernée.

La donnée devient alors votre atout le plus précieux. Il est grand temps de porter des lunettes de qualité et de combattre la myopie qui vous prive du potentiel caché de vos données.  

Pour aller plus loin dans la qualité des données, n’hésitez pas à consulter une étude récente du Gartner qui reflète huit changements importants qui façonnent les outils modernes de qualité de données.

 

Participer aux discussions

0 Comments

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *