GDPR et gestion des données : cinq piliers pour réussir avec Talend

article in English

 

Lorsque le Règlement Général sur la Protection des Données (GDPR) entrera en vigueur en mai 2018, les entreprises devront être en mesure de suivre leurs données sensibles et de déterminer comment elles sont traitées dans leur supply chain informationnelle. Elles devront formaliser leurs bonnes pratiques de gestion des données et tenir compte du respect de la vie privée dès la phase de conception (« privacy by design »). En d’autres termes, et dans un monde soumis à la GDPR, chaque nouveau service digital utilisant des données personnelles devra désormais être capable d’en assurer également la protection.  Selon une enquête publiée récemment par l’Association internationale des professionnels de la protection de la vie privée (IAPP), jusqu’à 75 000 délégués à la protection des données (DPO) devront être embauchés dans le monde entier d’ici mai 2018 afin de pouvoir gérer les données personnelles des citoyens de l’Union Européenne. 

 

Certaines violations des dispositions de la GDPR pourraient exposer les entreprises à des amendes allant jusqu’à 20 millions d’euros ou même plus pour les grandes entreprises, soit jusqu’à 4 % du chiffre d’affaires mondial généré au cours de leur précédent exercice (en fonction du montant le plus élevé). Les directions informatiques doivent donc rechercher la solution adaptée pour gérer ces futures réglementations des données. Pourtant, d’après une enquête menée récemment par Dell auprès de 821 professionnels de l’informatique dans le monde entier, 97 % d’entre eux ont déclaré que leur entreprise, n’ont encore rien mis en place pour faire face à l’entrée en vigueur de cette nouvelle législation. Un changement est donc clairement nécessaire, car la GDPR aura des implications majeures sur les systèmes d’information de toutes les entreprises, en particulier vis-à-vis des bonnes pratiques en matière de gestion et de gouvernance des données.

 

Se préparer à la GDPR

Pour respecter et se préparer intégralement à la GDPR, les organisations devront créer et entretenir un inventaire global des données, afin de savoir quelles données personnelles nominatives (PII) elles stockent et traitent. Pour y parvenir, elles s’intéresseront aux techniques de gestion de métadonnées, et être en mesure de suivre les données à la trace. Il leur faudra également savoir si, comment et quand un client a exprimé son consentement (opt-in) quant à l’utilisation de ses informations. La traçabilité est une part essentielle du mandat la GDPR, et pour l’accomplir, les organisations devront mettre en place une plateforme de données PII où elles pourront rassembler l’ensemble des données pertinentes en un seul lieu. Il leur faudra également réconcilier et harmoniser les données PII hétérogènes pour créer une « version unique de la vérité » à l’aide de technologies de gestion de la qualité des données, et de Master Data Management (ou MDM, gestion des données de référence) et de gestion des métadonnées, tout cela dans le but d’en établir l’origine et les mouvements (origine).

 

Le principe de prise en compte du respect de la vie privée dès la phase de conception (ou privacy by design) est la clé de la GDPR et deviendra également crucial pour assurer la protection des données dans tout système contenant des informations sensibles (comme les entrepôts de données, les data lakes ou les applications cloud). C’est dans ce contexte que le masquage, l'utilisation de données rendues anonymes ou de pseudonymes devront être envisagés.  

 

Il faudra aussi établir des politiques de gouvernance des données. Il peut s’agir de définir des paramètres concernant les périodes de validité des consentements ou l’archivage de données historiques. Aussi, les entreprises doivent encourager leurs employés à se montrer plus responsables.  Nommer un délégué à la protection des données (DPO) pourra être obligatoire pour la plupart des entreprises, mais celui-ci ne pourra pas être le seul à veiller à l’application des règles en matière de protection des données nominatives sur l’ensemble des systèmes. A titre d’exemple, l’historique des données d’un client peut être composé d’informations détenues par le service commercial, mais aussi au sein des départements marketing, financiers, juridiques, maintenance, ou des systèmes mobiles ou encore de l’IoT. Dans chacun de ces systèmes et départements, l’individu responsable de la gestion des données sera vraisemblablement différent. Les capacités de data stewardship collaboratif offertes par des applications en libre-service seront essentielles à la réussite d’une telle approche et stimuleront la prise de responsabilité de chacun. 

 

Enfin, les entreprises doivent non seulement protéger leurs données, mais également les « ouvrir » à l’aide de technologies d’intégration de données et d’applications. Cet élément est particulièrement important car, selon les dispositions de la GDPR, n’importe qui a le droit de réclamer à une entreprise toute information pertinente le concernant. Il peut également exercer son « droit à l’oubli », demander à ce que des corrections soient apportées en cas d’imprécisions, et réclamer toutes données pertinentes sous un format lisible.

 

S’attaquer aux 5 piliers de la GDPR avec Talend  

Tous les objectifs ci-dessus nécessitent l’adoption d’une approche coordonnée en matière de gestion des données. Nous allons décrire comment y parvenir grâce aux cinq piliers de la GDPR : ces meilleures pratiques en matière de gestion de données ont pour objectif de permettre aux organisations de se mettre en conformité avec la réglementation.

 

Le premier pilier consiste à faire en sorte de réunir l’ensemble des données dans un data lake (lac de données), et à utiliser des outils tels que Hadoop pour en assurer l’exploitation et le traitement.  Ce faisant, les entreprises pourront collecter l’ensemble des données nécessitant leur attention, mais aussi les connecter sur une plateforme où elles pourront être découvertes, harmonisées, nettoyées, protégées, gouvernées, partagées et auditées en toute sécurité. Elles obtiendront alors une vue étendue au-delà du data lake en les collectant en amont, et en examinant leurs sources (CRM, marketing et digitale) avant qu’elles de les intégrer au lac. Elles pourront alors visualiser entièrement leur supply chain informationnelle et assurer la gouvernance, la qualité et le stewardship des données à leur point d’origine.

 

Cette approche globale peut avoir la préférence de nombreuses grandes entreprises cherchant à obtenir une vision complète de l’ensemble de leur flux de données grâce à des solutions de gestion des métadonnées d’entreprise. Cependant, concrétiser cela avant la date limite de la GDPR peut représenter un cout significatif et prendre beaucoup de temps. C’est pour cette raison qu’une approche basée sur des data lakes (bien que n’étant pas la seule approche possible) constitue un objectif pragmatique en matière de conformité avec cette nouvelle réglementation. 

 

Dans cette approche, le premier pilier à bâtir concerne la capture et l’intégration de données. En effet, il est important de collecter chaque données PII, ainsi que les données de consentement issues de n’importe quelle source de données, puis de les rapprocher pour obtenir une vue à 360 degrés de l’identité de chaque client (figure 1). Le challenge réside dans le fait que les entreprises connaissent généralement leurs clients ou employés dans différents contextes. Une compagnie aérienne peut avoir identifié un client comme un passager, comme un « frequent flyer » dans son programme de fidélité, ou encore via son compte Twitter, par exemple.

 

Dans ce cas, comment les organisations peuvent-elles donc obtenir cette fameuse vue à 360 degrés ? La plateforme Big Data de Talend peut les y aider. Elle inclut un composant natif de gestion de la qualité des données qui permet de faire correspondre des données hétérogènes. Les entreprises peuvent ainsi comprendre plus aisément que Pierre Dupont est la personne se cachant derrière l’email pdupont@bidule.com ou le pseudo @PierreDupont, par exemple.

Figure 1 : Talend associe qualité, stewardship et intégration de données, et de Big Data au sein d’une plateforme unifiée afin de collecter, standardiser, réconcilier, certifier, protéger et propager des données personnelles nominatives

Talend Master Data Management (MDM) peut également être utiliser pour non seulement réconcilier les données d’un enregistrement de référence commun de données, mais aussi pour organiser la gouvernance et le stewardship pour plus de protection, ainsi que pour propager de manière sécurisé ces données entre les systèmes qui les exploitent. Dans le contexte de la GDPR, la gestion des données de référence (MDM) est particulièrement indiquée pour gérer les consentements des utilisateurs lorsqu’ils doivent s’appliquer à plusieurs applications. Les entreprises doivent alors les prendre en compte à plusieurs niveaux (par exemple pour leurs campagnes d’emails, pour personnaliser leur site avec les meilleures offres, ou pour les applications de facturation ou de service client).

 

Tous ces éléments nécessitent différentes applications. La MDM permettra donc de réconcilier, protéger et créer une piste d’audit de données personnelles en un seul lieu (Figure 2), puis de les diffuser dans différentes applications.

Figure 2 : Talend fournit un historique des données au niveau des enregistrements avec des capacités d’annulation/de répétition d’opérations. Les clients disposent ainsi d’une piste d’audit répertoriant les consentements et toute autre donnée relative à un sujet de données

Le second pilier, la classification et la traçabilité des données, permet de définir et de catégoriser les données à protéger ; de les localiser sur le système ; et de déterminer comment ces informations sont liées à d’autres informations pertinentes dans l’ensemble du système. C’est en quelque le GPS des données du système d’information, qui permet de les localiser, et aussi de savoir d’où elles viennent et où elles vont. Lors de l’utilisation d’un environnement Hadoop pour construire un data lake conforme aux exigences de la GDPR, les technologies Apache Atlas et Cloudera Navigator peuvent aider à créer cette cartographie des données. Talend Big Data Platform propose une étroite intégration avec ces environnements pour fournir l’historique des flux des données, et met ainsi en évidence l’origine et la destination des données PII. En outre, Talend Metadata Manager peut étendre cette vue de bout en bout à tout système, bien au-delà du data lake (Figure 3). Grâce à cette approche, n’importe quel employé, administrateur ou auditeur peut identifier les données concernées par GDPR grâce à un glossaire (Figure 4), et se connecter directement aux fichiers ou bases de données qui les utilisent.

 

Figure 3: Talend collecte automatiquement les données pour cartographier les données personnelles et crée un vue de bout en bout de la chaine informationnelle : vous découvrez ainsi d’où viennent et où vont vos données.

Figure 4: Le Business Glossary de Talend permet de référencer, de documenter et de classifier les « critical data elements », ainsi de les connecter aux systèmes qui les stocke et/ou les traitent.

 

Troisième pilier : l’anonymisation et la pseudonymisation

Dans ce contexte, les toutes dernières technologies de découverte sémantique permettent aux entreprises de détecter automatiquement la présence (ou l’absence) de données sensibles comme les numéros de cartes de crédit ou adresses e-mail, au sein de n’importe quelle source de données. Grâce à elles, les organisations sont alertées des potentiels problèmes de confidentialité des données, et leur attention est attirée sur les sources de données à considérer pour la conformité GDPR. Elles peuvent alors se poser la question essentielle : est-il vraiment nécessaire que j’expose ces données sensibles dans ce contexte, et ai-je bien obtenu le consentement de mes clients ou employés pour le faire ?

 

L’application des techniques de masquage permet de mettre certaines applications hors du champ de la GDPR. Par exemple, une donnée sensible pourrait être accessible depuis un système de CRM, mais masquée lorsqu’utilisée à des fins d’analyse, ou de développement et de test.  Le concept de brassage de données (data shuffling) est un type de masquage où une colonne de données est mélangée de façon aléatoire afin de dissimuler les identités, tandis que les valeurs pertinentes, elles, restent à leur place. Cette technique permet de protéger la vie privée des individus concernés, mais l’analyse et le test des données peuvent malgré tout avoir lieu en s’appuyant sur les valeurs originales des données. Le masquage (data masking) et le brassage de données sont des fonctions de Talend Data Quality : cette solution permet aussi de mettre en place des contrôles de la qualité des données à n’importe étape d’un flux de données (Figure 5). En effet, elle génère du code natif pour exécuter ces fonctions de contrôle et d’anonymisation des données au bon endroit (sur site ou dans le cloud) et au bon moment (sur les données au repos ou en temps réel sur des données en mouvement).

Figure 5: Talend permet de masquer et de  “brasser” les données en mode batch ou temps réel, de manière simple, y compris pour des utilisateurs métiers souhaitant protéger leurs informations sensibles.

Le quatrième pilier, lié à l’exploitation et à la certification en libre-service, favorise la délégation d’autorité d’un expert (délégué à la protection des données ou data steward) vers un utilisateur métiers. Un ingénieur d’affaires pourrait être le mieux placé pour garantir que les données relatives à ses contacts sont parfaitement à jour ; de même qu’un responsable de campagne marketing qui souhaite enrichir sa base de données avec de nouveaux contacts provenant d’un tiers pourrait vérifier et prouver qu’un mécanisme de consentement a bien été mis en place par le partenaire avec qui il travaille.   Afin de s’assurer que n’importe qui dans l’organisation puisse gérer l’utilisation de ses données en toute conformité, l’entreprise devra alors fournir des applications en libre-service telles que Talend Data Preparation et Talend Data Stewardship (Figure 6) aux différents départements pour plus d’autonomie. 

 

Le partage et la portabilité des données constituent le dernier pilier de la GDPR. Il faut permettre aux clients et autres contacts d’accéder, de rectifier, de supprimer (dans le cadre du droit à l’oubli), ou même de récupérer ses données personnelles au format électronique, comme la réglementation les autorise. Pour simplifier ces opérations, la mise en œuvre d’un outil d’intégration de données est fortement recommandé.

Figure 6: Talend permet de déléguer les responsabilités liées à la protection de données au travers d’outils de préparation et de curation des donnée accessibles à tous, en mode libre-service

 

Avec  Talend Data Integration, elles peuvent par exemple récupérer les données personnelles d’un client au des travers des applications qui les utilisent ; Puis créer un fichier de données au format CSV ; et envoyer automatiquement ce fichier au client qui en a fait la demande par e-mail (Figure 7). Il est possible d’utiliser une API ouverte : l’entreprise pourrait ainsi ouvrir un service dédié la GDPR sur son site internet pour ses clients    souhaitant les consulter, les rectifier, ou même les supprimer comme la loi le leur permet. Une telle approche pourrait être facilitée par l’utilisation de Talend Data Services. Ce dernier peut en effet prendre en compte des services de données en temps réel via une API standard, bien documentée et simple d’utilisation (ex. : REST).

 

Figure 7: Mettre en œuvre le principe de portabilité des données imposé par GDPR avec.

 

Prêt pour aujourd’hui et pour demain

Alors que la date d’entrée en vigueur de la GDPR approche, les entreprises réalisent la menace que cette réglementation pourrait représenter pour leur activité, et l’ampleur du préjudice financier en cas de non-conformité. Il ne suffit pas de se protéger juridiquement ni d’établir des règles et processus sur papier, il faut aussi automatiser les contrôles et les chemins d’accès sur les données concernés.  Leur priorité sera donc de mettre en place la plateforme adéquate. Nous avons démontré que les data lakes étaient d’excellents candidats pour créer une plateforme de données d’identification et devenir le point central des stratégies de conformité à la GDPR. Ils permettront de documenter, catégoriser et situer les données ; de suivre et retracer les changements apportés ; et de fournir aux intéressés les services de données correspondant à leurs droits (droit d’accès et de rectification, portabilité des données, droit à l’oubli).

Nous avons montré comment les entreprises peuvent s’appuyer sur de telles plateformes pour bâtir les cinq piliers en matière de gestion de données : capture et intégration, classification et cartographie, anonymisation, responsabilisation grâce au libre-service et partage et portabilité. Cette approche leur permettra d’automatiser les contrôles imposés par la GDPR. Un enjeu réglementaire à court terme, mais qui permet en même temps de mieux gérer son capital de données ainsi que d’établir des relations personnalisées, sur la base de la confiance, avec ses clients et employés.

 

Share

Leave a comment

Ajouter un commentaire

More information?