Comprendre la migration des données : stratégie et bonnes pratiques

Les big data sont le moteur de la plupart des entreprises modernes. Et les big data ne dorment jamais. Cela implique que l'intégration des données et la migration des données doivent être des processus transparents et parfaitement rodés, que les données migrent entre des entrées et un data lake, d'un référentiel à l'autre, d'un data warehouse à un data mart, ou encore dans ou à travers le cloud. Sans plan de migration des données solide, les entreprises risquent de dépasser leur budget, de créer des processus de gestion des données ingérables ou de constater que leurs opérations relatives aux données ne correspondent pas à leurs attentes.

Qu'est-ce que la migration des données ?

La migration des données est le processus de transfert de données d'un système à un autre. Bien que cela puisse paraître simple, cela implique un changement de stockage et de base de données ou d'application.

Dans un contexte ETL (extract/transform/load, extraire/transformer/charger), toute migration de données comporte au moins les étapes de transformation et de chargement. Cela signifie que les données extraites doivent être soumises à une série de fonctions de préparation avant de pouvoir être chargées dans l'emplacement cible.

Les organisations peuvent entreprendre une migration de données pour différentes raisons : le remaniement d'un système complet, la mise à jour des bases de données, la création d'un data warehouse, ou la fusion de nouvelles données depuis une récente acquisition ou toute autre source. La migration peut également être nécessaire lors du déploiement d'un système côtoyant des applications existantes.

Télécharger Why Your Next Data Warehouse Should Be in the Cloud maintenant
TÉLÉCHARGER

Pourquoi une stratégie de migration des données est-elle importante ?

Quelle que soit la raison d'une migration de données, son objectif final est en général d'améliorer les performances et la compétitivité.

Mais elle doit être correctement effectuée.

Les migrations incorrectes peuvent créer des inexactitudes, les données contenant des redondances et des inconnues. Cela peut se produire même si les données de la source étaient tout à fait correctes et prêtes à l'utilisation. De plus, toute difficulté existant dans la source est amplifiée lorsque les données sont transférées dans un nouveau système plus sophistiqué.

Une stratégie globale de migration des données protège des expériences médiocres, qui créent plus de problèmes qu'elles n'en résolvent. Une mauvaise planification au contraire peut entraîner des retards et des dépassements de budget, ou même causer l'échec complet d'un projet de migration. Les équipes ne doivent donc pas délaisser les migrations, en les rattachant à d'autres projets plus larges lors des phases de préparation.

Un plan de migration des données stratégique doit prendre en compte ces facteurs cruciaux :

  • Connaissance des données : avant la migration, les données sources doivent être soigneusement auditées. Des erreurs inattendues peuvent surgir si cette étape est ignorée.

  • Nettoyage : si des erreurs sont identifiées au sein des données sources, elles doivent être corrigées. Selon l'étendue du travail, des logiciels supplémentaires et des ressources tierces peuvent être nécessaires.

  • Maintenance et protection : les données se dégradent après un certain temps, et ne sont donc plus fiables. Pour maintenir la qualité des données, des contrôles doivent être prévus.

  • Gouvernance : le suivi de la qualité des données et la création de rapports sont importants, car ils permettent une meilleure compréhension de l'intégrité des données. Les procédures et outils correspondants doivent être très simples d'utilisation, et automatiser les fonctions autant que possible.

En plus d'une procédure structurée étape par étape, un plan de migration des données doit inclure une méthode de sélection et de mise à disposition des outils et logiciels appropriés pour le projet.

Regarder How to Use Machine Learning to Scale Data Quality maintenant.
Regarder

Stratégies de migration des données

Une stratégie de migration des données peut être définie de différentes manières. Elle doit être adaptée aux besoins et exigences spécifiques de chaque entreprise. Cependant, la plupart des stratégies relèvent de l'une de ces deux catégories : « Big Bang » ou « Trickle » (goutte à goutte).

Migration « Big Bang »

Dans une migration Big Bang, l'intégralité du transfert est effectuée sur une période limitée. Les systèmes en production connaissent des temps d'arrêt lorsque les données passent en traitement ETL et sont transférées vers la nouvelle base de données.

L'avantage de cette méthode est bien sûr que la migration est relativement rapide, étant regroupée dans un évènement condensé. La pression par contre peut être intense, car les activités de la société doivent se poursuivre alors que l'une des ressources est indisponible. L'implémentation est donc mise en péril.

Si cette approche Big Bang semble la plus appropriée pour votre entreprise, il est conseillé de répéter la migration pour tester la procédure, avant de la lancer réellement.

Migration « Trickle »

Les migrations Trickle au contraire effectuent la migration par phases. Lors de l'implémentation, le nouveau système et l'ancien sont exécutés en parallèle, ce qui évite les temps d'arrêt ou interruptions opérationnelles. Les processus s'exécutant en temps réel peuvent migrer les données en continu.

La conception de ces implémentations est beaucoup plus complexe que celle d'une approche Big Bang. Cependant, la complexité, si elle est bien gérée, permet en général de réduire les risques plutôt que de les augmenter.

Bonnes pratiques de migration des données

Quelle que soit la méthode que vous avez choisie, gardez en tête ces bonnes pratiques :

  • Sauvegardez les données avant l'exécution. Vous ne pouvez pas vous permettre de perdre les données en cas de problème durant l'implémentation. Vérifiez qu'une sauvegarde existe, et qu'elle a été testée, avant de lancer la migration.

  • Respectez la stratégie. Il arrive trop souvent que des responsables définissent un plan, puis l'abandonnent lorsque les choses se passent « trop » bien, ou au contraire deviennent incontrôlables. La migration peut être compliquée, et cela peut parfois être frustrant. Soyez prêt à affronter cette réalité et tenez-vous-en au plan.

  • Testez, testez, testez. Lors des phases de planification et de conception, et tout au long de l'implémentation et de la maintenance, testez la migration des données pour vous assurer que le résultat vous conviendra.

Six étapes clés d'une stratégie de migration des données

Chaque stratégie a ses spécificités, selon les besoins et objectifs de chaque entreprise, mais un plan de migration des données doit généralement suivre un modèle commun facilement reconnaissable :

1. Explorer et évaluer la source

Avant de migrer les données, vous devez les connaître (et les comprendre), et savoir comment elles pourront s'intégrer dans le système cible. Vous devez avoir une idée assez précise du volume et du contenu.

Certaines données auront peut-être de nombreux champs, dont certains n'auront pas besoin d'être mappés dans le système cible. Certains champs peuvent être vides dans une source, et les informations correspondantes devront donc être récupérées d'un autre emplacement. Déterminez ce qui doit être migré, ce qui peut être ignoré et ce qui est manquant.

Au-delà des exigences concernant les champs à transférer, vous devez également effectuer un audit des données contenues dans ces champs. Si certains champs sont incomplets ou incorrects, s'il manque de nombreux éléments de données ou si vous décelez d'autres problèmes, vous devrez peut-être envisager de ne pas migrer ces données.

Une entreprise qui ignore cette étape de vérification et estime avoir une compréhension suffisante des données peut perdre beaucoup de temps et d'argent lors de la migration. Pire encore, elle pourrait rencontrer une erreur critique lors du mapping des données qui stopperait toute progression.

2. Définir et concevoir la migration

C'est lors de la phase de conception que les entreprises choisissent leur type de migration : Big Bang ou Trickle. C'est également à ce moment que l'architecture technique de la solution et les détails des processus de migration sont définis.

En fonction de la conception, des données à récupérer et du système cible, vous pouvez commencer à définir un planning et à anticiper les soucis éventuels. À la fin de cette étape, l'ensemble du projet doit être clairement documenté.

Lors de la préparation, la sécurité des données doit absolument être prise en compte. La protection des données sensibles doit être assurée à chaque étape du plan.

3. Compiler la solution de migration

Vous pouvez être tenté d'aborder la migration avec une approche de développement minimaliste. Cependant, la migration ne sera exécutée qu'une seule fois : vous n'avez donc pas le droit à l'erreur. Une solution fréquemment utilisée consiste à diviser les données en sous-ensembles et à compiler une seule catégorie à la fois, avant de la tester. Pour une société travaillant sur une très grande migration, compiler et tester en parallèle est très efficace.

4. Effectuer un test avec des données réelles

Les tests ne sont pas terminés tant que le code n'a pas été testé en phase de compilation. Il est important d'utiliser des données réelles pour les tests, afin de vérifier que l'implémentation est correcte et que l'application est complète.

5. Lancer la migration

Après les derniers tests, l'implémentation peut avoir lieu, comme défini dans le plan.

6. Auditer

Une fois l'implémentation effectuée, vous devez mettre en place un système d'audit des données pour vérifier que la migration est correcte.

Logiciels de migration des données

Construire des outils de migration des données à partir de zéro et les coder manuellement est difficile et très long. Les outils de données, qui simplifient la migration, sont plus efficaces et plus rentables. Lorsque vous comparez les logiciels de différents fournisseurs, considérez ces facteurs :

  • Connectivité : la solution est-elle compatible avec les systèmes et logiciels que vous utilisez actuellement ?
  • Évolutivité : quelles sont les limites en matière de données du logiciel, et vos besoins risquent-ils de les dépasser dans un avenir proche ?
  • Sécurité : prenez le temps d'évaluer les mesures de sécurité des plates-formes logicielles. Vos données font partie des vos ressources les plus précieuses, et elles doivent impérativement être protégées.
  • Vitesse : à quelle vitesse la plate-forme peut-elle effectuer le traitement ?

Migration des données vers le cloud

De plus en plus d'organisations migrent tout ou partie de leurs données vers le cloud, afin de réduire les délais de lancement, d'améliorer l'évolutivité et de diminuer les besoins en ressources techniques.

Regarder Migrating to a Cloud Data Warehouse Architecture with AWS Redshift maintenant.
Regarder

Auparavant, les architectes de données étaient chargés de déployer d'immenses fermes de serveurs sur site pour conserver les données dans les ressources physiques de la société. Une des raisons de cette préférence pour les serveurs sur site était le manque de confiance concernant la sécurité sur le cloud. Cependant, les principales platesformes adoptent désormais des pratiques permettant d'atteindre un niveau de sécurité équivalent aux systèmes traditionnels (et forcément conforme au RGPD). Cette barrière à la migration a donc été levée.

Les bons outils d'intégration cloud aident les clients à accélérer leurs projets de migration de données vers le cloud, avec un service cloud sécurisé et hautement évolutif de type integration platform-as-a-service (iPaaS). La suite Talend d'outils d'intégration de données, cloud natifs et open source permet de travailler par glisser-déposer pour simplifier le mapping complexe. Grâce à nos bases open source, notre solution est efficace et abordable.

Premiers pas vers la migration des données

Si votre société prépare une mise à niveau de ses systèmes, un passage au cloud ou une consolidation de données, une migration de données sera bientôt au programme. C'est un projet de grande ampleur et de grande importance, et il doit être mené correctement pour assurer l'intégrité de vos données.

La plate-forme Talend inclut des outils de données gratuits et open source, qui peuvent rationaliser chaque étape du processus de migration des données, de la préparation des données à l'intégration et au streaming des données en continu. Découvrez les logiciels qui peuvent vous aider à prendre un bon départ pour migrer vos données.

| Last Updated: August 7th, 2019