Utiliser le machine learning pour la qualité des données

La dernière fois que j’ai posté sur mon blog, j’ai souligné certains défis des big data pour la gouvernance des données. J’ai également montré combien la qualité des données était importante pour la gouvernance des données. Dans ce post, j’ai voulu me concentrer sur la manière dont les big data révolutionnent la méthodologie de qualité des données.

Les big data ont démocratisé le machine learning et tout comme la qualité des données a transformé le machine learning, ce dernier transforme également la méthodologie de mise en œuvre de la qualité des données. La qualité des données a toujours été une tâche gérée par le service informatique. Des analystes examinaient les données, discernaient des modèles (profilage) et mettaient en place un nettoyage des données et des règles de mise en correspondance (normalisation). Une fois ces règles établies et mises en production, ils tentaient de mesurer la qualité de chaque ensemble de données à intervalles réguliers.

Pourquoi utiliser le machine learning pour la qualité des données ?

Limites du processus classique de qualité des données

Voyons maintenant les limites de l’approche classique de mise en correspondance des données. Jusqu’à maintenant, les critères de sélection dépendaient largement de la constitution de blocs de données et d’une pondération adéquate. Par nature, ces activités demandent un travail manuel considérable et sont donc sujettes à des erreurs substantielles. La définition de règles de mise en correspondance est également un processus qui prend du temps. Les organisations mettent des mois à définir et affiner les règles de mise en correspondance.

La taille de chaque bloc de données constitue une autre limite. Un bloc trop grand affecte considérablement la performance du processus de mise en correspondance. Toute variation importante de qualité dans les ensembles de données rendra également ces règles inefficaces. C’est la raison pour laquelle les organisations ont généralement des directives strictes de mise en correspondance des données et sont réticentes au sujet de l'utilisation des algorithmes manuels qui sont davantage susceptibles de contenir des erreurs. Ce problème peut s’avérer d’autant plus difficile à surmonter que les entreprises doivent extraire et mettre en correspondance des données d’un nombre chaque jour plus important de sources, pour avoir une vision globale de leur entreprise.

L’essor du machine learning peut révolutionner les méthodologies de qualité des données. Une partie des processus de normalisation, et en particulier la mise en correspondance des données, pourrait être automatisée, en poussant un modèle de machine learning à « apprendre » et prévoir chaque jour les correspondances. Une fois les étiquettes manuellement configurées, les modèles de machine learning peuvent commencer à apprendre à partir des nouvelles données soumises au processus de normalisation. Plus le modèle est alimenté en données, plus l’algorithme de machine learning est performant et offre des résultats précis. Le machine learning est donc plus adaptable que les approches traditionnelles. Les entreprises n’ont pas besoin de limiter le volume des données, ni le nombre de sources pour identifier des règles de mise en correspondance. Cela dit, il est également nécessaire de disposer de systèmes conçus pour mesurer la performance du modèle de machine learning lui-même.

La démocratisation du machine learning

Selon certaines études, 22 pour cent des entreprises sondées ont déjà intégré des algorithmes de machine learning à leurs plateformes de gestion des données. La NASA, par exemple, a découvert une multitude d’applications de machine learning, notamment pour évaluer la qualité des données scientifiques comme la détection de valeurs inhabituelles et la détection d’anomalies.

Si le machine learning se démocratise, c’est parce que les moteurs de traitement des big data tels que Spark ont offert aux développeurs la possibilité d’utiliser des bibliothèques de machine learning pour traiter leur code. Chaque bibliothèque de machine learning actuellement disponible via Spark est également accessible aux développeurs Talend. La version de Talend Data Fabric lancée à l’hiver 2017 intégrait également des composants de machine learning pour la mise en correspondance des données. Ces éléments sont tMatchpairing, tMatchModel et tMatchPredict. Vous trouverez ci-dessous une présentation ap

La mise en correspondance des données avec le machine learning en 4 étapes faciles

  • Étape 1 : pré-analyser l’ensemble de données avec le composant tMatchpairing. Ce processus révèle toutes les données suspectes dont le score de correspondance se situe entre le seuil bas et la correspondance. Les scores de correspondance feraient également partie de l’ensemble de données.
  • Étape 2 : les intendants des données étiquettent ensuite l’enregistrement suspect de correspondance « correspondance » et « non-correspondance ». Ce processus est manuel et la console Talend Stewardship peut être exploitée pour rationaliser cet étiquetage.
  • Étape 3 : un échantillon de l’ensemble des résultats de l’Étape 2 est alors introduit dans tMatchModel pour « apprentissage » et le résultat doit alors être un modèle de classification de machine learning. La validation du modèle est ici automatiquement effectuée avec le composant tMatchPredict.
  • Étape 4 : le modèle généré à l’Étape 3 est prêt à être utilisé pour prédire des correspondances à partir de nouvelles sources de données.

Pour résumer, en associant la puissance du machine learning avec Spark et les processus de qualité des données, ce flux de travail peut être utilisé pour prédire automatiquement des correspondances dans des ensembles de données. La quantité de données n’est pas limitée, puisque le processus s’exécute automatiquement dans les nœuds du cluster de big data exploitant le cadre de traitement distribué d’Apache Spark. Ainsi, les entreprises qui disposent déjà de data scientists peuvent utiliser ce flux de travail pour l’analyse, mais aussi pour leurs projets de gestion des données. Bien sûr, nous n’en sommes encore qu’aux prémices de l’utilisation du machine learning dans la gestion des données. Il faudra encore effectuer davantage de recherches pour déterminer s’il peut être utile à des concepts plus complexes de gestion des données tels que la gestion des données de référence et l’intendance des données.

Références :

The Role of Machine Learning on Master Data Management (Le rôle du machine learning dans la gestion des données de référence)

Study Reveals Disconnect Between Data Quality and Enterprise Readiness to Pursue Machine Learning and Analytics (Une étude révèle un décalage entre la qualité des données et la volonté des entreprises à poursuivre le machine learning et l’analyse)

The Blueprint for Becoming Data-Driven (Le plan à suivre pour être axé sur les données)

Prêt à faire vos premiers pas avec Talend ?