Preuve de concept (POC) de l’optimisation de data warehouses

Guide pratique pour le Big Data et le machine learning

Voir le reste de la série :

Configuration de la sandbox

Maintenance prédictive IoTÉvaluation des risques en temps réelMoteur de recommandations

Introduction

Dans cet exemple, nous allons explorer une approche d’optimisation d’un data warehouse qui exploite la puissance de Spark pour effectuer une analyse d’un dataset volumineux avant son chargement dans le data warehouse. De cette manière, nous pouvons confirmer l’intégrité des données et choisir au final de rejeter le chargement avant que de mauvaises données ne menace la qualité du data warehouse. Cette démo est conçue pour mettre en évidence le moteur Spark intégré à Talend Studio et une exécution sans connectivité directe à une plateforme Big Data. Même si le moteur Spark de Talend Studio ne constitue pas une solution pour un environnement de production, il montre que, même lors du développement; les utilisateurs de Talend peuvent profiter de toutes les fonctionnalités de Spark sans avoir à se connecter à une plateforme Big Data complète, ni à la configurer.


Temps forts

Analyse de data warehouse en mode sandbox

Analyse de pré-chargement

En analysant d’importants volumes de données AVANT de les charger dans votre data warehouse, vous évitez le coût induit par les anomalies de données dans le warehouse.

Traitement important Icône Sandbox

Traitement de volumes importants avec Spark

Avec Talend et Spark, vous pouvez traiter des giga-octets, voire des tera-octets de données en très peu de temps.

Déchargement ETL

En combinant Talend et un plateforme Big Data, vous pouvez optimiser votre data warehouse en éliminant les coûts du traitement de données.


Exécution

Accédez au portail de cas d’usage d’optimisation du data warehouse depuis la page de chargement de la sandbox, avec des instructions rapides et une interface Web graphique.

Optimisation du data warehouse sandbox - Page de chargement

Ouvrir Talend Studio dans l’environnement sandbox. Pour cet exemple, nous allons travailler dans le dossier Warehouse_Optimization se trouvant dans la vue du référentiel. Nous allons explorer des jobs dans les conceptions Standard et Big Data Batch. Lorsque vous êtes prêt, procédez comme suit :

  1. Ouvrez le dossier Warehouse_Optimization sous les jobs Big Data Batch. Exécutez le job Step_01_Generate_MonthlyReport. Il s’agit d’un job Spark qui lit un grand ensemble de fichiers à partir d’un seul répertoire et agrège les données dans un seul rapport. Optimisation du data warehouse - Générer un rapport mensuel
  2. Ouvrez le dossier Warehouse_Optimization sous les jobs Big Data Batch. Exécutez le job Step_02_Month_Over_Month_Comparison. Ce job Spark prend les données nouvellement agrégées du job précédent et les compare au même fichier de rapport généré le mois précédent, pour mettre en valeur les éventuelles anomalies de données. Dans un scénario typique, ces jobs seraient exécutés chaque fois qu’un nouveau dataset est planifié pour chargement dans le warehouse (dans notre cas, chaque mois). Pour les besoins de cette sandbox, nous avons déjà inclus les données « Mois précédent » pour la comparaison.Optimisation de data warehouse - Job mois/mois
  3. Ouvrez le dossier Warehouse_Optimization sous les jobs Standard. Exécutez le job Step_03_GoogleChart_Product_by_Unit. Ce job ne fait qu’utiliser Google Charts pour présenter sous forme graphique les rapports de comparaison générés lors du job précédent. Ces graphiques peuvent être affichés dans le tableau de bord de la page Web. Optimisation de data warehouse - Google Charts
  4. Examinez le tableau de bord de la page Web et les deux rapports graphiques générés. Vous devriez remarquer que certains produits ne sont pas du tout alignés avec d’autres produits, ce qui indique que les données sont erronées. Dans un scénario réel, les analystes familiarisés avec les données devraient être capables de reconnaître les anomalies et refuser le chargement des données vers le warehouse.

Data warehouse - Page Web de démonstration


Conclusion

Cet exemple met en évidence l’utilisation d’un moteur Spark intégré et incorporé à Talend Studio. Cette démo peut aussi être configurée pour s’exécuter avec toute plateforme Big Data. Les volumes élevés de données prennent du temps au chargement et, si les données sont endommagées ou erronées, les actions correctives peuvent prendre encore plus de temps. Mais, grâce à la connectivité Spark en natif de Talend et sa puissance de traitement, un dataset volumineux peut être analysé rapidement et facilement avant son chargement dans le data warehouse. Cela permet aux analystes d’avoir un aperçu de la qualité des données, et élimine le fardeau des traitements lourds à partir du data warehouse, ce qui libère ce dernier pour qu’il se consacre pleinement à sa mission première d’accès rapide à un reporting de qualité.

| Last Updated: August 8th, 2019