Preuve de concept (POC) du moteur d’évaluation des risques en temps réel

Guide pratique pour le Big Data et le machine learning

Voir le reste de la série :

Configuration de la sandbox

Maintenance prédictive IoTMoteur de recommandationsOptimisation des data warehouses

Introduction

Dans cet exemple, une banque en ligne essaye de réduire son exposition aux risques en ciblant des offres de crédit uniquement sur les clients à faible risque et les plus susceptibles d’accepter une offre de crédit. En exploitant les API Web et le machine learning, ce job utilisera un modèle d’arbre décisionnel pour déterminer, à la connexion, s’il convient d’afficher une offre de crédit spécifique, ou aucune offre.

 

Sandbox - Schéma d’évaluation des risques en temps réel


Temps forts

Machine learning

Exploitez la puissance des fonctionnalités de machine learning de Talend pour créer un modèle d’arbre décisionnel.

 

streaming de données avec spark

Spark Streaming en temps réel

Utilisez Spark pour exécuter vos jobs de streaming avec Apache Kafka.

 

NoSQL/SQL

Utilisez différents modèles de données : Cassandra, MySQL

 

Exécution

Accédez au portail de cas d’usage d’évaluation des risques en temps réel depuis la page de chargement de la sandbox, avec des instructions rapides et une interface Web interactive.

Sandbox - Accès à l’évaluation des risques en temps réel

Ouvrir Talend Studio dans l’environnement sandbox. Pour cet exemple, nous allons travailler dans le dossier RealTimeRiskAssessmentEngine se trouvant dans la vue du référentiel Nous allons explorer des jobs dans les conceptions Standard, Big Data Batch et Big Data Streaming. Lorsque vous êtes prêt, procédez comme suit :.

  1. Ouvrez le dossier RealTimeRiskAssessmentEngine sous les jobs Standard. Exécutez le job Step_01_SetupMarketingCampaignsEnv. Ce job initialise l’environnement de démonstration basé sur la plateforme Big Data sélectionnée. Plus précisément, il charge les données en HDFS et vers une base de données NoSQL pour permettre une récupération rapide des données. Sandbox - Environnement de configuration de l’évaluation des risques
  2. Ouvrez le dossier RealTimeRiskAssessmentEngine sous les jobs Big Data Batch. Exécutez le job Step_02_Train_MarketingCampaignData. Ce job utilise un dataset existant pour éduquer un modèle d’arbre décisionnel en utilisant le composant tDecisionTreeModel de Talend. Sandbox - Modèle d’apprentissage de l’évaluation des risques
  3. Facultatif : Ouvrez le dossier RealTimeRiskAssessmentEngine sous les jobs Big Data Batch. Exécutez le job Step_02bis_Test_MarketingCampaignData. Les résultats de ce job permettent de voir le taux de prévisions justes par rapport aux prévisions erronées. Dans la terminologie du machine learning, cela s’appelle Confusion ou Matrice d’erreur, la synthèse des résultats de prévisions sur un problème de classification. Ce job sert de test pour notre modèle éduqué sur un dataset distinct. Sandbox - Modèle de test d’évaluation des risques
  4. Ouvrez le dossier RealTimeRiskAssessmentEngine sous les jobs Big Data Streaming. Exécutez le job Step_03_RealtimeConversionPrediction. Ce job va prédire, en temps réel, la publicité à afficher à l’utilisateur.Sandbox - Prédiction de l’évaluation des risques
  5. Ouvrez le dossier RealTimeRiskAssessmentEngine sous les jobs Standard. Exécutez les jobs Step_04_AdService et Step_05_LoginService. Ces jobs fournissent une API Web au portail Web d’évaluation des risques en temps réel et vous permettent de tester les résultats.

    Step_04_AdService

    Sandbox - Service de publicités de l’évaluation des risques

    Step_05_LoginService

    Sandbox - Service de connexion de l’évaluation des risques

  6. Avec les services Web actifs, accédez à la page du portail d’évaluation des risques en temps réel, ou rechargez-la. Remplissez le formulaire sur la page Web et regardez le résultat de la publicité affichée. Cet exemple inclut une base de données d’environ 1 500 utilisateurs. Connectez-vous avec un ID entre 0 et 1547 et regardez les résultats. La plupart des utilisateurs ne reçoivent pas la publicité. Pour les rares qui la reçoivent, vous aurez une indication qu’une publicité marketing ciblée sera présentée à l’utilisateur identifié. Par exemple, connectez-vous avec l’ID 569 pour voir l’indication d’une publicité marketing ciblée. Si vous vous connectez deux fois avec le même ID, la décision résultante sera affichée sans hésitation, car les publicités ciblées sont stockées au cours de ce processus.


Conclusion

Cet exemple met en évidence l’utilisation du machine learning combiné à Spark pour fournir des informations immédiatement exploitables et un traitement des décisions. Nous avons pris une décision de ciblage de campagnes marketing sur des clients spécifiques en utilisant un modèle d’arbre décisionnel.

| Last Updated: June 26th, 2019