Outils de machine learning – Comment la plate-forme Talend utilise le machine learning pour améliorer l’intégration des données

Dans la plupart des secteurs d'activité, pour maintenir vos avantages concurrentiels avec des applications big data et de Business Intelligence, vous devez impérativement disposer de pipelines de données à haut débit capables de traiter et d'analyser en temps réel des volumes considérables de données. Lorsqu'elles sont intégrées à Microsoft Azure et à Apache Spark, les solutions de machine learning accélèrent le développement et facilitent la maintenance de ces systèmes, mais la plupart des solutions de machine learning demeurent complexes.

Les solutions Talend contribuent à réduire la complexité du machine learning (ML) en proposant un écosystème complet d'outils et de technologies en libre-service très faciles à utiliser et qui intègrent parfaitement le machine learning dans votre plate-forme big data. Avec des exigences de compétences plus faibles – nul besoin de programmeurs spécialisés en R, Python ou Java –, les entreprises accèdent plus rapidement et à moindre coût aux connaissances enfouies dans leurs données.

Avec des modules de machine learning prêts à l'emploi et faciles à utiliser, les ingénieurs de données peuvent se concentrer sur les big data de leur entreprise et construire le système distribué requis plutôt que de devoir consacrer un certain temps à apprendre comment construire des modèles. De leur côté, les data scientists peuvent se concentrer sur ce qu'ils font le mieux : construire des modèles et créer des algorithmes. Autrement dit, lorsque différents acteurs se chargent de différentes tâches, l'efficacité globale augmente et le temps de développement s'accélère.

Regarder Fundamentals of Machine Learning maintenant.
Regarder

Cas d'usage adaptés aux solutions Talend de machine learning

Combinées à des modules de machine learning, les technologies big data de Talend permettent aux entreprises de déployer plus rapidement les résultats de leur processus ML et de résoudre leurs problèmes les plus urgents. Les banques, compagnies d'assurance, compagnies aériennes, hôtels et de nombreux autres types d'entreprises utilisent déjà le machine learning. Il existe des cas d'usage pour la plupart des secteurs d'activité et la plupart des besoins des entreprises.

Paddy Power Betfair (PPB), société cotée en bourse, est le plus grand spécialiste mondial de jeux et paris sportifs, avec cinq millions d'utilisateurs. Après avoir utilisé Talend Real-Time Big Data pour intégrer 70 To de données provenant de sources multiples dans une plate-forme cloud intégrée, PPB a réduit de moitié son temps de développement et augmenté considérablement l'agilité de ses données et temps de réponse.

Modules de machine learning prêts à l'emploi

Avec la boîte à outils Talend, les modules de machine learning sont prêts à l'emploi. Notre logiciel de machine learning permet aux utilisateurs de données – quel que soit leur niveau d'expérience – de travailler facilement avec des algorithmes, sans avoir besoin de savoir comment l'algorithme fonctionne ou comment il a été créé. Par ailleurs, les experts peuvent modifier ces algorithmes comme ils le souhaitent.

Ces modules de machine learning sont intégrés dans notre plate-forme Real-Time Big Data, ce qui permet à tous les types d'utilisateur d'effectuer des analyses sans avoir à envisager de codage manuel. Les algorithmes de machine learning Talend sont regroupés dans quatre catégories en fonction de leur mode de fonctionnement. Chaque type d'algorithme contient plusieurs modules ML prêts à l'emploi :

1. Algorithmes de classification

Dans le domaine du machine learning, la classification est une technique d'exploration des données utilisée pour identifier les structures présentes dans les datasets très volumineux. La classification utilise un ensemble de « données d'apprentissage » qui contiennent des « observations » (instances) – dont l'appartenance à une catégorie est connue – pour identifier l'ensemble de catégories (« sous-population ») auquel appartient chaque observation.

Il existe deux types d'algorithmes de classification :

  1. Classification binaire – Seuls deux résultats sont possibles.
  2. Classification multilabel – Des résultats multiples sont possibles.

Principaux cas d'usage des algorithmes de classification : détection du spam, catégorisation des images et extraction de texte en vue de connaître l'opinion des clients ou des internautes. Le but consiste à prédire une sous-population de classe (ou « label ») à partir d'un exemple connu.

Principaux modules de classification proposés par Talend pour le machine learning : tClassify, tClassifySVM, tDecisionTreeModel, tGradientBoostedTreeModel, tLogicRegressionModel, tNaiveBayesModel, tPredict, tRandomForestModel, et tSVMModel.

2. Algorithmes de clustering

L'analyse des clusters (clustering) est l'une des tâches principales du data mining et une technique utilisée couramment pour l'analyse statistique des données.

Par exemple, le clustering des algorithmes k-means est un type de machine learning sans supervision. Il s'agit d'un des algorithmes de machine learning sans supervision les plus simples : il est utilisé pour résoudre le problème de classification d'un ensemble spécifique de données à travers un certain nombre de clusters. Principaux cas d'usage des algorithmes k-means : segmentation des prix, évaluation de la fidélité des clients et détection des fraudes.

Principaux modules de clustering proposés par Talend pour le machine learning : tKMeansModel, tPredict et tPredictCluster.

3. Algorithmes de recommandation

Également appelée « système de recommandation », cette sous-classe de filtrage de l'information cherche à prédire la note ou préférence qu'un utilisateur pourrait accorder à un objet.

Le « filtrage collaboratif » est l'un des types des algorithmes de recommandation ; il peut être basé sur les utilisateurs/internautes ou les objets. L'objectif des deux approches est de prédire automatiquement les utilisateurs ou les objets potentiels (filtrage) en fonction des préférences d'un grand nombre d'utilisateurs ou d'objets (collaboration).

Les deux types de modules de recommandation proposés par Talend pour le machine learning sont les suivants :

  • tALSModel – Ce module traite d'importants volumes de données en provenance des modules Spark situés en amont et qui décrivent les préférences des utilisateurs pour des objets spécifiques. Il effectue des calculs avec la méthode des moindres carrés alternés (Alternating Least Squares ou « ALS ») sur ces datasets afin de générer et d'écrire un modèle de recommandation de produit optimisé (au format Parquet).
  • tRecommend – Ce module analyse les données en provenance des modules Spark situés en amont et en appliquant un modèle de recommandation pour évaluer les préférences des utilisateurs. Il repose sur le modèle de recommandation d'objets aux utilisateurs généré par le module tALSModel, et il recommande les produits aux utilisateurs connus de ce modèle.

Les algorithmes du système de recommandation peuvent être combinés avec des techniques de deep learning pour faire des prédictions à partir de volumes considérables de big data comme c'est le cas, par exemple, du moteur de recommandation à base de réseaux neuronaux profonds de YouTube (créé par Google).

Les modules de recommandation proposés par Talend pour le machine learning sont tALSModel et tRecommend.

4. Algorithmes de régression

Un « test de régression » est un processus statistique qui permet d'estimer la relation entre plusieurs variables. Il examine la relation qui existe entre une variable dépendante et une ou plusieurs variables indépendantes (ou « prédicteurs »).

Exemple : le module tModelEncoder reçoit des données des modules situés en amont, puis applique un certain nombre d'algorithmes de traitement des attributs pour transformer les colonnes de ces données : de mot à vecteur, hachage, buckétisation, etc. Il envoie ensuite le résultat au module d'apprentissage du modèle (tLogisticRegressionModel ou tKMeansModel) situé en aval pour assurer l'apprentissage et la création d'un modèle prédictif.

Modules de régression proposés par Talend pour le machine learning : tModelEncoder, tLinearRegressionModel et tPredict.

Premiers pas avec Talend Machine Learning

Pour améliorer la portée et les performances, les solutions de machine learning proposées par Talend font appel à Apache Spark sur Hadoop et à Microsoft Azure. Spark permet d'utiliser les modules Talend de machine learning(ML) pour traiter et analyser en temps réel les datasets les plus volumineux. Vous pouvez construire un modèle très rapidement, puis vous concentrer sur les résultat opérationnels plutôt que sur le processus de développement.

Pour plus de détails sur les solutions de machine learning proposées par Talend et sur Spark, suivez le webinar à la demande Fundamentals of Machine Learning. Ce webinar aborde les méthodes de machine learning suivantes : avec supervision, sans supervision et par renforcement, et il présente des informations détaillées sur Spark et le traitement du langage naturel (NLP).

| Last Updated: January 28th, 2019