Talend Big Data and Machine Learning Sandbox – Présentation et installation

Avant de vous présenter en détail les avantages que Talend Big Data and Machine Learning Sandbox peut offrir à votre entreprise, nous souhaitons vous aider à l'installer correctement.

Qu'est-ce que Sandbox ?

Talend Big Data and Machine Learning Sandbox est un environnement virtuel de bac à sable utilisant les conteneurs Docker pour proposer dans Talend Real-time Big Data Platform des scénarios types pré-intégrés, prêts à être exécutés.

Les liens ci-dessous proposent des preuves de concept basées sur des cas d'usage réels, démontrant comment Talend, Spark, NoSQL et les messages en temps réel peuvent être facilement intégrés dans vos activités quotidiennes. Que ce soit pour les intégrations de données en mode batch, streaming ou temps réel, vous découvrirez comment Talend peut être utilisé pour répondre à vos problématiques de big data et faire de votre entreprise une société pilotée par les données.

Preuves de concept

Exploitez pleinement votre Sandbox avec ces scénarios types pré-intégrés et prêts à être exécutés :

Moteur de recommandationMaintenance prédictive IoT
Évaluation des risques en temps réelOptimisation de data warehouse

Quelle est la configuration requise pour Sandbox ?

Sandbox est disponible sous la forme d'une machine virtuelle (Virtual Machine ou VM) et nécessite donc un logiciel de VM (player).

Les logiciels compatibles sont les suivants :

  • VMWare
  • VMWare Fusion (pour les utilisateurs MAC)
  • VirtualBox

La configuration recommandée pour la machine hôte est la suivante :

  • 8 à 10 Go de mémoire RAM disponible au minimum
  • 50 Go d'espace disque disponible

Une fois le logiciel de votre choix téléchargé et correctement installé, vous pouvez télécharger et installer Talend Big Data and Machine Learning Sandbox. Vous pouvez ensuite consulter les démos (liens ci-dessus) pour intégrer Apache Kafka, Spark, Spark Streaming, Hadoop et NoSQL.

Comment installer et configurer Sandbox ?

Important : une connexion Internet stable et fiable est nécessaire pour installer et configurer Talend Big Data and Machine Learning Sandbox. Une fois l'inscription en ligne terminée et le fichier de téléchargement sélectionné, vous recevrez une petite application de gestion de téléchargement (.dlm). Ouvrez-la pour terminer le téléchargement de Sandbox. Talend Big Data and Machine Learning Sandbox est fourni sous forme d'un fichier Open Virtualization Format Archive (.ova) de 6 Go. Selon la vitesse de votre connexion Internet, son téléchargement peut prendre quelque temps. Vous pouvez utiliser le gestionnaire de téléchargement pour mettre en pause et reprendre le téléchargement si nécessaire.

Une fois le téléchargement terminé et le fichier .ova enregistré sur votre disque dur local (sous C:/TalendSandbox), suivez les instructions pour l'importer dans VirtualBox ou dans VMWare, selon le logiciel de VM que vous utilisez.

VirtualBox

  1. Ouvrez l'application VirtualBox.
  2. Dans le menu, sélectionnez File > Import Appliance… (Fichier > Importer un appareil virtuel...).
  3. Recherchez le fichier .ova que vous avez téléchargé. Sélectionnez-le, puis cliquez sur Suivant.
  4. Acceptez les paramètres d'appareil virtuel par défaut en cliquant sur Import (Importer).

Import VirtualBox de Talend Machine Learning Sandbox

VMWare

  1. Ouvrez l'application VMware Player.
  2. Cliquez sur Open a Virtual Machine (Ouvrir une machine virtuelle).
  3. Recherchez le fichier .ova que vous avez téléchargé. Sélectionnez-le, puis cliquez sur Ouvrir.
  4. Sélectionnez le répertoire de stockage de la nouvelle machine virtuelle (par exemple C:/TalendSandbox/vmware), puis cliquez sur Import (Importer).

Import VMWare de Talend Machine Learning Sandbox

Les machines virtuelles Talend Big Data and Machine Learning Sandbox sont configurées par défaut pour s'exécuter avec 8 Go de mémoire RAM et 2 CPU. Vous devrez peut-être modifier ces réglages selon les capacités de votre ordinateur. Pour exécuter les exemples MapR, il est recommandé d'augmenter les paramètres de RAM de la VM à 10 Go, ou plus si possible.

Que va-t-il se passer au premier démarrage de la VM ?

Au premier démarrage de Talend Big Data and Machine Learning Sandbox, la machine virtuelle se lance en chargeant une page Web indiquant l'avancement de la configuration de Sandbox. Cela peut prendre 15 à 30 minutes selon la vitesse de connexion Internet et le trafic réseau. Vous serez ensuite invité à choisir une plate-forme Hadoop : Cloudera, Hortonworks ou MapR. Vous pouvez également choisir d'utiliser l'environnement Sandbox sans plate-forme Hadoop. Si vous décidez plus tard de sélectionner une plate-forme ou d'en changer, vous pouvez accéder aux plates-formes disponibles à tout moment en cliquant sur « Choose a Hadoop Platform » (Choisir une plate-forme Hadoop) en haut à droite de la page de destination.

Sélection de la plate-forme de big data pour Sandbox

Important : soyez patient lors du chargement et laissez le temps au processus de se terminer. N'ouvrez pas Talend Studio avant la fin. Dès que vous recevez la confirmation que Sandbox est prêt, vous pouvez commencer à travailler dans l'environnement virtuel.

Sandbox est prêt

Pour accéder aux ressources supplémentaires et au contenu de démo, faites défiler la page vers le bas. Des applications Web spécifiques aux démos fournissent des instructions de démarrage rapide pour exécuter ces démos dans Sandbox. Vous avez également accès à l'interface Web du gestionnaire de ressources du cluster Hadoop en cliquant sur « Hadoop Cluster » (Cluster Hadoop), et à l'interface Web HDFS en cliquant sur « HDFS Browser » (Navigateur HDFS).

Avec la distribution MapR, le lien HDFS Browser vous dirige vers MapR Control System (MCS), où vous pouvez consulter vos volumes, vos tables de données et vos flux. Pour y accéder dans Firefox, vous devez ajouter un certificat d'exception.

Comment puis-je lancer Talend Real-time Big Data Studio?

Maintenant que Sandbox est opérationnel, vous pouvez lancer Talend Studio. Cliquez sur l'icône Talend dans le menu gauche de votre bureau. Suivez ces étapes lors de la première exécution :

  1. Vous devez tout d'abord configurer une connexion. Cliquez sur Manage Connections (Gérer les connexions) et saisissez votre adresse e-mail, puis cliquez sur OK.
  2. Vous devez ensuite sélectionner le projet à ouvrir. Selon la plate-forme de big data choisie, les options suivantes sont disponibles :
    • CLOUDERA_DEMOS
    • HORTONWORKS_DEMOS
    • MAPR_DEMOS
    • LOCAL_DEMOS (si vous n'avez pas chargé de plate-forme de big data)

Sélectionner un projet pour Machine Learning Sandbox

Remarque : si vous avez téléchargé plusieurs plates-formes de big data, vous aurez plusieurs projets. Choisissez le projet souhaité.

  1. Talend Studio s'ouvre sur une page d'accueil. Fermez cette page. Une fenêtre contextuelle vous propose d'installer des packages supplémentaires. L'option Required third-Party libraries (Bibliothèques tierces requises) ne doit pas être décochée. Sélectionnez également Optional third-party libraries (Bibliothèques tierces facultatives), puis cliquez sur Finish (Terminer).

  1. Acceptez toutes les licences tierces. Cochez la case I accept the terms of the selected license agreement (J'accepte les termes de la licence sélectionnée) et cliquez sur Accept All (Tout accepter).
    Accepter les licences pour Sandbox Talend Studio
  2. Attendez la fin des téléchargements avant de poursuivre (cela peut prendre un moment).

| Last Updated: August 8th, 2019