Talend avec Spark et Hadoop

Un moteur d’accélération pour votre plateforme d’intégration

Pour le traitement des données, Apache Spark sur Hadoop autorise une rapidité et une évolutivité telles que les avantages du Big Data n’ont jamais été si concrets. Avec Talend Big Data, offrez-vous la plateforme idéale pour en bénéficier dès aujourd’hui.

ESSAI GRATUIT

Le Big Data requiert une grande capacité de stockage et un traitement rapide

Tandis qu’Hadoop a rendu abordable la collecte et le stockage d’énormes quantités de données, Spark a assuré la rapidité et l’évolutivité nécessaires pour les traiter. Talend fournit une plateforme d’intégration de données unique permettant de connecter ces technologies novatrices aux applications et outils utiles à la prise de décision et capables de révolutionner tous les secteurs.

 

 

 

 

Connectez tout sur une plateforme unifiée

Talend est la première plateforme d’intégration Big Data basée sur Apache Spark et Hadoop. Talend Studio inclut des assistants et des outils graphiques qui génèrent le code natif ; vous pouvez ainsi être immédiatement opérationnel avec Apache Spark, Spark Streaming, Apache Hadoop et les bases de données NoSQL.

  • L’exécution des jobs Talend Big Data sous Spark est 5 fois plus rapide qu’avec MapReduce*, ce qui permet d’obtenir des résultats en temps réel.
  • Les connecteurs et composants Talend optimisés combinent analyse en mémoire, apprentissage machine et composants de mise en cache pour l’exécution de jobs haute performance sans paramétrage manuel de Spark.
  • Les outils visuels de Talend vous permettent de créer des jobs Spark plus rapidement que par codage manuel et d’executer sur Hadoop, de manière autonome ou dans le Cloud.
  • Convertissez vos jobs MapReduce en jobs Spark par simple clic sur un bouton dans Talend.
* Validé par des tests de performance d’intégration TPC-H indépendants.

 

 

Misez sur la rapidité et l’évolutivité de Spark sur Hadoop

Talend génère du code natif pour optimiser les fonctionnalités de Spark et ainsi atteindre la rapidité et l’évolutivité nécessaires pour le Big Data et l’Internet des objets.

  • Une gestion optimisée du calcul distribué : partition préalable pour de meilleures performances.
  • Une performance inégalée sans streaming extrêmement parallèle des données directement depuis la source et données conservées en mémoire en vue d’être réutilisées via stockage par colonne compressée.
  • Combinaison de la messagerie et du traitement batch avec les connecteurs Talend pour Kafka, entre autres, afin d’obtenir une solution distribuée de bout en bout pour des systèmes de messagerie à grande échelle.
  • Une nouvelle catégorie de connecteurs JDBC natifs Spark permet l’ingestion des données des SGBDR via lecture parallèle partitionnée.
  • Le fenêtrage en mémoire permet de comparer les valeurs de données sur une période spécifique.

 

 

Exploitez toute la puissance de l’apprentissage machine Spark

Spark peut combiner traitement batch et streaming dans une phase d’exécution unique et Talend propose un outil unique et une base de code permettant de créer des applications batch et temps réel avec messagerie haut débit, ingestion et traitement de données en temps réel, ainsi que fonctionnalités de connectivité NoSQL rapides.

  • Vous pouvez combiner données historiques et données en temps réel issues de l’analyse clickstream, de la géolocalisation ou de capteurs,
  • Talend vous aide à créer des pipelines de données intelligents reposant sur l’apprentissage machine Spark, pour connecter des données en temps réel et en batch et alimenter des outils d’analyse en temps réel.
  • Des composants développeur prédéfinis avec glisser-déposer s’appuient sur les algorithmes de clustering Spark MLlib (bibliothèque d’apprentissage machine) tels que K-Means et sur les algorithmes de classification pour : régression logistique et linéaire, analyse de texte et d’image, arbres de décision, arbres GBT (gradient-boosted trees), prévisions, forêts aléatoires, classification ALS et naïve bayésienne.
  • Les développeurs et les experts en données peuvent tout faire dans un seul outil ; ils bénéficient ainsi du suivi et de la gouvernance appropriés pour créer des modèles d’analyse en temps réel sous Spark, pour recommandations, segmentation de clientèle, prévisions, classification et analyse de régression.
  • Les outils Talend de livraison continue permettent de mettre les modèles de science des données en production avec itérations rapides et fréquentes, pour un apprentissage puissant sur la base des données traitées en batch.

 

 

Restez à jour avec les distributions Hadoop les plus récentes pour Spark

Talend est la seule plateforme d’intégration de données à prendre en charge la distribution Hadoop la plus récente. Les connecteurs Spark natifs optimisent les flux de données des sources externes dans Spark : vous pouvez ingérer, charger en parallèle et accélérer l’utilisation des données.

 

 

Utilisez un matériel abordable et convivial et déployez dans votre cluster Hadoop existant.

Utilisez Talend Studio pour gérer la flexibilité du cluster AWS EMR dans votre job.

Proposez Spark dans le Cloud via Google, Amazon, IBM, Oracle et MS Azure.

Démarrez grâce à plus de 100 composants Spark avec glisser-déposer.

Avec Cloudera Navigator et Hortonworks Atlas, disposez d’un suivi des données utilisées et appliquez des règles de sécurité.

 

 

X