Les nouveautés de Talend pour le printemps 2018

Présentation de Talend Data Streams

Exploitez plus de données

Les innovations pour le Cloud, les Big Data et la gouvernance amélioreront considérablement les capacités de vos équipes à fournir des résultats orientés données.

L’ingestion des données en streaming
encore simplifiée

Simplifiez l’intégration des données en streaming pour les data scientists, data analysts et data ingénieurs

L’informatique
sans serveur

Réduisez vos coûts de traitement des données Cloud de 67 %

Big Data Integration
en accéléré

Créez rapidement des entrepôts de données Cloud et des data lakes avec la technologie la plus récente

Présentation de
Cloud Data Stewardship

Offrez à ceux qui connaissent le mieux les données une application de curation et de validation des données en libre-service

Saisissez
vos données en streaming

Conçue pour les experts en données, les analystes et les ingénieurs, Talend Data Streams est une application gratuite en libre-service qui permet d’effectuer des intégrations de données en streaming plus rapidement, plus facilement et de manière accessible. Pensée pour le Cloud, elle vous permet d’être opérationnelle en quelques minutes. Ingérez en toute simplicité de nouveaux types de données et des données en streaming avec schema-on-read, le tout dans une interface unique, pour des pipelines en streaming et en batch, propulsé par Apache Beam. Accélérez le développement de vos pipelines avec des composants de codage Python intégrés et un aperçu unique en temps réel pour voir vos données à chaque étape de la conception.

Webinar : Exploitez pleinement vos données

Grâce au sans serveur, réduisez de 67 % vos coûts de traitement des données Cloud

Déployez sur des services sans serveur et concentrez-vous davantage sur une vision orientée données et moins sur la gestion de l’infrastructure. Via les plug-ins Maven, vous pouvez facilement intégrer Docker à votre processus de création et déployer sur des services sans serveur, comme AWS Fargate et Azure Container Instances (ACI). Une mesure à la seconde près et des vitesses d’exécution accélérées permettent de réduire les coûts de traitement des données jusqu’à 67 %, tandis que le traitement des données en parallèle améliore les performances jusqu’à 50 %. La prise en charge de Qubole et Cloudera Altus sur Azure permet une intégration Big Data sans serveur afin de réduire les tâches de gestion de serveur et d’augmenter ou de réduire automatiquement les capacités en ressources Cloud.

Article : How to go Serverless with AWS Lambda

Big Data Integration
en accéléré

Traitez plus de données, plus rapidement, dans les entrepôts et les data lakes dans le Cloud. Accélérez leur disponibilité grâce aux nouvelles fonctionnalités ELT de déport (« push-down ») pour exploiter nativement la puissance de Snowflake, de Spark et Spark Streaming dans Azure Data Lake Store et bénéficier de l’amélioration des fonctions d’extraction de données pour SAP.

Talend prend désormais en charge la distribution dynamique (version d’évaluation technique) pour Cloudera, ce qui vous permet d’accéder instantanément aux fonctionnalités Cloudera les plus récentes, sans mise à niveau Talend, autrement dit un gain de temps d’administration qui se compte en semaines, voire en mois. Développez des jobs Big Data une fois et déployez sur site, sur n’importe quel Cloud, ou en tant que service Talend géré sur le Cloud.

En savoir plus : Les nouveautés Big Data

Présentation de Talend Cloud Data Stewardship

Améliorez la fiabilité de vos données avec Talend Cloud Data Stewardship, une application de curation et de certification des données en libre-service et collaborative pour permettre à ceux qui connaissent le mieux les données de pouvoir rapidement identifier, gérer et résoudre tous les problèmes d’intégrité. À l’aide d’une interface utilisateur Web intuitive, vous pouvez définir des rôles utilisateur, des workflows et des échéances pour la curation de données, puis leur déléguer les tâches. Établissez un référentiel unique, que vos données se trouvent dans le Cloud ou sur site. Rien à installer, il suffit de l’activer comme un service Cloud Talend.

(Data Stewardship est disponible sous forme d’application Talend Cloud ou de logiciel Talend à télécharger et à installer)

Webinar : Data Quality et Data Stewardship en équipe

Améliorations

Cette section liste les nouvelles fonctionnalités Talend pour le printemps et l’hiver 2018.
Pour savoir ce que contient chaque version et produit (logiciel téléchargeable ou Talend Cloud), consultez help.talend.com

Big Data Integration
Data Integration
Data Quality
Data Preparation
Data Stewardship
MDM
Talend Data Mapper
Big Data Integration Améliorez la performance et la productivité de vos projets Big Data :
  • Nouvelle distribution dynamique (version d’évaluation technique) pour Cloudera CDH — ajoutez instantanément des mises à jour de distributions Hadoop sans mettre à niveau Talend
  • Exécutez des jobs Spark en mode cluster YARN ; aucun serveur de jobs n’est ainsi nécessaire sur un nœud de périphérie à l’exécution, ce qui simplifie et accélère votre déploiement, sans point de défaillance unique.
  • Améliorez considérablement votre capacité à extraire des données de SAP, au niveau application, base de données et entrepôt. De nouvelles fonctionnalités d’extraction de SAP en mode bulk vous permettent d’extraire des quantités de données quasi illimitées. Utilisez l’extracteur de contenu métier en mode delta (version d’évaluation technique) pour extraire facilement des données SAP nouvelles ou modifiées prédéfinies. La prise en charge du déport ELT pour SAP permet un traitement natif dans SAP, avant de déplacer les données vers le Cloud.
  • La meilleure prise en charge des composants Snowflake permet le déport ELT : les données sont traitées et transformées sur les clusters Snowflake, ce qui permet d’accélérer les analyses grâce au niveau élevé de performance et d’évolutivité de Snowflake.
  • Ingérez les données et exécutez des requêtes dans Cloudera Kudu, un gestionnaire de stockage en colonnes Hadoop utilisé pour des analyses rapides dans des cas d’usage comme l’IoT, le RGPD et la détection des fraudes. Des options avancées d’optimisation permettent d’atteindre des performances optimales.
  • Grâce à la prise en charge MapR-DB OJAI, vous pouvez effectuer graphiquement des transformations hiérarchiques avancées et des requêtes MapR-DB OJAI à partir de vos jobs. Vous bénéficiez ainsi d’une performance et d’une flexibilité supérieures pour les applications Web, mobiles, IoT et les réseaux sociaux.
  • Simplifiez l’implémentation de sécurité AWS S3 à l’aide des rôles IAM et sécurisez le service de jetons pour vos jobs.
  • Exécutez vos traitements Talend sur Cloudera Altus sur Azure (vient compléter AWS).
  • Traitez davantage de données plus rapidement grâce à la prise en charge Spark et Spark Streaming pour Microsoft Azure Data Lake Store.
  • Effectuez le suivi des ID d’applications dans Hive Query pour mieux gérer vos jobs Talend / Hive.
  • Obtenez et définissez les clés de lignes dans HBase, afin de pouvoir appliquer les bonnes pratiques HBase et de gérer les données temporelles.
Data Integration Améliorez votre productivité et la sécurité de vos projets :
  • Les améliorations apportées à la sécurité et à la productivité des serveurs sont les suivantes :
    • Sécurité basée sur les rôles : un développeur Studio peut uniquement exécuter des jobs appartenant à un projet pour lequel il dispose d’une autorisation.
    • L’amélioration du nettoyage des données du serveur de jobs permet d’ignorer les jobs actifs ainsi que toutes les dépendances ou bibliothèques associées.
    • Les améliorations apportées à la planification et au traitement des erreurs permettent de redémarrer les tâches sur les serveurs de jobs non disponibles et les serveurs de jobs virtuels avec équilibrage de charge Round-Robin.
  • Les améliorations apportées au Talend Administration Center (TAC) sont les suivantes :
    • Options Single Sign-on (SSO) supplémentaires, notamment prise en charge de Ping Identity PingFederate Server et de Microsoft Active Directory Federation Services
    • Visibilité accrue sur les activités d’audit et les journaux de sécurité, permettant un suivi de toutes les interactions utilisateur notamment accès, modifications et configuration.
    • Nouveau rôle d’auditeur pour configurer le journal d’audit et y accéder, ce qui assure un niveau de sécurité plus élevé.
  • Le temps de test et de débogage Talend Cloud se compte désormais en secondes et non plus en minutes, avec un moteur de test gratuit et la possibilité de déboguer à distance les jobs Big Data et les jobs dans les moteurs distants ou les moteurs Talend Cloud.
  • Des mises à jour d’intégration continues, notamment l’utilisation de standards Maven pour les builds incrémentielles dans Studio, support Git étendu incluant Bitbucket Server 5.x, support Nexus 3 pour Talend Artifact Repository, commandes Maven standard pour l’intégration des données et des applications (version d’évaluation technique) et la possibilité d’étendre facilement le processus de génération avec les plugs-ins Maven et les POM (Project Object Models) personnalisés.
  • Améliorez la productivité en créant des composants Talend personnalisés. Développez-les une fois à l’aide du Talend Component Kit, puis réutilisez-les pour tous les produits Talend et types d’intégration, batch vers temps réel, intégration de données vers Big Data, sur site vers le Cloud.
  • Gagnez du temps en appariant automatiquement les colonnes portant un nom similaire via Smart tMap Fuzzy Auto-Mapping, qui utilise des algorithmes de qualité des données (Levenshtein, Jaccard) pour la recherche floue.
  • Davantage de flexibilité et de productivité dans la création des jobs, avec possibilité de modifier le nom des tables lors de l’exécution via ELTMap, et de nouvelles routines permettant une adaptation aux schémas variables.
Data Quality Améliorez l’intégrité des données Cloud et sur site tandis qu’elles circulent dans l’entreprise :
  • Règles de survivorship améliorées, par colonne, vous permettant de disposer d’un contrôle plus précis de la valeur maître à conserver.
  • Nouveau composant tPatternMasking permettant de définir de nouveaux types de schémas de masking à des fins de respect de la vie privée et de sécurité.
  • Importation et exportation de types sémantiques depuis Dictionary Service UI, ce qui permet de gérer plus facilement la promotion des types sémantiques au travers des différents environnements.
  • Les API REST de Talend Dictionary Service sont désormais disponibles publiquement et leur auto-documentation s’effectue via Swagger. Vous pouvez utiliser Talend Dictionary Service dans des scénarios d’intégration de données/d’applications et programmer l’ajout de données dans Talend Dictionary Service.
  • Dictionary Service UI a été traduit en français.
Data Preparation Offrez une expérience utilisateur optimale en préparation des données, même à très grande échelle :
  • Avec Cloud Dictionary Service, vous pouvez définir de nouveaux termes métier afin de faciliter la compréhension de vos données et leur utilisation tant par les personnes que par les machines
  • Options de connectivité étendues avec connecteurs en libre-service Redshift et Snowflake
  • La sélection dynamique des préparations de données dans un job Talend permet d’améliorer l’opérationnalisation et la maintenance.
  • Flexibilité améliorée grâce aux nouvelles fonctions de préparation de données : déduplication de base, standardisation via dictionnaires de données, remplissage par le haut, générer une séquence, gestion des pourcentages.
  • Grâce à une meilleure prise en charge des caractères spéciaux, il est possible d’exploiter les fichiers CSV non standard ou complexes sans devoir standardiser le fichier au préalable.
  • L’interface utilisateur est désormais disponible en français et en japonais.
Data Stewardship Identifiez, gérez et résolvez rapidement tout problème d’intégrité des données :
  • À ceux qui connaissant le mieux les données, offrez Talend Cloud Data Stewardship, une application de curation et de certification des données en libre-service et collaborative pour rapidement identifier, gérer et résoudre tous les problèmes d’intégrité des données.
  • Avec Cloud Dictionary Service, vous pouvez définir de nouveaux termes métier afin de faciliter la compréhension de vos données et leur utilisation tant par les personnes que par les machines
  • Les utilisateurs peuvent désormais importer et exporter des campagnes et des modèles de données, directement depuis Talend Data Stewardship UI. Ceci facilite la mise en conformité avec les règles IT, car il est plus facile de gérer la promotion de la configuration dans les différents environnements (logiciel en téléchargement uniquement).
  • L’interface utilisateur est désormais disponible en français et en japonais.
MDM Accélérez la conception, l’ingestion, la création, la curation et la mise à jour de vos données de référence :
  • Gestion des licences et des identités via Talend Administration Center pour une sécurité améliorée.
  • Gain de temps grâce au single sign-on avec Data Preparation et Data Stewardship.
  • Amélioration des API REST (opérateur « IN »)
  • Règles de consolidation par colonne dans les fonctions MDM de survivorship
  • Audit de toutes les actions utilisateur, notamment connexion/déconnexion et déploiement de la configuration, à des fins de sécurité.
Talend Data Mapper Améliorez la performance de vos mappings complexes :
  • tHMapRecord peut envoyer, et recevoir, des structures hiérarchiques complexes dans des systèmes de streamings tels que Kafka (tKafkaOutput) et Kinesis (tKinesisOutput).
  • tHMap permet de créer plusieurs sorties à partir d’une entrée unique, ce qui améliore la productivité.
  • Nouvelles fonctions linguistiques de transformation et d’expression notamment majuscules, minuscules, traduction et « contains ».
  • Conversion améliorée entre données hiérarchiques et enregistrements plats.

Étendez la portée de l’intégration de vos données

Pour voir les composants de chaque produit Talend, consultez help.talend.com.

Nouvelles distributions Hadoop et mises à jour

  • Amazon EMR 5.8
  • Cloudera CDH 5.12, 5.13
  • MapR 6.0
  • Spark 2.2

Nouveaux composants et mises à jour

  • Amazon S3
  • Cloudera Kudu
  • Couchbase
  • FTP
  • Hbase
  • Hive
  • MapR-DB OJAI
  • Marketo
  • Marklogic
  • Microsoft Azure Data Lake Store
  • Microsoft Dynamics CRM 2016 (sur site)
  • MongoDB
  • Neo4J
  • Oracle Cloud
  • SAP Business Suite
  • SAP Hana
  • SAP s/4Hana
  • Snowflake
  • Sybase
  • Vertica