Quelles sont les nouveautés dans Talend Data Preparation 2.0 ?

article in English

 

Nous avons lancé la version 2.0 de Talend Data Preparation dans son édition commerciale en Janvier 2017.

Si vous voulez découvrir la préparation de données avant de lire cet article, je vous suggère de regarder cette courte vidéo de 90 secondes. Et si vous voulez essayer gratuitement Talend Data Preparation sans limite de temps, je vous incite à télécharger la version Free Desktop de Talend Data Preparation.

Dans cet article, nous allons insister sur les bénéfices que délivre la version 2.0 de Talend Data Preparation.

Autant vous le dire de suite, la nouvelle version de Talend Data Preparation 2.0 permet à ses utilisateurs de changer de dimension : tant au niveau de leurs usages – notamment en démocratisant l’exploitation des big data et en prenant en compte les types de données spécifiques à chaque client  – qu’au niveau de la scalabilité qu’elle offre – en étant le 1er outil de data preparation supportant la technologie Apache Beam et permettant de rester durablement à la pointe des environnements de traitement des données (d’abord Spark, puis à terme MapR, Flint, APEX, etc.)

Fidèle à son credo de Talend Data Preparation, la version 2.0 conserve toute la puissance fonctionnelle et l’expérience utilisateur inégalée qui permettent aux utilisateurs d’obtenir des données parfaitement nettoyées, enrichies et standardisées en quelques minutes plutôt qu’en quelques jours. Elle permet toujours aussi à l’IT de garantir aux utilisateurs la sécurité des accès, les échanges des données et des préparations en toute confiance, le respect des règles de gouvernance des données et la connectivité à toutes les applications de l’entreprise.

La Data Preparation vous permet de démocratiser vos Big Data et votre Data Lake

Comment permettre à des utilisateurs métiers d’exploiter et retirer de l’intelligence des big data stockées en vrac dans le data lake de leur entreprise, alors qu’ils ne sont pas familiers des notions comme hadoop, HDFS ou même data lake ? Par exemple : des utilisateurs marketing pour analyser les flux de clics issus du site web ou les tickets de vente remontés du réseau de magasin. Autre exemple : des utilisateurs finance, comptabilité ou achats pour exploiter les données des détails de facture de leurs fournisseurs ou les données historiques de santé financière des clients.

Talend Data Preparation permet cela ! Ces utilisateurs métiers accèdent en toute confiance à toutes les sources de données auxquelles ils ont droit - sans se soucier du mode d’accès – pour pouvoir les exploiter librement en quelques minutes plutôt qu’en quelques heures : les visualiser, les découvrir, les nettoyer, les standardiser, les présenter selon leurs propres règles de gestion, les enrichir d’autres sources de données, les combiner, etc. Bref les préparer très vite avant de les analyser, de les intégrer dans leurs applications de business intelligence / data vizualisation ou Excel pour en retirer des réflexions, des prédictions, des idées d’action, des prises de décisions.

Fonctionnellement, l’IT met à disposition - à la demande ou en continu - des utilisateurs des ‘sanctioned big datasets’ en self-service issus du data lake grâce à des connecteurs HDFS. En fonction de leurs droits, les utilisateurs peuvent même bénéficier d’une plus forte autonomie d’accès encore : ils peuvent eux-mêmes accéder au data lake. Puis les utilisateurs préparent les données intuitivement via leur navigateur web, au rythme de leur découverte du fichier de données. Ils sont guidés par des fonctions d’auto-découverte des données, d’autodiagnostic de leur qualité, d’autosuggestion de fonctions de nettoyage des données. Pour leur permettre de gérer les milliers ou millions de lignes des fichiers big data, Talend Data Preparation aide les utilisateurs : ils travaillent sur des échantillons représentatifs des données ; puis leur travail est appliqué automatiquement à l’ensemble des données. Les préparations des utilisateurs sont alors mise en production par l’IT pour les injecter à nouveau dans le data lake, ou dans toute application métier, on-prem ou cloud. Là aussi, les utilisateurs peuvent bénéficier d’une plus grande autonomie en fonction de vos règles de gestion : ils peuvent générer leurs propres fichiers d’export.

Techniquement, Talend Data Preparation fournit un accès self-service et un export Hadoop File and Storage System (HDFS) pour les fichiers de type CSV, Parquet, Avro et JSON en embarquant nativement le système d’authentification Kerberos.

Notez que Talend Data Preparation permet aussi à tout utilisateur de préparer et d’intégrer de la même façon des données issues de tout type de base donnée (connecteur JDBC), de toute application, de tout fichier Excel ou CSV reçu par e-mail ou stocké en local. La connectivité maximale de Talend Data Preparation sert tous les scénarii d’exploitation de données.

Talend Data Preparation apprend automatiquement le langage des données propre à chaque client

Chaque entreprise travaille à la fois sur des données de type standard (nom, prénom, numéro de téléphone, numéro de TVA, villes, pays, etc.) et sur des données spécifiques (les numéros clients, les codes produits, les codes comptables analytiques, etc.).

Si l’application de data preparation ne sait pas reconnaitre le type sémantique de ces données spécifiques, comment peut-elle garantir une auto-découverte des données fiable, un autodiagnostic de qualité efficace et des autosuggestions de fonctions de nettoyage pertinentes ? Si votre application de data preparation ne sait pas reconnaitre puis apprendre vos types de données spécifiques, vous perdrez en productivité car vos utilisateurs seront obligés de faire plus de travail de préparation manuellement.

Talend Data Preparation parle votre langage métier en prenant en compte vos types sémantiques de données spécifiques. Son Data Dictionary Service les analyse et les définit une bonne fois pour toutes. Vous bénéficiez ainsi de l’automatisation et de finesse d’analyse des données optimales quels que soient vos données à préparer.

Talend Data Preparation supporte la technologie Apache Beam pour garantir des performances toujours à la pointe

Talend Data Preparation ouvre donc le champ des possibles pour tout utilisateur en démocratisant l’exploitation des Big Data et du Data Lake en quelques minutes. Mais l’exploitation de ces énormes volumes de données, extrêmement variées et générées en temps réel, nécessite des performances de traitement de données de pointe. Or, vu le rythme des innovations dans le domaine des big data rend les investissements rapidement obsolètes et induit des coûts prohibitifs pour les entreprises. La course à l’innovation (il y a en moyenne une nouvelle version de Spark chaque 6 mois) devient un frein à l’adoption.

C’est pour aider les entreprises à échapper à ce cercle vicieux que Talend a décidé d’adopter la technologie Apache Beam : Talend a annoncé la première solution de data preparation pour le Big Data sur Beam. Cette technologie permet aux entreprises de délivrer un service de préparation de données pérenne à leurs utilisateurs, quelle que soit la plateforme utilisée.

Fonctionnellement, Beam évite d’avoir à réécrire des applications au gré des innovations, des migrations de systèmes vers le cloud ou des évolutions des scénarii d’intégration (batch, real-time). Les utilisateurs créent une seule fois leurs modèles de préparation de données et les exécutent n’importe où sur des volumes de données sans limite. Talend Data Preparation 2.0 délivre une agilité sans précédent, une scalabilité parfaite et une performance toujours à la pointe.

Techniquement, Apache Beam ajoute une couche d’abstraction entre l’application de préparations de données et les divers environnements d’exécution des traitements de données. Beam cache cette complexité aux yeux des clients en permettant à Talend Data Preparation d’être agnostique aux technologies.

Testez Talend Data Preparation dès maintenant !

 

Share

Leave a comment

Ajouter un commentaire

More information?