Découvrez Pipeline Designer : Réinventer l’intégration des données

Découvrez Pipeline Designer : Réinventer l’intégration des données

  • Stephanie Yanaga
    Stephanie Yanaga is a Product Marketing Manager focusing on Talend’s free and open source products. In this role, Stephanie will be involved in the open source product strategy and will also work to ensure the Talend open source community has the resources needed to continue to thrive. Prior to joining the product marketing group in January 2018, Stephanie spent two years in Australia building out Talend’s APAC presence.

C’est un plaisir de vous présenter Pipeline Designer : un environnement de conception Cloud nouvelle génération pour l’intégration des données qui permet aux développeurs de développer et déployer des pipelines de données en quelques minutes, de réaliser des conceptions de manière fluide sur des scénarios en batch et en streaming, tout en évoluant en mode natif avec les dernières technologies hybrides et multi-cloud. 

<<Essayez Pipeline Designer dès maintenant>>

Pourquoi choisir Pipeline Designer ?

Ce n’est pas un secret : les données offrent aujourd’hui aux entreprises de tout secteur un avantage concurrentiel. Et pour garder cet avantage, votre organisation doit s’assurer :

  1. De collecter toutes les données qui vous apporteront les informations les plus précieuses
  2. Que les unités opérationnelles qui dépendent des données les reçoivent en temps opportun pour prendre des décisions rapides
  3. Qu’il existe un moyen simple de s’adapter et d’innover à mesure que de nouvelles exigences relatives aux données se présentent

Cela peut s’avérer très difficile, compte tenu de l’émergence d’une multitude de nouveaux types de données et de nouvelles technologies. Par exemple, les entreprises doivent relever plusieurs défis majeurs aujourd’hui, notamment travailler avec toutes sortes de paradigmes de streaming, et traiter de nouveaux types de données omniprésentes, que ce soit dans les médias sociaux, sur le web, dans les capteurs, dans le cloud, etc. Les entreprises considèrent le traitement et la fourniture de données en temps réel comme un moyen de changer la donne et de bénéficier d’informations exploitables en temps réel. Toutefois, la collecte et la transformation de ces données peuvent s’avérer complexes.

Prenons par exemple les données des flux de clics. Des données sont constamment envoyées à partir de sites web, en un flux continu et perpétuel. L’approche traditionnelle par lots, qui consiste à ingérer ou traiter des données sur la base d’un « début » et d’une « fin » déterminés des données, est non seulement obsolète au regard du streaming de données mais elle supprime également tout l’intérêt d’une réactivité en temps réel. Par exemple, les marchands en ligne s’appuient sur les données des flux de clics pour comprendre l’interaction de leurs utilisateurs avec leurs sites web. C’est une étape essentielle pour bien cibler le profil de leurs utilisateurs et ainsi leur proposer des produits qu’ils achèteront. Dans un secteur où les marges sont infimes, il est capital de disposer d’informations exploitables en temps réel sur l’activité des clients et de données sur les prix des concurrents, afin de prendre rapidement les bonnes décisions et gagner des parts de marché.

De plus, si vous utilisez des données provenant d’applications diverses, il est possible que l’outil d’intégration de votre entreprise ne prenne pas en charge les différents formats des données, et il se peut que vos pipelines de données cassent à chaque fois qu’un nouveau champ est ajouté aux données sources. Quand bien même le service informatique serait capable de gérer la nature dynamique des données, les unités opérationnelles qui ont besoin d’accéder aux données doivent parfois attendre plusieurs semaines avant d’obtenir des informations exploitables, et ce, en raison de la charge de travail accrue des personnes chargées de diffuser les données au reste de l’entreprise.  

Dans une récente étude sur les data scientists, plus de 30 % des data scientists ont d’ailleurs déclaré que l’indisponibilité des données et la difficulté d’y accéder faisaient partie de leurs défis majeurs. Le marché de l’emploi montre bien la demande accrue pour un meilleur accès à des données exploitables : les offres d’emploi de data engineer sont 4 fois plus nombreuses que celles pour les data scientists.

Les compétences en ingénierie des données (accès, collecte, transformation et fourniture de tous types de données aux entreprises) sont prisées, et les data engineers d’aujourd’hui doivent être plus productifs que jamais tout en travaillant dans un environnement de données en constante évolution. Parallèlement, les intégrateurs ponctuels doivent pouvoir se donner les moyens d’accéder à leurs données, de les intégrer et de réduire leur dépendance au service informatique.

Enfin, avec l’augmentation du nombre d’entreprises exigeant des temps de traitement plus rapides, les data engineers et les intégrateurs ponctuels doivent pouvoir intégrer leurs données immédiatement en s’appuyant sur des outils d’intégration des données qui les aident à répondre à ces nouvelles exigences. Aujourd’hui, les data engineers et les intégrateurs ponctuels ont besoin d’un outil d’intégration natif Cloud accessible et intuitif, mais également capable de traiter la diversité et les volumes des données avec lesquelles ils travaillent au quotidien.  

Tout cela peut sembler intimidant, mais ne vous en faites pas. Nous n’aurions pas écrit tout ça si nous n’avions pas une solution.

Découvrez Pipeline Designer

Nous avons constaté que ce scénario se répétait bien trop souvent chez nos clients et prospects, mais nous savions que nous pouvions les aider. C’est pourquoi nous avons développé Pipeline Designer.

Pipeline Designer est une interface utilisateur web en libre-service, développée dans le Cloud, qui accélère, facilite et démocratise l’intégration des données à une époque où tout le monde attend des applications Cloud simples et où les volumes, types et technologies de données se développent à un rythme effréné.

Pipeline Designer permet aux data engineers de traiter rapidement et aisément les intégrations légères, y compris la transformation et la fourniture de données dans des entrepôts de données Cloud, l’ingestion et le traitement de données de streaming dans un data lake Cloud, et le chargement de données en masse dans Snowflake et Amazon Redshift. Grâce à l’architecture moderne de Pipeline Designer, les utilisateurs peuvent travailler avec des lots de données et des données de streaming sans avoir à se soucier de reconstruire entièrement leurs pipelines pour s’adapter aux volumes croissants de données ou aux changements de format des données. En définitive, cela leur permet de transformer et fournir des données plus rapidement qu’avant.

<<Essayez Pipeline Designer dès maintenant>>

En quoi Pipeline Designer est-il unique ? Voici quelques points forts que nous souhaitons vous présenter :

Aperçu en direct

Les capacités d’aperçu en direct de Pipeline Designer vous permettent de concevoir une intégration des données en continu. Vous n’avez plus besoin de concevoir, de compiler, de déployer et d’exécuter le pipeline pour voir à quoi ressemblent les données.

Vous pouvez maintenant voir les changements de données en temps réel, à chaque étape de votre processus de création, dans le même canvas de conception. Cliquez sur n’importe quel processeur de votre pipeline et visualisez les données avant et après votre transformation pour vous assurer que les données finales correspondent bien à vos attentes. Vous réduirez ainsi considérablement le temps de développement et accélérerez vos projets de transformation numérique.

Regardons par exemple les données d’entrée et de sortie de la transformation Python ci-dessous :

Conception sans schéma

Le schéma à la lecture (ou « schema-on-read ») est une stratégie d’intégration des données pour les intégrations modernes de données telles que le streaming de données dans des plateformes Big Data, les systèmes de messagerie et le NoSQL. Il permet de gagner du temps car il n’est pas nécessaire de mapper les données entrantes, souvent moins structurées, dans un schéma fixe. 

Pipeline Designer prend en charge le schéma à la lecture : inutile donc désormais de définir des schémas avant de développer des pipelines. Il permet également aux pipelines de s’adapter en cas de changement de schéma. Il n’existe aucune définition claire du schéma pour déterminer une connexion ou un ensemble de données dans Pipeline Designer. La structure des données est déduite au moment de l’exécution du pipeline, ce qui signifie que celui-ci va rassembler les données et deviner leur structure. Si le schéma source subit une modification, alors le pipeline s’adaptera lors de la prochaine exécution pour prendre en compte cette modification. Cela signifie que vous pouvez commencer à travailler immédiatement avec vos données et ajouter des sources de données à la volée, car les schémas sont identifiés de façon dynamique. En résumé, cette solution offre une meilleure résistance et une plus grande flexibilité qu’une définition « rigide » des métadonnées. 

Intégrez n’importe quelle donnée avec une portabilité inégalée

Talend est depuis longtemps un partenaire incontournable pour pérenniser votre travail de développement. Vous modélisez votre pipeline, puis vous pouvez sélectionner la plateforme sur laquelle l’exécuter (sur site, Cloud ou Big Data). Et si vos exigences changent, vous n’avez qu’à changer de plateforme. Par exemple, nous sommes passés de MapReduce à Spark pour notre générateur de code afin que vous puissiez exécuter votre tâche sur un Spark optimisé et natif en quelques clics. Et c’est encore mieux maintenant. En nous appuyant sur le projet open source Apache Beam, nous arrivons à découpler la conception et l’exécution, vous permettant ainsi de développer des pipelines sans avoir à vous soucier du moteur de traitement que vous utiliserez pour les exécuter.

Mieux encore, vous pouvez concevoir des pipelines de streaming et de lots sur la même palette.

Vous pouvez donc utiliser le même pipeline sur une source limitée, comme une requête SQL, ou sur une source illimitée, par exemple une file d’attente de messages. Il fonctionnera comme un pipeline de lots ou un pipeline de streaming en fonction de la seule source de données. À l’exécution, vous pouvez choisir une exécution native sur la plateforme Cloud où résident vos données, et vous pouvez même choisir une exécution sur EMR pour une évolutivité optimale. Avec Pipeline Designer, vous pouvez véritablement « créer une fois pour toutes et exécuter n’importe où », mais également exécuter dans plusieurs Clouds de façon évolutive.

Composant Python intégré

Comme Python est à la fois le langage de programmation à la croissance la plus rapide et un langage couramment utilisé par les data engineers, nous voulions que Pipeline Designer permette aux utilisateurs d’exploiter leurs propres compétences dans ce langage et d’étendre l’outil pour qu’il puisse traiter n’importe quel besoin spécifique de transformation. C’est pourquoi Pipeline Designer intègre un composant Python pour créer des scripts Python en vue de transformations personnalisables.

Vous cherchez à exploiter plus de données ?

Autre point fort de Pipeline Designer : il ne s’agit pas d’une application autonome ou d’une solution unique. Il fait partie de la plateforme Talend Data Fabric, qui résout certains des aspects les plus complexes de la chaîne complète de valeur. Avec Data Fabric, les utilisateurs peuvent collecter des données dans tous les systèmes, les contrôler pour garantir une utilisation adéquate, les convertir dans de nouveaux formats, améliorer leur qualité et les partager avec des parties intéressées internes et externes.

Pipeline Designer est géré par la même application que le reste de Talend Cloud, à savoir Talend Management Console. Cette continuité assure une vue d’ensemble de la plateforme Talend au service informatique. Seule une plateforme unifiée comme Talend Cloud peut offrir une telle supervision et une telle gouvernance. Et bien sûr, le service informatique bénéficie de tous les autres avantages de Talend Data Fabric, y compris le contrôle sur l’utilisation des données, pour faciliter l’audit et garantir la confidentialité, sécurité et qualité des données.

Les utilisateurs qui découvrent Talend peuvent démarrer avec Pipeline Designer en sachant qu’il existe une suite d’applications spécialisées et conçues pour se compléter, promouvant ainsi une culture de gestion complète des données à travers toute l’entreprise. Quand vos besoins grandiront, Talend sera là pour vous épauler dans votre transition vers la gouvernance des données.

Nous sommes heureux de vous proposer un essai gratuit et sans téléchargement de ce produit. Vous verrez à quel point Pipeline Designer facilite l’intégration légère. Vous trouverez plus d’informations sur les caractéristiques du produit sur la page du produit ici ou essayez-le gratuitement pendant 14 jours !

Participer aux discussions

0 Comments

Laisser un commentaire

Your email address will not be published. Required fields are marked *