ETL pour le décisionnel
Les processus ETL (Extraction, Transformation et Chargement) sont les composants les plus critiques - et les plus importants - d’une infrastructure décisionnelle. Bien que cachés de l’utilisateur de la plate-forme décisionnelle, les processus ETL rassemblent les données à partir des systèmes opérationnels et les pré-traitent pour les outils d’analyse et de reporting. La précision et la vitesse de la plate-forme décisionnelle toute entière dépendent des processus ETL.
Demandez plus d'information sur les solutions de Talend pour l'ETL.
Qu’est ce que l’ETL ?
Les processus d’ETL (Extraction, Transformation et Chargement) regroupent plusieurs étapes, qui ont pour objet de transférer des données depuis les applications de production vers les systèmes décisionnels :
- Extraction de données des applications et des bases de données de production (ERP, CRM, SGBDR, fichiers, etc.)
- Transformation de ces données pour les réconcilier entre les différentes sources, pour effectuer des calculs ou du découpage de texte, pour les enrichir avec des données externes et aussi pour respecter le format requis par les système cibles (Troisième Forme Normale, Schéma en Etoile, Dimensions à Evolution Lente, etc.)
- Chargement des données résultantes dans les différentes applications décisionnelles : Data Warehouse ou Enterprise Data Warehouse, Data Marts, applications OLAP (Online Analytical Processing) ou “cubes”, etc.
La latence des processus d’ETL varie du mode batch (parfois mensuel ou hebdomadaire, le plus souvent quotidien) jusqu’au quasi-temps réel avec des rafraîchissements plus fréquents (toutes les heures, toutes les minutes, etc.).
Les Challenges de l’ETL
L’implémentation de processus d’ETL efficaces et fiables comprend de nombreux challenges.
- Les volumes de données sont en croissance exponentielle, et les processus d’ETL doivent traiter des quantités importantes de données granulaires (produits vendus, appels téléphoniques, transactions bancaires, etc.). Certains systèmes décisionnels sont mis à jour de façon incrémentale, alors que d’autres sont rechargés dans leur totalité à chaque itération.
- Alors que les systèmes d’information se complexifient, la variété des sources de données s’accroît également. Les processus d’ETL doivent disposer d’une large palette de connecteurs à des progiciels (ERP, CRM, etc.), bases de données, mainframes, fichiers, Services Web etc.
- Les structures et applications décisionnelles incluent des data warehouses, des data marts, des applications OLAP - pour l’analyse, le reporting, les tableaux de bord, le scorecarding, etc. Toutes ces structures cibles présentent des besoins différents en termes de transformation de données, ainsi que des latences différentes.
- Les transformations des processus d’ETL peuvent être très complexes. Les données doivent être agrégées, parsées, calculées, traitées statistiquement, etc. Certaines transformations spécifiques au décisionnel sont aussi requises, comme les Dimensions à Evolution Lente.
- Alors que le décisionnel se rapproche du temps réel, les data warehouses et data marts doivent être rafraîchis plus souvent, dans des fenêtres de chargement toujours plus courtes
Solutions d’Intégration Open Source pour l’ETL
Les solutions d’intégration de données Talend sont optimisées pour les besoins ETL de l’entreprise. Les options suivantes sont particulièrement décisives pour le design, le développement, l’exécution et la maintenance des processus ETL :
- Modèle orienté Business qui assure une communication optimale entre les équipes informatique et les intervenants métier
- Environnement de développement graphique pour améliorer la productivité et faciliter la maintenance
- Plateforme très évolutive avec un déploiement en mode Grid et exploitant les architectures ETL et ELT
- Connectivité étendue à tous les systèmes source et cible, facilitant l’accès aux données et l’ajout de nouveaux systèmes
- Composants avancés natifs pour l’ETL tels que les manipulations de chaînes, les dimensions à évolution lente, la gestion des lookups, le chargement bulk, etc.