ETL pour le Décisionnel

Les processus ETL (Extraction, Transformation et Chargement) sont les composants les plus critiques – et les plus importants – d’une infrastructure décisionnelle. Bien que cachés de l’utilisateur de la plate-forme décisionnelle, les processus ETL rassemblent les données à partir des systèmes opérationnels et les pré-traitent pour les outils d’analyse et de reporting. La précision et la vitesse de la plate-forme décisionnelle toute entière dépendent des processus ETL.

Demandez plus d'information sur les solutions de Talend pour l'ETL.

 

Qu’est ce que l’ETL ?

Les processus d’ETL (Extraction, Transformation et Chargement) regroupent plusieurs étapes, qui ont pour objet de transférer des données depuis les applications de production vers les systèmes décisionnels :

  • Extraction de données des applications et des bases de données de production (ERP, CRM, SGBDR, fichiers, etc.)
  • Transformation de ces données pour les réconcilier entre les différentes sources, pour effectuer des calculs ou du découpage de texte, pour les enrichir avec des données externes et aussi pour respecter le format requis par les système cibles (Troisième Forme Normale, Schéma en Etoile, Dimensions à Evolution Lente, etc.)
  • Chargement des données résultantes dans les différentes applications décisionnelles : Data Warehouse ou Enterprise Data Warehouse, Data Marts, applications OLAP (Online Analytical Processing) ou “cubes”, etc.

La latence des processus d’ETL varie du mode batch (parfois mensuel ou hebdomadaire, le plus souvent quotidien) jusqu’au temps quasi-réel avec des rafraîchissements plus fréquents (toutes les heures, toutes les minutes, etc.).

 

Les Challenges de l’ETL

L’implémentation de processus d’ETL efficaces et fiables comprend de nombreux challenges.

  • Les volumes de données sont en croissance exponentielle, et les processus d’ETL doivent traiter des quantités importantes de données granulaires (produits vendus, appels téléphoniques, transactions bancaires, etc.). Certains systèmes décisionnels sont mis à jour de façon incrémentale, alors que d’autres sont rechargés dans leur totalité à chaque itération.
  • Alors que les systèmes d’information se complexifient, la variété des sources de données s’accroît également. Les processus d’ETL doivent disposer d’une large palette de connecteurs à des progiciels (ERP, CRM, etc.), bases de données, mainframes, fichiers, Services Web etc.
  • Les structures et applications décisionnelles incluent des data warehouses, des data marts, des applications OLAP - pour l’analyse, le reporting, les tableaux de bord, le scorecarding, etc. Toutes ces structures cibles présentent des besoins différents en termes de transformation de données, ainsi que des latences différentes.
  • Les transformations des processus d’ETL peuvent être très complexes. Les données doivent être agrégées, parsées, calculées, traitées statistiquement, etc. Certaines transformations spécifiques au décisionnel sont aussi requises, comme les Dimensions à Evolution Lente.
  • Alors que le décisionnel se rapproche du temps réel, les data warehouses et data marts doivent être rafraîchis plus souvent, alors que les fenêtres de chargement se raccourcissent.

 

Solutions d’Intégration Open Source pour l’ETL

Les solutions d’intégration de données Talend sont optimisées pour les besoins ETL de l’entreprise. Les options suivantes sont particulièrement décisives pour le design, le développement, l’exécution et la maintenance des processus ETL :

  • Modèle orienté Business qui assure une communication optimale entre l’informatique et le business
  • Environnement de développement graphique pour améliorer la productivité et faciliter la maintenance
  • Plateforme très évolutive avec un déploiement en mode Grid et exploitant les architectures ETL et ELT
  • Connectivité étendue à tous les systèmes
  • Composants avancés pour l’ETL comme les Dimensions à Evolution Lente, le chargement bulk, etc.
Copyright © 2006-2008 Talend. All rights reserved