Guide du traitement en batch à l’intention des débutants

Qu'est-ce que le traitement en batch ?

Le traitement en batch consiste à exécuter des jobs répétitifs contenant des volumes importants de données. La méthode par lots permet aux utilisateurs de traiter des données lorsque des ressources informatiques sont disponibles, avec peu ou pas d'intervention de leur part.

Avec le traitement en batch, ils recueillent et stockent les données, puis les traitent au cours de ce que l'on appelle une « fenêtre de batch ». Le traitement en batch améliore l'efficacité en définissant des priorités de traitement et en effectuant les jobs de données lorsque c'est le plus judicieux.

Télécharger The Definitive Guide to Data Integration maintenant
TÉLÉCHARGER

La méthode de traitement en batch a été utilisée pour la première fois au 19e siècle par Herman Hollerith, un Américain qui a inventé la première tabulatrice. Cet appareil est devenu le précurseur de l'ordinateur moderne et était capable de compter et de trier des données organisées sous forme de cartes perforées. Les cartes et les informations qu'elles contenaient pouvaient ensuite être collectées et traitées en lots. Cette innovation a permis un traitement plus rapide et précis de grandes quantités de données qu'avec les méthodes de saisie manuelles.

Principes fondamentaux du traitement en batch

Le traitement en batch aide de façon déterminante les entreprises et les organisations à gérer efficacement de grandes quantités de données. Il est particulièrement indiqué pour traiter des tâches fréquentes et répétitives telles que les processus comptables. Quels que soient le secteur et le poste, les principes fondamentaux du traitement en batch demeurent les mêmes : Les principaux paramètres à prendre en compte sont notamment les suivants :

  1. qui soumet le job ;
  2. quel programme sera exécuté ;
  3. quel est l'emplacement des entrées et sorties ;
  4. quand le job doit être exécuté.

Autrement dit, « qui, quoi, où et pourquoi ».

Exemple — traitement en batch de données financières

De nombreuses entreprises utilisent le traitement en batch pour automatiser leurs processus de facturation.

Imaginez qu'une transaction par carte de crédit ne soit apparue sur votre relevé de compte que plusieurs jours après que vous avez dépensé l'argent. Il se peut que cette transaction ait été traitée dans un lot peu après votre achat.

Autre scénario : une entreprise de vente en gros ne facture ses clients qu'une fois par mois et verse les salaires de ses employés toutes les deux semaines. Le cycle de facturation mensuel et les cycles de paie bimensuels sont deux exemples de traitement en batch. \

Avantages

Le traitement en batch est devenu pratique courante, car il offre un certain nombre de points positifs en matière de gestion des données d'entreprise. Les entreprises peuvent en retirer plusieurs avantages :

Efficacité

Le traitement en batch permet à une entreprise de traiter des jobs lorsque l'informatique ou d'autres ressources sont immédiatement disponibles. Les entreprises peuvent donner la priorité aux jobs urgents et programmer des processus en lots pour les autres. En outre, les systèmes en batch peuvent être exécutés hors ligne afin de minimiser la sollicitation des processeurs.

Télécharger The Definitive Guide to Data Quality maintenant
TÉLÉCHARGER

Simplicité

Par rapport au traitement de flux, le traitement en batch est un processus moins complexe, ne nécessitant pas de prise en charge système ou matérielle spéciale pour la saisie des données. Une fois mis en place, un système de traitement en batch requiert moins de maintenance qu'un système de traitement de flux.

Qualité améliorée des données

Du fait de l'automatisation de la plupart, voire la totalité, des composants d'un job de traitement et de la limitation des interventions de l'utilisateur, les risques d'erreurs sont réduits. La précision et l'exactitude sont accrues, ce qui garantit une meilleure qualité des données.

Business Intelligence accélérée

Le traitement en batch permet aux entreprises de traiter rapidement de gros volumes de données. Étant donné que de nombreux enregistrements peuvent être traités simultanément, le traitement en batch réduit le temps de traitement et fournit des données afin que les entreprises puissent prendre rapidement des mesures. Et, étant donné qu'il est possible de traiter simultanément plusieurs jobs, la business intelligence (ou informatique décisionnelle) est disponible plus rapidement que jamais.

Cas d'usage

Affinity Water — Des millions de clients, des milliards de litres

Affinity Water, la plus grande société de distribution d'eau du Royaume-Uni, utilise un système automatisé pour relever les compteurs de ses 3,6 millions de clients qui utilisent chaque jour plus 900 millions de litres d'eau. Du fait de la complexité de la gestion d'une infrastructure d'alimentation en eau, de l'importante clientèle de l'entreprise et de l'étendue des services qu'elle fournit, Affinity a dû rechercher les stratégies les plus efficaces pour traiter d'énormes quantités de données.

Le traitement en batch permet à Affinity de hiérarchiser ses processus informatiques afin que des actions telles que le relevé des compteurs et la facturation soient rapides et précises, sans mobiliser les ressources vitales d'autres jobs de traitement de données.

Almerys — Le traitement en batch appliqué aux soins de santé

Almerys s'y connaît un peu dans le traitement en batch de grandes quantités de données générées dans le cadre de la facturation des soins de santé. L'entreprise utilise une stratégie personnalisée qui applique le traitement en batch à certains jobs et le traitement de flux à d'autres. Ainsi, Almerys est en mesure de gérer chaque jour plus d'1 million de transactions médicales informatisées pour le compte de tiers.

Traitement en batch ou traitement de flux : un épineux dilemme

Il est impossible d'apporter une seule réponse satisfaisante à la question de savoir quelle méthode de traitement des données est optimale. Il s'agit plutôt de trouver la solution la plus adaptée à l'entreprise, aux données et à la situation. Dans certains cas, le traitement en batch offre l'approche de gestion des jobs la plus rentable. Dans d'autres cas, il est crucial de pouvoir accéder à des données de streaming. De nombreuses entreprises allient les deux méthodes.

Le traitement en batch traite de grandes quantités de données discontinues. Il peut traiter les données rapidement, réduire ou éliminer la nécessité d'une intervention de l'utilisateur et améliorer l'efficacité du traitement des jobs. Il peut constituer la solution idéale pour gérer les mises à jour des bases de données, le traitement des transactions et la conversion des fichiers d'un format à un autre.

Le traitement de flux convient aux données continues et est judicieux pour les systèmes ou les processus s'appuyant sur un accès en temps réel à des données. Si la rapidité est vitale, le traitement de flux est probablement la meilleure option. Par exemple, les entreprises confrontées à des questions de cybersécurité, et celles travaillant avec des dispositifs connectés comme du matériel médical, font appel au traitement de flux pour obtenir des données en temps réel.

Dans certains cas, une même entreprise peut avoir recours aux deux processus : le traitement de flux pour les tâches de données urgentes et le traitement en batch pour les autres. Par exemple, une société spécialisée dans la santé qui distribue des dispositifs médicaux mobiles peut utiliser le traitement de flux pour collecter et contrôler les données émises par l'appareil. Mais le traitement en batch peut être plus rentable pour gérer les cycles de facturation de ses clients.

Traitement en batch et cloud

Le traitement en batch est en constante évolution. La technologie cloud a révolutionné tous les modes de traitement en permettant la fusion des données provenant de nombreux types de programmes, leur intégration parfaite et leur stockage à distance. Pour ce qui est du traitement en batch, le changement le plus marquant est la migration des données d'emplacements sur site vers des systèmes distribués, les data warehouses et les data lakes pouvant alors être stockés en différents endroits du globe.

Malgré les changements induits par l'essor des technologies et du stockage dans le cloud, le traitement en batch demeure plus utile que jamais. En effet, le processus ETL (Extract, Transform, Load) bien connu qui consiste à migrer et transformer les données constitue en quelque sorte un traitement en batch. Même si d'autres méthodes ont fait leur apparition, le traitement en batch n'est pas près de disparaître.

Anticipez l'avenir du traitement en batch

Les entreprises n'ont jamais été confrontées à des ensembles de données aussi complexes et diversifiés. Elles ne peuvent par conséquent plus s'appuyer uniquement sur le traitement en batch pour gérer ces données. La plupart des entreprises utilisent aujourd'hui toute une gamme de méthodes de traitement pour rester compétitives.

La plateforme Talend Data Management offre un éventail varié d'outils et de fonctionnalités de traitement des données afin que les entreprises aient toujours accès au meilleur outil pour leurs jobs de traitement de données. Talend les aide à répondre aux exigences de plus en plus complexes de l'intégration des données, du traitement des big data et de l'analytique des données.

Soyez paré à toute éventualité. Téléchargez une version d'essai gratuite de la plateforme Talend Data Management pour découvrir ce que l'avenir de vos données peut vous réserver.

| Last Updated: July 8th, 2019