La Commission Européenne Optimise la Surveillance des Océans

Talend Open Studio for Data Integration permet au Centre Commun de Recherche (Joint Research Center ou JRC) d'Ispra de convertir et consolider d'importants volumes de données dans le cadre de programmes de surveillance maritime.
Dans la mesure où nous ne disposons pas de moyen pour imposer un format standard pour la fourniture des données, Talend Open Studio for Data Integration nous a permis d'une part de gagner un temps considérable par rapport à notre ancien système, mais également de gagner en fiabilité.
François-Xavier Thoorens, Research Officer

Une institution de recherche polyvalente

Le Centre Commun de Recherche (JRC ou CCR) est l'une des directions générales de la Commission Européenne. Il compte sept instituts de recherche situés dans cinq États membres de l'UE (Belgique, Allemagne, Italie, Pays-Bas et Espagne). Avec un effectif d'environ 2 700 personnes, le JRC joue un rôle actif dans la création d'une Europe plus sûre, plus propre, plus saine et plus concurrentielle, en fournissant un support scientifique et technique pour la conception, le développement, la mise en œuvre et le contrôle des réglementations communautaires.

Un support scientifique pour le contrôle des réglementations communautaires

Encore récemment, il n'existait pas de réglementation communautaire formelle en matière d'affaires maritimes et les recherches communautaires s'inscrivaient dans diverses réglementations dédiées à d'autres thèmes : énergie et transport, pêche, ressources naturelles, environnement, climat, etc. Le JRC coordonne ainsi des recherches dans différents domaines : harmonisation et accessibilité des données, collecte et analyse de statistiques sur les activités de pêche en Europe (contrôle et évaluation des stocks de poissons par exemple), surveillance maritime, contrôle des écosystèmes maritimes, surveillance des taux de pollution, etc. Un des défis que doit surmonter en permanence le JRC est cette disparité de ses fournisseurs de données, rendant indispensable leur consolidation et leur harmonisation avant toute utilisation.

Partager des informations entre pays membres

Le JRC manipule de nombreuses données issues de diverses entités de chaque pays membre, et les croise avec d'autres données géoréférencées, issues de satellites, de radars, etc. Ainsi, l'Unité des Affaires Maritimes de l'Institut IPSC (Protection et Sécurité des Citoyens), Direction du JRC d'Ispra en Italie, a récemment initié deux projets d'intégration de données de grande ampleur.

« Le premier projet - intitulé ‘Data Collection' - a fait l'objet de Directives Européennes qui visent à organiser le partage d'informations entre les pays membres dans le domaine de la pêche, » témoigne François-Xavier Thoorens, Research Officer du JRC d'Ispra. « Son objectif est d'une part de collecter des données de plusieurs types (scientifiques, sociales, etc.) et d'autre part de les consolider au sein d'une base de données unifiée à des fins d'analyse, en s'appuyant sur Google Earth pour la visualisation. La principale difficulté de ce projet réside dans l'hétérogénéité des sources : les modèles et les données sont très différents d'un pays à l'autre. »

Dans un premier temps, le JRC a utilisé Talend Open Studio for Data Integration pour convertir les données issues des pays membres vers un format commun qui pouvait ensuite être chargé dans la base de données unifiée. Il ne s'agissait cependant que d'une solution provisoire, puisque les Directives ont dans un second temps institué un schéma standard pour les données sources, reposant sur XML, et rendant inutiles les transformations en amont.

« Nous n'avons pas utilisé longtemps Talend Open Studio for Data Integration pour ce projet, » précise François-Xavier Thoorens. « Mais cette période nous a permis de nous former et de découvrir tous les avantages de la solution. Le modèle open source est particulièrement adapté à ce type d'utilisation temporaire, puisque les coûts de licence sont nuls et que l'apprentissage de l'outil a été très rapide. »

Surveiller les océans en temps réel

Le second projet vise à l'organisation de campagnes pour surveiller les océans et mers bordant la Communauté Européenne à l'aide d'image satellites et radars. « Ici encore, il n'existe pas de modèle de données prédéfini et nous recevons indifféremment des fichiers Excel, CSV, voire même des copies d'écran ou des fax, » poursuit François-Xavier Thoorens. « Nous devons intégrer l'ensemble de ces données - par exemple des positionnements GPS (données VMS pour les bateaux de pêche ou AIS pour les navires marchands) - afin d'organiser un suivi en temps réel. Ces informations nous permettent d'identifier d'éventuelles anomalies (par exemple navires en détresse, pollutions volontaires, etc.). Les volumes de données brassés sont considérables. »

Lors d'une première phase de ce projet, le JRC avait développé un système personnalisé, reposant sur Linux, Java et des scripts manuels (awk). « Mais la consolidation s'est révélée trop complexe, sans même parler de la maintenance. Par exemple, le format VMS contient le nom de code du navire, sa position, sa longueur, etc. Mais chaque donnée peut être exprimée dans différents formats : formats de date à l'anglaise ou à la française, longueurs en pieds ou en mètres, nombres avec des virgules ou des points, etc. De plus, chaque fichier affiche les colonnes dans un ordre différent et nous recevons même des fichiers PDF reproduisant des fax scannés ou des copies d'écran, » ajoute François-Xavier Thoorens.

Talend Open Studio for Data Integration pour industrialiser l'intégration 

Le JRC s'est ainsi mis en quête d'une solution plus simple, plus facile à mettre en oeuvre, et réduisant le nombre des interventions manuelles. « Nous avons étudié les différentes alternatives offertes par le marché. Talend Open Studio for Data Integration présentait plusieurs avantages. Tout d'abord, l'absence de coût de licence nous intéressait à double titre : économies budgétaires, et pas de gestion des licences. D'autre part, nous étions déjà familiarisés avec le framework Eclipse sur lequel repose Talend Open Studio for Data Integration et pouvions ainsi gagner du temps en matière de prise en main, » explique François-Xavier Thoorens. « Nous avons réalisé quelques tests sur des jeux de données limités et sur des jobs spécifiques. Nous avons été satisfaits des résultats : les scripts se sont révélés efficaces avec des données bien structurées et suivies dans le temps. Dans la mesure où nous ne disposons pas de moyen pour imposer un format standard pour la fourniture des données, Talend Open Studio for Data Integration nous a permis d'une part de gagner un temps considérable par rapport à notre ancien système, mais également de gagner en fiabilité. » 

Grâce à Talend Open Studio for Data Integration, le JRC ne doit plus aujourd'hui gérer une multitude de scripts et programmes complexes, mais un seul processus, clairement documenté et considérablement plus fiable. « Nous pouvons de plus enchaîner les conversions sans passer par des transformations intermédiaires, grâce à la richesse de l'outil en matière de connecteurs. Ceci nous permet d'économiser beaucoup de temps de développement et d'industrialiser nos processus d'intégration, » se réjouit François-Xavier Thoorens. « Même si ce travail d'automatisation n'a pas résolu 100% des problèmes auxquels nous sommes confrontés - certains traitements manuels subsistent et subsisteront tant que nous ne nous appuierons pas sur une démarche totalement standardisée - nous avons largement gagné en fiabilité. Enfin, la convivialité de l'outil est appréciable : des utilisateurs ne maîtrisant ni Perl, ni Java, peuvent organiser eux-mêmes leurs processus d'intégration. » 

Devant le succès de ce projet, le JRC étudie aujourd'hui l'opportunité d'utiliser Talend Open Studio for Data Integration pour traiter des données scientifiques concernant le traçage de l'ADN. Les problématiques de conversion de données resteraient équivalentes, mais les volumétries seraient beaucoup plus importantes et des tests sont actuellement en cours pour valider la solution. En outre, Talend Open Studio for Data Integration est devenu le moteur de conversion utilisé par le JRC pour toute conversion ad-hoc.