L'INRA Tire Parti des Solutions d'Intégration Open Source de Talend pour Optimiser ses Travaux de Recherche

L'Institut national de la recherche agronomique a déployé Talend Open Studio for Data Integration et Talend Data Integration dans le cadre de plusieurs projets de recherche et de gestion.
Parmi les principaux gains obtenus grâce à la solution de Talend, nous avons constaté une plus grande évolutivité et facilité de gestion des processus d’intégration de données, un meilleur transfert de compétences en interne pour les développeurs et une amélioration du travail collaboratif et du partage d’expériences en interne comme en externe.
Delphine Steinbach, Vice-Responsable Scientifique et Coordinatrice de la Plate-Forme URGI à l’INRA

L'Institut national de la recherche agronomique (INRA, http://www.inra.fr) est un établissement public de recherche agronomique (le premier en Europe et le deuxième dans le monde) qui mène des recherches finalisées pour une alimentation saine et de qualité, pour une agriculture compétitive et durable, et pour un environnement préservé et valorisé. S’appuyant sur près de 8500 collaborateurs répartis notamment dans 14 département scientifiques, 19 centres et 213 unités de recherche, l’INRA a accompagné depuis 60 ans les mutations du monde agricole, des filières alimentaires et des territoires, avec l’objectif de répondre aux attentes exprimées par la société, par exemple celle de la suffisance alimentaire de la nation.

Avec 266 contrats de recherche signés avec le secteur privé en 2011, un nombre de publications scientifiques en constante augmentation (+10% en 10 ans), des dépôts de brevet également en hausse régulière, des partenariats académiques avec plus de 100 écoles doctorantes, plus de 6 000 missions de coopération internationale et la participation à plus de 20 pôles de compétitivité, la place des technologies de l’information dans les activités de l’INRA est déterminante. En effet, selon Marion Guillou, sa Présidente directrice générale : « Nourrir 10 milliards de femmes et d’homme exige beaucoup d’innovation. » ¹

Talend : un choix raisonné, à valeur ajoutée pour l’INRA

« En lien avec le traitement de données de plusieurs types et issues de sources multiples, à la fois dans les domaines de la gestion et de la recherche scientifique, l'adoption d’une plate-forme d'intégration de données s'est imposée depuis quelques années au sein d'un certain nombre de projets ou d'équipes de l’Institut » témoigne Hubert Pampouille, Chargé de mission à la Direction du Système d’Information de l’INRA. « La plate-forme d’intégration de données open source de Talend présente plusieurs atouts : sa richesse fonctionnelle, mais également la facilité d'adoption de sa version communautaire. » 

Téléchargeable gratuitement et offrant un environnement de développement graphique facile à utiliser, cette solution (Talend Open Studio for Data Integration), puis la version « Entreprise » (Talend Data Integration) qui offre en plus des fonctions de développement collaboratif et des services de support de haut niveau, sont venues rapidement enrichir des applications développées dans des environnements très différents, comme en témoignent les exemples suivants.

Dans le champ du pilotage institutionnel, la solution Talend a été retenue dans plusieurs projets à forte valeur ajoutée

  • L’Inra a ainsi fait le choix de Talend Data Integration pour alimenter le système de reporting et de production d’indicateurs relatifs aux activités de recherche de l'INRA.
  • Le suivi en exécution des effectifs et de la masse salariale et la réalisation de simulations pluriannuelles exploitent de multiples sources et réclament de nombreuses fonctionnalités : transformation de données, qualité des données, génération de contrats d’interfaces pour alimenter le module de simulation,…qui ont été développées avec la solution d’intégration de données open source de Talend. Le déploiement de Talend Data Integration a permis d’industrialiser les traitements mensuels.

Mais Talend séduit aussi les chefs de projets scientifiques, comme l’illustre le témoignage de l’URGI – Unité de Recherche Génomique Info :

Localisée à Versailles, l’URGI est une unité de recherches en génomique et bioinformatique de l’INRA, dédiée à la génomique des plantes et de leurs pathogènes. Elle héberge la plate-forme bioinformatique « URGI », reconnue et labellisée par l’INRA, mais également au niveau national.

« URGI offre à ses utilisateurs des services de développement logiciel, d’intégration de données et de mise à disposition de ces outils et données. Les données collectées et traitées par la plate-forme sont issues de la génomique et génétique des plantes, ainsi que de la génomique de leurs bioagresseurs (les champignons) » explique Delphine Steinbach, vice-responsable scientifique et coordinatrice de la plate-forme URGI à l’INRA. « URGI développe et maintient un système d’information – 'GnpIS' – composé de différentes bases de données interconnectées et d’interfaces de requêtes utilisateurs développées pour la majorité en J2EE. Les utilisateurs de ce système d’information sont des scientifiques (chercheurs, ingénieurs) de son département de tutelle à l’INRA, mais aussi plus largement les communautés scientifiques nationales et internationales avec lesquels elle collabore. »

Depuis 2 ans, Talend Data Integration est au cœur de la chaine de développement de la plate-forme. La solution assure la transformation des données collectée dans un format compatible avec les schémas de ses bases de données.

« Parmi les principaux gains obtenus grâce à la solution de Talend, nous avons constaté une plus grande évolutivité et facilité de gestion des processus d’intégration de données, un meilleur transfert de compétences en interne pour les développeurs (permanents et non permanents) et une amélioration du travail collaboratif et du partage d’expériences en interne comme en externe » affirme Delphine Steinbach. « La plate-forme URGI est donc globalement très satisfaite de cet outil qu’elle utilise au quotidien : elle améliore les délais d’intégration de données et par conséquent ses réalisations logicielles. Nous sommes ainsi en mesure de prendre en charge plus efficacement l’apparition récurrente de nouveaux types de données et la diversité accrue des sources et des formats de collecte. La solution nous aide également à gérer des volumes de données toujours plus importants. »

Conclusion

Le choix de Talend dans ces projets a permis à l’INRA de s’affranchir de contraintes liées à d’anciennes solutions disparates d’intégration de données (notamment des scripts de plus en plus complexes à gérer et à maintenir) qui avaient été développées au coup par coup pour des projets spécifiques. L’institut a unifié et homogénéisé ses processus d’intégration de données, tout en industrialisant les traitements pour gagner en efficacité.

« Ces exemples illustrent dans quelle mesure le besoin d'intégration de données a été satisfait via les outils proposés par Talend » conclut Hubert Pampouille. « En appui de ces choix technologiques, nous avons mis en œuvre à partir de 2009 des actions de formation à ces outils, qui pourraient à moyen terme prendre la forme d'un parcours structuré, conduisant du niveau débutant au niveau expert. »

¹ Edito du rapport d’activité 2010 de l’INRA : http://www.inra.fr/l_institut/l_inra_en_bref/l_essentiel_en_documents/rapports_d_activite