UMIT Lutte Contre le Cancer par l'Intégration, l'Extraction et l'Analyse des Données

UMIT utilise Talend Open Studio for Data Integration pour le traitement et l'analyse statistique de ses données.
L'UMIT/biomed s'appuie exclusivement sur les solutions Talend pour tous leurs besoins en intégration de données. Nous nourrissons de grands espoirs pour le projet IMGuS, le fait qu'il puisse réduire le taux de mortalité lié au cancer prostatique et l'intégration de donnée joue un rôle crucial dans cette démarche. Talend nous aide à sauver des vies !
Dr. Bernhard Pfeifer, Maître de Conférences Associé à l'Institut d'Ingénierie Médicale de l'UMIT

Une université spécialisée dans les traitements du cancer

L'University for Health Sciences, Medical Informatics and Technology (UMIT), située à Hall en Autriche, est l'un des principaux contributeurs du projet IMGuS. Un data warehouse, dédié aux sciences de la vie et supportant des programmes de biologie systémique notamment dans le domaine du cancer de la prostate, est géré par UMIT/biomed. En coordination avec cinq autres centres de recherches situés en Allemagne et en Autriche, l'UMIT gère l'infrastructure technique et le data warehouse du projet.

Le projet IMGuS

Le cancer de la prostate est le cancer le plus fréquent chez l'homme et la deuxième cause de mortalité. Le projet IMGus se sert des données en cours de traitement pour identifier les signatures moléculaires afin de définir les bons candidats pouvant suivre les traitements contre le cancer de la prostate. Les prélèvements proviennent d'une banque d'échantillons biologiques de la clinique en urologie de l'Université d'Innsbruck. Les plateformes techniques mises en place par les différents associés sont utilisées pour générer des données génétiques, protéomiques et métaboliques en utilisant des échantillons issus d'examens médicaux et des échantillons provenant de patients plus ou moins prédisposés au cancer de la prostate. Les résultats des deux groupes sont obtenus par des analyses statistiques et l'extraction de données afin de déterminer les signatures moléculaires pour développer de nouvelles approches thérapeutiques et de dépistage. Les données générées sont intégrées et stockées dans le data warehouse dédié aux données cliniques, administré par l'Institut d'Ingénierie Médicale de l'UMIT.

Le traitement de données, nouvelle clé pour la recherche oncologique « Aujourd'hui, la majeure partie des recherches en oncologie consiste en l'analyse des données de traitements et l'étude statistique des données » explique le Dr. Bernhard Tilg, Maître de conférences associé et membre de l'Institut d'Ingénierie Médicale de l'UMIT. « Ces projets avaient pour objectif l'identification des signatures moléculaires assimilées à certaines tumeurs de telle sorte que l'on puisse établir des diagnostiques pertinents et confidentiels. Quand le cancer est diagnostiqué à temps, certains traitements affichent de très bons résultats, cependant le diagnostique demeure problématique. » « Pour des analyses approfondies et des études statistiques de l'ensemble des données, nous utilisons l'intégration de données pour agréger ces données multi-sources, » précise le Dr. Bernhard Pfeifer, Maître de conférences associé à l'Institut d'Ingénierie Médicale de l'UMIT. « A cause du nombre élevé de données à traiter, il est devenu impératif de se doter d'un système automatique. Nous nous sommes intéressés à plusieurs solutions d'intégration de données propriétaires et open source, et nous avons sélectionné la solution Talend à cause de sa flexibilité, de sa transparence et de sa haute performance. » Il était crucial que la solution choisie fonctionne non seulement avec toutes sortes de sources de données mais aussi qu'elle puisse associer des techniques spécifiques au traitement des données. Un premier traitement devient nécessaire puisque les divers dispositifs médicaux restituent des données sous différents formats. L'architecture de la solution Talend permet à l'UMIT de développer des composants spécifiques à l'accès et au traitement des données. L'outil PostgreSQL, basé sur le data warehouse LINDA (outil de base pour l'analyse statistique du projet IMGuS), nécessite un chargement en deux étapes. La première (couplée à Electronic Data Capture ou EDC) centralise les données multi-sources comme les échantillons biologiques, les informations médicales, les cartes génétiques, etc. « L'étape Electronic Data Capture est très complexe, » explique Bernhard Pfeifer. « Il n'y a pas seulement une diversité des sources de données (5 universités et centres de recherches différents), mais les formats sont également variés (de très gros fichiers CSV, des images en haute résolution, des RDBMS, des données XML, etc.). »

Cette étape comprend également le chargement des données administratives comme l'identité du patient, les informations biologiques (tissus, sérums, etc.), ou les informations relatives aux sources dans lesquelles sont stockées les données.

La seconde étape de chargement consiste à harmoniser, transformer, nettoyer et enrichir les données contenues dans l'EDC et chargées dans le data warehouse LINDA. « Lors de cette étape, nous avons besoin de référencer les sources de données externes telles que les revues médicales, les systèmes existants, les bases de données médicales de références, etc., » explique Bernhard Pfeifer. « Le support en natif Talend des Web Services et XML apporte une valeur non négligeable au projet. Cela nous permet d'analyser et de recouper facilement les sources de données externes, réduisant considérablement le temps qu'aurait pris un enrichissement de base de données. » Une mise à jour fréquente du data warehouse (exécutée de nuit) garantit aux chercheurs la possibilité d'utiliser les requêtes ad-hoc ainsi que les outils d'extraction de données. Et leur permet d'utiliser des modèles sophistiqués de statistiques pour extraire les données nécessaires à leurs recherches. « L'UMIT/biomed s'appuie exclusivement sur les solutions Talend pour tous leurs besoins en intégration de données, » conclut Bernhard Pfeifer. « Nous nourrissons de grands espoirs pour le projet IMGuS, le fait qu'il puisse réduire le taux de mortalité lié au cancer prostatique et l'intégration de données joue un rôle crucial dans cette démarche. Talend nous aide à sauver des vies ! »