Accueil > FORUM TER@TEC > Programme > Atelier 3

Atelier 3

Mercredi  1er juillet de 14h00 à 18h15
HPC, nouveaux défis pour la bio-informatique

 

Président de séance : Michel MASELLA,
Institut de Biologie et de Technologie de Saclay CEA/Saclay, DSV/iBiTECS/SIMOPRO

La bio-informatique est un domaine de recherche majeur de l’étude des organismes vivants (de la bactérie à l’être humain). Elle est impliquée à la fois dans la dimension descriptive et quantitative de la biologie ainsi que dans sa dimension explicative orientée vers la compréhension des processus biologiques (modèles). Avec l’arrivée de nouvelles  technologies expérimentales de séquençage à la fois plus performantes et toujours plus accessibles, ce domaine de recherche récent doit aujourd’hui relever de nouveaux défis pour exploiter une quantité « explosive » de données. L’objectif de cet atelier est de donner un aperçu de ces défis et des voies explorées pour les relever.

14h00-14h45   Automatisation du pipeline de la plateforme MicroScope pour un passage à large échelle
Par Stéfan ENGELEN et David VALLENET, CEA/DSV/IG/Genos & CNRS UMR8030 LGC

L’augmentation exponentielle des données de séquençage nécessite d’automatiser des processus de traitement tels que l’annotation apportant de la valeur ajoutée aux séquences. Dans ce but, l’équipe développe et maintient la plateforme MicroScope dédiée à l'annotation syntaxique, fonctionnelle et relationnelle de génomes bactériens (génomique comparative, synténies, réseaux métaboliques, évolution, phylogénie). Celle-ci est composée de trois modules : un pipeline combinant des outils d’annotation; une base de données relationnelle PkGDB (Prokaryotic Genome DataBase), contenant les résultats d’analyses du pipeline et les annotations expertes ; et une interface graphique Web (MaGe) destinée à l’annotation experte et à l’exploration des données de la base. L’ajout de nouveaux génomes bactériens dans PkGDB s’accélérant (400 actuellement) et les banques de références et les méthodes d’analyses étant en constante évolution, il est nécessaire de mettre à jour des calculs de façon très régulière. Ce passage à large échelle nous conduit aujourd’hui à revoir notre architecture en termes d’interopérabilité, de représentation des données, de puissance de calculs (cluster de 72 processeurs gérés par LSF), de capacité de stockage et d’automatisation des calculs. Nous nous sommes orientés vers l’utilisation de l’API JBPM de JAVA qui permet une maitrise totale des workflows mis en place. Cette API intègre un langage (JPDL) pour définir les processus métiers. Elle permet d’orchestrer et de synchroniser les activités humaines et processus systèmes (fork/join, decision, timer), de contrôler et suivre l’évolution des calculs (services web), de reprendre sur échec une activité et de garantir la traçabilité (persistance).

A ce jour, les processus métiers de notre pipeline d’annotation fonctionnelle ont été automatisés. Ces processus ont été intégrés au sein de processus maîtres qui orchestrent la mise à jour des données primaires et logiciels utilisés, l’ajout et l’annotation de nouveaux génomes, la mise à jour de génomes anciennement annotés et la reprise sur échec de calculs. L’utilisateur pourra contrôler et suivre le comportement de ce workflow au travers de services web. Les perspectives à court terme consisteront à intégrer tous les processus métiers du pipeline d’annotation. Nous souhaitons ensuite mettre en place un workflow automatique de mise à jour des données primaires. A plus long terme nous envisageons d’utiliser des grilles pour les calculs les plus lourds de la plateforme.

Contacts: Stéfan ENGELEN1, David VALLENET1, Ludovic FLEURY2, Claudine MEDIGUE1
1 CEA/DSV/IG/Genos & CNRS UMR8030 LGC 91000 Evry France
2  CEA/DSV/IG/Genos/LIS 91000

14h45-15h30 GRISBI ­: Grid Support for Bioinformatics in France
Par Christophe BLANCHET, Pôle BioInformatique de Lyon IBCP UMR5086 CNRS Institut de Biologie et Chimie des Protéines

La plateforme GRISBI (Grille, Support pour la Bioinformatique) est une initiative conjointe entre six plateformes nationales de bioinformatique : PRABI Lyon, GenOuest Rennes and Roscoff, CBiB Bordeaux, BIPS Strasbourg, CIB  Lille, MIGALE Jouy-en-Josas.
L¹objectif est de bâtir une infrastructure bioinformatique distribuée, au service de la communauté scientifique nationale, dans le cadre du réseau français RENABI (Réseau National des plateformes de Bioinformatique) qui coordonne les treize centres nationaux de bioinformatique. Cette initiative est financée par le GIS IBISA (coordination nationale des Infrastructures en Biologie, Santé et Agronomie), qui a labellisé la plateforme GRISBI en 2008. La vocation de la plateforme GRISBI est de permettre la réalisation d'expériences traitant de systèmes biologiques de grande taille dans des domaines comme la génomique comparative, l'annotation du génome, la biologie des systèmes, la prédiction de fonction de protéines ou les interactions moléculaires telles que les interactions protéine/ protéine ou protéine/ADN. Les six centres initiaux de GRISBI travaillent à partager et à relier leurs ressources nationales, dédiées à la bioinformatique, à l’aide de composants logiciels de type grille : le stockage et les ressources de calcul proprement dit, mais également leurs bases de données et leurs bases de logiciels.

 

15h30-16h00 Pause
16h00-16h45 Grilles en sciences du vivant : résultats et perspectives
Par Vincent BRETON, CNRS-IN2P3, Laboratoire de Physique Corpusculaire

La technologie des grilles informatiques ouvre des perspectives nouvelles pour l’analyse des données en sciences du vivant. Depuis plusieurs années, des grilles de production comme EGEE permettent de déployer des calculs « embarrassingly parallel » à grande échelle, ouvrant ainsi de nouvelles perspectives pour les analyses très gourmandes en ressources comme le criblage virtuel à haut débit. Plus récemment, la technologie a beaucoup progressé pour la gestion de données distribuées, ouvrant la porte à de nouvelles approches pour le partage sécurisé de bases de données à l’échelle régionale, nationale ou internationale, qui sont particulièrement prometteuses notamment en médecine. Nous illustrerons l’impact actuel et potentiel des grilles informatiques sur trois projets en cours au Laboratoire de Physique Corpusculaire de Clermont-Ferrand : la collaboration WISDOM de recherche de nouveaux médicaments, le Réseau Sentinelle Cancer en Auvergne et un projet de réseau de surveillance international sur la grippe aviaire.

16h45-17h30 Accélérateurs matériels pour le calcul haute performance en bioinformatique
Par Dominique LAVENIER , Professeur ENS Cachan, EPI INRIA Symbiose, IRISA, Rennes.

Un des axes de recherche de l’équipe de bioinformatique, EPI INRIA Symbiose, concerne la parallélisation des traitements coûteux en génomique. L’équipe explore plus spécifiquement l’apport des architectures reconfigurables (technologie FPGA) et des accélérateurs à base de cartes graphiques (GPGPU). L’exposé présentera les résultats obtenus sur quelques algorithmes standards du domaine.

17h30-18h15 Nouvelles technologies de séquençage et nouvelles questions en bioinformatique
Par François ARTIQUENAVE, CEA/DSV/IG/Genoscope, Laboratoire de Bioinformatique et d’Analyse de Séquences

Le laboratoire de bioinformatique de Genoscope propose depuis plusieurs années un service de développement et d’analyse bioinformatique centré principalement sur la génomique. Après son implication dans le séquençage de génomes /de novo/, dont le génome humain, le laboratoire est aujourd’hui impliqué dans les nouvelles problématiques liées aux nouvelles technologies de séquençage. Ce changement technologique, en diminuant très fortement les coûts de séquençage, place l’informatique et la bioinformatique devant de nouveaux défis de volume de données.

Nous présenterons ce changement avec deux exemples : l'utilisation des nouvelles données de séquence pour la génomique fonctionnelle et la méta-génomique. Nous présenterons également nos travaux en génomique structurale orienté vers l’annotation systématique des séquences protéiques en s’appuyant sur l’information de structure des protéines.

lienPour vous inscrire, cliquer sur le lien

 

© Ter@tec - Tous droits réservés - Mentions légales