myGrid: Une Vision globale
Rencontre autour de la plate-forme bioinformatiquesRennes, 2008-04-10
Franck Tanohhttp://www.mygrid.org.uk
myGrid
Le projet myGrid a un ensemble de composants destinés
à soutenir la réalisation d’expériences in silico en biologie.
Taverna workbench = Un système de gestion de workflows
Feta = découverte des services web myExperiment = collaboration + réutilisation des
workflows
open source
Partenaires
Première étape du projet fiancée par l’EPSRC
Soutenir la communauté ‘e-Science’ aux Royaumes Unis et ses collaborateurs internationaux.
OMII-UK
Motivations
NAR 2007 – 968 base de données
EMBL database growth
Problèmes
Tout est distribuées: Données Ressources Scientifiques
Ressources hétérogènes Très peu de standards
formats d’entrée et de sortie représentation annotation des données
L’intégration des données, l’interopérabilité des ressources très difficile.
Intégration des données bioinformatiques
12181 acatttctac caacagtgga tgaggttgtt ggtctatgtt ctcaccaaat ttggtgttgt 12241 cagtctttta aattttaacc tttagagaag agtcatacag tcaatagcct tttttagctt 12301 gaccatccta atagatacac agtggtgtct cactgtgatt ttaatttgca ttttcctgct 12361 gactaattat gttgagcttg ttaccattta gacaacttca ttagagaagt gtctaatatt 12421 taggtgactt gcctgttttt ttttaattgg gatcttaatt tttttaaatt attgatttgt 12481 aggagctatt tatatattct ggatacaagt tctttatcag atacacagtt tgtgactatt 12541 ttcttataag tctgtggttt ttatattaat gtttttattg atgactgttt tttacaattg 12601 tggttaagta tacatgacat aaaacggatt atcttaacca ttttaaaatg taaaattcga 12661 tggcattaag tacatccaca atattgtgca actatcacca ctatcatact ccaaaagggc 12721 atccaatacc cattaagctg tcactcccca atctcccatt ttcccacccc tgacaatcaa 12781 taacccattt tctgtctcta tggatttgcc tgttctggat attcatatta atagaatcaa
Couper-coller
Couper-coller Avantages:
Technologie très simple Analyse des résultats pendant l’intégration
Inconvénients: Demande beaucoup de temps Répétition difficile Limitée aux petites données Exposés aux erreurs
Impossible d’appliquer cette technologie au génome/protéome/métabolome
Intégration des données bioinformatiques
Pipeline programmation Avantages
Reproductible Automatique Rapide, fiable, efficace
Inconvénients Exige des compétences en programmation Difficile a modifier Nécessite outils et maintenance des bases de
données !!!
Intégration des données bioinformatiques
Meilleurs solutions ??
Un système qui: Permet d’automatiser l’intégration des données Fonctionne sur des ressources distribuées Facilite la répétition, la vérification et le partage des
expériences scientifiques Nécessite peu ou pas de compétences en
programmation Fonctionne à partir d’un ordinateur de
bureau/portable
La solution myGrid
myGrid permit d’automatiser l’exécution d'expériences in
silico sur des ressources distribuées à partir d’un simple
ordinateur de bureau.
Technologie basée sur: Services web Workflows Web sémantique
Services web
Un Service Web est un programme informatique permettant la
communication et l'échange de données entre applications et
systèmes hétérogènes dans des environnements distribués (Wikipedia).
Avantages: Interopérabilité entre divers logiciels fonctionne sur diverses plate-forme Utilise des standards et protocoles ouverts
European Bioinformatics Institute API submissions has risen to 3,166,901 for 2007 (Sarah Hunter)
Workflows
Workflow = chaîne de traitement Automatisation d'un processus au cours duquel des ressourcesPassent d'un participant à un autre.
sequenceDNA
GenScanService web
BlastService web
Décrivez ce que vous voulez faire
Pas besoin d’êtres programmeur
Moteur de workflows
Différents langages, accès, domaines
Taverna est : Un moteur de workflow basé sur le flot des données. Un environnement pour la construction et l’édition de
workflows. Un système d'exécution des workflows sur des données
fournies par l’utilisateur Un système de visualisation des résultats (3d, html…)
Taverna
Le tout en un logiciel exécutable à partir de votre ordinateur
http://taverna.sf.net
>45000 téléchargements International: US, Singapore, UK, Europe, Australie Parmi les 200 logiciels sur sourceforge en Juin 2007
Taverna
Par défaut, Taverna interopère avec: SOAP services web Biomart Entrepôts de données Soaplab outils de ligne de commande BioMoby services web Interprète script Beanshell (proche de Java)
Taverna
Taverna dans la recherche
Biologie des systèmes Biologie moléculaire Annotation Gene/protéine Analyse des données
microarray Analyse d’images
médicales Simulation cardiaque Etude des
Génotypes/Phénotypes Informatique médicale Astronomie Chimie informatique Intégration de données
http://www.genomics.liv.ac.uk/tryps/trypsindex.html
An
dy Brass
Steve
Ke
mp
Pa
ul Fishe
r
La trypanosomiase chez les bovins
Trypanosomiase chez les bovins
Une forme de la maladie du sommeil chez les bovins connue sous
le nom n’gana causée par Trypanosoma brucei.
Les bovins en Afrique (Kenya) résistent a cette forme, ce qui n’est
pas le cas des bovins Anglais.
Quelles sont les causes des différences?
Trypanosomiase chez les bovins
Comprendre le phénotype Comparaison des souches sensibles vs résistants – Microarrays
Comprendre le génotype Analyse de QTL (Loci de Caractères Quantitatifs )
A – Trouver les gènes dans les régions QTL
B – Annotation des gènes avec des bases de données externes
C – Faire correspondre KEGG ids et gène ids
D – Récupérer les données microarray
E – pour chaque KEGG gène retrouver sa voie métabolique
F – obtenir la description de chaque voie métabolique
G – obtenir l’annotation de chaque KEGG gène
Etude de la Trypanosomiase
Résultats
Identification du gène (Daxx) qui semblerait jouer un rôle
dans la résistance à la trypanosomiase.
Au préalable, l’analyse manuelle des même données n’a pas
réussi à identifier ce gène comme un candidat.
Succès du workflow?
Chaque donnée est systématiquement analysée Pas besoin de filtrer les données ou émettre des
hypothèses en vu de réduire le volume de données. Enregistrement de la ‘provenance’ des données Volume de données réduit a l’issue de l’expérience
Gestion des erreurs
La plupart des services web n’appartiennent pas à myGrid .
Impossible donc de vérifier leur fiabilité. Taverna a plusieurs mécanismes pour y remédier: Encourager l’utilisation des services fournis par de
grands organismes come EMBL, NCBI, DDBJ … Informer l’utilisateur lorsqu'un service ne fonctionne
pas Ré-exécuter les services Remplacement des services
Découverte des services web
Plus de 24 000 services web (seekda 03/08)
Difficile de trouver un service particulier?
Majorité des services sans descriptions
WSDL: input0:string, Output0:string
Nom des services
fonction des services. e.g serachsimple, seqret
On ne peut donc pas uniquement ‘Google’ les services web
La solution myGrid
Découverte des services en fonction de leurs: Noms Fonctions Paramètres (entrées et sorties) Ressources utilisées
Annotation Sémantique: Annotation manuelle ou automatique des services web
à partir
de vocabulaires contrôlés (ontologies).
Annotation des services web
Ontologie bioinformatiqueWSDL
Marquer chaque description avec des termes dans l’ontologie.
Plus de 600 services dans le catalogue de myGrid . Annotation faite par des experts en
bioinformatique. En démontrant l‘importance de l’annotation dans
l’utilisation des services, myGrid vise à encourager les développeurs de services à fournir les annotations à l'avenir.
Annotation des services web
Feta découverte sémantique
Feta, composant de myGrid interroge le catalogue des services web .
Exemple de questions:Trouve-moi tous les services qui effectuent un
alignement des séquences et acceptent pour input des
séquences de protéines avec le format FASTA
Interface utilisateur de Feta
Provenance et Origine
Workflows peuvent générer beaucoup d’informations: Données Métadonnées origine de l’expérience
Scientifiques ont besoin de revenir ou réutiliser les résultats passés, de comparer, partager les workflows avec des collègues
Comment gérer de telles donnes?
Le Logbook de myGrid
qui, quoi, ou, quand, pourquoi?, comment?
Contexte Interprétation Reproductibilité Vérification Crédibilité
Smart Tea
BioMOBY
Bonnes pratiques scientifiques
Interface utilisateur du Logbook
myExperiment
Motivations
Workflows = nouvelles rock and roll
“L'ère” des Services web en bioinformatiques
Motivations
Recyclage, Réutilisation, Réorientation des workflows
Motivations
Communauté scientifique distribuée et sous équipée
myExperiment est…
Réseau social pour le scientifique
Demo
myExperiment
http://www.myexperiment.org
La communauté de myGrid
Taverna2 ou T2 Moteur workflow (enactor) totalement
réécrit avec plus de points d'extensions Adresser les problèmes de sécurité des
données Taverna sur le grid Glisser-déposer (Drag and drop )
myGrid: nouvelle direction
T2: un avant-goût
Les erreurs sont également des données
T2: un avant-goût
T2: un avant-goût
Data Manager: plusieurs gestionnaires de données Mémoire Fichiers Disque dur Serveurs
Taverna 1.7… Contient un plugin pour T2 Plusieurs mise à jour à suivre courant 2008
http://taverna.sourceforge.net/download
T2: un avant-goût
Biocatalogue
Un catalogue de services web
Workflow Warehouse
Service Catalogue
ProvenanceWarehouse
Client Applications
Service Ontology
Provenance Ontology
Une vision globale de myGrid
myExperimentmyExperimentWeb portalWeb portal
Taverna Taverna WorkbenchWorkbench
GUIGUI
Feta Feta InformationInformation
ServicesServices
LogbookLogbookProvenanceProvenance
ManagementManagement
TavernaTavernaWorkflowWorkflowEnactorEnactor
Middleware(Web Services, Grid Services)
Please see http://www.mygrid.org.uk/wiki/Mygrid/Acknowledgements for most up to date list
http://www.mygrid.org.uk