UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL TAGNY NGOMPE GILDAS LE PROJET “AGRONOMIC LINKED DATA (AGROLD)” DỰ ÁN AGROLD (MÔ HÌNH DỮ LIỆU AGRONOMIC) MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE HANOI – 2015 UNIVERSITE NATIONALE DU VIETNAM, HANOI INSTITUT FRANCOPHONE INTERNATIONAL TAGNY NGOMPE GILDAS LE PROJET “AGRONOMIC LINKED DATA (AGROLD)” DỰ ÁN AGROLD (MÔ HÌNH DỮ LIỆU AGRONOMIC) Spécialité: Systèmes Intelligents et Multimédia Code: Programme pilote MEMOIRE DE FIN D’ETUDES DU MASTER INFORMATIQUE Sous la direction de: Dr. Pierre LARMANDE – Ingénieur IRD, responsable de l’AXE Intégration de Données de l’Institut de Biologie Computationnelle Dr. Aravind VENKATESAN - Chercheur post-doctorant, IBC HANOI – 2015 ATTESTATION SUR L’HONNEUR J’atteste sur l’honneur que ce mémoire a été réalisé par moi-même et que les données et les résultats qui y sont présentés sont exacts et n’ont jamais été publiés ailleurs. La source des informations citées dans ce mémoire a été bien précisée. LỜI CAM ĐOAN Tôi cam đoan đây là công trình nghiên cứu của riêng tôi. Các số liệu, kết quả nêu trong Luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác. Các thông tin trích dẫn trong Luận văn đã được chỉ rõ nguồn gốc. TAGNY NGOMPE GILDAS Table des matières Tabledesmatières v Remerciements vi Résumé vii Abstract viii Listedesfigures x Listedestableaux xi INTRODUCTION 1 Chapitre1 PROBLÉMATIQUEDUPROJETAGROLD 3 1.1 Contexte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.2 Systèmeexistant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 Problématiquedusujet . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.4 Contraintesetrésultatsattendus . . . . . . . . . . . . . . . . . . . . . . . 6 Chapitre2 PUBLICATIONDESDONNÉESLIÉESETOUVERTES 7 2.1 Lewebdesdonnéesliéesetouvertes . . . . . . . . . . . . . . . . . . . . . 7 2.2 Publicationdedonnéesdessciencesduvivant . . . . . . . . . . . . . . . 9 2.2.1 Données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2.2 Ontologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3 Systèmesd’interrogationduwebdesdonnées . . . . . . . . . . . . . . . 11 2.3.1 Aideàlaconstructionderequêtes . . . . . . . . . . . . . . . . . . 12 2.3.2 Recherched’informationsspécifiques . . . . . . . . . . . . . . . . 14 2.4 Intégrationdedonnéesdesourcesmultiples . . . . . . . . . . . . . . . . 17 Chapitre3 SOLUTIONPROPOSÉE 20 3.1 Modèle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 3.1.1 Paradigmesderecherchesémantique . . . . . . . . . . . . . . . . 20 3.1.2 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 3.2 Prototypeimplémenté . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3.2.1 Intégrationetadaptationdesystèmesexistants . . . . . . . . . . . 22 3.2.2 Développementdenouvellesfonctionnalités . . . . . . . . . . . . 23 iv Chapitre4 EXPÉRIMENTATIONSETANALYSEDESRÉSULTATS 28 4.1 Utilisationdel’applicationwebAgroLDpardesutilisateurshumains . . 28 4.1.1 Entréedesrequêtesetexpressivité . . . . . . . . . . . . . . . . . . 29 4.1.2 Exécutiondesrequêtesettempsderéponse . . . . . . . . . . . . . 31 4.1.3 Présentationdesrésultats . . . . . . . . . . . . . . . . . . . . . . . 31 4.2 UtilisationdesinformationsdelabaseAgroLDdansdesapplications . . 32 4.2.1 Utilisationdel’APIpourlaprogrammation . . . . . . . . . . . . . 32 4.2.2 Utilisationdel’APIdanslesworkflows . . . . . . . . . . . . . . . 33 CONCLUSION 36 Références 37 Annexes 40 Glossaire 40 v Remerciements Nousadressonsnosremerciementsàtousceuxquiontcontribuéàlaréalisationdu travailprésentédanscedocument,enparticulier: — àPierreLARMANDEetAravindVENKATESAN,nossuperviseursdestage; — auxresponsablesetmembresdupersonneldenotreétablissementl’InstitutFran- cophoneInternational; — auxstructuresquinousontencadré:l’UniversitéNationaleduVietnamàHanoï (UNVH), l’Université de Montpellier, l’Institut de Recherche pour le Dévelop- pement(IRD),l’InstitutdeBiologieComputationnelle(IBC),leLaboratoired’In- formatique, de Robotique et de Micro-électronique de Montpellier (LIRMM), le Centre de coopération International en Recherche Agronomique pour le Déve- loppement(CIRAD); — àNordineElHassouni,ingénieurduCIRAD. vi Résumé Le web des données liées offre une grande opportunité d’intégration de données de sources et domaines divers. Cependant, il présente une rareté des données issue de la recherche en biologie des plantes. Des chercheurs de l’IBC construisent actuel- lement la base de connaissance AgroLD en convertissant les données de la base de données SouthGreen qu’ils lient à des ontologies et d’autres sources de données du web des données. AgroLD est destinée à l’usage des biologistes et des bioinformati- ciens. Ces groupes d’utilisateurs présentent des niveaux de compétences variées par rapport aux technologies du web sémantique. Il s’agissait principalement pour nous de leur proposer des moyens pour faciliter la recherche d’information dans AgroLD et dans des services externes. Notre solution est de mettre à leur disposition sur une même plateforme plusieurs fonctionnalités d’utilisabilité et d’expressivité différentes. Lesutilisateurspourrontchoisirlessystèmesderecherchequileurconviennentetpas- serfacilementdel’unàl’autre.Ilaétéaussiprisencomptel’activitédedéveloppement d’applications des bioinformaticiens. Nous avons proposé une API de services REST pour exposer les informations correspondant à des questions biologiques. Cette API présente l’atout d’être facilement utilisable pour la programmation d’application et dans le gestionnaire de workflows bioinformatiques Galaxy. Nous avons notamment utilisé cette API et d’autres services web pour faire de l’agrégation de connaissances auseind’unformulairedynamiquedansnotreprototype. Motsclés:Intégrationdedonnéesagronomiques,agrégationdeconnaissance,sys- tèmesderecherchesémantique,interactionhomme-machine,servicesREST vii Abstract The web of linked data provides great data integration opportunity from various sourcesandareas.However,itlacksdataofresearchinplantbiology.IBC’sresearchers are currently building the knowledge base AgroLD converting data base SouthGreen data they bind to ontologies and other sources of web of data. AgroLD is intended for use by biologists and bioinformaticians. These users groups have different levels of skills by compared to semantic web technologies. For us, It were about to suggest to them, ways to facilitate the search for information in AgroLD and external services. Our solution is to provide them, on the same platform, several features with different usability and expressivity. Users can choose which search systems that suit them and easilyswitchfromonetoanother.Itwasalsoconsideredtheapplicationsdevelopment activity of bioinformaticians. We have proposed a REST service API to expose the in- formation corresponding to biological questions. This API has the advantage of being easily usable for application programming and in bioinformatics workflows manager Galaxy. We have particularly use the API and other web services to make knowledge aggregationinadynamicforminourprototype. Keywords : Integration of agronomic data, aggregation of knowledge, semantic searchsystems,human-computerinteraction,RESTservices viii Liste des figures 1.1 LienentredeuxressourcesdesourcesdistantesetdifférentessurAgroLD 5 1.2 urinondéréférencéparticipantàdestripletsdansAgroLD . . . . . . . . 5 2.1 Exemple de graphe de données liées (source : http://linkedlifedata. com/about) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 2.2 Ensembles de données des sciences de la vie dans le nuage des données liéesetouvertes(source:http://lod-cloud.net) . . . . . . . . . . . . . 10 2.3 RessourcesbiologiquesRDFliéesàUniProtKB(uniprot.rdf),labaseprin- cipaledeUniProt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.4 Différenceentrelesfiltresetlanavigationàfacettes . . . . . . . . . . . . 14 2.5 AvantagesdesservicesRESTfulsurlesservicesbaséessurSOAP(WS-*) 16 2.6 Architectured’OpenPHACTSDiscoveryPlateform . . . . . . . . . . . . 17 2.7 Architecturestandarddesapplicationsdedonnéesliéesetouvertes . . . 18 3.1 Architectureproposéepourl’applicationwebd’AgroLD . . . . . . . . . 21 3.2 EditeurderequêtestextuellesSPARQL . . . . . . . . . . . . . . . . . . . . 24 3.3 Moduleserveurdel’APId’AgroLD . . . . . . . . . . . . . . . . . . . . . . 25 3.4 Activitésdenavigationavecleformulairedynamique . . . . . . . . . . . 27 4.1 Scénario1:entréedelarequête . . . . . . . . . . . . . . . . . . . . . . . . 29 4.2 Scénario2:entréedelarequêtedanslefomulairedynamique . . . . . . 29 4.3 Scénario2:entréedelarequêtedansl’éditeurderequêteSPARQL . . . 30 4.4 Scénario3:entréedelarequêtedanslefomulairedynamique . . . . . . 30 4.5 Scénario4:entréedelarequête . . . . . . . . . . . . . . . . . . . . . . . . 30 4.6 Scénario1:présentationdesrésultatsaveclarechercherapideparmot-clé 31 4.7 Scénario2:présentationdesrésultats . . . . . . . . . . . . . . . . . . . . 32 4.8 Scénario3:présentationdesrésultats . . . . . . . . . . . . . . . . . . . . 32 4.9 Scénario4:Relationsdécouvertesentrelegène"adenosylmethioninede- carboxylase"(AT3G25570)etlesdeuxpathways"sperminebiosynthesis" et"spermidinebiosynthesis" . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.10 Utilisation du service de recherche de gène par mot-clé dans un pro- grammeJavaScript . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33 4.11 documentationduservicederecherchedesprotéinesassociéesàuniden- tifiantontologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 ix 4.12 Intégration de la liste des gènes participant au pathway CALVIN-PWY dansGalaxy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34 4.13 Workflowd’extractiondescolonnes1,2et4d’untableaudansGalaxy . 35 4.14 Résultatdel’extractiondescolonnes"geneId","geneName"et"taxon_name" 35 x
Description: