Distributed knowledge sharing and production through collaborative e-Science platforms Alban Gaignard To cite this version: Alban Gaignard. Distributed knowledge sharing and production through collaborative e-Science plat- forms. Other [cs.OH]. Université Nice Sophia Antipolis, 2013. English. NNT: 2013NICE4010. tel-00827926v2 HAL Id: tel-00827926 https://theses.hal.science/tel-00827926v2 Submitted on 26 Jun 2013 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. UNIVERSITÉDENICE-SOPHIAANTIPOLIS ÉCOLE DOCTORALE STIC SciencesetTechnologiesdel’Information etdelaCommunication THÈSE pourl’obtentiondugradede Docteur en Sciences de l’Université de Nice-Sophia Antipolis Mention : INFORMATIQUE Présentéeetsoutenuepar Alban GAIGNARD Distributed knowledge sharing and production through collaborative e-Science platforms Thèse dirigée par Johan MONTAGNAT preparée au laboratoire I3S, CNRS UMR-7271, équipe MODALIS soutenuele15mars2013 Jury Rapporteurs: OscarCORCHO - AssociateProfessor,UniversidadPolitécnicadeMadrid OllivierHAEMMERLÉ - Professeur,UniversitéToulouseleMirail Directeur: JohanMONTAGNAT - DRCNRS,LaboratoireI3S Président: AndreaTETTAMANZI - Professeur,UniversitéNiceSophiaAntipolis Examinateurs: OlivierCORBY - CRINRIA,LaboratoireI3S BernardGIBAUD - CRINSERM,LaboratoireLTSI Invitée: CatherineFARONZUCKER - MaîtredeConférence,UniversitéNiceSophiaAntipolis CetteoeuvreestmiseàdispositionselonlestermesdelalicenseCreativeCommonsAttribution-Pasd’Utilisation Commerciale-PasdeModification3.0France(http://creativecommons.org/licenses/by-nc-nd/3.0/fr) Remerciements Je tiens à remercier en premier lieu Johan Montagnat, pour avoir accepté de se lançer avec moi dans cette aventure enrichissante. Ce travail doit beaucoup à sa rigueur méthodologique,expérimentale,àsongoûtpourlesidéesetprojetsscientifiquesmêlant à la fois réalisme et ambition, à son exigence, à sa capacité d’écoute et à ses encourage- mentsconstants. Ce travail n’aurait pas pu voir le jour sans le soutien actif de la direction du labora- toire I3S, Luc Pronzato puis Michel Riveill. Ce soutien m’a permis, parallèlement à des activitéstransversesdesupport,demenerdesactivitésderecherchesurunethématique scientifiquequimetientàcoeur. MercienparticulieràMichelRiveilldem’avoirsoutenu etmislepiedàl’étrier,dèsnotretoutepremièrerencontre. Je tiens également à remercier les membres du jury d’avoir accepté d’évaluer mes travaux. MerciàOllivierHaemmerlépourl’étenduedesonrapportetletempsconsacré àl’examendecemanuscrit,poursesremarquesconstructivesetsesencouragements. QuisieratambiénagradeceraOscarCorchoporaceptarestatareadeevaluación. Gra- ciasporsutiempo,suscomentariosconstructivosysussugestionesparaseguiradelante. Ces travaux ont été menés à l’interface entre plusieurs disciplines dans un contexte collaboratif(projetsANRNeuroLOGetVIP).MerciàBernard,Tristan,Franck,Germain, Rafael pour l’efficacité, le sérieux, et la qualité des échanges dans ces travaux d’équipe (quelesdistancessoientcourtes,pourFranckmonco-bureauoupluslongues). Merci également à Olivier et Catherine pour leur grande disponibilité et leur impli- cation dans ces travaux menés à l’interface entre systèmes distribués et ingénierie des connaissances. IwouldalsoliketothankSilviaforallowingmetoparticipateintheorganizationof an international scientific conference. This event was really a nice and enriching experi- ence. Pourleurbonnehumeur,l’ambiancechaleureuse,lesrepaspartagés,merciauxmem- bres des équipes Rainbow, Modalis, et Wimmics, et particulièrement "aux" Philippes (Philippe L., Philippe C., Filip K., Philippe R.), à Mireille, Diane, Clémentine, Nadia, Sébastien,Simon,Stéphane,Jean-Yves,Gaëtan,Javier,Tram,Ketan. Enfin, merci à Stéphane R.-D., pour sa curiosité, ses relectures approfondies et ses questionnements philosophiques. Plus généralement, merci à mes proches, famille et amis,pourleurprésenceindéfectible. MerciàAnapoursapatience,saconfiance,sonsoutien,etcesbellesannées. AMaya&Adèle Contents 1 Introduction 1 1.1 Context,motivationsandobjectives . . . . . . . . . . . . . . . . . . . . . . 1 1.2 Researchquestions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.3 Thesiscontributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.3.1 Securedcollaborations . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.3.2 Knowledgebasefederation . . . . . . . . . . . . . . . . . . . . . . . 6 1.3.3 Semanticscientificworkflows . . . . . . . . . . . . . . . . . . . . . . 7 1.4 Applicativecontext: neurosciencesandmedicalimagesimulation . . . . . 7 1.4.1 Collaborativeneuroscience(NeuroLOGproject) . . . . . . . . . . . 8 1.4.2 Multi-modalandmulti-organmedicalimagesimulation(VIPproject) 10 1.5 Thesisoutline . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 I Sharingdistributedresourcesinlife-Sciences 15 2 Knowledgesharingincollaborativelife-sciences: stateoftheart 17 2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 2.1.1 Life-scienceresources . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.1.2 Datarepresentationandunderstanding . . . . . . . . . . . . . . . . 19 2.1.3 Dataintegration: approachesandchallenges . . . . . . . . . . . . . 20 2.2 Backgroundinformationsonsemanticdata: representation,querying,rea- soningandpersistency . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 2.2.1 Semanticdatarepresentation . . . . . . . . . . . . . . . . . . . . . . 26 2.2.2 Semanticdataquerying . . . . . . . . . . . . . . . . . . . . . . . . . 30 2.2.3 Semanticreasoning . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31 2.2.4 Semanticdatapersistency . . . . . . . . . . . . . . . . . . . . . . . . 35 2.3 Virtualizeddataintegration . . . . . . . . . . . . . . . . . . . . . . . . . . . 40 2.3.1 Distributedqueryprocessingapproaches . . . . . . . . . . . . . . . 40 2.3.2 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 2.4 DatasharingthroughLife-sciencecollaborativeplatforms . . . . . . . . . 48 2.4.1 Life-sciencecollaborativeplatformexamples . . . . . . . . . . . . . 48 2.4.2 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 2.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53 3 Securedcollaborationsinalife-scienceplatform 55 3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55 3.1.1 Motivations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 3.1.2 Relatedworks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 3.1.3 Requirementsforsecuredlife-sciencecollaborations . . . . . . . . . 60 iv Contents 3.2 Life-sciencedistributedsecuritymodel. . . . . . . . . . . . . . . . . . . . . 61 3.2.1 Fromindependenttocollaborativetrustdomains . . . . . . . . . . 61 3.2.2 Dataprotection . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 3.2.3 Decentralizedaccesscontrolpolicy . . . . . . . . . . . . . . . . . . . 62 3.3 Resultsandimplementation . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 3.3.1 Usecase: securedsharingofdatasetsthroughdecentralizedRBAC 63 3.3.2 Implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.4 Discussionandconclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 4 Semanticdataandquerydistribution 71 4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 4.2 Strategiesforsemanticquerydistribution . . . . . . . . . . . . . . . . . . . 74 4.2.1 Abstractknowledgegraphs . . . . . . . . . . . . . . . . . . . . . . . 74 4.2.2 DistributedQueryProcessingprinciples . . . . . . . . . . . . . . . 75 4.2.3 Queryrewritingoptimizations . . . . . . . . . . . . . . . . . . . . . 77 4.2.4 Federatorparallelismoptimizations . . . . . . . . . . . . . . . . . . 84 4.3 Distributedqueryprocessingperformanceandscalabilityevaluation . . . 88 4.3.1 Impactofthequeryrewritingoptimizations . . . . . . . . . . . . . 91 4.3.2 Impactofthefederatorparallelismoptimizations . . . . . . . . . . 92 4.3.3 Impactofthedynamicsourceselection . . . . . . . . . . . . . . . . 95 4.3.4 Impactoftheedgegroupingalgorithm . . . . . . . . . . . . . . . . 95 4.4 Discussionandconclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 II Extendingknowledgebasesthroughscientificworkflows 103 5 Semanticservicesinscientificworkflows 105 5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 5.2 SemanticWebServices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 5.2.1 Fromservicemodelstosemanticwebservices . . . . . . . . . . . . 108 5.2.2 Fromlegacywebservicestosemanticwebservices . . . . . . . . . 109 5.2.3 AppliedSemanticWebServices . . . . . . . . . . . . . . . . . . . . . 112 5.2.4 PositioningourcontributionstowardsSemanticScientificWorkflows114 5.3 Provenanceinscientificworkflows . . . . . . . . . . . . . . . . . . . . . . . 115 5.3.1 Scientificworkflows . . . . . . . . . . . . . . . . . . . . . . . . . . . 116 5.3.2 Domain-agnosticprovenance . . . . . . . . . . . . . . . . . . . . . . 117 5.3.3 Provenanceandinteroperability . . . . . . . . . . . . . . . . . . . . 118 5.3.4 Meaningful,domain-specificprovenance . . . . . . . . . . . . . . . 120 5.3.5 Positioningtheprovenance-basede-Scienceexperimentsummaries 121 5.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Contents v 6 Semanticscientificworkflowsforknowledgecaptureandextension 125 6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 6.2 Motivatingusecase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 6.3 Backgroundinformation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 6.3.1 Rolemodeling . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129 6.3.2 Rolesinwebserviceontologies . . . . . . . . . . . . . . . . . . . . . 129 6.4 Knowledgecaptureinneuroimagingdataprocessing . . . . . . . . . . . . 131 6.4.1 Supportingontologies . . . . . . . . . . . . . . . . . . . . . . . . . . 131 6.4.2 Roleconcepts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133 6.4.3 DifferentiatingneuroimagingNaturalandRoleconcepts . . . . . . 133 6.5 Knowledgeextensionthroughsemanticworkflowruns . . . . . . . . . . . 135 6.5.1 OPMprovenanceontology . . . . . . . . . . . . . . . . . . . . . . . 135 6.5.2 Reusable and service independent rules to infer new meaningful statements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136 6.6 Discussionandconclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . 138 III ImplementationandEvaluation 141 7 Implementation 143 7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 143 7.2 Supportingsemanticscientificworkflows: NeuSemStore . . . . . . . . . . 144 7.2.1 Featuressummary . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145 7.2.2 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 146 7.2.3 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 7.3 Semanticfederationengine: KGRAM-DQP . . . . . . . . . . . . . . . . . . 150 7.3.1 Featuressummary . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 7.3.2 Architecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 150 7.3.3 IntegrationofKGRAM-DQPwithintheexistingframework . . . . 152 7.3.4 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 7.4 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 153 8 Experimentalevaluation 155 8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 155 8.2 Largescaleexperiments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156 8.2.1 QueryingdistributedDBpediadatasets . . . . . . . . . . . . . . . . 157 8.2.2 The“FedBench”federationbenchmark . . . . . . . . . . . . . . . . 162 8.3 Federatingdistributedandheterogeneousneurosciencedatasourceswith KGRAM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 169 8.3.1 Materialandmethods . . . . . . . . . . . . . . . . . . . . . . . . . . 170 8.3.2 Resultsanddiscussion . . . . . . . . . . . . . . . . . . . . . . . . . . 175 8.4 A real-life medical imaging simulation workflow: semantic mash-up ex- perimenttoinfermeaningfulexperimentsummaries . . . . . . . . . . . . 178 vi Contents 8.4.1 Materialsandmethods . . . . . . . . . . . . . . . . . . . . . . . . . . 179 8.4.2 Resultsanddiscussion . . . . . . . . . . . . . . . . . . . . . . . . . . 186 8.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 192 IV Conclusions 195 9 Conclusionandperspectives 197 9.1 Contributionssummary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 9.2 Futuredirections . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 199 9.2.1 Towardshighperformancesemanticdistributedquerying . . . . . 199 9.2.2 Towardshighlyexpressivesemanticdistributedquerying . . . . . 199 9.2.3 Towardsversatileandreliableknowledge-baseddatafederations . 201 9.2.4 Towardsreducedinformationoverloadine-Science . . . . . . . . . 203 9.3 Concludingremarks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204 V Appendix 207 10 Appendix 209 10.1 FedBenchLifeScienceQueries . . . . . . . . . . . . . . . . . . . . . . . . . 209 Bibliography 213 List of Figures 1.1 The NeuroLOG platform eases the setup of neuroimaging multi-centric studiesthroughasemanticdrivendatafederation. . . . . . . . . . . . . . . 9 1.2 The VIP platform, easing the access to medical image simulators, organ models, and leveraging the EGI distributed computing infrastructure to handleheavysimulation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 2.1 A sample materialized data integration where data from several dis- tributed and heterogeneous data sources is extracted, transformed and loadedintoacentralizeddatawarehouse. . . . . . . . . . . . . . . . . . . . 21 2.2 Asamplefederateddataintegrationsetupinwhichresultdataisdynam- icallyretrievedfrommultipledistributedandheterogeneousdatasources throughqueryrewritinganddistributedqueryevaluation. . . . . . . . . . 22 2.3 Linkingrawandprocesseddatatotheacquisitionequipmentandprocess- ingtool . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 2.4 AsamplecontrolledvocabularyexpressedinRDFS . . . . . . . . . . . . . 28 3.1 Bridgingindependentsitestrustdomains. . . . . . . . . . . . . . . . . . . . 62 3.2 Activitiesinvolvedincoherentlysharingdata. . . . . . . . . . . . . . . . . 64 3.3 Decentralizedaccesscontrol . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 3.4 PolicydecisionandenforcementpointsintheNeuroLOGmiddleware. . . 66 4.1 Graph-basedqueryingwithKGRAM. . . . . . . . . . . . . . . . . . . . . . 75 4.2 DistributedsemanticqueryprocessingwithKGRAM . . . . . . . . . . . . 87 4.3 SemanticdistributedqueryprocessingwithKGRAM . . . . . . . . . . . . 89 4.4 Impact of the federator parallelism optimization on a medium size (338K triples)knowledgebase,fragmentedinto1,2,4,6and8distributedstores. The parallel-pipeline strategy is beneficial for queries producing a lot of in- termediateresults.. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93 4.5 Decreasing distributed query processing (DQP) time for a large scale knowledgebase(1.7Mtriples)fragmentedinto1,2,4,6and8datastores, underfullqueryrewritingstrategy. . . . . . . . . . . . . . . . . . . . . . . . 94 5.1 ThemaincausaldependenciesintroducedintheOPMprovenancemodel. 119 6.1 A typical neuroimaging workflow mixing several nature of data and pro- cessing. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 6.2 Linkingdataandprocessesthroughgenericanddomain-specificrelations. 128 6.3 A domain-specific role taxonomy characterizing how neuroimaging data canberelatedtoneuroimagingprocessingtools. . . . . . . . . . . . . . . . 134 6.4 Rolesinvolvedintheregistrationworkflow. . . . . . . . . . . . . . . . . . . 135
Description: