Network Alignment: Theory, Algorithms, and Applications THÈSE NO 7279 (2016) PRÉSENTÉE LE 2 NOVEMBRE 2016 À LA FACULTÉ INFORMATIQUE ET COMMUNICATIONS LABORATOIRE POUR LES COMMUNICATIONS INFORMATIQUES ET LEURS APPLICATIONS 4 PROGRAMME DOCTORAL EN INFORMATIQUE ET COMMUNICATIONS ÉCOLE POLYTECHNIQUE FÉDÉRALE DE LAUSANNE POUR L'OBTENTION DU GRADE DE DOCTEUR ÈS SCIENCES PAR Ehsan KAZEMI acceptée sur proposition du jury: Prof. B. Faltings, président du jury Prof. M. Grossglauser, directeur de thèse Prof. M. Crovella, rapporteur Prof. N. Kiyavash, rapporteuse Prof. P. Thiran, rapporteur Suisse 2016 (cid:443)(cid:595)(cid:455)(cid:545)(cid:876)(cid:444)(cid:447)(cid:382)(cid:393)(cid:455)(cid:365)(cid:356)(cid:359)(cid:447)(cid:444)(cid:454)(cid:241) (cid:455)(cid:893)(cid:359)(cid:447)(cid:444)(cid:451)(cid:359)(cid:355)(cid:387)(cid:364)(cid:444)(cid:356)(cid:448) (cid:450)(cid:384)(cid:359)(cid:447)(cid:444)(cid:451)(cid:359)(cid:355)(cid:387)(cid:364)(cid:366)(cid:393)(cid:383) (cid:455)(cid:893)(cid:359)(cid:447)(cid:444)(cid:451)(cid:359)(cid:355)(cid:387)(cid:364)(cid:428)(cid:388)(cid:377) (cid:17)(cid:450)(cid:384)(cid:359)(cid:447)(cid:444)(cid:451)(cid:359)(cid:355)(cid:387)(cid:364)(cid:360)(cid:441)(cid:432) (cid:442)(cid:355)(cid:451)(cid:366)(cid:428)(cid:356)(cid:595)(cid:387)(cid:383)(cid:355)(cid:387)(cid:455)(cid:365)(cid:593)(cid:356)(cid:452)(cid:451)(cid:398)(cid:595)(cid:387)(cid:447)(cid:444) (cid:442)(cid:355)(cid:451)(cid:366)(cid:429)(cid:545)(cid:447)(cid:382)(cid:393)(cid:356)(cid:452)(cid:358)(cid:440)(cid:593)(cid:451)(cid:445)(cid:452)(cid:593)(cid:355)(cid:388)(cid:359)(cid:364)(cid:448)(cid:356)(cid:360)(cid:440)(cid:356)(cid:359) (cid:17)(cid:364)(cid:393)(cid:356)(cid:449)(cid:397)(cid:343)(cid:447)(cid:444)(cid:446)(cid:356)(cid:366)(cid:393)(cid:383)(cid:356)(cid:359)(cid:364)(cid:595)(cid:356)(cid:452)(cid:364)(cid:393)(cid:383)(cid:454) (cid:442)(cid:355)(cid:451)(cid:366)(cid:394)(cid:595)(cid:388)(cid:545)(cid:455)(cid:365)(cid:356)(cid:359)(cid:447)(cid:397)(cid:454)(cid:387)(cid:363)(cid:455)(cid:441)(cid:381)(cid:387)(cid:383) (cid:446)(cid:356)(cid:545)(cid:384)(cid:448)(cid:389)(cid:388)(cid:409)(cid:356)(cid:381)(cid:593)(cid:355)(cid:388)(cid:359) (cid:442)(cid:355)(cid:450)(cid:384)(cid:448)(cid:355)(cid:455)(cid:381)(cid:455)(cid:365)(cid:356)(cid:359)(cid:887)(cid:595)(cid:387)(cid:356)(cid:365)(cid:446)(cid:356)(cid:366)(cid:393)(cid:387)(cid:455)(cid:545)(cid:387)(cid:383)(cid:454) (cid:355)(cid:387)(cid:356)(cid:452)(cid:383)(cid:454)(cid:388)(cid:393)(cid:447)(cid:595)(cid:388)(cid:365)(cid:356)(cid:360)(cid:595)(cid:389) (cid:438)(cid:356)(cid:393)(cid:447)(cid:595)(cid:355)(cid:446)(cid:356)(cid:545)(cid:383)(cid:388)(cid:444)(cid:451)(cid:532)(cid:355)(cid:388)(cid:595)(cid:389) (cid:240)(cid:17)(cid:17)(cid:17)(cid:384)(cid:448)(cid:355)(cid:450)(cid:383)(cid:455)(cid:359)(cid:446)(cid:356)(cid:545)(cid:384)(cid:448)(cid:389)(cid:447)(cid:595)(cid:388)(cid:365)(cid:431)(cid:397)(cid:356)(cid:417) (cid:455)(cid:441)(cid:444)(cid:356)(cid:397)(cid:384)(cid:445)(cid:377)(cid:355) (cid:104)(cid:81) (cid:105)(cid:63)(cid:50) (cid:75)(cid:50)(cid:75)(cid:81)(cid:96)(cid:118) (cid:81)(cid:55) (cid:76)(cid:28)(cid:98)(cid:50)(cid:96) (cid:114)(cid:63)(cid:81) (cid:47)(cid:66)(cid:50)(cid:47) (cid:55)(cid:81)(cid:96) (cid:55)(cid:96)(cid:50)(cid:50)(cid:47)(cid:81)(cid:75)(cid:53) (cid:4)(cid:383)(cid:355)(cid:383)(cid:593)(cid:383)(cid:355)(cid:389)(cid:343)(cid:450)(cid:355)(cid:387)(cid:387)(cid:383)(cid:446)(cid:356)(cid:373)(cid:451)(cid:532)(cid:388)(cid:401)(cid:356)(cid:448)(cid:383)(cid:356)(cid:595)(cid:451)(cid:359) Acknowledgements Iwouldneverhavebeenabletofinishmydissertationalone.Iowemygratitudetoallofthe peoplewhohavemadethisjourneypossible;tothepeoplewhosenamesappearhereafter andtoallthosewhoarenotmentionedinthisacknowledgement. First and foremost, I would like to express my sincerest thanks to my thesis advisor, Prof. MatthiasGrossglauser.Matthiasisabrilliantscientist,agreatteacherandasmartperson.I amalwaysinspiredbyhisbroadvision,depthofknowledgeandmotivation.Iamgratefulto himforhiringmeinLCA4.Iowehimalotforgivingmetheopportunitytoinvestigatemany researchdirections,andforpushingmealwaystoexplorefurther. Withouthisknowledge, advice,constantsupportandencouragementduringalltheseyears,finishingthisthesiswould havenotbeenpossible.IamdeeplyindebtedtoMatthiasforallhehasdoneforme! Iwouldliketothankmycommitteemembersforhavingacceptedtoassessmythesisand takingthetimetoreaditthrough: Prof. MarkE.Crovella, Prof. NegarKiyavashandProf. PatrickThiran.IwouldalsoliketothankProf.BoiFaltingsforbeingthepresidentofthejury. Itwasatruehonorformetopresentmyworktothem. IthasbeenagreatpleasureworkingatEPFL.Iwasveryluckytocollaboratewithmanybrilliant researchers.Workingwiththemwasagreatexperienceandwithouttheircontribution,help andknowledge,thisthesiswouldnotexistinitspresentform.IamgratefultoProf.Patrick ThiranandHamedHassanifortheirgreattipsonthewritingandpresentationskills. Iwas fortunatetocollaboratewiththemonseveralprojects.Also,Ihavebeenveryluckytohavethe opportunitytoworkwithLyudmilaYartseva,RezaShokri,Prof.Jean-PierreHubaux,Hassan PezeshgiModarres,MohamedKafsi,VincentEtterandLucasMaystre. I would like to thank our lab secretaries Angela, Patricia and Holly for all their supports andforalwaysbeingkindandhelpful. IshouldespeciallythankHollyfor“hollifying”our manuscriptswithpatienceandasmile.Ilearnedalotfromher.IamalsogratefultoICSIL1 team,Marc-André,StéphaneandYves,fortheITsupport. IwouldliketoextendmyappreciationtomyformerandnewcolleaguesandfriendsinLCA whosupportedmethroughouttheseyears.Specialthanksgoto:BrunellaSpinelli,Christina Vlachou,ElisaCelis,EmtiyazKhan,FarnoodSalehi,FaridNaini,ItaloDacosta,JulienHerzen, LucasMaystre,LyudmilaYartseva,MohamedKafsi,PedramPedarsani,SébastienHenri,Victor Kristof,VincentEtter,WilliamTrouleauandYoung-JunKO.Wishyouallthebest. Ihavebeenveryfortunatetobesurroundedbyamazingfriendsthroughtheseyears.Weshared manygoodmemoriesoutsidemyPh.D.life.Myfriendsweremyfamilyandtheyhelpedme in several occasions. I would like to thank my dearest friends in Lausanne. In particular, i Acknowledgements many thanks go to Ali Tehranchi, Amin Shoaie, Arezoo Ghiassaleh, Ashkan Norouzi Fard, AzadeYazdanYar,FarhnagNabi,FaridNaini,FarnoodSalehi,FarzanJazaeri,GolzarMesbah, HamedHassani,HassanPezeshgiModarres,HesamSetareh,ImanHonarvarGheysary,Mahdi Aminian,MahdiKhoramshahi,MajidBastankhah,ManiBastaniParizi,MaryamGhasemi, MehrdadAziziGhanad,MohammadKarzand,MohammadParhikar,MokhtarBozorg,Nakisa Mousavi, NooshinMirzadeh, PayamPakarha, PedramPad, SagharNabavi, SamiraAsgari, SamiraKouchaliandVahidBabaei.Iwillmissallourparties,hikes,walksandruns. Finally, Iwouldliketosayaheartfeltthankyoutomymother, Paricheher, andmyfather, Ghasem,fortheirinfiniteloveandsupportinthepastthirtyyears.YouareallIhaveandIwill beforeverthankful. Also,Iamdeeplygratefultomybelovedsister,Setareh,andmylovely Brother,Naser,foralltheirloveandencouragement.Loveyousomuch! Thisthesisisdedicatedtothememoryofmyuncle,Naser,whofoughtanddiedforfreedom. Shiraz,Iran,16October2016 E.K. ii Abstract Networks,asabstractionsforrepresentingcomplexrelationshipsamongentities,arecentral inthemodelingandanalysisofmanylarge-scalehumanandtechnicalsystems,andthey haveapplicationsindiversefieldssuchascomputerscience,biology,socialsciences,and economics. Recently,networkmining,i.e.,statisticalmodelsandcomputationalmethods applicablespecificallytonetworkdata,hasbeenanactiveareaofresearch.Inthisthesis,we studyseveralrelatednetwork-miningproblems,fromthreedifferentperspectives:themodel- ingandtheoryperspective,thecomputationalperspective,andtheapplicationperspective. Inthebulkofthisthesis,wefocusonnetworkalignment,wherethedataprovidestwo(or more)partialviewsofthenetwork, andwherethenodelabelsaresometimesambiguous. Networkalignmenthasapplicationsinsocial-networkreconciliationandde-anonymization, protein-networkalignmentinbiology,andcomputervision. Inthefirstpartofthisthesis,weinvestigatethefeasibilityofnetworkalignmentwitharandom- graphmodel.Thisrandom-graphmodelgeneratestwo(orseveral)correlatednetworks,and letsthetwonetworkstooverlaponlypartially. Indeed,thismodelisparameterizedbythe expectednodeoverlap t2 andbytheexpectededgeoverlap s2 ofthetwonetworks. Fora particularalignment,wedefineacostfunctionforstructuralmismatch.Weshowthat,ifthe (cid:2) (cid:3) averagenode-degreesoftherandomgraphsgrowass−2t−1 log(n)+ω(1) ,theminimization oftheproposedcostfunction(assumingthatwehaveaccesstoinfinitecomputationalpower), withhighprobability,resultsinanalignmentthatrecoversthesetofsharednodesbetween thetwonetworks,andthatalsorecoversthetruematchingbetweenthesharednodes.Our resultshowsthatnetworkalignmentisfundamentallyrobusttopartialedge-overlapsand node-overlaps, and this motivates us to look for network-alignment algorithms with low computationalandmemorycomplexity. Themostscalablenetwork-alignmentapproachesuseideasfrompercolationtheory,wherea matchednode-coupleinfectsitsneighboringcouplesthatareadditionalpotentialmatches. Inthesecondpartofthisthesis,weproposeanewpercolation-basednetwork-alignment algorithmthatcanmatchlargenetworksbyusingonlythenetworkstructureandahandful ofinitiallypre-matchednode-couplescalledseedset. Wecharacterizeaphasetransition in matching performance as a function of the seed-set size. We also show the excellent performanceofouralgorithmoverseveralreallarge-scalesocialnetworks. Inthethirdpartofthisthesis,weconsidertwoimportantapplicationareasofnetworkmining inbiologyandpublichealth.Thefirstapplicationareaispercolation-basednetworkalignment ofprotein-proteininteraction(PPI)networksinbiology.Thealignmentofbiologicalnetworks iii Acknowledgements hasmanyuses,suchasthedetectionofconservedbiologicalnetworkmotifs,thepredictionof proteininteractions,andthereconstructionofphylogenetictrees.Networkalignmentcanbe usedtotransferbiologicalknowledgebetweenspecies.Weintroduceanewglobalpairwise- networkalignmentalgorithmforPPInetworks,calledPROPER.ThePROPERalgorithmshows higheraccuracyandspeedcomparedtootherglobalnetwork-alignmentmethods.Wealso extend PROPER to the global multiple-network alignment problem. We introduce a new algorithm,calledMPROPER,formatchingmultiplenetworks,andweshowthatMPROPER outperformstheotherstate-of-the-artalgorithms. Finally,weexploreIsoRank,oneofthe first and most referenced global pairwise-network alignment algorithms. We develop an approximationalgorithmthatoutperformsIsoRankbyseveralordersofmagnitudeintime andmemorycomplexity,despiteonlyanegligiblelossinprecision. Oursecondapplicationareaisthecontrolofepidemicprocesses. Wedevelopandmodel strategiesformitigatinganepidemicinalarge-scaledynamiccontactnetwork.Moreprecisely, westudyepidemicsofinfectiousdiseasesby(i)modelingthespreadofepidemicsonanetwork byusingmanypiecesofinformationaboutthemobilityandbehaviorofapopulation,such asmobilecall-datarecords;andby(ii)designingpersonalizedbehavioralrecommendations forindividuals,inordertomitigatetheeffectofepidemicsonthatnetwork.Weevaluatethe effectivenessofoursuggestedrecommendationsovertheOrangeD4Ddatasetandshowtheir benefits. Keywords:Networkmining,networkalignment,graphmatching,randomgraph,percolation, protein-proteininteraction,epidemicmodeling iv Résumé Lesréseaux,entantqu’abstractionpourreprésenterdesrelationscomplexesentreentités, sontaucœurdelamodélisationetdel’analysedenombreuxsystèmeshumainsettechniques àgrandeéchelle.Leursapplicationssonttrèsrépanduesdansdiversdomainestelsquel’in- formatique,labiologie,lessciencessocialesetdel’économie.Enconséquence,théoriedes réseaux,c’estàdire,lesmodèlesstatistiquesetlesméthodesdecalculapplicablesspécifi- quementauréseauxdedonnées,estundomainederechercheactifactuellement.Danscette thèse,nousétudionsplusieursproblèmesassociésàl’extractionderéseauxàpartirdestrois pointsdevuesuivants:celuidelamodélisationetdelathéorie,celuiducalculetceluide l’application.Lamajoritédecettethèseseconcentresurl’alignementderéseaux,oùlesdon- néesfournissentdeux(ouplsueiurs)vuespartiellesdeceux-cietoùlesétiquettesdenœuds peuventêtreambiguës.L’alignementderéseauxadesapplicationsdanslaréconciliationetla désanonymisationderéseauxsociaux,l’alignementderéseauxdeprotéinesenbiologieetla visionparordinateur. Danslapremièrepartiedecettethèse,nousétudionslafaisabilitédel’alignementderéseau selonunmodèledegraphesaléatoires.Celui-cigénèredeux(ouplusieurs)réseauxcorrélés et leur permet de ne se chevaucher que partiellement. En effet, ce modèle est paramétré parlechevauchementprévudesnœudst2 etparlechevauchementprévud’arêtess2 des deuxréseaux.Pourunalignementparticulier,nousdéfinissonsunefonctiondecoûtpour l’inadéquationstructurelle.Nousdémontronsquelaminimisationdecelle-ci(ensupposant quenousavonsaccèsàunepuissancedecalculinfini),silamoyennedesdegrésdenœuds (cid:2) (cid:3) desgraphesaléatoirescroîtcommes−2t−1 log(n)+ω(1) ,résulteenunalignementquirécu- pèrel’ensembledesnœudspartagésentrelesdeuxréseauxavecuneforteprobabilitéetqui couvre,également,lavéritablecorrespondanceentrecesnœuds.Notrerésultatmontreque l’alignementderéseauxestfondamentalementrobusteauxarêtespartiellesetauxchevauche- mentsdenœuds.Celamotivelarecherched’algorithmesd’alignementderéseauxavecune faiblecomplexitédecalculetdemémoire.Lesapprocheslesplusextensiblesd’alignementde réseauxutilisentdesidéesdelathéoriedelapercolation,oùunnœud-coupleappariéinfecte sescouplesavoisinantscommedesadéquationspotentiellessupplémentaires. Dansladeuxièmepartiedecettethèse,nousproposonsunnouvelalgorithmed’alignement deréseauxbasésurlapercolation,quipeutcorrespondreàdegrandsréseauxenutilisant uniquementleurstructure,ainsiqu’unepoignéedenœud-couplesinitialementpré-appariés, appelésgraines.Nouscaractérisonsunetransitiondephaseauxperformancesdecouplageen fonctiondelatailledel’ensembledesgraines,surlemodèledegraphealéatoireintroduitpré- v Acknowledgements cédemment.Nousmontronsaussil’excellenteperformancedenotrealgorithmesurplusieurs réseauxsociauxréelsàgrandeéchelle. Danslatroisièmepartiedecettethèse,nousconsidéronsdeuxdomainesd’applicationim- portantsdel’extractionderéseauxenbiologieetensantépublique.Lepremierdomaine d’applicationestl’alignementenbiologiedel’interactionprotéine-protéine(PPI)desréseaux basésurlapercolation.L’alignementdesréseauxbiologiquesadenombreusesutilisations, tellesqueladétectiondemotifsconservésdanslesréseauxbiologiques,laprédictiond’inter- actionsentreprotéines,ainsiquelareconstructiond’arbresphylogénétiques.L’alignementde réseauxpeutaussiêtreutilisépourtransférerdesconnaissancesbiologiquesentreespèces. Nousintroduisonsunnouvelalgorithmed’alignementglobalderéseauxparpairespourles réseauxPPI,appelésPROPER.L’algorithmePROPERpermetunemeilleureprécisionetune plusgranderapiditéd’exécutionparrapportauxautresméthodesd’alignementglobalde réseaux.NousappliquonségalementPROPERauproblèmed’alignementglobalderéseaux multiples.Nousintroduisonsunnouvelalgorithmepourcouplerplusieursréseaux,appelé MPROPER, et montrons que MPROPER surpasse les autres algorithmes de pointe sur les réseauxbiologiquesréels.Enfin,nousexploronsIsoRank,l’undespremiersalgorithmes,et l’undesplusréférencés,d’alignementglobalderéseauxappariés.Nousdévelopponsunalgo- rithmed’approximationquisurpasseIsoRankdeplusieursordresdegrandeurentempseten mémoire,endépitseulementd’unepertenégligeabledeprécision. Notredeuxièmedomained’applicationestlecontrôledesprocessusépidémiques.Nousdéve- lopponsdesstratégiespouratténueruneépidémiedansunréseaudecontactsdynamiquesà grandeéchelle.Plusprécisément,nousétudionslesépidémiesdemaladiesinfectieusespar: (i)Lamodélisationdelapropagationd’épidémiessurunréseauenutilisantdenombreux élémentsd’informationsurlamobilitéetlecomportementd’unepopulation,telsquelesdon- néesd’appeltéléphoniques;and(ii)laconceptionderecommandationscomportementales personnaliséesauxparticuliers,afind’atténuerl’impactdesépidémiessurceréseau,touten minimisantl’effetsurlecoursnormaldelaviequotidienne.Nousévaluonsl’efficacitédenos recommandationssurlejeudedonnéesd’OrangeD4Detnousmontronsleursavantages. Mots clefs : Théorie des réseaux, l’alignement de réseaux, interaction protéine-protéine, graphealéatoire,percolation,épidémie vi
Description: