ebook img

Network Alignment: Theory, Algorithms, and Applications PDF

215 Pages·2016·3.1 MB·English
by  KazemiEhsan
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Network Alignment: Theory, Algorithms, and Applications

Network Alignment: Theory, Algorithms, and Applications THÈSE NO 7279 (2016) PRÉSENTÉE LE 2 NOVEMBRE 2016 À LA FACULTÉ INFORMATIQUE ET COMMUNICATIONS LABORATOIRE POUR LES COMMUNICATIONS INFORMATIQUES ET LEURS APPLICATIONS 4 PROGRAMME DOCTORAL EN INFORMATIQUE ET COMMUNICATIONS ÉCOLE POLYTECHNIQUE FÉDÉRALE DE LAUSANNE POUR L'OBTENTION DU GRADE DE DOCTEUR ÈS SCIENCES PAR Ehsan KAZEMI acceptée sur proposition du jury: Prof. B. Faltings, président du jury Prof. M. Grossglauser, directeur de thèse Prof. M. Crovella, rapporteur Prof. N. Kiyavash, rapporteuse Prof. P. Thiran, rapporteur Suisse 2016 (cid:443)(cid:595)(cid:455)(cid:545)(cid:876)(cid:444)(cid:447)(cid:382)(cid:393)(cid:455)(cid:365)(cid:356)(cid:359)(cid:447)(cid:444)(cid:454)(cid:241) (cid:455)(cid:893)(cid:359)(cid:447)(cid:444)(cid:451)(cid:359)(cid:355)(cid:387)(cid:364)(cid:444)(cid:356)(cid:448) (cid:450)(cid:384)(cid:359)(cid:447)(cid:444)(cid:451)(cid:359)(cid:355)(cid:387)(cid:364)(cid:366)(cid:393)(cid:383) (cid:455)(cid:893)(cid:359)(cid:447)(cid:444)(cid:451)(cid:359)(cid:355)(cid:387)(cid:364)(cid:428)(cid:388)(cid:377) (cid:17)(cid:450)(cid:384)(cid:359)(cid:447)(cid:444)(cid:451)(cid:359)(cid:355)(cid:387)(cid:364)(cid:360)(cid:441)(cid:432) (cid:442)(cid:355)(cid:451)(cid:366)(cid:428)(cid:356)(cid:595)(cid:387)(cid:383)(cid:355)(cid:387)(cid:455)(cid:365)(cid:593)(cid:356)(cid:452)(cid:451)(cid:398)(cid:595)(cid:387)(cid:447)(cid:444) (cid:442)(cid:355)(cid:451)(cid:366)(cid:429)(cid:545)(cid:447)(cid:382)(cid:393)(cid:356)(cid:452)(cid:358)(cid:440)(cid:593)(cid:451)(cid:445)(cid:452)(cid:593)(cid:355)(cid:388)(cid:359)(cid:364)(cid:448)(cid:356)(cid:360)(cid:440)(cid:356)(cid:359) (cid:17)(cid:364)(cid:393)(cid:356)(cid:449)(cid:397)(cid:343)(cid:447)(cid:444)(cid:446)(cid:356)(cid:366)(cid:393)(cid:383)(cid:356)(cid:359)(cid:364)(cid:595)(cid:356)(cid:452)(cid:364)(cid:393)(cid:383)(cid:454) (cid:442)(cid:355)(cid:451)(cid:366)(cid:394)(cid:595)(cid:388)(cid:545)(cid:455)(cid:365)(cid:356)(cid:359)(cid:447)(cid:397)(cid:454)(cid:387)(cid:363)(cid:455)(cid:441)(cid:381)(cid:387)(cid:383) (cid:446)(cid:356)(cid:545)(cid:384)(cid:448)(cid:389)(cid:388)(cid:409)(cid:356)(cid:381)(cid:593)(cid:355)(cid:388)(cid:359) (cid:442)(cid:355)(cid:450)(cid:384)(cid:448)(cid:355)(cid:455)(cid:381)(cid:455)(cid:365)(cid:356)(cid:359)(cid:887)(cid:595)(cid:387)(cid:356)(cid:365)(cid:446)(cid:356)(cid:366)(cid:393)(cid:387)(cid:455)(cid:545)(cid:387)(cid:383)(cid:454) (cid:355)(cid:387)(cid:356)(cid:452)(cid:383)(cid:454)(cid:388)(cid:393)(cid:447)(cid:595)(cid:388)(cid:365)(cid:356)(cid:360)(cid:595)(cid:389) (cid:438)(cid:356)(cid:393)(cid:447)(cid:595)(cid:355)(cid:446)(cid:356)(cid:545)(cid:383)(cid:388)(cid:444)(cid:451)(cid:532)(cid:355)(cid:388)(cid:595)(cid:389) (cid:240)(cid:17)(cid:17)(cid:17)(cid:384)(cid:448)(cid:355)(cid:450)(cid:383)(cid:455)(cid:359)(cid:446)(cid:356)(cid:545)(cid:384)(cid:448)(cid:389)(cid:447)(cid:595)(cid:388)(cid:365)(cid:431)(cid:397)(cid:356)(cid:417) (cid:455)(cid:441)(cid:444)(cid:356)(cid:397)(cid:384)(cid:445)(cid:377)(cid:355) (cid:104)(cid:81) (cid:105)(cid:63)(cid:50) (cid:75)(cid:50)(cid:75)(cid:81)(cid:96)(cid:118) (cid:81)(cid:55) (cid:76)(cid:28)(cid:98)(cid:50)(cid:96) (cid:114)(cid:63)(cid:81) (cid:47)(cid:66)(cid:50)(cid:47) (cid:55)(cid:81)(cid:96) (cid:55)(cid:96)(cid:50)(cid:50)(cid:47)(cid:81)(cid:75)(cid:53) (cid:4)(cid:383)(cid:355)(cid:383)(cid:593)(cid:383)(cid:355)(cid:389)(cid:343)(cid:450)(cid:355)(cid:387)(cid:387)(cid:383)(cid:446)(cid:356)(cid:373)(cid:451)(cid:532)(cid:388)(cid:401)(cid:356)(cid:448)(cid:383)(cid:356)(cid:595)(cid:451)(cid:359) Acknowledgements Iwouldneverhavebeenabletofinishmydissertationalone.Iowemygratitudetoallofthe peoplewhohavemadethisjourneypossible;tothepeoplewhosenamesappearhereafter andtoallthosewhoarenotmentionedinthisacknowledgement. First and foremost, I would like to express my sincerest thanks to my thesis advisor, Prof. MatthiasGrossglauser.Matthiasisabrilliantscientist,agreatteacherandasmartperson.I amalwaysinspiredbyhisbroadvision,depthofknowledgeandmotivation.Iamgratefulto himforhiringmeinLCA4.Iowehimalotforgivingmetheopportunitytoinvestigatemany researchdirections,andforpushingmealwaystoexplorefurther. Withouthisknowledge, advice,constantsupportandencouragementduringalltheseyears,finishingthisthesiswould havenotbeenpossible.IamdeeplyindebtedtoMatthiasforallhehasdoneforme! Iwouldliketothankmycommitteemembersforhavingacceptedtoassessmythesisand takingthetimetoreaditthrough: Prof. MarkE.Crovella, Prof. NegarKiyavashandProf. PatrickThiran.IwouldalsoliketothankProf.BoiFaltingsforbeingthepresidentofthejury. Itwasatruehonorformetopresentmyworktothem. IthasbeenagreatpleasureworkingatEPFL.Iwasveryluckytocollaboratewithmanybrilliant researchers.Workingwiththemwasagreatexperienceandwithouttheircontribution,help andknowledge,thisthesiswouldnotexistinitspresentform.IamgratefultoProf.Patrick ThiranandHamedHassanifortheirgreattipsonthewritingandpresentationskills. Iwas fortunatetocollaboratewiththemonseveralprojects.Also,Ihavebeenveryluckytohavethe opportunitytoworkwithLyudmilaYartseva,RezaShokri,Prof.Jean-PierreHubaux,Hassan PezeshgiModarres,MohamedKafsi,VincentEtterandLucasMaystre. I would like to thank our lab secretaries Angela, Patricia and Holly for all their supports andforalwaysbeingkindandhelpful. IshouldespeciallythankHollyfor“hollifying”our manuscriptswithpatienceandasmile.Ilearnedalotfromher.IamalsogratefultoICSIL1 team,Marc-André,StéphaneandYves,fortheITsupport. IwouldliketoextendmyappreciationtomyformerandnewcolleaguesandfriendsinLCA whosupportedmethroughouttheseyears.Specialthanksgoto:BrunellaSpinelli,Christina Vlachou,ElisaCelis,EmtiyazKhan,FarnoodSalehi,FaridNaini,ItaloDacosta,JulienHerzen, LucasMaystre,LyudmilaYartseva,MohamedKafsi,PedramPedarsani,SébastienHenri,Victor Kristof,VincentEtter,WilliamTrouleauandYoung-JunKO.Wishyouallthebest. Ihavebeenveryfortunatetobesurroundedbyamazingfriendsthroughtheseyears.Weshared manygoodmemoriesoutsidemyPh.D.life.Myfriendsweremyfamilyandtheyhelpedme in several occasions. I would like to thank my dearest friends in Lausanne. In particular, i Acknowledgements many thanks go to Ali Tehranchi, Amin Shoaie, Arezoo Ghiassaleh, Ashkan Norouzi Fard, AzadeYazdanYar,FarhnagNabi,FaridNaini,FarnoodSalehi,FarzanJazaeri,GolzarMesbah, HamedHassani,HassanPezeshgiModarres,HesamSetareh,ImanHonarvarGheysary,Mahdi Aminian,MahdiKhoramshahi,MajidBastankhah,ManiBastaniParizi,MaryamGhasemi, MehrdadAziziGhanad,MohammadKarzand,MohammadParhikar,MokhtarBozorg,Nakisa Mousavi, NooshinMirzadeh, PayamPakarha, PedramPad, SagharNabavi, SamiraAsgari, SamiraKouchaliandVahidBabaei.Iwillmissallourparties,hikes,walksandruns. Finally, Iwouldliketosayaheartfeltthankyoutomymother, Paricheher, andmyfather, Ghasem,fortheirinfiniteloveandsupportinthepastthirtyyears.YouareallIhaveandIwill beforeverthankful. Also,Iamdeeplygratefultomybelovedsister,Setareh,andmylovely Brother,Naser,foralltheirloveandencouragement.Loveyousomuch! Thisthesisisdedicatedtothememoryofmyuncle,Naser,whofoughtanddiedforfreedom. Shiraz,Iran,16October2016 E.K. ii Abstract Networks,asabstractionsforrepresentingcomplexrelationshipsamongentities,arecentral inthemodelingandanalysisofmanylarge-scalehumanandtechnicalsystems,andthey haveapplicationsindiversefieldssuchascomputerscience,biology,socialsciences,and economics. Recently,networkmining,i.e.,statisticalmodelsandcomputationalmethods applicablespecificallytonetworkdata,hasbeenanactiveareaofresearch.Inthisthesis,we studyseveralrelatednetwork-miningproblems,fromthreedifferentperspectives:themodel- ingandtheoryperspective,thecomputationalperspective,andtheapplicationperspective. Inthebulkofthisthesis,wefocusonnetworkalignment,wherethedataprovidestwo(or more)partialviewsofthenetwork, andwherethenodelabelsaresometimesambiguous. Networkalignmenthasapplicationsinsocial-networkreconciliationandde-anonymization, protein-networkalignmentinbiology,andcomputervision. Inthefirstpartofthisthesis,weinvestigatethefeasibilityofnetworkalignmentwitharandom- graphmodel.Thisrandom-graphmodelgeneratestwo(orseveral)correlatednetworks,and letsthetwonetworkstooverlaponlypartially. Indeed,thismodelisparameterizedbythe expectednodeoverlap t2 andbytheexpectededgeoverlap s2 ofthetwonetworks. Fora particularalignment,wedefineacostfunctionforstructuralmismatch.Weshowthat,ifthe (cid:2) (cid:3) averagenode-degreesoftherandomgraphsgrowass−2t−1 log(n)+ω(1) ,theminimization oftheproposedcostfunction(assumingthatwehaveaccesstoinfinitecomputationalpower), withhighprobability,resultsinanalignmentthatrecoversthesetofsharednodesbetween thetwonetworks,andthatalsorecoversthetruematchingbetweenthesharednodes.Our resultshowsthatnetworkalignmentisfundamentallyrobusttopartialedge-overlapsand node-overlaps, and this motivates us to look for network-alignment algorithms with low computationalandmemorycomplexity. Themostscalablenetwork-alignmentapproachesuseideasfrompercolationtheory,wherea matchednode-coupleinfectsitsneighboringcouplesthatareadditionalpotentialmatches. Inthesecondpartofthisthesis,weproposeanewpercolation-basednetwork-alignment algorithmthatcanmatchlargenetworksbyusingonlythenetworkstructureandahandful ofinitiallypre-matchednode-couplescalledseedset. Wecharacterizeaphasetransition in matching performance as a function of the seed-set size. We also show the excellent performanceofouralgorithmoverseveralreallarge-scalesocialnetworks. Inthethirdpartofthisthesis,weconsidertwoimportantapplicationareasofnetworkmining inbiologyandpublichealth.Thefirstapplicationareaispercolation-basednetworkalignment ofprotein-proteininteraction(PPI)networksinbiology.Thealignmentofbiologicalnetworks iii Acknowledgements hasmanyuses,suchasthedetectionofconservedbiologicalnetworkmotifs,thepredictionof proteininteractions,andthereconstructionofphylogenetictrees.Networkalignmentcanbe usedtotransferbiologicalknowledgebetweenspecies.Weintroduceanewglobalpairwise- networkalignmentalgorithmforPPInetworks,calledPROPER.ThePROPERalgorithmshows higheraccuracyandspeedcomparedtootherglobalnetwork-alignmentmethods.Wealso extend PROPER to the global multiple-network alignment problem. We introduce a new algorithm,calledMPROPER,formatchingmultiplenetworks,andweshowthatMPROPER outperformstheotherstate-of-the-artalgorithms. Finally,weexploreIsoRank,oneofthe first and most referenced global pairwise-network alignment algorithms. We develop an approximationalgorithmthatoutperformsIsoRankbyseveralordersofmagnitudeintime andmemorycomplexity,despiteonlyanegligiblelossinprecision. Oursecondapplicationareaisthecontrolofepidemicprocesses. Wedevelopandmodel strategiesformitigatinganepidemicinalarge-scaledynamiccontactnetwork.Moreprecisely, westudyepidemicsofinfectiousdiseasesby(i)modelingthespreadofepidemicsonanetwork byusingmanypiecesofinformationaboutthemobilityandbehaviorofapopulation,such asmobilecall-datarecords;andby(ii)designingpersonalizedbehavioralrecommendations forindividuals,inordertomitigatetheeffectofepidemicsonthatnetwork.Weevaluatethe effectivenessofoursuggestedrecommendationsovertheOrangeD4Ddatasetandshowtheir benefits. Keywords:Networkmining,networkalignment,graphmatching,randomgraph,percolation, protein-proteininteraction,epidemicmodeling iv Résumé Lesréseaux,entantqu’abstractionpourreprésenterdesrelationscomplexesentreentités, sontaucœurdelamodélisationetdel’analysedenombreuxsystèmeshumainsettechniques àgrandeéchelle.Leursapplicationssonttrèsrépanduesdansdiversdomainestelsquel’in- formatique,labiologie,lessciencessocialesetdel’économie.Enconséquence,théoriedes réseaux,c’estàdire,lesmodèlesstatistiquesetlesméthodesdecalculapplicablesspécifi- quementauréseauxdedonnées,estundomainederechercheactifactuellement.Danscette thèse,nousétudionsplusieursproblèmesassociésàl’extractionderéseauxàpartirdestrois pointsdevuesuivants:celuidelamodélisationetdelathéorie,celuiducalculetceluide l’application.Lamajoritédecettethèseseconcentresurl’alignementderéseaux,oùlesdon- néesfournissentdeux(ouplsueiurs)vuespartiellesdeceux-cietoùlesétiquettesdenœuds peuventêtreambiguës.L’alignementderéseauxadesapplicationsdanslaréconciliationetla désanonymisationderéseauxsociaux,l’alignementderéseauxdeprotéinesenbiologieetla visionparordinateur. Danslapremièrepartiedecettethèse,nousétudionslafaisabilitédel’alignementderéseau selonunmodèledegraphesaléatoires.Celui-cigénèredeux(ouplusieurs)réseauxcorrélés et leur permet de ne se chevaucher que partiellement. En effet, ce modèle est paramétré parlechevauchementprévudesnœudst2 etparlechevauchementprévud’arêtess2 des deuxréseaux.Pourunalignementparticulier,nousdéfinissonsunefonctiondecoûtpour l’inadéquationstructurelle.Nousdémontronsquelaminimisationdecelle-ci(ensupposant quenousavonsaccèsàunepuissancedecalculinfini),silamoyennedesdegrésdenœuds (cid:2) (cid:3) desgraphesaléatoirescroîtcommes−2t−1 log(n)+ω(1) ,résulteenunalignementquirécu- pèrel’ensembledesnœudspartagésentrelesdeuxréseauxavecuneforteprobabilitéetqui couvre,également,lavéritablecorrespondanceentrecesnœuds.Notrerésultatmontreque l’alignementderéseauxestfondamentalementrobusteauxarêtespartiellesetauxchevauche- mentsdenœuds.Celamotivelarecherched’algorithmesd’alignementderéseauxavecune faiblecomplexitédecalculetdemémoire.Lesapprocheslesplusextensiblesd’alignementde réseauxutilisentdesidéesdelathéoriedelapercolation,oùunnœud-coupleappariéinfecte sescouplesavoisinantscommedesadéquationspotentiellessupplémentaires. Dansladeuxièmepartiedecettethèse,nousproposonsunnouvelalgorithmed’alignement deréseauxbasésurlapercolation,quipeutcorrespondreàdegrandsréseauxenutilisant uniquementleurstructure,ainsiqu’unepoignéedenœud-couplesinitialementpré-appariés, appelésgraines.Nouscaractérisonsunetransitiondephaseauxperformancesdecouplageen fonctiondelatailledel’ensembledesgraines,surlemodèledegraphealéatoireintroduitpré- v Acknowledgements cédemment.Nousmontronsaussil’excellenteperformancedenotrealgorithmesurplusieurs réseauxsociauxréelsàgrandeéchelle. Danslatroisièmepartiedecettethèse,nousconsidéronsdeuxdomainesd’applicationim- portantsdel’extractionderéseauxenbiologieetensantépublique.Lepremierdomaine d’applicationestl’alignementenbiologiedel’interactionprotéine-protéine(PPI)desréseaux basésurlapercolation.L’alignementdesréseauxbiologiquesadenombreusesutilisations, tellesqueladétectiondemotifsconservésdanslesréseauxbiologiques,laprédictiond’inter- actionsentreprotéines,ainsiquelareconstructiond’arbresphylogénétiques.L’alignementde réseauxpeutaussiêtreutilisépourtransférerdesconnaissancesbiologiquesentreespèces. Nousintroduisonsunnouvelalgorithmed’alignementglobalderéseauxparpairespourles réseauxPPI,appelésPROPER.L’algorithmePROPERpermetunemeilleureprécisionetune plusgranderapiditéd’exécutionparrapportauxautresméthodesd’alignementglobalde réseaux.NousappliquonségalementPROPERauproblèmed’alignementglobalderéseaux multiples.Nousintroduisonsunnouvelalgorithmepourcouplerplusieursréseaux,appelé MPROPER, et montrons que MPROPER surpasse les autres algorithmes de pointe sur les réseauxbiologiquesréels.Enfin,nousexploronsIsoRank,l’undespremiersalgorithmes,et l’undesplusréférencés,d’alignementglobalderéseauxappariés.Nousdévelopponsunalgo- rithmed’approximationquisurpasseIsoRankdeplusieursordresdegrandeurentempseten mémoire,endépitseulementd’unepertenégligeabledeprécision. Notredeuxièmedomained’applicationestlecontrôledesprocessusépidémiques.Nousdéve- lopponsdesstratégiespouratténueruneépidémiedansunréseaudecontactsdynamiquesà grandeéchelle.Plusprécisément,nousétudionslesépidémiesdemaladiesinfectieusespar: (i)Lamodélisationdelapropagationd’épidémiessurunréseauenutilisantdenombreux élémentsd’informationsurlamobilitéetlecomportementd’unepopulation,telsquelesdon- néesd’appeltéléphoniques;and(ii)laconceptionderecommandationscomportementales personnaliséesauxparticuliers,afind’atténuerl’impactdesépidémiessurceréseau,touten minimisantl’effetsurlecoursnormaldelaviequotidienne.Nousévaluonsl’efficacitédenos recommandationssurlejeudedonnéesd’OrangeD4Detnousmontronsleursavantages. Mots clefs : Théorie des réseaux, l’alignement de réseaux, interaction protéine-protéine, graphealéatoire,percolation,épidémie vi

Description:
ing and theory perspective, the computational perspective, and the application perspective. In the bulk of benefits. Key words: Network mining, network alignment, graph matching, random graph, percolation, Nous introduisons un nouvel algorithme d'alignement global de réseaux par paires pour les.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.