ebook img

3Improving Phylogenetic Inference with a Semiempirical Amino Acid Substitution Model PDF

119 Pages·2015·15.37 MB·English
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview 3Improving Phylogenetic Inference with a Semiempirical Amino Acid Substitution Model

ETH Library Approaches for parametrization of Markovian models of molecular evolution for protein-coding sequences Doctoral Thesis Author(s): Zoller, Stefan Publication date: 2015 Permanent link: https://doi.org/10.3929/ethz-a-010464331 Rights / license: In Copyright - Non-Commercial Use Permitted This page was generated automatically upon download from the ETH Zurich Research Collection. For more information, please consult the Terms of use. Diss. ETH No. 22528 Approaches for parametrization of Markovian models of molecular evolution for protein-coding sequences A thesis submitted to attain the degree of Doctor of Sciences of ETH Zurich (Dr. sc. ETH Zurich) presented by Stefan Zoller Master of Science ETH in Computational Biology and Bioinformatics born on December 26, 1975 citizen of Au (SG), Switzerland accepted on the recommendation of Prof. Dr. Gaston H. Gonnet, examiner Prof. Dr. Joachim M. Buhmann, co-examiner Dr. Maria Anisimova, co-examiner 2015 Abstract Evolution is underlying all biological processes. Molecular evolution in protein-coding sequences is most widely described by Markovian models of character substitution. Thesemodelsareatthecoreofallapplicationsinbioinformaticsthatdealwithsequence data: estimating distances between sequences, building (multiple) sequence alignment and phylogenetic trees, and more. The parametrization of the defining rate matrices is of importance to ensure the quality of not only the models, but also of all methods and applicationsthatmakeuseofthem. There have been mainly two types of Markov models for molecular evolution. On the one hand, there are empirical models, where a rate matrix has been estimated once from a large set of data and is then kept fixed in all applications. On the other hand, people use parametric models, where a few free parameters are fitted onto the data set inquestiontothendefinetheratematrix. In the first chapters of my thesis, I present a new method to formulate parameters forasemi-empiricalmodelofmolecularevolutionthatcandescribemostofthevariance foundin(standardized)realdata. Asemi-empiricalmodelstartswithafirstapproxima- tionofthefinalratematrixestimatedfromalargepoolofrealsequences. Butincontrast toempiricalmodels,asemi-empiricalmodelstillallowscertainfreeparameterstobefit- tedineveryapplicationtocapturethepeculiaritiesofthedatasetsinquestion. Iapplied my new method to codon data as well as to amino acid data, and both models have been extensively tested on large data sets. Applied on sequence data that matches the taxonomic range, models generated with this method outrank all other models in the comparison. Typically, researchers use a single Markov model per data set. Different parts of thedatamightshowdifferentpatternsofevolution;forexample,differentevolutionary rates, or different rates of selective pressure. This has been handled by either cutting the sequence alignments into smaller chunks and using different instances of Markov models,orbyapplyingmorecomplexmodelswithmorefreeparameters. Iwouldliketo 3 giveanalternativetotheseapproaches: Iupgradedthemaximumlikelihoodestimation application CodonPhyML that includes a high number of codon models to allow for the definition of multi-partition models. Users can define different instances of a Markov model on different partitions in their data set to estimate all free parameters and a sin- gletopologyinonerun. Modelinstancescansharefreeparameterstoallowforaneven moreflexiblewaytoformulatehypothesesforvariousresearchquestions. Idemonstrate thisapproachbyapplyingthemethodologytoinvestigatetheoriginoftheleucine-rich repeatregioninthephytopathogenicbacteriaR.solanacearum. Thenewapproachpro- videsamuch-improvedfittodataandleadstoinferringadifferentphylogeny,allowinga newperspectiveontheevolutionofthisbacterium. Furthermore,theapproachprovided improved evidence on lateral gene transfer events, for example between Ixodes scapu- laris, the deer tick, and Rickettsia, a protobacteria that infects this tick. The approach is expectedtobegenerallybeneficialonproteinswithcomplexdomainstructures. Finally,Ipresenttheideaforanewmethodofcomparingmultiplemodelsofmolecu- larevolution. Existingmethodslikethelikelihoodratiotest(LRT)orseveralinformation criterialikeAkaike’sInformationCriterion(AIC)ortheBayesianInformationCriterion (BIC)relyonthelikelihoodofamodelgivensomedataset. Inthelastpartofmythesis, Iproposeanalternativeapproachwherethemethodsthatconstructtheparametricrate matricesarecomparedintermsoftheirpotentialtoextractmutualinformationfromdif- ferentinputdatasets. ExtendinganexistingideabyBuhmannetal.,Iapplythemethod ontwopreliminaryreducedproblemstoshowitspotential,testitonasmalldatasetfor modelsofmolecularevolutionandshowthenextstepstowardsthefullapplication. In conclusion, this work presents multiple advances in combining parametric and empiricalapproachestoestimateratematrices. Itinvestigatesthemethodstoconstruct thesematricesintheirabilitytoextractmutualinformationfromseveralsetsoftraining data. Furthermore, I extended existing software frameworks to improve usability and provideadditionalfeatures,andpresentnoveltheoreticalapproachesinmodelselection appliedtotheproblemofphylogeny. 4 Zusammenfassung Markov-Modelle zur Substitution von einzelnen Zeichen werden in einem weitenKreis vonAnwendungsfällenzurBeschreibungderEvolutionaufmolekularerEbeneinProtein- codierenden Sequenzen benutzt. Diese Modelle bilden das Herzstück jeder Anwen- dung in der Bioinformatik, bei der Sequenzen in irgendeiner Art eine Rolle spielen; sei das die Schätzung von Distanzen zwischen zwei Sequenzen, sei es das Erstellen von mehrfachen Sequenz-Ausrichtungen, sei es die Rekonstruktion von phylogenetischen BäumenoderandereAnwendungen. DieParametrisierungderdasModelldefinierenden Rate-Matrizen ist nicht nur für die Qualiät der Ergebnisse der Modelle von Bedeutung, sondern damit auch von grosser Wichtigkeit im Hinblick auf die Qualität der Resultate derbesagtenAnwendungen. Im Zentrum von Markov-Modellen steht die Rate-Matrix. Im Rahmen der Bioin- formatik werden vor allem zwei verschiedene Typen von Markov-Modellen benutzt, die sich durch die Parametrisierung ebendieser Rate-Matrix unterscheiden. Einerseits gibtesdieempirischenModelle,beideneneineRate-MatrixanhandeinesgrossenPools vonSequenzdatengeschätztwird. DieseMatrixwirdanschliessendfixiertundunverän- dert in der Applikation benutzt. Andererseits gibt es parametrische Modelle, bei de- nen die optimalen Werte einer kleinen Anzahl freier Parameter im Hinblick auf die zu analysierenden Sequenz-Daten geschätzt werden. Aus diesen wenigen freien Parame- ternwerdendanndieeinzelnenElementederRate-Matrixberechnet. In den ersten Kapiteln meiner Dissertation präsentiere ich eine neue Methode, mit der man die freien Parameter eines semi-empirischen Modells molekularer Evolution bestimmen kann, so dass diese Parameter die grösstmögliche Varianz der benutzten (standardisierten) Trainingsdaten abdecken. Semi-empirische Modelle sind eine Mis- chung aus empirischen und parametrischen Modellen. Gestartet wird mit einer em- pirischgeschätztenRate-Matrix,diedannmitfreienParameternweitermoduliertwird. DieseneueMethodewendeichaufCodon-alsauchaufAminosäure-Sequenzenan,und beide Varianten des Modells wurde ausgiebig getestet. Im taxonomischen Bereich der 7 Trainings-DatenverhaltensichdiemitdieserMethodeerstelltenModellebesseralsalle MitstreiterimVergleich. Typischerweise wenden Forscherinnen einzelne Markov-Modelle auf einem Daten- satz an. Verschiedene Bereiche dieses Datensatzes können unterschiedlichen evolu- tionärenMusternunterliegen;zumBeispielkönnenunterschiedlicheGeschwindigkeiten der Evolution vorliegen, oder auf einige Teile der Sequenzen wirken stärkere oder wenigerstarkeselektiveKräfte. WenndasderFallistwerdenmeistensdieSequenzenin unterschiedliche Teile geschnitten, und verschiedene Modelle werden angewandt. Eine Alternative ist die Benutzung von immer komplexer werdenden Modellen, die den ver- schiedenenBereicheneinerSequenzRechnungtragen. In einem weiteren Kapitel meiner Arbeit stelle ich einen anderen Ansatz zu diesem Problem vor. Ich habe unsere Phylogenetik-Software CodonPhyML erweitert, so dass jetzt Multi-Partitions-Modelle definiert werden können. Für beliebige Bereiche eines Datensatzes können beliebige in CodonPhyML enthaltene Modelle instanziert werden. Freie Parameter der Modelle können von den einzelnen Instanzen getrennt geschätzt oder aber auch von verschiedenen Instanzen geteilt werden. Schlussendlich kann eine einzelne, am besten passende Topologie geschätzt werden. Damit wird CodonPhyML zu einem noch flexibleren, modularen Baukasten für (Codon-)Modelle. Ich zeige eine Anwendung dieser Methode mit der Untersuchung des Ursprungs von Leucin-reichen Repeats (LRRs) im Bakterium R. solanacearum. Das Resultat dieser Anwendung ist eine Topologie, die sich von der herkömmlichen Topologie unterscheidet und eine höhere Wahrscheinlichkeit hat. Ausserdem wurde dadurch weitere Evidenz für das Vorhan- denseinvonlateralemGen-TransferzwischenSpeziesgefunden,zumBeispielzwischen Ixodes scapularis, einer Zeckenart, und Ricksettia, einer Art von Protobakterien, welche unteranderemebendieseZeckenbefällt. Schlussendlich präsentiere ich die Idee zu einer neuartigen Methode, wie man ver- schiedeneModellefürmolekulareEvolutionmiteinandervergleichenkann. Herkömm- liche Methoden wie der Likelihood Ratio Test (LRT) oder verschiedene Information- skriterienwieAkaikesInformations-Kriterium(AIC)oderdasBayes’scheInformations- Kriterium (BIC) stützen sich auf die Messung der Wahrscheinlichkeit eines Modells, gegebeneineseinzelnenDatensatzes. ImletztenTeilmeinerDissertationzeigeicheine andere Möglichkeit auf: Aufbauend auf Arbeiten von Buhmann et al. beschreibe ich, wiemandieRate-MatrizenverschiedenerModell-Instanzendaraufhinvergleichenkann wie gut sie es schaffen, gegenseitige Information aus zwei Datensätzen zu extrahieren. Ich wende die Methode auf zwei vereinfachte Probleme an, teste sie an einem kleinen Datensatz und beschreibe, wie man sie auf den Vergleich von Modellen für molekulare Evolutionerweiternkann. DieseArbeitbeinhaltetverschiedeneFortschritteinderKombinationvonempirischen und parametrischen Modellen für molekulare Evolution. Sie untersucht verschiedene Methoden, die entsprechenden Rate-Matrizen zu schätzen und vergleicht die Metho- den auf ihre Fähigkeit, gegenseitige Information aus verschiedenen Datensätzen zu ex- trahieren. IcherweitereexistierendeSoftware,umderenBenutzbarkeitzuerhöhenund sie mit neuen Funktionen auszustatten, und ich wende neue Methoden der Modell- SelektionaufeinProblemderPhylogeniean. 8

Description:
process runs along the branches of a phylogeny, a binary tree structure describing the ancestral How to improve existing phylogenetic models in terms of their statistical .. In our earlier study, one important parameter that has been identified was the relative Standard Deviation for Gaussian Err
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.