ebook img

Efficient High Throughput Processing and Sequencing Error Detection Amit Kawalia PDF

189 Pages·2016·22.44 MB·English
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Efficient High Throughput Processing and Sequencing Error Detection Amit Kawalia

Addressing NGS Data Challenges: Efficient High Throughput Processing and Sequencing Error Detection Inaugural-Dissertation zur Erlangung des Doktorgrades der Mathematisch-Naturwissenschaftlichen Fakultät der Universität zu Köln vorgelegt von Amit Kawalia aus Para Bass Suila, Alwar, Rajasthan (India) Köln, 2016 Berichterstatter: Prof. Dr. Peter Nürnberg (Gutachter) Prof. Dr. Michael Nothnagel Prüfungsvorsitzender: Prof. Dr. Hartmut Arndt Beisitzer: Dr. med. Holger Thiele Tag der mündlichen Prüfung: 18/01/2016 Abstract Next generation sequencing (NGS) technologies have facilitated the identification of disease causing mutations, which has significantly improved patient’s diagnosis and treatment. Since its emergence, NGS has been used in many applications like genome sequencing, DNA resequencing, transcriptome sequencing and epigenomics, to unfold the various layers of genome biology. Because of this broad spectrum of applications and recent decrement in cost, usage of NGS has become a routine approach to address many research as well as medical questions. It is producing huge amounts of data, which necessitate highly efficient and accurate computational analysis as well as data management. This thesis addresses some of the challenges of NGS data analysis, mainly for targeted DNA sequencing data. It describes the various steps required for data analysis including their significance and potential negative effects on consecutive downstream analysis and so on the final variant lists. In order to make the analysis more accurate and efficient, an extensive testing of different bioinformatics tools and algorithms was preformed and a fully automated data analysis workflow was developed. This workflow is implemented and optimized on high performance computing (HPC) systems. I describe different design principles and parallelization strategies that enable proper exploitation of HPC resources to achieve high throughput of data analysis. Besides correcting for known sequencing errors by using existing tools, this work is also aimed at the detection of a new class of systematic sequencing errors called recurrent systematic sequencing errors. I present an approach for the exploration of this class of errors and describe the probable causes and patterns behind them. This includes some known and novel patterns observed during this work. Furthermore, I provide a tool to filter the false variants due to these errors from any variant list. Overall, the work performed during this thesis has been already used (and will be used in future as well), to provide accurate and efficient data analysis, which enables exploration of the genetic background of various diseases. Zusammenfassung Die Next-Generation-Sequencing-(NGS)-Technologien haben die Identifizierung krankheitsverursachender Mutationen erleichtert, wodurch die Diagnose und Behandlung von Patienten deutlich verbessert wurde. Seit seiner Einführung wird NGS in vielen Anwendungsbereichen, wie Genom-Sequenzierung, DNA-Resequenzierung, Transkriptom-Sequenzierung und Epigenomik, eingesetzt, um die verschiedenen Ebenen der Biologie des Genoms zu entschlüsseln. Aufgrund dieses breiten Anwendungsspektrums und der aktuellen Kostensenkung ist die Verwendung von NGS zu einem Routineverfahren zur Bearbeitung vieler forschungsbezogener und medizinischer Fragestellungen geworden. Dadurch werden große Datenmengen erzeugt, die hoch effiziente und exakte computergestützte Analysen sowie ein entsprechendes Datenmanagement notwendig machen. Diese Dissertation widmet sich einigen der mit der NGS-Datenanalyse verbundenen Herausforderungen, vor allem in Bezug auf die gezielte DNA-Sequenzierung ausgewählter genomischer Bereiche („targeted sequencing“ genannt). Sie beschreibt die verschiedenen für die Datenanalyse erforderlichen Schritte, ihre Bedeutung und potentiellen negativen Effekte auf anschließende Folgeanalysen und damit auf die finalen Variantenlisten. Um die Analyse exakter und effizienter zu machen, wurden umfassende Tests verschiedener bioinformatischer Tools und Algorithmen durchgeführt und ein vollautomatischer Analyse-Workflow entwickelt. Dieser Workflow ist auf Hochleistungsrechensystemen (HPC Systemen) implementiert und für diese optimiert worden. Ich beschreibe verschiedene Entwurfsprinzipien und Parallelisierungsstrategien, um eine gute Nutzung der Ressourcen eines HPC-Systems und hohen Durchsatz in der Datenanalyse zu erreichen. Neben der Korrektur bekannter Sequenzierungsfehler durch vorhandene Tools, widmet sich diese Arbeit auch der Detektion einer neuen Klasse systematischer Sequenzierungsfehler, „wiederkehrende systematische Fehler“ genannt. Ich präsentiere ein neues Verfahren, um diese Fehlerklasse zu untersuchen und beschreibe die ihr wahrscheinlich zugrundeliegenden Ursachen und Muster. Dabei beobachtete ich einige bekannte und neue Muster. Weiterhin stelle ich ein Tool zur Verfügung, um von diesen Fehlern verursachte falsche Varianten aus beliebigen Variantenlisten zu filtern. Die während dieser Doktorarbeit durchgeführten und hier präsentierten Arbeiten wurden bereits (und werden weiterhin) verwendet, um exakte und effiziente Datenanalyse durchzuführen, die die Erforschung des genetischen Hintergrundes verschiedenster Krankheiten ermöglicht. Acknowledgement I am very grateful to my supervisors Peter Nuernberg and Susanne Motameny who have given me an opportunity to work in the very exciting and challenging field of Next Generation Sequencing during this thesis. Special thanks to Susanne Motameny for extensive proofreading, moral support and guidance throughout my thesis. I also want to thank Holger Thiele who involved me in some other interesting projects and also supported me during the whole period. I would also like to thank Michael Nothnagel for his guidance, suggestions and for reviewing this work. Furthermore, I would like to thank Kamel Jabbari and Wilfried Gunia for their guidance and many fruitful conversations, both scientific and non-scientific. It has been a great pleasure to work with all of them. Without their support and guidance throughout my work, this thesis would not have been accomplished. I am also thankful to all other colleagues and my friends for their assistance and support. I am also grateful to my parents and brother who believed in me and supported me throughout my career. I cannot thank my wife enough who patiently supported and helped me during my “low days” and tolerated my craziness.

Description:
Next generation sequencing (NGS) technologies have facilitated the identification of disease causing tools perform local denovo assembly (by building a De Bruijn-like graph) in order to find the correct .. these tools, we use our SQL server to compute such kind of information from the variant list
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.