Practical structure-sequence alignment of pseudoknotted RNAs Wei Wang To cite this version: Wei Wang. Practical structure-sequence alignment of pseudoknotted RNAs. Bioinformatics [q- bio.QM]. Université Paris Saclay (COmUE), 2017. English. NNT: 2017SACLS563. tel-01697889 HAL Id: tel-01697889 https://theses.hal.science/tel-01697889 Submitted on 31 Jan 2018 HAL is a multi-disciplinary open access L’archive ouverte pluridisciplinaire HAL, est archive for the deposit and dissemination of sci- destinée au dépôt et à la diffusion de documents entific research documents, whether they are pub- scientifiques de niveau recherche, publiés ou non, lished or not. The documents may come from émanant des établissements d’enseignement et de teaching and research institutions in France or recherche français ou étrangers, des laboratoires abroad, or from public or private research centers. publics ou privés. 1 NNT : 2017SACLS563 Thèse de doctorat de l’Université Paris-Saclay préparée à L’Université Paris-Sud Ecole doctorale n◦580 (STIC) Sciences et Technologies de l’Information et de la Communication Spécialité de doctorat : Informatique par M. Wei WANG Alignement pratique de structure-séquence d’ARN avec pseudonœuds Thèse présentée et soutenue à Orsay, le 18 Décembre 2017. Composition du Jury : Mme Hélène TOUZET Directrice de Recherche (Présidente) CNRS, Université Lille 1 M. Guillaume FERTIN Professeur (Rapporteur) Université de Nantes M. Jan GORODKIN Professeur (Rapporteur) University of Copenhagen Mme Johanne COHEN Directrice de Recherche (Examinatrice) CNRS, Université Paris-Sud M. Laurent BULTEAU Chargé de Recherche (Examinateur) CNRS, Université Paris-Est M. Alain DENISE Professeur (Directeur de thèse) Université Paris-Sud M. Yann PONTY Chargé de Recherche (Co-encadrant) CNRS, École Polytechnique R´esum´e L’alignment de macromol´ecules telles que les prot´eines, les ADN et les ARN afin de r´ev´eler ou d’exploiter a` l’inverse leur homologie fonction- nelle est un d´efi classique en bioinformatique, avec des applications de grande envergure dans la mod´elisation de la structure et l’annotations du g´enome. Dans le contexte sp´ecifique des ARN complexes, pr´esentant des pseudoknots, des interactions multiples et des paires de bases non canon- iques, de multiples solutions et outils algorithmiques ont ´et´e propos´es pour le probl`eme d’alignement de s´equence de structure. Cependant, de tels outils sont rarement utilis´es dans la pratique, en partie `a cause de leurs exigences de calcul extrˆemes, et de leur incapacit´e `a supporter des types g´en´eraux de structures. Au chapitre 2, nous illustrons d’abord les op´erations d’´edition pour cal- culer le couˆt d’un alignement et la d´efinition du probl`eme d’alignement structure-s´equence. Ensuite, nous expliquons plusieurs algorithmes d’´etat de l’art pour le probl`eme. Ces algorithmes comprennent l’algorithme de Han [39] avec le programme PAL, l’algorithme de Matsui [60] avec le pro- gramme PSTAG, l’algorithme de Song [91] et l’algorithme de Rinaudo [78]. Touscesalgorithmessontprincipalementconc¸uspourpr´edirel’alignement de la structure-s´equence pseudo-not´ee. Cependant, compar´e aux autres algorithmes, Rinaudo et al. a donn´e une m´ethode enti`erement g´en´erale pour la comparaison s´equence-structure, qui est capable de prendre en entr´ee n’importe quel type de structures pseudo-not´ees. Mon travail est bas´e sur l’algorithme de Rinaudo. Au chapitre 3, je d´ecris d’abord quelques d´etails sur la mise en œuvre de notre nouveau programme LiCoRNA (aLignment of Complet RNAs) in- cluant le schme de scoring et la programmation dynamique par bandes qui permettent d’acc´el´erer la programmation dynamique sans perdre trop de pr´ecision. Ensuite, trois algorithmes seront introduits pour obtenir les alignements sous-optimaux de la structure-s´equence, l’un est un al- gorithme stochastique de backtracking bas´e sur la fonction de partition, l’un est l’algorithme d’alignement �-sous-optimal et l’un est l’algorithme d’alignementsuboptimalK-best. Notreraisonnementpourexplorerl’espace desalignementssous-optimaux,ouquasi-optimaux,esttriple: Premi`erement, un alignement optimal est ambigu, ce qui signifie que plusieurs aligne- ments ayant le mˆeme score peuvent coexister. Deuxi`emement, un aligne- ment optimal n’est qu’une approximation de celui qui est biologique- ment pertinent. Troisi`emement, un alignement optimal peut ˆetre sen- sible aux perturbations des param`etres d’´evaluation, en particulier les p´enalit´esd’´ecart. Sur la base de la fonction de partition et de l’algorithme int´erieur-ext´erieur, on peut ´egalement calculer la probabilit´e de concor- dance de Boltzmann. En outre, nous introduisons la notation Maximum Expected structure-sequence Alignment (MEA) pour calculer un aligne- ment avec une pr´ecision maximale pr´evue sur un ensemble d’alignements. L’alignement MEA peut ˆetre intuitivement compar´e au centre de masse de l’espace d’alignement. Notre raisonnement est que, si l’alignement est bien d´efini, alors l’alignement MEA devrait ˆetre proche de l’alignement optimal. Inversement, un alignement optimal mal d´efini, admettant de nombreux alignements sous-optimaux, devrait ˆetre soit ´eloign´e’ du MEA, soit avoir une faible pr´ecision associ´ee. Le chapitre 4 illustre les r´esultats des tests de LiCoRNA qui sont princi- palement divis´es en deux parties. La premi`ere partie consiste `a ´evaluer la performance de LiCoRNA sur la base des s´equences de graines dans les familles pseudoknotted dans RFAM par la comparaison avec d’autres programmes `a la fine pointe PAL, PSTAG et Profile-csHMMs [120]. Les param`etres d’´evaluation sont la sensibilit´e, valeur pr´edictive positive et l’AFI. Le r´esultat principal est que LiCoRNA peut pr´edire les aligne- ments par paires pour toutes les familles et g´en`ere g´en´eralement des r´esultats´equivalents ou meilleurs que ses concurrents pour presque toutes lesfamilles. Ladeuxi`emepartieestquenoustraitonslesalignementspseu- doknotted complets RFAM en utilisant LiCoRNA. Le r´esultat montre que LiCoRNAprendenchargepseudoknotssansperted’identit´edes´equenceen calculant le pourcentage de paire de bases pour chaque position de paire dans la structure de r´ef´erence. 2 Le dernier chapitre pr´esente les perspectives. Tout d’abord, le s´echma de score pour LiCoRNA est ind´ependant de la position qui signifie que les scores pour les substitutions et les lacunes sont les mˆemes dans di↵´erentes positions de l’ARN. Nous pouvons ´etendre au sch´ema de score bas´e sur le profil et au mod`ele ´evolutionnaire probabiliste pour am´eliorer encore la pr´ecision. Deuxi`emement, la programmation dynamique bas´ee sur la d´ecompositionarborescentepeut´egalementˆetreutilis´eepouridentifierdes motifs 3D d’ARN qui sont d´efinis par leur propre mod`ele d’appariement de base non-canonique. 3 Acknowledgements Firstofall,Iowemydeepestgratitudetomyadvisors,AlainDenise,Yann Ponty for their patience, encouragement and immense knowledge. With- out their guidance, I would not have finished my PhD study smoothly. Beside my advisors, I would like to thank the rest of my thesis committee for their time and extreme patience. Thanks to Guillaume Fertin and Jan Gorodkinfortheirinsightfulcommentsandhardquestionswhichincented me to widen my research. I would also like to the other members H´el`ene Touzet, Johanne Cohen, Laurent Bulteau for their time and insightful questions. My thanks also go to all the colleagues in the bioinformatics group in LRI and LIX for their discussions and for solving everyday trouble during my PhD. Thanks to the China Scholarship Council, who provided financial support during my graduate studies. I am forever indebted to my parents for their unconditional supports. I also thank JiaYin XUE for her accompany. Last but not least, I’d like to thank all my friends in France for their help and encouragement. Contents 1 Introduction 1 1.1 Types of RNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2 RNA structure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3 RNA secondary structure prediction . . . . . . . . . . . . . . . . . . . 6 1.3.1 Secondary Structure . . . . . . . . . . . . . . . . . . . . . . . 6 1.3.2 Pseudoknotted Structures . . . . . . . . . . . . . . . . . . . . 9 2 Structure-sequence alignment 12 2.1 Sequence-sequence alignment. . . . . . . . . . . . . . . . . . . . . . . 15 2.2 NESTED structure-sequence alignment . . . . . . . . . . . . . . . . . 17 2.3 CROSSING structure-sequence alignment . . . . . . . . . . . . . . . 19 2.3.1 Han’s algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.3.2 Matsui’s algorithm . . . . . . . . . . . . . . . . . . . . . . . . 23 2.3.3 Song’s algorithm . . . . . . . . . . . . . . . . . . . . . . . . . 28 2.3.4 Rinaudo’s algorithm . . . . . . . . . . . . . . . . . . . . . . . 30 2.3.5 Other formula . . . . . . . . . . . . . . . . . . . . . . . . . . 33 3 Methods 38 3.1 Model and definitions . . . . . . . . . . . . . . . . . . . . . . . . . . . 39 i 3.1.1 Tree decomposition and its practical computation . . . . . . . 39 3.1.1.1 Definitions . . . . . . . . . . . . . . . . . . . . . . . 39 3.1.1.2 Practical computation of the tree decomposition . . . 40 3.1.2 Scoring scheme . . . . . . . . . . . . . . . . . . . . . . . . . . 41 3.1.2.1 RIBOSUM . . . . . . . . . . . . . . . . . . . . . . . 41 3.1.2.2 Cost function for structure-sequence alignment . . . 42 3.1.2.3 Scoring a tree decomposition . . . . . . . . . . . . . 45 3.1.2.4 LCost function . . . . . . . . . . . . . . . . . . . . . 45 3.1.3 Banded dynamic programming . . . . . . . . . . . . . . . . . 48 3.2 Probabilistic structure-sequence alignment . . . . . . . . . . . . . . . 49 3.2.1 Derivation and derivation tree . . . . . . . . . . . . . . . . . . 50 3.2.2 Completeness and unambiguity of Rinaudo’s DP scheme . . . 51 3.2.3 Computing the partition function . . . . . . . . . . . . . . . . 54 3.2.4 Stochastic backtrack algorithm . . . . . . . . . . . . . . . . . 57 3.2.5 Inside-outside algorithm . . . . . . . . . . . . . . . . . . . . . 60 3.2.6 Maximum expected accuracy alignment . . . . . . . . . . . . . 63 3.3 Enumerating suboptimal alignments . . . . . . . . . . . . . . . . . . . 65 3.3.1 � near-optimal alignment . . . . . . . . . . . . . . . . . . . . 66 3.3.2 K-best suboptimal alignment . . . . . . . . . . . . . . . . . . 68 3.3.2.1 Recurrence equation . . . . . . . . . . . . . . . . . . 72 3.3.2.2 Algorithm . . . . . . . . . . . . . . . . . . . . . . . . 73 4 Results 76 4.1 Using LiCoRNA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 ii 4.2 The tree-width of pseudoknotted RNAs is typically small . . . . . . . 79 4.2.1 Datasets . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 4.2.2 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 4.3 Predictive accuracy of LiCoRNA . . . . . . . . . . . . . . . . . . . . . 84 4.3.1 Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 4.3.2 Competitors . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85 4.3.3 Evaluation metrics . . . . . . . . . . . . . . . . . . . . . . . . 85 4.3.4 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86 4.4 Analyzing near optimal solutions . . . . . . . . . . . . . . . . . . . . 91 4.4.1 Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91 4.4.2 Reference alignments have quasi optimal scores . . . . . . . . 91 4.4.3 Reference alignment are not far down the list of suboptimal alignments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 4.5 Stochastic sampling enables the detection of ambiguously-aligned re- gions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96 4.5.1 Evaluation metrics . . . . . . . . . . . . . . . . . . . . . . . . 96 4.5.2 An example . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98 4.6 Structure-based realignment of RFAM families improves support for pseudoknotted base-pairs . . . . . . . . . . . . . . . . . . . . . . . . 99 4.6.1 Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99 4.6.2 Evaluation metrics . . . . . . . . . . . . . . . . . . . . . . . . 99 4.6.3 Results . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100 4.7 Advantages and disadvantages of LiCoRNA . . . . . . . . . . . . . . . 105 5 Conclusion and Perspectives 107 iii 5.1 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107 5.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109 5.2.1 Score scheme of LiCoRNA . . . . . . . . . . . . . . . . . . . . . 109 5.2.2 Searching conserved structures in genomes . . . . . . . . . . . 110 5.2.3 Identification of RNA 3D motifs . . . . . . . . . . . . . . . . . 111 A 115 Bibliography 118 iv
Description: