ebook img

Approches bio-informatiques appliquées aux technologies émergentes en génomique PDF

396 Pages·2014·22.27 MB·French
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Approches bio-informatiques appliquées aux technologies émergentes en génomique

Université de Montréal Approches bio-informatiques appliquées aux technologies émergentes en génomique par Louis-Philippe Lemieux Perreault Département de biochimie Faculté de médecine Thèse présentée à la Faculté des études supérieures en vue d’obtention du grade de docteur en bio-informatique Hiver 2014 © Louis-Philippe Lemieux Perreault, 2014 Université de Montréal Faculté des études supérieures Cette thèse intitulée : Approches bio-informatiques appliquées ......................................................................................................... aux technologies émergentes en génomique ......................................................................................................... présenté par : Louis-Philippe Lemieux Perreault ........................................................ a été évaluée par un jury composé des personnes suivantes : Damian Labuda, Ph. D. ........................................................ président-rapporteur Marie-Pierre Dubé, Ph. D. ........................................................ directeur de recherche Philip Awadalla, Ph. D. ........................................................ codirecteur Brian Wilhelm, Ph. D. ........................................................ membre du jury Guillaume Bourque, Ph. D. ........................................................ examinateur externe John Rioux, Ph. D. ........................................................ représentant du doyen de la FES Abstract Genetic studies, such as linkage and association studies, have contributed greatly to a better under- standing of the etiology of several diseases. Nonetheless, despite the tens of thousands of genetic studies performed to date, a large part of the heritability of diseases and traits remains unex- plained. The last decade experienced unprecedented progress in genomics. For example, the use of microarrays for high-density comparative genomic hybridization has demonstrated the existence of large-scale copy number variations and polymorphisms. These are now detectable using DNA microarray or high-throughput sequencing. In addition, high-throughput sequencing has shown that the majority of variations in the exome are rare or unique to the individual. This has led to the design of a new type of DNA microarray that is enriched for rare variants that can be quickly and inexpensively genotyped in high throughput capacity. In this context, the general objective of this thesis is the development of methodological approaches and bioinformatics tools for the detection at the highest quality standards of copy number poly- morphisms and rare single nucleotide variations. It is expected that by doing so, more of the missing heritability of complex traits can then be accounted for, contributing to the advancement of knowledge of the etiology of diseases. We have developedan algorithm forthe partition ofcopy numberpolymorphisms,making itfeasible to use these structural changes in genetic linkage studies with family data. We have also conducted an extensive study in collaboration with the Wellcome Trust Centre for Human Genetics of the University of Oxford to characterize rare copy number definition metrics and their impact on study results with unrelated individuals. We have conducted a thorough comparison of the performance of genotyping algorithms when used with a new DNA microarray composed of a majority of very rare genetic variants. Finally, we have developed a bioinformatics tool for the fast and efficient i processing of genetic data to increase quality, reproducibility of results and to reduce spurious associations. Key words: Bioinformatics,Singlenucleotidevariantsandpolymorphisms,Copynumbervariations and polymorphisms, DNA microchip, Genetic data quality control ii Résumé Les études génétiques, telles que les études de liaison ou d’association, ont permis d’acquérir une plus grande connaissance sur l’étiologie de plusieurs maladies affectant les populations humaines. Même si une dizaine de milliers d’études génétiques ont été réalisées sur des centaines de maladies ouautrestraits,unegrandepartiedeleurhéritabilitéresteinexpliquée. Depuisunedizained’années, plusieurs percées dans le domaine de la génomique ont été réalisées. Par exemple, l’utilisation des micropuces d’hybridation génomique comparative à haute densité a permis de démontrerl’existence à grande échelle des variations et des polymorphismes en nombre de copies. Ces derniers sont main- tenant détectables à l’aide de micropuce d’ADN ou du séquençage à haut débit. De plus, des études récentes utilisant le séquençage à haut débit ont permis de démontrer que la majorité des variations présentes dans l’exome d’un individu étaient rares ou même propres à cet individu. Ceci a permis la conception d’une nouvelle micropuce d’ADN permettant de déterminer rapidement et à faible coûtlegénotypedeplusieursmilliersdevariationsrarespourungrandensembled’individusàlafois. Dans ce contexte, l’objectif général de cette thèse vise le développement de nouvelles méthodolo- gies et de nouveaux outils bio-informatiques de haute performance permettant la détection, à de hauts critères de qualité, des variations en nombre de copies et des variations nucléotidiques rares dans le cadre d’études génétiques. Ces avancées permettront, à long terme, d’expliquer une plus grande partie de l’héritabilité manquante des traits complexes, poussant ainsi l’avancement des connaissances sur l’étiologie de ces derniers. Un algorithme permettant le partitionnement des polymorphismes en nombre de copies a donc été conçu, rendant possible l’utilisation de ces variations structurales dans le cadre d’étude de liaison génétique sur données familiales. Ensuite, une étude exploratoire a permis de caractériser les différents problèmes associés aux études génétiques utilisant des variations en nombre de copies iii rares surdes individus non reliés. Cette étude a été réalisée avec la collaboration du Wellcome Trust Centre for Human Genetics de l’University of Oxford. Par la suite, une comparaison de la perfor- mance des algorithmes de génotypage lors de leur utilisation avec une nouvelle micropuce d’ADN contenant une majorité de marqueurs rares a été réalisée. Finalement, un outil bio-informatique permettant de filtrer de façon efficace et rapide des données génétiques a été implémenté. Cet outil permet de générer des données de meilleure qualité, avec une meilleure reproductibilité des résultats, tout en diminuant les chances d’obtenir une fausse association. Mots clés : Bio-Informatique, Variations et Polymorphismes nucléotidiques, Variations et Poly- morphismes en nombre de copies, Micropuces d’ADN, Nettoyage de données génétiques iv Table des matières Résumé (anglais) i Résumé (français) iii Table des matières v Liste des figures ix Liste des tableaux xv Liste des abréviations xvii Dédicaces xix Remerciements xxi I. Introduction 1 1. Variations génétiques 3 1.1. Historique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.2. Polymorphismes et variations nucléotidiques . . . . . . . . . . . . . . . . . . . . . . 4 1.2.1. Génotypage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 1.2.1.1. Micropuces de SNP . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.2.1.2. Séquençage à haut débit . . . . . . . . . . . . . . . . . . . . . . . . 7 1.2.2. Études déterminantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 1.3. Polymorphismes et variations de nombre de copies . . . . . . . . . . . . . . . . . . . 14 1.3.1. Mécanismes d’apparition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 1.3.1.1. Recombinaison homologue non allélique . . . . . . . . . . . . . . . 15 1.3.1.2. Jonction d’extrémités non homologues . . . . . . . . . . . . . . . . 17 1.3.1.3. Blocage de la fourche de réplication et changement de matrice . . . 17 1.3.1.4. Réplication induite par une coupure de l’ADN médiée par micro- homologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 1.3.2. Génotypage . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.3.2.1. Hybridation génomique comparative . . . . . . . . . . . . . . . . . 19 1.3.2.2. Puces de SNP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 1.3.2.3. Méthodes algorithmiques . . . . . . . . . . . . . . . . . . . . . . . 22 1.3.2.4. Séquençage à haut débit . . . . . . . . . . . . . . . . . . . . . . . . 22 1.3.3. Études déterminantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25 1.3.3.1. Abondance des CNP chez des individus sains . . . . . . . . . . . . 25 v Table des matières 1.3.3.2. Approches algorithmiques . . . . . . . . . . . . . . . . . . . . . . . 26 1.3.3.3. Utilisation des micropuces de SNP . . . . . . . . . . . . . . . . . . 27 1.3.3.4. Études à haute résolution . . . . . . . . . . . . . . . . . . . . . . . 29 1.3.3.5. Déséquilibre de liaison avec les SNP . . . . . . . . . . . . . . . . . 30 1.3.3.6. Séquençage à haut débit . . . . . . . . . . . . . . . . . . . . . . . . 31 1.3.4. Progression des connaissances . . . . . . . . . . . . . . . . . . . . . . . . . . 33 2. Analyses génétiques 35 2.1. Les désordres génétiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35 2.2. Analyses de liaison génétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 2.3. Analyses d’association génétique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37 2.4. Problème de l’héritabilité manquante . . . . . . . . . . . . . . . . . . . . . . . . . . 39 3. Sujets abordés 41 II. Contributions Scientifiques 43 4. pyGenClean: Efficient tool for genetic data clean up before association testing 45 Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47 4.1. Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.2. Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48 4.3. Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52 5. Comparison of genotype clustering tools with rare variants 55 Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57 5.1. Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 5.2. Methods . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.2.1. Clustering tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60 5.2.2. Dataset . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.2.3. Agreement between tools . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 5.2.4. Error rates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 5.3. Results and Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.3.1. Clustering quality . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65 5.3.2. Missing rates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67 5.3.3. Precision estimates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68 5.3.4. Accuracy estimates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69 5.3.5. Inter-tool agreement . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 5.3.6. Error rate estimates . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 5.4. Conclusions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 5.5. Competing interests . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.6. Authors contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 5.7. Acknowledgements . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78 5.8. Additional files . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79 6. Partitioning of copy-number genotypes in pedigrees 81 Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83 6.1. Background . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84 vi

Description:
Université de Montréal. Approches bio-informatiques appliquées .. le projet (les deux trios à haute couverture, les données de basse couverture sur.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.