L G L G Universit´e de Li`ege Facult´e des sciences Analyse de s´equences ADN par la transform´ee en ondelettes : extraction d’informations structurelles, dynamiques et fonctionnelles Samuel Nicolay Dissertation originale pr´esent´ee en vue de l’obtention du grade acad´emique de docteur en sciences Avril 2006 (( Il faut imaginer Sisyphe heureux )) A. Camus, Le mythe de Sisyphe. Remerciements Je tiens `a remercier Alain Arneodo pour m’avoir encadr´e durant ces ann´ees. Plus que disponible, tu as ´et´e omnipr´esent. Ce manuscrit est aussi une fac¸on de t’exprimer ma gratitude. Ton ombre m’accompagnera encore longtemps. Sans le soutien inconditionnel de Franc¸oise Bastin, ce travail n’aurait pu aboutir. Je sais que m’appuyer n’a pas toujours´et´e chose facile. J’esp`ere pouvoir te rendre un jour la pareille. Les r´esultats obtenus sont le fruit d’une collaboration ´etroite entre scientifiques de tous bords, et dieu sait qu’il n’est pas facile de collaborer avec Alain! Merci `a Claude Thermes et son ´equipe d’avoir relev´e le d´efi. Merci aussi `a Ste´phane Jaffard pour avoir plus d’une fois ´eclair´e ma lanterne et d’avoir accept´e de faire partie des membres de mon jury. Je tiens `a exprimer ma gratitude envers messieurs Jean-Pierre Antoine, Paul Ge´rard, Alex Grossmann et Jean Schmets pour me faire l’honneur de prendre part `a mon jury. Un grand merci `a tous les (ex-)membres de l’´equipe au sens large! Vous ˆetes trop nombreux `a ´enum´erer (et puis j’en oublierais la moiti´e et en plus je suis press´e par le temps). Enfin,ungrandmerci`alafamillepoursonsoutien,enparticulier`amafemme,Clara. Table des mati`eres Notations iii Avant-propos vii I Fondements math´ematiques 1 1 Fractales et notions de dimension 3 1.1 Quelques d´efinitions de la dimension . . . . . . . . . . . . . . . . . . . . . 4 Dimension topologique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 Mesure de Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 Dimension de Hausdorff . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 Dimension de Minkowski . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 1.2 Ensembles auto-similaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 i Table des mati`eres Ensembles invariants . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Auto-similarit´es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 1.3 Formalisme multifractal . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 Spectre multifractal de grande d´eviation . . . . . . . . . . . . . . . . . . . 23 Calcul du spectre multifractal de grande d´eviation . . . . . . . . . . . . . 26 Spectre multifractal de Hausdorff . . . . . . . . . . . . . . . . . . . . . . . 29 Formalisme multifractal pour les mesures auto-similaires . . . . . . . . . . 30 2 Analyse et caract´erisation de signaux irr´eguliers par la transform´ee en ondelettes continue 35 2.1 La transform´ee en ondelettes continue . . . . . . . . . . . . . . . . . . . . 36 D´efinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 Noyau reproduisant. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38 La transform´ee en ondelettes en pratique . . . . . . . . . . . . . . . . . . 39 2.2 Caract´eristiques des ondelettes . . . . . . . . . . . . . . . . . . . . . . . . 41 Ondelettes adapt´ees `a la d´etection de singularit´es . . . . . . . . . . . . . . 41 Lignes de maxima du module de la transform´ee en ondelettes et d´eriv´ees de la fonction gaussienne . . . . . . . . . . . . . . . . . . . . . . . 43 Concernant l’´etude fr´equentielle . . . . . . . . . . . . . . . . . . . . . . . . 45 2.3 Exposants de H¨older . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 Espaces de H¨older . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 R´egularit´e h¨olderienne ponctuelle . . . . . . . . . . . . . . . . . . . . . . . 54 Singularit´es oscillantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 2.4 E´tude de la r´egularit´e d’une fonction par la transform´ee en ondelettes . . 63 ii Table des mati`eres Remarques concernant la mesure de la r´egularit´e d’une fonction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 D´etection de singularit´es isol´ees dans un signal . . . . . . . . . . . . . . . 65 2.5 Formalisme multifractal pour les fonctions . . . . . . . . . . . . . . . . . . 69 Spectre de H¨older et m´ethodes d’estimation . . . . . . . . . . . . . . . . . 70 Fonctions auto-similaires et m´ethode des maxima du module de la trans- form´ee en ondelettes . . . . . . . . . . . . . . . . . . . . . . . . . . 74 Remarques sur les m´ethodes d’estimation du spectre de H¨older . . . . . . 77 Param´etrage du spectre de H¨older . . . . . . . . . . . . . . . . . . . . . . 81 2.6 Coefficients en ondelettes dominants et formalisme multifractal associ´e . . 84 Analyse multir´esolution de l’espace L2 . . . . . . . . . . . . . . . . . . . . 86 Le formalisme multifractal associ´e aux coefficients dominants . . . . . . . 90 Apport du formalisme multifractal bas´e sur les coefficients dominants . . . . . . . . . . . . . . . . . . . . . . . 91 3 Marches al´eatoires browniennes 93 3.1 Le mouvement brownien . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 D´efinitions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94 Processus stochastiques auto-similaires . . . . . . . . . . . . . . . . . . . . 97 3.2 Le mouvement brownien fractionnaire . . . . . . . . . . . . . . . . . . . . 97 Du mouvement brownien au mouvement brownien fractionnaire . . . . . . 98 Corr´elations `a longue port´ee . . . . . . . . . . . . . . . . . . . . . . . . . . 101 R´ealisation num´erique d’un mouvement brownien fractionnaire . . . . . . 103 3.3 Marchesbinairesconstruites`apartirdemouvementsbrowniensfractionnaires105 iii Table des mati`eres Marches binaires discr`etes de moyenne nulle . . . . . . . . . . . . . . . . . 105 Marches binaires discr`etes de moyenne non nulle . . . . . . . . . . . . . . 110 II L’ADN 115 1 Description de l’ADN: structure et fonctions 117 1.1 Composition de l’ADN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117 Composition chimique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 118 L’ADN forme une double h´elice . . . . . . . . . . . . . . . . . . . . . . . . 120 Les chromosomes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 1.2 Le m´ecanisme de r´eplication . . . . . . . . . . . . . . . . . . . . . . . . . . 122 Principes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123 Activit´es enzymatiques . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 125 1.3 Le m´ecanisme de transcription . . . . . . . . . . . . . . . . . . . . . . . . 126 Rˆole de la transcription . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 Description du m´ecanisme de la transcription . . . . . . . . . . . . . . . . 127 1.4 L’empaquetage de l’ADN . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 Organisation de la chromatine . . . . . . . . . . . . . . . . . . . . . . . . . 129 Les ´etapes de l’empaquetage . . . . . . . . . . . . . . . . . . . . . . . . . . 129 2 Codages mono- ou multi- nucl´eotidiques de l’ADN 131 2.1 Construction de signaux ADN par codage . . . . . . . . . . . . . . . . . . 132 Codages et marches ADN . . . . . . . . . . . . . . . . . . . . . . . . . . . 132 Exemples de codage nucl´eotidique . . . . . . . . . . . . . . . . . . . . . . 134 iv Table des mati`eres Exemples de signaux ADN obtenus par divers codages . . . . . . . . . . . 140 E´tude fr´equentielle des signaux ADN . . . . . . . . . . . . . . . . . . . . . 143 2.2 Existence de corr´elations `a longue port´ee au sein des s´equences ADN . . . 147 Existence de corr´elations `a longue port´ee dans les marches ADN . . . . . 147 Un mod`ele pour l’ADN reposant sur le mouvement brownien fractionnaire 150 3 Analyse multifractale du biais de composition 157 3.1 Le biais de composition . . . . . . . . . . . . . . . . . . . . . . . . . . . . 158 Les mutations du mat´eriel g´en´etique . . . . . . . . . . . . . . . . . . . . . 158 D´efinition du biais de composition . . . . . . . . . . . . . . . . . . . . . . 159 S´equences r´ep´et´ees . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 161 3.2 Analyse multifractale du biais . . . . . . . . . . . . . . . . . . . . . . . . . 162 Comportement statistique du signal biais dans le g´enome de l’homme . . 162 Mise en ´evidence de la nature bifractale du signal biais aux petites ´echelles 163 E´tude du signal biais aux grandes ´echelles . . . . . . . . . . . . . . . . . . 167 3.3 Dissym´etrie entre sauts ascendants et sauts descendants . . . . . . . . . . 171 4 Mise en ´evidence d’un biais de transcription et de r´eplication 177 4.1 E´tude du biais de composition chez l’homme li´e `a la transcription . . . . . 178 Influence de la transcription sur le signal biais . . . . . . . . . . . . . . . . 178 E´valuation des taux de substitution pouvant engendrer un biais transcrip- tionnel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181 Profils caract´eristiques induits par les m´ecanismes de transcription . . . . 184 4.2 E´tude du biais de composition chez l’homme li´e `a la r´eplication . . . . . . 186 v Table des mati`eres Biais de r´eplication chez les procaryotes: le mod`ele r´eplicon . . . . . . . . 187 E´vidences de l’existence d’un biais duˆ `a la r´eplication. . . . . . . . . . . . 188 Conservation du biais de r´eplication chez les mammif`eres . . . . . . . . . 191 Mise en ´evidence d’un profil caract´eristique dans le signal biais . . . . . . 193 E´tude statistique des profils de biais duˆs `a la r´eplication . . . . . . . . . . 197 5 Mod´elisation de la r´eplication chez les mammif`eres 205 5.1 Un mod`ele de r´eplication chez les mammif`eres . . . . . . . . . . . . . . . . 206 Mod´elisation de la r´eplication chez les mammif`eres . . . . . . . . . . . . . 206 Discussion du mod`ele de r´eplication . . . . . . . . . . . . . . . . . . . . . 208 5.2 Nouvelle m´ethodologie multi-´echelle de pr´ediction des origines de r´eplication209 D´etection de profils lin´eairement d´ecroissants dans un signal bruit´e . . . . 210 Application test sur des profils synth´etiques en forme de toit d’usine bruit´e 215 D´etections des origines de r´eplication dans le g´enome humain . . . . . . . 219 A La bijection de Cantor et la courbe de Peano 223 A.1 La bijection de Cantor . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 223 Pr´eliminaires . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 D´efinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 224 A.2 La courbe de Peano . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 D´efinition . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227 Propri´et´es . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 228 B R´egression lin´eaire par la m´ethode de la m´ediane 231 vi
Description: