ebook img

Bio-informatique moléculaire : Une approche algorithmique (Collection IRIS) PDF

327 Pages·2006·5.01 MB·French
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview Bio-informatique moléculaire : Une approche algorithmique (Collection IRIS)

Bio-informatique moléculaire Une approche algorithmique Springer Paris Berlin Heidelberg New York Hong Kong London Milan Tokyo Pavel A. Pevzner Bio-informatique moléculaire Une approche algorithmique Traduit de l’anglais par Delphine Hachez Pavel A.Pevzner Department of Computer Science & Engineering, APM3132 University of California, San Diego La Jolla, CA92093-0114 Traduit de l’édition anglaise par Delphine Hachez : Computational Molecular Biology: an algorithmic approach Copyright©2000 Massachusetts Institute of technology ISBN-10 : 2-287-33908-6 Springer Paris Berlin Heidelberg New York ISBN-13 : 978-2-287-33908-0 Springer Paris Berlin Heidelberg New York © Springer-Verlag France, Paris, 2006 Imprimé en France Springer-Verlag France est membre du groupe Springer Science + Business Media Cet ouvrage est soumis au copyright. Tous droits réservés, notamment la reproduction et la représentationla traduction, la réimpression, l’exposé, la reproduction des illustrations et des tableaux, la transmission par voie d’enregistrement sonore ou visuel, la reproduction par microfilm ou tout autre moyen ainsi que la conserva- tion des banques de données. La loi française sur le copyright du 9septembre 1965 dans la version en vigueur n’autorise une reproduction intégrale ou partielle que dans certains cas, et en principe moyennantle paiement de droits. Toute représentation, reproduction, contrefaçon ou conservation dans une banque de données par quelque procédé que ce soit est sanctionnée par la loi pénale sur le copyright. L’utilisation dans cet ouvrage de désignations, dénominations commerciales, marques de fabrique, etc. même sans spécification ne signifie pas que ces termes soient libres de la législation sur les marques de fabrique et la protection des marques et qu’ils puissent être utilisés par chacun. La maison d’édition décline toute responsabilité quant à l’exactitude des indications de dosage et des modes d’emploi. Dans chaque cas, il incombe à l’usager de vérifier les informations données par comparaison à la littérature existante. SPIN: 11748 809 Maquette de couverture : Jean-François Montmarché Préface En 1985, alors que je cherchais du travail à Moscou, en Russie, j’ai été confronté à un choix difficile. D’un côté, une prestigieux institut d’ingénie- rie électrique m’offrait un poste de chercheur en combinatoire appliquée; de l’autre, le centre russe de biotechnologie NIIGENETIKA, situé dans la ban- lieue de Moscou, était en train de former un groupe de bio-informatique. Ce secondposteétaitrémunéréenvironmoitiémoinsquel’autreetn’offraitmême pasle«zakaz»hebdomadaire,cecolisalimentairequireprésentaitl’avantagele plus important accordé à un employé, à une époque où les rayonnages des ma- gasinsdeMoscouétaientvides.Jenesaistoujourspasàquelgenrederecherche classée secrète s’adonnaient les gens de l’institut d’ingénierie électrique, puis- qu’ils n’avaient pas le droit de m’en parler avant que je ne signe mon contrat. Enrevanche,AndreyMironov,duNIIGENETIKA,passaquelquesheuresàme parler desproblèmes algorithmiques d’unenouvelle discipline futuriste appelée bio-informatique moléculaire et je pris ma décision. Je ne l’ai jamais regrettée, bien que, pendant un certain temps, je dus compléter mes revenus au NIIGE- NETIKA en ramassant les bouteilles vides dans les gares de Moscou, l’un des raresmoyenslégauxdegagnerunpeud’argentsupplémentairedansleMoscou d’avant la perestroïka. La bio-informatique était une discipline nouvelle pour moi et j’ai passé des week-ends entiers à la bibliothèque Lénine de Moscou, le seul endroit où il était possible de trouver des articles de bio-informatique. L’unique livre dis- ponible à l’époque était le très classique Time Warps, String Edits and Bio- molecules : The Theory and Practice of Sequence Comparison de Sankoff et Kruskal. Comme les photocopieuses Xerox étaient quasiment inexistantes à Moscou en 1985, j’ai presque copié ce livre page par page dans mes cahiers. Six mois plus tard, j’ai réalisé que j’avais lu l’intégralité (ou presque) de tous les articles de bio-informatique du monde. Ma foi, ce n’était pas un grand ex- ploit : la majeure partie d’entre eux étaient écrits par les «pères fondateurs» de la bio-informatique moléculaire, David Sankoff et Michael Waterman, et je n’avais qu’à feuilleter une demi-douzaine de journaux. Durant les sept années suivantes,j’allaisàlabibliothèqueunefoisparmoisetjelisaistoutcequiavait été publié dans ce domaine. Cette situation ne dura pas longtemps. Dès 1992, je me suis rendu compte que l’explosion avait débuté : je n’avais plus le temps de lire toutes les publications de bio-informatique. vi Bio-informatique moléculaire : une approche algorithmique Commecertainsjournauxn’étaientpasdisponiblesàlabibliothèqueLénine, jelesdemandaisàdesscientifiquesétrangersetbonnombred’entreeuxétaient assezaimablespourm’envoyerleurspreprints.En1989,jereçusunlourdpaquet de Michael Waterman avec une douzaine de manuscrits en préparation. L’un d’eux formulait un problème ouvert que je résolus; j’envoyai ma solution à Mike, sans trop me préoccuper des preuves. Mike m’avoua plus tard que la lettre était écrite dans un style très «anglais russe» impossible à comprendre, mais qu’il était surpris que quelqu’un fût capable de lire son propre travail jusqu’à l’endroit où se trouvait le problème ouvert. Peu de temps après, Mike m’invita à travailler avec lui à l’Université de Californie du Sud et, en 1992, je donnai mon premier cours de bio-informatique. Celivreestfondésurlecoursdebio-informatiquemoléculaire quej’aidonné touslesansdansledépartementd’informatiquedel’UniversitédePennsylvanie (de 1992 à 1995), puis dans le département de mathématiques de l’Université de Californie du Sud (de 1996 à 1999). Il est destiné aux étudiants de licence et de maîtrise d’informatique ou de mathématiques, ainsi qu’aux étudiants de D.E.U.G. de bon niveau. Certaines parties du livre présenteront aussi de l’intérêt pour les spécialistes de biologie moléculaire qui s’intéressent à la bio- informatique. J’espère également que cet ouvrage sera utile aux professionnels de bio-informatique. La raison d’être de ce livre est de présenter des idées algorithmiques de bio-informatique et de montrer la façon dont elles sont reliées à la biologie moléculaire et à la biotechnologie. Pour y parvenir, cet ouvrage possède une composantesubstantiellede«bio-informatiquesansformule»quiprésenteune motivationbiologiqueetdesidéesinformatiquesdefaçonsimple.Cetteprésen- tation simplifiée de biologie et d’informatique vise à rendre ce livre accessible auxinformaticiensquidécouvrentcenouveaudomaineainsiqu’auxbiologistes n’ayantpasunbagagesuffisantpouraborderdestechniquesinformatiquesplus évoluées. Par exemple, le chapitre recherche en génétique décrit de nombreux résultats informatiques associés à la recherche du gène de la mucoviscidose et formule des problèmes informatiques que ces résultats ont motivés. Chaque chapitre comporte une introduction qui décrit les idées informatiques et bio- logiques sans formule. Ce livre se concentre sur les idées informatiques plutôt quesurlesdétailsdesalgorithmesetungroseffortaétéfaitpourlesprésenter de façon simple. Évidemment, pour parvenir à un tel exposé, on est obligé de masquer certains détails informatiques et biologiques au risque d’être critiqué pour cette «vulgarisation» de bio-informatique. Une autre caractéristique de cet ouvrage est que la dernière partie de chaque chapitre décrit brièvement les récents développements importants qui sont en dehors du corps du chapitre. Dansledépartementd’informatique,lescoursdebio-informatiquedébutent souvent par une introduction de deux à trois semaines que l’on pourrait inti- tuler « la biologie moléculaire pour les nuls ». Si j’en crois mon expérience, l’intérêt des étudiants en informatique (qui, en règle générale, n’ont aucune connaissance en biologie) diminue rapidement s’ils sont confrontés à une intro- ductionàlabiologiequineprésenteaucunlienavecl’informatique.Ilseproduit Préface vii le même phénomène avec les biologistes si on leur expose des algorithmes sans lienaveclesproblèmesbiologiquesréels.J’aitrouvétrèsimportantd’introduire la biologie et les algorithmes de façon simultanée, afin de susciter et de préser- ver l’intérêt des étudiants. Le chapitre recherche en génétique atteint ce but, bien qu’il présente volontairement une vision simplifiée de la biologie et des algorithmes.J’aiaussitrouvéquecertainsbio-informaticiensn’avaientpasune idée bien précise des liens entre les différents domaines de la bio-informatique. Par exemple, les chercheurs qui travaillent sur la prédiction génétique ont par- fois des connaissances limitées concernant les algorithmes de comparaison de séquences.J’aidonctentédemettreenexerguelesliensexistantentrelesidées informatiques et les différents domaines de la bio-informatique moléculaire. Ce livre couvre à la fois les secteurs les plus récents de la bio-informatique et ceux plutôt anciens. Par exemple, les matériaux présents dans le chapitre protéomique informatique etlamajeurepartiedeceuxdeschapitresréarrange- ments génomiques,comparaison de séquences etpuces à ADN n’avaientjamais été abordés dans un livre jusqu’à maintenant. Par ailleurs, les sujets comme ceux abordés dans le chapitre cartographie de restriction sont plutôt passés de modeetdécriventdesapprochesexpérimentalesquisonttombéesendésuétude. J’aitoutdemêmeincluscesnotionsinformatiquesunpeuanciennespourdeux raisons. Tout d’abord, elles expliquent aux néophytes l’histoire des idées dans ce domaine et les avertit que les sujets les plus chauds de la bio-informatique évoluenttrèsrapidement.Enoutre,cesidéesinformatiquesontsouventunese- conde vie dans différents domaines d’application. Par exemple, des techniques presque oubliées de cartographie de restriction trouvent une nouvelle utilité dans le domaine très à la mode de la protéomique informatique. Il existe de nombreux autres exemples de ce genre (par exemple, certaines idées relatives au séquençage par hybridation sont actuellement utilisées pour l’assemblage shotgun à grande échelle) et je pense qu’il est important de montrer à la fois les anciennes et les nouvelles approches informatiques. Je tiens aussi à dire quelques mots sur un compromis qui a été fait dans ce livre entre les parties expérimentales et théoriques. Il est certain que les biologistes du XXIe siècle devront connaître des éléments de mathématiques discrètes et d’algorithmique — ils devront au moins être capables de formuler les problèmes algorithmiques motivés par leur recherche. En bio-informatique, laformulationadéquatedesproblèmesbiologiquesestprobablementlacompo- santelaplusdifficiledelarecherche,aumoinsaussidifficilequeleurrésolution. Commentpouvons-nousapprendreauxétudiantsàformulerdesproblèmesbio- logiquesentermesinformatiques?Commejen’ensaisrien,jepréfèrevousoffrir une histoire en guise de réponse. Il y a vingt ans, après avoir obtenu mon diplôme universitaire, j’ai mis une annonce pour proposer mes services et faire du « conseil mathématique » à Moscou. Mes clients étaient majoritairement des doctorants dans différentes matières appliquées qui n’avaient pas un bagage mathématique suffisant et qui espéraient obtenir une aide pour leur thèse (ou, du moins, ses composantes mathématiques).Jemesuisretrouvéfaceàunevastecollectiondesujetsallant viii Bio-informatique moléculaire : une approche algorithmique de«l’optimisationduparcdel’équipementdedéblaiementdelaneigedansun aéroport» à «la mise en place d’un programme de livraison de fournisseurs». Danstouscesprojets,lapartielaplusdifficileétaitdecomprendrecequ’étaitle problème informatique et de le formuler; la solution s’obtenait par application directe de techniques connues. Jamais je n’oublierai un visiteur, quarante ans, poli, bien bâti. Contraire- mentauxautres,celui-civintavecuneéquationdifférentielleàrésoudre,plutôt qu’avec son domaine de recherche. Au début, j’étais content mais par la suite, il s’avéra que cette équation n’avait aucun sens. La seule façon de comprendre ce qu’il fallait faire était de revenir au problème expérimental d’origine et d’en déduire une nouvelle équation. Le visiteur hésita mais, comme c’était le seul moyen qu’il avait d’obtenir son doctorat, il commença à me révéler certains détails concernant son domaine de recherche. À la fin de la journée, j’avais compris qu’il s’intéressait à l’atterrissage d’objets sur une plateforme peu so- lide. J’avais également deviné pourquoi il ne m’avait jamais donné son numéro de téléphone : il s’agissait d’un officier qui travaillait sur une recherche classée secrète. La plateforme mal affermie était un navire et les objets qui atterris- saientétaientdesavions.Jesuisconvaincuquelarévélationdecesecret,vingt ans plus tard, ne brisera pas sa carrière militaire. La nature est encore moins ouverte à la formulation de problèmes biolo- giques que cet officier. En outre, certains d’entre eux, lorsqu’ils sont formulés correctement, présentent de nombreuses options qui peuvent parfois masquer ou travestir les idées informatiques. Comme il s’agit ici d’un livre traitant de ces dernières plutôt que des détails techniques, j’ai volontairement utilisé des formulations simplifiées qui permettent de présenter les idées de façon claire. Ceci peut donner l’impression que cet ouvrage est trop théorique, mais je ne connais pas d’autre moyen d’enseigner des idées informatiques en biologie. En d’autres termes, avant de faire atterrir de vrais avions sur de vrais navires, les étudiantsdoiventapprendrecommentfaireatterrirdesmaquettesd’avionssur des maquettes de bateaux. J’aimeraisinsistersurlefaitquecetouvragen’apaslaprétentiondecouvrir uniformémenttouslessecteursdelabio-informatique.Certes,lechoixdessujets a été influencé par mes propres goûts et recherches. Quelques grands domaines delabio-informatiquenesontpasabordés—notammentlesstatistiquesADN, la cartographie génétique, l’évolution moléculaire, la prédiction de la structure protéique et la génomique fonctionnelle. Chacun de ces domaines mérite un ouvrage à part entière; certains ont d’ailleurs déjà été écrits. Par exemple, Waterman, 1995 [357] est une excellente référence pour les statistiques ADN. Gusfield, 1997 [145] présente de nombreux algorithmes de chaînes et Salzberg et al., 1998 [296] contient quelques chapitres qui couvrent la prédiction de la structure protéique. Durbin et al., 1998 [93] et Baldi et Brunak, 1997 [24] sont deslivresplusspécialisésquisefocalisentsurlesmodèlesdeMarkov.Baxevanis etOuellette,1998[28]estunexcellentguidepratiquedebio-informatiquequise consacre davantage aux applications des algorithmes qu’aux algorithmes eux- mêmes. Préface ix J’aimerais remercier quelques personnes qui m’ont appris différents aspects de bio-informatique moléculaire. Andrey Mironov m’a appris que le bon sens est peut-être l’ingrédient le plus important de toute recherche appliquée. Mike Waterman est un fabuleux enseignant, à l’époque où je suis parti de Moscou pour Los Angeles, que ce soit en science ou dans la vie. En particulier, il m’a appris avec beaucoup de patience que chaque article devait subir une douzaine d’itérations avant d’être prêt à être publié. Bien que cette règle retarde la publication de ce livre de quelques années, je l’enseigne scrupuleusement à mes étudiants. Mes anciens étudiants Vineet Bafna et Sridhar Hannenhalli ont été assez aimables pour m’apprendre ce qu’ils savaient et me rejoindre dans de difficiles projets à long terme. J’aimerais également remercier Alexander Karzanov, qui m’a enseigné l’optimisation combinatoire, y compris les idées qui ont été les plus utiles dans mes recherches en bio-informatique. Je voudrais remercier mes collaborateurs et co-auteurs : Mark Borodovsky, avec qui j’ai travaillé sur les statistiques ADN et qui m’a convaincu en 1985 que la bio-informatique avait un grand avenir; Earl Hubbell, Rob Lipshutz, Yuri Lysov, Andrey Mirzabekov et Steve Skiena, mes collègues pour la re- cherche sur les puces à ADN; Eugene Koonin, avec qui j’ai essayé d’analy- ser des génomes complets, avant le séquençage du premier génome bactérien; Norm Arnheim, Mikhail Gelfand, Melissa Moore, Mikhail Roytberg et Sing- Hoi Sze, mes collègues en recherche génétique; Karl Clauser, Vlado Dancik, Maxim Frank-Kamenetsky, Zufar Mulyukov et Chris Tang, mes collaborateurs en protéomique informatique; enfin, Eugene Lawler, Xiaoqiu Huang, Webb Miller, Anatoly Vershik et Martin Vingron, mes collègues en comparaison de séquences. Je suis également reconnaissant à de nombreux collègues d’avoir discuté avec moi de différents aspects de bio-informatique moléculaire; directement ou indirectement, ils ont influencé la rédaction de cet ouvrage : Ruben Aba- gyan,NickAlexandrov,StephenAltschul,AlbertoApostolico,RichardArratia, Ricardo Baeza-Yates, Gary Benson, Piotr Berman, Charles Cantor, Radomir Crkvenjakov, Kun-Mao Chao, Neal Copeland, Andreas Dress, Radoje Drma- nac, Mike Fellows, Jim Fickett, Alexei Finkelstein, Steve Fodor, Alan Frieze, Dmitry Frishman, Israel Gelfand, Raffaele Giancarlo, Larry Goldstein, Andy Grigoriev, Dan Gusfield, David Haussler, Sorin Istrail, Tao Jiang, Sampath Kannan, Samuel Karlin, Dick Karp, John Kececioglu, Alex Kister, George Ko- matsoulis, Andrzey Konopka, Jenny Kotlerman, Leonid Kruglyak, Jens La- gergren, Gadi Landau, Eric Lander, Gene Myers, Giri Narasimhan, Ravi Ravi, MireilleRegnier,GesineReinert,IsidoreRigoutsos,MikhailRoytberg,Anatoly Rubinov, Andrey Rzhetsky, Chris Sander, David Sankoff, Alejandro Schaffer, DavidSearls,RonShamir,AndreyShevchenko,TempleSmith,MikeSteel,Lu- bertStryer,ElizabethSweedyk,HaixiTang,SimonTavarè,EdTrifonov,Tandy Warnow, Haim Wolfson, Jim Vath, Shibu Yooseph et les autres. Travailler avec Bob Prior et Michael Rutterof de MIT Press a été un réel plaisir.JeremercieégalementAmyYeager,quiaéditécelivre,MikhailMayofis, qui a réalisé la couverture de la version anglaise, et Oksana Khleborodova,

Description:
Cet ouvrage est la traduction fran?aise d’un texte d?sormais consid?r? comme une r?f?rence dans le domaine ?mergent de la bio-informatique mol?culaire. P. A. Pevzner y traite des cartes g?n?tiques, du probl?me de comparaison de s?quences et d’alignement en passant par les puces ? ADN et le r?arr
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.