Table Of ContentBio-informatique moléculaire
Une approche algorithmique
Springer
Paris
Berlin
Heidelberg
New York
Hong Kong
London
Milan
Tokyo
Pavel A. Pevzner
Bio-informatique moléculaire
Une approche algorithmique
Traduit de l’anglais par
Delphine Hachez
Pavel A.Pevzner
Department of Computer Science & Engineering,
APM3132
University of California, San Diego
La Jolla, CA92093-0114
Traduit de l’édition anglaise par Delphine Hachez :
Computational Molecular Biology: an algorithmic approach
Copyright©2000 Massachusetts Institute of technology
ISBN-10 : 2-287-33908-6 Springer Paris Berlin Heidelberg New York
ISBN-13 : 978-2-287-33908-0 Springer Paris Berlin Heidelberg New York
© Springer-Verlag France, Paris, 2006
Imprimé en France
Springer-Verlag France est membre du groupe Springer Science + Business Media
Cet ouvrage est soumis au copyright. Tous droits réservés, notamment la reproduction et la représentationla
traduction, la réimpression, l’exposé, la reproduction des illustrations et des tableaux, la transmission par voie
d’enregistrement sonore ou visuel, la reproduction par microfilm ou tout autre moyen ainsi que la conserva-
tion des banques de données. La loi française sur le copyright du 9septembre 1965 dans la version en vigueur
n’autorise une reproduction intégrale ou partielle que dans certains cas, et en principe moyennantle paiement
de droits. Toute représentation, reproduction, contrefaçon ou conservation dans une banque de données par
quelque procédé que ce soit est sanctionnée par la loi pénale sur le copyright.
L’utilisation dans cet ouvrage de désignations, dénominations commerciales, marques de fabrique, etc. même
sans spécification ne signifie pas que ces termes soient libres de la législation sur les marques de fabrique et la
protection des marques et qu’ils puissent être utilisés par chacun.
La maison d’édition décline toute responsabilité quant à l’exactitude des indications de dosage et des modes
d’emploi. Dans chaque cas, il incombe à l’usager de vérifier les informations données par comparaison à la
littérature existante.
SPIN: 11748 809
Maquette de couverture : Jean-François Montmarché
Préface
En 1985, alors que je cherchais du travail à Moscou, en Russie, j’ai été
confronté à un choix difficile. D’un côté, une prestigieux institut d’ingénie-
rie électrique m’offrait un poste de chercheur en combinatoire appliquée; de
l’autre, le centre russe de biotechnologie NIIGENETIKA, situé dans la ban-
lieue de Moscou, était en train de former un groupe de bio-informatique. Ce
secondposteétaitrémunéréenvironmoitiémoinsquel’autreetn’offraitmême
pasle«zakaz»hebdomadaire,cecolisalimentairequireprésentaitl’avantagele
plus important accordé à un employé, à une époque où les rayonnages des ma-
gasinsdeMoscouétaientvides.Jenesaistoujourspasàquelgenrederecherche
classée secrète s’adonnaient les gens de l’institut d’ingénierie électrique, puis-
qu’ils n’avaient pas le droit de m’en parler avant que je ne signe mon contrat.
Enrevanche,AndreyMironov,duNIIGENETIKA,passaquelquesheuresàme
parler desproblèmes algorithmiques d’unenouvelle discipline futuriste appelée
bio-informatique moléculaire et je pris ma décision. Je ne l’ai jamais regrettée,
bien que, pendant un certain temps, je dus compléter mes revenus au NIIGE-
NETIKA en ramassant les bouteilles vides dans les gares de Moscou, l’un des
raresmoyenslégauxdegagnerunpeud’argentsupplémentairedansleMoscou
d’avant la perestroïka.
La bio-informatique était une discipline nouvelle pour moi et j’ai passé des
week-ends entiers à la bibliothèque Lénine de Moscou, le seul endroit où il
était possible de trouver des articles de bio-informatique. L’unique livre dis-
ponible à l’époque était le très classique Time Warps, String Edits and Bio-
molecules : The Theory and Practice of Sequence Comparison de Sankoff et
Kruskal. Comme les photocopieuses Xerox étaient quasiment inexistantes à
Moscou en 1985, j’ai presque copié ce livre page par page dans mes cahiers.
Six mois plus tard, j’ai réalisé que j’avais lu l’intégralité (ou presque) de tous
les articles de bio-informatique du monde. Ma foi, ce n’était pas un grand ex-
ploit : la majeure partie d’entre eux étaient écrits par les «pères fondateurs»
de la bio-informatique moléculaire, David Sankoff et Michael Waterman, et je
n’avais qu’à feuilleter une demi-douzaine de journaux. Durant les sept années
suivantes,j’allaisàlabibliothèqueunefoisparmoisetjelisaistoutcequiavait
été publié dans ce domaine. Cette situation ne dura pas longtemps. Dès 1992,
je me suis rendu compte que l’explosion avait débuté : je n’avais plus le temps
de lire toutes les publications de bio-informatique.
vi Bio-informatique moléculaire : une approche algorithmique
Commecertainsjournauxn’étaientpasdisponiblesàlabibliothèqueLénine,
jelesdemandaisàdesscientifiquesétrangersetbonnombred’entreeuxétaient
assezaimablespourm’envoyerleurspreprints.En1989,jereçusunlourdpaquet
de Michael Waterman avec une douzaine de manuscrits en préparation. L’un
d’eux formulait un problème ouvert que je résolus; j’envoyai ma solution à
Mike, sans trop me préoccuper des preuves. Mike m’avoua plus tard que la
lettre était écrite dans un style très «anglais russe» impossible à comprendre,
mais qu’il était surpris que quelqu’un fût capable de lire son propre travail
jusqu’à l’endroit où se trouvait le problème ouvert. Peu de temps après, Mike
m’invita à travailler avec lui à l’Université de Californie du Sud et, en 1992, je
donnai mon premier cours de bio-informatique.
Celivreestfondésurlecoursdebio-informatiquemoléculaire quej’aidonné
touslesansdansledépartementd’informatiquedel’UniversitédePennsylvanie
(de 1992 à 1995), puis dans le département de mathématiques de l’Université
de Californie du Sud (de 1996 à 1999). Il est destiné aux étudiants de licence
et de maîtrise d’informatique ou de mathématiques, ainsi qu’aux étudiants
de D.E.U.G. de bon niveau. Certaines parties du livre présenteront aussi de
l’intérêt pour les spécialistes de biologie moléculaire qui s’intéressent à la bio-
informatique. J’espère également que cet ouvrage sera utile aux professionnels
de bio-informatique.
La raison d’être de ce livre est de présenter des idées algorithmiques de
bio-informatique et de montrer la façon dont elles sont reliées à la biologie
moléculaire et à la biotechnologie. Pour y parvenir, cet ouvrage possède une
composantesubstantiellede«bio-informatiquesansformule»quiprésenteune
motivationbiologiqueetdesidéesinformatiquesdefaçonsimple.Cetteprésen-
tation simplifiée de biologie et d’informatique vise à rendre ce livre accessible
auxinformaticiensquidécouvrentcenouveaudomaineainsiqu’auxbiologistes
n’ayantpasunbagagesuffisantpouraborderdestechniquesinformatiquesplus
évoluées. Par exemple, le chapitre recherche en génétique décrit de nombreux
résultats informatiques associés à la recherche du gène de la mucoviscidose et
formule des problèmes informatiques que ces résultats ont motivés. Chaque
chapitre comporte une introduction qui décrit les idées informatiques et bio-
logiques sans formule. Ce livre se concentre sur les idées informatiques plutôt
quesurlesdétailsdesalgorithmesetungroseffortaétéfaitpourlesprésenter
de façon simple. Évidemment, pour parvenir à un tel exposé, on est obligé de
masquer certains détails informatiques et biologiques au risque d’être critiqué
pour cette «vulgarisation» de bio-informatique. Une autre caractéristique de
cet ouvrage est que la dernière partie de chaque chapitre décrit brièvement les
récents développements importants qui sont en dehors du corps du chapitre.
Dansledépartementd’informatique,lescoursdebio-informatiquedébutent
souvent par une introduction de deux à trois semaines que l’on pourrait inti-
tuler « la biologie moléculaire pour les nuls ». Si j’en crois mon expérience,
l’intérêt des étudiants en informatique (qui, en règle générale, n’ont aucune
connaissance en biologie) diminue rapidement s’ils sont confrontés à une intro-
ductionàlabiologiequineprésenteaucunlienavecl’informatique.Ilseproduit
Préface vii
le même phénomène avec les biologistes si on leur expose des algorithmes sans
lienaveclesproblèmesbiologiquesréels.J’aitrouvétrèsimportantd’introduire
la biologie et les algorithmes de façon simultanée, afin de susciter et de préser-
ver l’intérêt des étudiants. Le chapitre recherche en génétique atteint ce but,
bien qu’il présente volontairement une vision simplifiée de la biologie et des
algorithmes.J’aiaussitrouvéquecertainsbio-informaticiensn’avaientpasune
idée bien précise des liens entre les différents domaines de la bio-informatique.
Par exemple, les chercheurs qui travaillent sur la prédiction génétique ont par-
fois des connaissances limitées concernant les algorithmes de comparaison de
séquences.J’aidonctentédemettreenexerguelesliensexistantentrelesidées
informatiques et les différents domaines de la bio-informatique moléculaire.
Ce livre couvre à la fois les secteurs les plus récents de la bio-informatique
et ceux plutôt anciens. Par exemple, les matériaux présents dans le chapitre
protéomique informatique etlamajeurepartiedeceuxdeschapitresréarrange-
ments génomiques,comparaison de séquences etpuces à ADN n’avaientjamais
été abordés dans un livre jusqu’à maintenant. Par ailleurs, les sujets comme
ceux abordés dans le chapitre cartographie de restriction sont plutôt passés de
modeetdécriventdesapprochesexpérimentalesquisonttombéesendésuétude.
J’aitoutdemêmeincluscesnotionsinformatiquesunpeuanciennespourdeux
raisons. Tout d’abord, elles expliquent aux néophytes l’histoire des idées dans
ce domaine et les avertit que les sujets les plus chauds de la bio-informatique
évoluenttrèsrapidement.Enoutre,cesidéesinformatiquesontsouventunese-
conde vie dans différents domaines d’application. Par exemple, des techniques
presque oubliées de cartographie de restriction trouvent une nouvelle utilité
dans le domaine très à la mode de la protéomique informatique. Il existe de
nombreux autres exemples de ce genre (par exemple, certaines idées relatives
au séquençage par hybridation sont actuellement utilisées pour l’assemblage
shotgun à grande échelle) et je pense qu’il est important de montrer à la fois
les anciennes et les nouvelles approches informatiques.
Je tiens aussi à dire quelques mots sur un compromis qui a été fait dans
ce livre entre les parties expérimentales et théoriques. Il est certain que les
biologistes du XXIe siècle devront connaître des éléments de mathématiques
discrètes et d’algorithmique — ils devront au moins être capables de formuler
les problèmes algorithmiques motivés par leur recherche. En bio-informatique,
laformulationadéquatedesproblèmesbiologiquesestprobablementlacompo-
santelaplusdifficiledelarecherche,aumoinsaussidifficilequeleurrésolution.
Commentpouvons-nousapprendreauxétudiantsàformulerdesproblèmesbio-
logiquesentermesinformatiques?Commejen’ensaisrien,jepréfèrevousoffrir
une histoire en guise de réponse.
Il y a vingt ans, après avoir obtenu mon diplôme universitaire, j’ai mis une
annonce pour proposer mes services et faire du « conseil mathématique » à
Moscou. Mes clients étaient majoritairement des doctorants dans différentes
matières appliquées qui n’avaient pas un bagage mathématique suffisant et qui
espéraient obtenir une aide pour leur thèse (ou, du moins, ses composantes
mathématiques).Jemesuisretrouvéfaceàunevastecollectiondesujetsallant
viii Bio-informatique moléculaire : une approche algorithmique
de«l’optimisationduparcdel’équipementdedéblaiementdelaneigedansun
aéroport» à «la mise en place d’un programme de livraison de fournisseurs».
Danstouscesprojets,lapartielaplusdifficileétaitdecomprendrecequ’étaitle
problème informatique et de le formuler; la solution s’obtenait par application
directe de techniques connues.
Jamais je n’oublierai un visiteur, quarante ans, poli, bien bâti. Contraire-
mentauxautres,celui-civintavecuneéquationdifférentielleàrésoudre,plutôt
qu’avec son domaine de recherche. Au début, j’étais content mais par la suite,
il s’avéra que cette équation n’avait aucun sens. La seule façon de comprendre
ce qu’il fallait faire était de revenir au problème expérimental d’origine et d’en
déduire une nouvelle équation. Le visiteur hésita mais, comme c’était le seul
moyen qu’il avait d’obtenir son doctorat, il commença à me révéler certains
détails concernant son domaine de recherche. À la fin de la journée, j’avais
compris qu’il s’intéressait à l’atterrissage d’objets sur une plateforme peu so-
lide. J’avais également deviné pourquoi il ne m’avait jamais donné son numéro
de téléphone : il s’agissait d’un officier qui travaillait sur une recherche classée
secrète. La plateforme mal affermie était un navire et les objets qui atterris-
saientétaientdesavions.Jesuisconvaincuquelarévélationdecesecret,vingt
ans plus tard, ne brisera pas sa carrière militaire.
La nature est encore moins ouverte à la formulation de problèmes biolo-
giques que cet officier. En outre, certains d’entre eux, lorsqu’ils sont formulés
correctement, présentent de nombreuses options qui peuvent parfois masquer
ou travestir les idées informatiques. Comme il s’agit ici d’un livre traitant de
ces dernières plutôt que des détails techniques, j’ai volontairement utilisé des
formulations simplifiées qui permettent de présenter les idées de façon claire.
Ceci peut donner l’impression que cet ouvrage est trop théorique, mais je ne
connais pas d’autre moyen d’enseigner des idées informatiques en biologie. En
d’autres termes, avant de faire atterrir de vrais avions sur de vrais navires, les
étudiantsdoiventapprendrecommentfaireatterrirdesmaquettesd’avionssur
des maquettes de bateaux.
J’aimeraisinsistersurlefaitquecetouvragen’apaslaprétentiondecouvrir
uniformémenttouslessecteursdelabio-informatique.Certes,lechoixdessujets
a été influencé par mes propres goûts et recherches. Quelques grands domaines
delabio-informatiquenesontpasabordés—notammentlesstatistiquesADN,
la cartographie génétique, l’évolution moléculaire, la prédiction de la structure
protéique et la génomique fonctionnelle. Chacun de ces domaines mérite un
ouvrage à part entière; certains ont d’ailleurs déjà été écrits. Par exemple,
Waterman, 1995 [357] est une excellente référence pour les statistiques ADN.
Gusfield, 1997 [145] présente de nombreux algorithmes de chaînes et Salzberg
et al., 1998 [296] contient quelques chapitres qui couvrent la prédiction de la
structure protéique. Durbin et al., 1998 [93] et Baldi et Brunak, 1997 [24] sont
deslivresplusspécialisésquisefocalisentsurlesmodèlesdeMarkov.Baxevanis
etOuellette,1998[28]estunexcellentguidepratiquedebio-informatiquequise
consacre davantage aux applications des algorithmes qu’aux algorithmes eux-
mêmes.
Préface ix
J’aimerais remercier quelques personnes qui m’ont appris différents aspects
de bio-informatique moléculaire. Andrey Mironov m’a appris que le bon sens
est peut-être l’ingrédient le plus important de toute recherche appliquée. Mike
Waterman est un fabuleux enseignant, à l’époque où je suis parti de Moscou
pour Los Angeles, que ce soit en science ou dans la vie. En particulier, il m’a
appris avec beaucoup de patience que chaque article devait subir une douzaine
d’itérations avant d’être prêt à être publié. Bien que cette règle retarde la
publication de ce livre de quelques années, je l’enseigne scrupuleusement à
mes étudiants. Mes anciens étudiants Vineet Bafna et Sridhar Hannenhalli ont
été assez aimables pour m’apprendre ce qu’ils savaient et me rejoindre dans
de difficiles projets à long terme. J’aimerais également remercier Alexander
Karzanov, qui m’a enseigné l’optimisation combinatoire, y compris les idées
qui ont été les plus utiles dans mes recherches en bio-informatique.
Je voudrais remercier mes collaborateurs et co-auteurs : Mark Borodovsky,
avec qui j’ai travaillé sur les statistiques ADN et qui m’a convaincu en 1985
que la bio-informatique avait un grand avenir; Earl Hubbell, Rob Lipshutz,
Yuri Lysov, Andrey Mirzabekov et Steve Skiena, mes collègues pour la re-
cherche sur les puces à ADN; Eugene Koonin, avec qui j’ai essayé d’analy-
ser des génomes complets, avant le séquençage du premier génome bactérien;
Norm Arnheim, Mikhail Gelfand, Melissa Moore, Mikhail Roytberg et Sing-
Hoi Sze, mes collègues en recherche génétique; Karl Clauser, Vlado Dancik,
Maxim Frank-Kamenetsky, Zufar Mulyukov et Chris Tang, mes collaborateurs
en protéomique informatique; enfin, Eugene Lawler, Xiaoqiu Huang, Webb
Miller, Anatoly Vershik et Martin Vingron, mes collègues en comparaison de
séquences.
Je suis également reconnaissant à de nombreux collègues d’avoir discuté
avec moi de différents aspects de bio-informatique moléculaire; directement
ou indirectement, ils ont influencé la rédaction de cet ouvrage : Ruben Aba-
gyan,NickAlexandrov,StephenAltschul,AlbertoApostolico,RichardArratia,
Ricardo Baeza-Yates, Gary Benson, Piotr Berman, Charles Cantor, Radomir
Crkvenjakov, Kun-Mao Chao, Neal Copeland, Andreas Dress, Radoje Drma-
nac, Mike Fellows, Jim Fickett, Alexei Finkelstein, Steve Fodor, Alan Frieze,
Dmitry Frishman, Israel Gelfand, Raffaele Giancarlo, Larry Goldstein, Andy
Grigoriev, Dan Gusfield, David Haussler, Sorin Istrail, Tao Jiang, Sampath
Kannan, Samuel Karlin, Dick Karp, John Kececioglu, Alex Kister, George Ko-
matsoulis, Andrzey Konopka, Jenny Kotlerman, Leonid Kruglyak, Jens La-
gergren, Gadi Landau, Eric Lander, Gene Myers, Giri Narasimhan, Ravi Ravi,
MireilleRegnier,GesineReinert,IsidoreRigoutsos,MikhailRoytberg,Anatoly
Rubinov, Andrey Rzhetsky, Chris Sander, David Sankoff, Alejandro Schaffer,
DavidSearls,RonShamir,AndreyShevchenko,TempleSmith,MikeSteel,Lu-
bertStryer,ElizabethSweedyk,HaixiTang,SimonTavarè,EdTrifonov,Tandy
Warnow, Haim Wolfson, Jim Vath, Shibu Yooseph et les autres.
Travailler avec Bob Prior et Michael Rutterof de MIT Press a été un réel
plaisir.JeremercieégalementAmyYeager,quiaéditécelivre,MikhailMayofis,
qui a réalisé la couverture de la version anglaise, et Oksana Khleborodova,
Description:Cet ouvrage est la traduction fran?aise d’un texte d?sormais consid?r? comme une r?f?rence dans le domaine ?mergent de la bio-informatique mol?culaire. P. A. Pevzner y traite des cartes g?n?tiques, du probl?me de comparaison de s?quences et d’alignement en passant par les puces ? ADN et le r?arr