ebook img

De la Secuenciación a la Aceleración Hardware de los Programas de Alineación de ADN, una PDF

19 Pages·2015·2.42 MB·Spanish
by  
Save to my drive
Quick download
Download
Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.

Preview De la Secuenciación a la Aceleración Hardware de los Programas de Alineación de ADN, una

ib REVISTA MEXICANA DE ARTÍCULO DE REVISIÓN Vol. 36, No. 3, Sep-Dic 2015, pp. 259-277 INGENIERÍA BIOMÉDICA dx.doi.org/10.17488/RMIB.36.3.6 De la Secuenciación a la Aceleración Hardware de los Programas de Alineación de ADN, una Revisión Integral D. Pacheco Bautista1, M. González Pérez1, I. Algredo Badillo2 1Universidad Popular Autónoma del Estado de Puebla. 2 Universidad Politécnica de Tlaxcala. RESUMEN Enlosúltimosañoshaocurridounavanceimpresionanteenlasmáquinasdesecuenciaciónparalelamasiva,también llamadas de secuenciación de siguiente generación (NGS), por ejemplo, máquinas recientes como Illumina Hiseq son capaces de generar millones de lecturas en una sola corrida. No obstante, estas tecnologías están limitadas a secuenciarsolofragmentospequeñosdematerialgenético(entre35y1100nucleótidos),porloqueparasecuenciarun genomacompletoesnecesariodividirlacadena,secuenciaryposteriormenteensamblarlaslecturascortasobtenidas. En este trabajo se revisan y comparan las tecnologías de secuenciación recientes, se estudia el proceso de ensamble de genomas completos y se establece formalmente el problema de la alineación. También se incluye un resumen de los principales programas de alineación y sus algoritmos que lo soportan. Finalmente, después de concluir que las tecnologías de secuenciación han superado en velocidad por un factor mayor a 10x a los programas de alineación, se revisa la aceleración Hardware como alternativa para acelerar tales programas. Este trabajo al ser una revisión integral pretende contribuir al desarrollo de investigación en el área de bioinformática en el país. Palabras clave: secuenciación NGS, mapeo, bioinformática, aceleración hardware. Correspondencia: Fecha de recepción: Daniel Pacheco Bautista 8 de julio de 2015 Ciudad Universitaria S/N Barrio Sta. Cruz Tagolaba, C.P. 70760, Tehuantepec, Oaxaca. Fecha de aceptación: Correo electrónico: [email protected] 3 de septiembre de 2015 260 RevistaMexicanadeIngenieríaBiomédica·volumen36·número3·Sep-Dic,2015 ABSTRACT Inrecentyears,impressiveprogresshasoccurredinthemachinesofmassivelyparallelsequencing,alsocalledofnext- generationsequencing(NGS),forexample,recentmachineslikeIlluminaHiSeqarecapableofgeneratingmillionsof reads in a single run. However, these technologies are limited to sequence only small fragments of genetic material (35to1100nucleotides),sothatforcomplete-genomesequencing,itisnecessarytodividethechain,tosequencethe fragments, and, subsequently, to assemble the obtained short readings. In this paper, the recent NGS sequencing technologies are reviewed and compared, analyzing the problem of sequence assembly, and formally establishing the problem of alignment. Also, it is examined the main alignment programs and the algorithms that support them. Finally,afterconcludingthatsequencingtechnologieshavespeedthatexceeds10timestothespeedofthealignment programs,thehardwareaccelerationisreviewedasanalternativetoacceleratetheseprograms. Thiswork,whichisa comprehensiveanalysisandreview,aimstocontributetothedevelopmentoftheresearchintheareaofbioinformatics in the country. Keywords: NGS sequencing, mapping, bioinformatics, hardware acceleration. INTRODUCCIÓN una vez que el precio caiga por debajo de esa cantidad, finalmente sea suficientemente La secuenciación de ADN, es el proceso efectivo en costo para permitir a los médicos, mediante el cual se determina el orden entregar tratamientos basados en la genética de las bases nucleicas (Adenina, Guanina, del paciente. En lugar de administrar Citosina y Timina) dentro de una cadena tratamientos basados en exámenes y de ADN, siendo una tarea clave en biología síntomas, el médico será capaz de revisar molecular, genómica y medicina (1). En el genoma del paciente para diagnosticar y los últimos años, los avances tecnológicos perfeccionar tratamientos desde la diabetes han hecho posible secuenciar en forma más hasta el alzhéimer. Lamentablemente, las económica y rápida enormes cantidades de máquinas de secuenciación actuales están material genético abriendo oportunidades limitadas a secuenciar segmentos cortos de sin precedentes para la investigación y el ADN, por lo que para secuenciar un genoma diagnostico. La secuenciación de ADN tiene completo es necesario dividirlo en segmentos, una lista larga y versátil de aplicaciones, secuenciarlos y posteriormente ensamblar siendounatecnologíaclaveenlainvestigación los códigos obtenidos mediante software de algunos tipos de cáncer, así como sofisticado con elevada complejidad temporal del VIH, ayuda también a incrementar el yespacial. Estosprogramasauncuandotiene conocimiento básico de organismos y células, soporte para ejecución en múltiples núcleos diagnostico de pacientes, investigación a y/o múltiples procesadores, no pueden la resistencia de drogas, o predisposición competir con la velocidad de las máquinas a enfermedades. Adicionalmente el precio de secuenciación modernas, representando de secuenciar un genoma humano pronto el cuello de botella del proceso de análisis. caerá por debajo de 1000 dólares, este precio En este artículo se presenta un panorama ha sido considerado por mucho tiempo el global de la secuenciación enfatizando en el punto clave para la generalización de la problema de la alineación, con un estudio de medicina personalizada. La idea es que PachecoBautistay col. DelasecuenciaciónalaaceleraciónhardwaredelosprogramasdealineacióndeADN,unarevisión 261 integral los programas más utilizados y los algoritmos el secuenciador 454, un año después Solexa que los soportan, así como una descripción de hace lo propio con el secuenciador Genome las posibles alternativas para su aceleración Analyzer (Que recientemente evolucionó mediante hardware especializado. a Hiseq), seguido por el lanzamiento de SOLID de la empresa Agencourt, CGA de complete Genomics y PacBio RS de SECUENCIACIÓN Y Pacific Biosciences, los cuales son sistemas TECNOLOGÍAS NGS representativos de secuenciación paralela masiva o tecnología NGS. Algunas de estas La secuenciación de ADN tiene sus compañías fundadoras fueron compradas inicios en 1977, cuando Frederick Sanger posteriormente por otras compañías: En y equipo desarrollaron el método de el 2006 Agencourt fue comprada por secuenciación enzimática, también conocida Applied Biosystem, y en el 2007, 454 fue como secuenciación Sanger, didesoxi o de comprada por Roche, mientras que Solexa finalizacióndecadena(2), yMaxamyGilbert fue comprada por Ilumina. Después de años desarrollaron el método de secuenciación de evolución los sistemas NGS exhiben cada química (3). Debido a su alta eficiencia y vez mejor desarrollo y ventajas propias de la baja radioactividad, la secuenciación Sanger tecnología específica, como se muestra en la fue adoptada como la tecnología primaria Tabla 1. En general algunas tecnologías ya en la “primer generación” de aplicaciones de superan el Terabyte de lecturas producidas secuenciación comerciales y de laboratorio. por corrida, mientras que otras alcanzan En sus inicios, la secuenciación Sanger exactitudes comparables con la lograda era laboriosa y requería de materiales por el método de Sanger. No obstante radioactivos, después de años de mejora la longitud de lecturas limitada a valores Applied Biosystems introdujo la primera iguales o inferiores a 1100 nucleótidos sigue máquina de secuenciación automática siendosuprincipallimitante.Actualmentelos (nombrada ABI370) en 1987, adoptando secuenciadores NGS son comercializados por electroforesis capilar (EC), la cual hizo el un número importante de empresas, cada una proceso más rápido y exacto. AB370 podía desarrollando y aplicando diferentes métodos detectar 96 nucleótidos simultáneamente, y tecnologías (Tabla 2), sin embargo a pesar 500K nucleótidos al día, y las longitudes de del dinamismo tecnológico hay principios lectura alcanzaban los 600 nucleótidos. Los generales utilizados en la construcción de instrumentos de secuenciación automática tales dispositivos. basados en EC y secuenciación Sanger, así como el software asociado, llegaron a ser las Las plataformas NGS comparten tres herramientas principales para la culminación pasos fundamentales: Preparación de del proyecto del genoma humano en el 2003 la muestra, inmovilización y detección (4). Este proyecto estimuló fuertemente (Figura 1) (5) (6) (7). Generalmente la el desarrollo de nuevos instrumentos de preparación de la muestra, involucra la secuenciación para incrementar la velocidad adición de secuencias de ADN comunes o y exactitud reduciendo simultáneamente los universales, conocidas como “adaptadores”, a costos y la mano de obra, surgiendo, en los extremos de hebras de ADN fragmentado el 2005, las tecnologías de secuenciación aleatoriamente, la preparación resultante es nombradas de siguiente generación o nombrada “librería de secuenciación”. En tecnologías NGS, las cuales difieren del la etapa de inmovilización, los adaptadores método de Sanger fundamentalmente en el se utilizan para sujetar los fragmentos de uso exhaustivo de tecnología paralela. En ADN a una superficie sólida, de esta manera el 2005, 454 Life Sciences lanza al mercado definiendo el sitio en el cual la reacción de Revista Mexicana de Ingeniería Biomédica En general algunas tecnologías ya superan el NGS son comercializados por un número importante Ter abyte de lecturas producidas por corrida, mientras de empresas, cadRae viustna aM edxeicsaanrar doel lIanngednoie ríya Baiopmliécdaicnad o que otras alcanzan exactitudes comparables con la diferentes métodos y tecnologías (Tabla 2), sin lograda por el método de Sanger. No obstante la embargo a pesar del dinamismo tecnológico hay lonEgnit udg endeer alle ctaulgrausn alsi mtietcandoal oag íavsa loyrae s siugpuearlaens oel pNrGinSc ispoions c ogmeneerrcaialelisz audtiolsiz paodro su ne nn úlma ecroon ismtrpuocrctiaónnt ed e infeTreiroarbeys te ad e 1le1c0tu0r asn purcoldeóutciiddoass posirg cuoer ridsaie, nmdioe ntrsaus tdael ese mdipsrpeossaist,i vcoasd. a una desarrollando y aplicando que otras alcanzan exactitudes comparables con la diferentes métodos y tecnologías (Tabla 2), sin principal limitante. Actualmente los secuenciadores lograda por el método de Sanger. No obstante la embargo a pesar del dinamismo tecnológico hay longitud de lecturas limitada a valores iguales o principios generales utilizados en la construcción de 262 RevistaMexicanadeIngenieríaBiomédica·volumen36·número3·Sep-Dic,2015 inferiores a 1100 nucleótidos sigue siendo su tales dispositivos. principal limitante. Actualmente los secuenciadores secuenciación comenzará, adicionalmente, de secuenciación se amplifica para formar a excepción de PacBio RS, la librería Plataforma Compañía Longitud de lectura Exactitud Lecturas por corrida Tiempo de corrida Costo por corrida Revista Mexicana de Ingeenni edróíala Breiso médica Sanger ABI Applied Biosystems 400$\sim$900 nt 99.999\% - 20 min a 3hrs -- 3730XL Tabla 1. Características de los sistemas de secuenciación NGS. Las Plpatlaaftoarfmoar maCso mpNañGíaS compLarotnegnit ud tdree lse cturpaa soEsx actitud 3L. ectSuEraCs pUorE cNorCridIaA CTIiÓemNpo D deE c oCrrAidDa ENCoAstSo pLorA coRrrGidAa S GS FLX+ 454 Life 1000 nt 99.997\% 1 Gb 23 Hrs. 6200 en dólares fu ndamentalesS:c iencPesr,e Rpoacrhaec ión de la muestra, DE ADN Sanger ABI Applied Biosystems 400$\sim$900 nt 99.999\% - 20 min a 3hrs -- inmovilización y detección (Figura 1) (5) (6) (7). 3730XL GeHnisee rqa 2l5m00e nteS olelxaa , Ilplurmeipnaa ración1 25 dnte la muestr9a8,\ % L1a Tsb lecturas obten3id~1a0s díads e los ins2t0r0u0m0 entos de inSvOoLlGuiDSc rFaL Xla+ adAipc4pi5lói4en dL Bidfeieo ssyestceumesn ci7a5s1 n0dt0 e0 nAt DN comun9e99s9. 9.999\%7\% s3e10 cG0u bGe nb ciación de 273 dHícaruss. a (SlqEu) ier ge6n210e50r0 a0c0 ión son Sciences, Roche o 5u5n0ixvl ersales, co nocidas como ` `adaptadores’’, a los demasiado cortas c1o4m díoas (PpEa)r a cubrir regiones de ex treHmisoeqs 250d0 e Sohleexbar, aIlslu mindae A1D25N n t fragmentad9o8 \% in1t Tebr és en investiga3c~i1ó0n d íags enómica, 2p0o00r0 lo que fue aleCaGtAo riamenteC,o mplleat e Gepnroempiacsr aci6ó2 n-7 0 ntr esultante 9e9s. 9\% n-e- cesario el desarro-l-l o de métodos qu--e permitieran PlatSfoOrLmi D Applied Biosystems 75 nt 99.99\% 300 Gb 7 días (SE) 15000 no mb55ra0xdla “librería de secuenciaci ón”. En la etapa de secuenciar segmento1s4 dmíasá (sP Ela) rgos de ADN e incluso inPmacoB viiol iRzsa ciónPa, ciflioc sB ioascdiaenpcteasd ores8 60s-e1 10u0t ilizan pa9r9a. 999\% d0e.0 1gGebn omas comple0.t5o-s2 hr(sW GS, del 9i0n0g lés Whole su jetaCrG Al os fragCmomenplteotes Gedneo mAicsD N6 2-a7 0 untn a superfici9e9 .9\% G--e nome Sequencing--) . La estrategia m-- ás utilizada se Platform sólid a, de esta manera definiendo el sitio en el cual la conoce con el nombre de secuenciación Shotgun (8), reaccPiaócnB io Rs deP acific Bsieocscuieennccesi aTcaibólan8 6 10.- C11a0r0ac cotemríesnticzaasr ád9,9e . 9lo99s \%sis teym0 s.a0es1 Gdilebu ssetcruae dneci amciaónne Nr0a.G5 -sS2ih.m rsp lificada en9 0l0a Figura 2. En   adici onalmente, a excepción de PacBio RS, la esta técnica la cadena de ADN a secuenciar se clona librería de secuenciación se amplifica para formar a través del uso de PCR o mediante una bacteria características de secuenciacTióanbl Ta a1d.b eCltaaerca2tca.tebPrlíesltasitc aasf oydr em loass sdiseteamsneafcsiut dreienó scnei,ac uceeióln ncniaNúcmiGóneS rN.oG Sd.e copias que se obtienen se d  istinPglautiadfoarsm eas paciLailbmreerníat e. El pasSoo pfoirntae l del proceGsoe neración conoceR ceaocmcióon coberturaM. éPtoodsot edrei ormente la muestra es la detección. Ldaes plataformas de secuenciaciódne resultandtee se divide aDleeatetcocrióianm ente en pequeños N GS integran una sevcaureinecdiaacdió nd e tecnologías ópticasc ayr acterísticfarsa gmesnetcouse ncyi acsieón secuencía en forma desordenada de fluiPdlaotsa,f ormpaa ra Ldiebsraerrírao llar y Sopmorotne itorear laGse neración medianRtee accaiólng una de Méltaosd o dtee cnologías revisadas Adaptadores Placa Emulsión PCR Síntesis Piro- reaccGioSn FeLsX de secLuiendneeac l eias ción moPleiccou-tliaturl,a dolaras cualedse previamdee nte, la divisiónDS eaetlceeuccaeintóocnir aicaió cn rea fragmentos de secuenciación características secuenciación pued en ser mediante síntesis de la polimerasa de diferen te tamaño por lo que en este paso es necesario ADNH iose ql igación dAed Aaopdtalaipdgtoaodrenosru esc leótCidePloldasac sa fd leu folurjeos centePsEu.me nutles iPóCn RPC eRl egir úSSníínnittceeassiimss ente las qPuNieruo -cs leeó etindocsu entrant eernm iunand orraens go Cada2 0c0iG 0c lSo F LdXe deteLcicnLieóianlneea slc eos nsiste enP ilcao- tiintuclaodroprao ración apropiado para la tecSnrfeelocuvuloeoerrnesgcsiíbciaaelce niscó dinae etsiqeuceutaednocs iacicóonn a de un Hsisuesqt rato de Adáacpitdadoo resn ucleiCcoel dads edet eflcutjao ble aPlu ente PCR utilizarS. íUntensias vez obteniNd uacsle óltaidso sl ecturast,e rlmoisna dtroaressl apes tempSlaOdL2oi0D 00 inmoviAlidzLaapindteaoadl,oe rse sl avadoC eldyas dec falupjtou ra dEem ulsión PCeRn tre eLsitgaasci óns e utilizanreS voepnrdasiarbsal e s rdeec eotinqousletitrgauod-ionrsu cmleócetoidndi oasn te imágVen4 es o señaleLsi ndeaelel s evento molecular mediante técnicas computacionalfleeutsoiq reusseocteafndicosistai ccoand faluso relasc esnecicau encia sistemCGaAsS O LóipDt icos AddeAa pdtaaapdlttoaadre osr vese lociAdrCareedlgd.l aoss E ddele f lnucajionc ol-o dAEemm pullisfiiócna cPióConR r iginaLLl,ii ggaaacc iióóenn s te últimoSSo onpnddaasas so dsed ee oleloig liogc-ono-unnculoeccóleteiód toidcs oosm o incorPplaotVrfoa4rc mió n, lavCairdLcoiunl eaaryeles s captureas fesraes dree ApDitNe hasctiarc ular rodanetne samble de fragmentosee.ti tqiquueteatdaodso sc ocno nfl uflouroersecsecnecniac ia obtener la lectura de la secuencia completa de ADN. CGA Adaptadores Arreglos de nano- Amplificación Ligación Sondas de oligo-nucleótidos PacPBliaot fRorSm AdCapirtcaudloarreess de Guesíafesr adse d eo nAdDa Ne n Mciorcléucluarl ar oúdnai nctae Síntesis en tiempo eNtiquuceletaódtoidso cso n fleutoiqreusecteandcoisa con burbujas modo cero real fluorescencia fosfo-vinculados PacBio RS Adaptadores de Guías de onda en Molécula única Síntesis en tiempo Nucleótidos etiquetados con burbujas modo cero real fluorescencia fosfo-vinculados Tabla 2. Plataformas de secuenciación NGS.   Tabla 2. Plataformas de secuenciación NGS.   Figura 1. Flujo de trabajo de las tecnologías NGS: Preparación de las muestras, inmovilización y detección. Fuente: Referencia (9). Figura 1. Flujo de trabajo de las tecnologías NGS: Preparación de las muestras, inmovilización y detección. Fuente: Referencia (9). PachecoBautistay col. DelasecuenciaciónalaaceleraciónhardwaredelosprogramasdealineacióndeADN,unarevisión 263 integral características de secuenciación detectables computacionales sofisticadas la secuencia y distinguidas espacialmente. El paso final original, a este último paso se le conoce como del proceso es la detección. Las plataformas ensamble de fragmentos. de secuenciación NGS integran una variedad El ensamble de fragmentos es una de tecnologías ópticas y de fluidos, para tarea ardua, realizada mediante técnicas desarrollar y monitorear las reacciones de computacionales de elevadas prestaciones. secuenciaciónmolecular,lascualespuedenser El objetivo es reconstruir la cadena que mediante síntesis de la polimerasa de ADN representa el código genético de la molécula o ligación de oligonucleótidos fluorescentes. original a partir de los millones de lecturas Cada ciclo de detección consiste en la obtenidas mediante las máquinas NGS. Lo incorporación de un sustrato de ácido anterior puede llevarse a cabo mediante dos nucleico detectable al templado inmovilizado, formas, en la primera la reconstrucción se lavado y captura de imágenes o señales del realiza utilizando como referencia un genoma evento molecular mediante sistemas ópticos secuenciado previamente, tal mecanismo de alta velocidad. El ciclo de incorporación, recibe el nombre de alineación o mapeo. lavado y captura se repite hasta obtener la La segunda reconstruye la cadena a partir lectura de la secuencia completa de ADN. exclusivamente de las lecturas secuenciadas, y es conocida como ensamble De Novo o SECUENCIACIÓN DE CADENAS simplemente Ensamble. El resto de este LARGAS DE ADN artículo está dedicado a la alineación o mapeo, referimos al lector interesado en Las lecturas obtenidas de los instrumentos ensamble De Novo a consultar las referencias de secuenciación de cualquier generación son (10) y (11) para un estudio más profundo. demasiado cortas como para cubrir regiones de interés en investigación genómica, por lo ALINEACIÓN DE LECTURAS que fue necesario el desarrollo de métodos CORTAS que permitieran secuenciar segmentos más largos de ADN e incluso de genomas La alineación de lecturas cortas se utiliza completos (WGS, del inglés Whole Genome en proyectos de re-secuenciación, donde se Sequencing). La estrategia más utilizada obtiene el código genético de miembros se conoce con el nombre de secuenciación de una especie que ha sido secuenciado Shotgun (8), y se ilustra de manera previamente mediante un método De simplificada en la Figura 2. En esta técnica la Novo. El ejemplo más clásico es el cadena de ADN a secuenciar se clona a través del ser humano, en tales proyectos se del uso de PCR o mediante una bacteria persigue encontrar variaciones genómicas anfitrión, el número de copias que se obtienen que caractericen en forma particular a se conoce como cobertura. Posteriormente la un individuo mediante comparación con muestra resultante se divide aleatoriamente los resultados obtenidos del proyecto en pequeños fragmentos y se secuencía del genoma humano, intentando explicar en forma desordenada mediante alguna de tópicos como susceptibilidad a enfermedades, las tecnologías revisadas previamente, la rasgos fisiológicos característicos, resistencia divisiónaleatoriacreafragmentosdediferente a drogas, etc. En tales aplicaciones, tamaño por lo que en este paso es necesario la elevada cantidad de datos generadas elegir únicamente las que se encuentran en por las tecnologías NGS así como un rango apropiado para la tecnología de la limitada longitud de las lecturas secuenciación a utilizar. Una vez obtenidas producidas evita el uso de programas las lecturas, los traslapes entre estas se de alineación tradicionales como BLAST utilizan para reconstruir mediante técnicas (12). Adicionalmente, a diferencia de las 264 RevistaMexicanadeIngenieríaBiomédica·volumen36·número3·Sep-Dic,2015 Revista Mexicana de Ingeniería Biomédica Figura 2. Proceso siFmigpulirfiac 2a.d Porodceeslao essimtrpaltiefgiciaaddoe dsee lcau eesntcriaatecigóina dSeh soetcguuenn.ciación Shotgun. Definición del problema de la alineación El ensamble de fragmentos es una tarea ardua, De Novo. El ejemplo más clásico es el del ser A partir de la discusión previa y de la teoría realizada apmliceadciaionntees tdéecnailcinase accióonmptíuptiaccaiso,naelleisn tedreé s humano, en tales proyectos se persigue encontrar de secuenciación NGS, pueden determinarse elevadas aphroersataceisotánecse. nEtrla odbojeetnivolo ceasl izreacrovnasrtiraucirio nlae s variaciones genómicas que caractericen en forma algunas características importantes del cadena qmuíen imreapsreesenntrtae leals cleócdtiugroa sgyenélaticroe fedreen cliaa , particular a un individuo mediante comparación con problema de la alineación de lecturas cortas moléculae osridgeicniarl sae pparroticre dsaen logse nmoimlloanseqs udee sleecetuspraesr a los resultados obtenidos del proyecto del genoma de ADN: obtenidast emngeadnianetlee vlaadsa msáimquiliintausd NcoGnS.e lLoge annotmeraiodr e humano, intentando explicar tópicos como puede llerveaferrseen cai ac.aboP amraeddiaimnteen sdioons afroreml apsr,o benle mlaa , susceptibilidad a enfermedades, rasgos fisiológicos • El alfabeto está constituido por 4 primera lean receolnsetjreumccpilóon sdee lreagleiznao mutailizhaunmdoa ncoo,moe l caraclteetrríassticΣos, =resis{tAen,cCia, Ga, Td}rogcaasd,a etucn. aEn tales número de lecturas m es usualmente 107 − referencia un genoma secuenciado previamente, tal aplicraecpiorenseesn, tlaan deloevaadau cnantniduacdle ódtei ddoa,toss igneneradas 108, la longitud de una lectura l es mecanismo recibe el nombre de alineación o mapeo. por elmasb atregconocluoagníadso nNoGsSe saasbí e ceolmtiop olad elimitada de 35-1100 nucleótidos, la longitud del La segunda reconstruye la cadena a partir longibtuadse deen luansa lesecctuureansc iparoesduccoimdaúsn euvsiatar eell uso de genoma |R| es 3 × 109 nucleótidos y las exclusivamente de las lecturas secuenciadas, y es progrsaímmbaos lodeN aleinnesaucilóung atrradicionales como BLAST variaciones entre un humano y otro son conocida como ensamble De Novo o simplemente (12). Adicionalmente, a diferencia de las apenas alrededor del 0.1% (13). Lo • El genoma de referencia es fijo y Ensamble. El resto de este artículo está dedicado a la aplicaciones de alineación típicas, el interés ahora anterior ha incubado el desarrollo de nuevos conocido previamente, su tamaño es alineación o mapeo, referimos al lector interesado en está centrado en localizar variaciones mínimas entre programas de alineación de baja sensibilidad del orden de unas decenas a miles de ensamble De Novo a consultar las referencias (10) y las lecturas y la referencia, es decir se procesan y alta velocidad denominados alineadores millones de nucleótidos. Lo que sugiere (11) para un estudio más profundo. genomas que se espera tengan elevada similitud con de lecturas cortas, cuyos principios de que pueda indexarse una sola vez y el genoma de referencia. Para dimensionar el funcionamiento serán tratados en esta y en reutilizarse en cada proyecto de re- problema, en el ejemplo del genoma humano, el la siguiente sección. secuenciación de esa misma especie. número de lecturas $m$ es usualmente $10^7-10^8$, 4. ALINEACIÓN DE LECTURAS CORTAS la longitud de una lectura $l$ es de 35-1100 nucleótidos, la longitud del genoma $|R|$ es $3\times La alineación de lecturas cortas se utiliza en 10^9$ nucleótidos y las variaciones entre un humano proyectos de re-secuenciación, donde se obtiene el y otro son apenas alrededor del 0.1\% (13). Lo código genético de miembros de una especie que ha anterior ha incubado el desarrollo de nuevos sido secuenciado previamente mediante un método programas de alineación de baja sensibilidad y alta Revista Mexicana de Ingeniería Biomédica velocidad denominados alineadores de lecturas de la plataforma específica de secuenciación NGS cortas, cuyos principios de funcionamiento serán utilizada, así como del tipo de datos procesados, es tratados en esta y en la siguiente sección. decir, si los datos generados son lecturas sencillas o por pares, pero también de restricciones impuestas por el usuario. Es importante notar como la definición de mapeo establecida debe permitir Definición del problema de la alineación alineaciones aproximadas, debido fundamentalmente a ciertas particularidades que ocurren en el genoma y A partir de la discusión previa y de la teoría de en la secuenciación, las cuales serán revisadas a secuenciación NGS, pueden determinarse algunas continuación. características importantes del problema de la alineación de lecturas cortas de ADN: Diferencias biológicas: Son diferencias locales pequeñas del genoma siendo considerado con • El alfabeto está constituido por 4 letras respecto al genoma de referencia conocido para su $\Sigma = \{ A,C,G,T \}$ cada una especie, ocurren con una frecuencia de representando a un nucleótido, sin embargo aproximadamente 1/1000 en el caso del genoma cuando no se sabe el tipo de base en una humano (13). Un ejemplo de estos son los secuencia es común usar el símbolo $N$ en polimorfismos de nucleótido simple (SNP), los su lugar. cuales básicamente representan la sustitución de un • El genoma de referencia es fijo y conocido solo nucleótido de la cadena de referencia (Figura previamente, su tamaño es del orden de unas 3a), los SNPs ocurren principalmente por la decenas a miles de millones de nucleótidos. diversidad encontrada dentro de una misma especie, Lo que sugiere que pueda indexarse una sola por ejemplo en el caso de los humanos un SNP vez y reutilizarse en cada proyecto de re- podría ser responsable del color del cabello o la secuenciación de esa misma especie. susceptibilidad a una enfermedad en particular. Otras • Las lecturas tienen una longitud fija entre variaciones biológicas que ocurren en secuencias 35-1100 nucleótidos para las tecnologías de genómicas son las inserciones y las supresiones secuenciación actuales. La cantidad de (indels), en la cual un segmento de la lectura difiere lecturas suele ser muy grande del orden de Revista Mexicana de Ingeniería Biomédica de la referencia debido a la inserción o supresión de millones por cada pasada de las máquinas una o más bases. Los indels causan un NGS. desplazamiento de las bases con respecto al genoma • La similitud entre el genoma de referencia y diferdeen creifaerrleon cida,e t alu cno mSoN seP m udeesbtriad eon lao s iqnucies osu bn y error presentan un análisis comparativo de 60 programas PachecoBaeul tistaygceoln.omDea lasecureen-csiaecciuónenacliaadaoce leracióensh ardwaredelosprogramasdealineacióndeADN,unarevisión integral aproximadamente del 99.9 \%. máquc idnea l ag Feingeurraa l3m. ente ocurre en una única fila26 d5e las de este tipo. Otros trabajos como los de las lectu ras, mientras que un SNP ocurre en todas las referencias (15), (16) y (17), limitan el estudio a un An•te Lesatse pleancoturarmaas etli epnroebnlemuan adell omnagpietou dpuefidjea lecturas qu e cubren esa región. De es ta forma la pequeño subconjunto de tales programas (los más estableencetrrsee en3 5fo-r1m1a0 0genenrualc dleeó ltai sdiogusienptea mraanelraa:s P1=A G G C T T A G C A P1=A G G C T T A G C A P1=A G G C T A T A G C A cobertura o profundidad de las lecturas cortas puede utilizados y referenciados al momento de escribir tecnologías de secuenciación actuales. P1=A G G C T A A G C A P1=A G G T C T T A G C A P1=A G G C T T A G C A Entradas: utilizarse p ara de tectar y corregir el error. La cada artículo), pero analizándolos en forma más La cantidad de lecturas suele ser muy a) b) c) frecuencia de ocurrencia de los errores de profunda. En realidad, es difícil poder aseverar que • graUnnd ecodnejulnotor ddeen ldecetumrasil loconretass pdoer AcaDdNa secuFeingcuiraació3.n Tesre smcuayso sbadjea,d iafelrreendceiadsobr iodleólg i1ca\s%. ae)n las un programa sea mejor que otro, cada uno muestra $f_ ,….,f_ , cada una de longitud $l$ Figura 3. Tres casos de diferencias biológicas. a) polimorfismo pasad1a demla$s máquinas NGS. • Una secuencia de referencia $R$ de tamaño lectuprdoael isnm udcolerefió ltsiadm om osidmaeyplone ur(SícaNle Pód)t ebid) lioansssei rmtceipócnlne doe( SlboNasgPe,í )ca)bs e) lNiimnGisneaSrcci ói(nó5 n). características particulares que lo hace apropiado a de base. • La$|Rs|$i militud entre el genoma de de base, c) eliminación de base. determinada plataforma de secuenciación (illumina, • refUerne gnrcuipao ydee rlegsternicocmionaesr ed-esle pcruoecenscoi ado es   Roche 454, etc.), o a un tipo de dato específico aproximadamente del 99.9 %. Errores de secuenciación: Un error de (ADN, bisulfito, miARN, ARN, etc.). También Salida: secuenciación ocurre Ercruoar nddeo s ecluae ncmiaácqióunina de difieren en la forma en que reportan los resultados de Ante este panorama el problema del secuenciación etiqueta incorrectamente una base. Por • Posiciones en $R$ en donde cada lectura se la alineación, el número de desapareos, inserciones y mapeo puede establecerse en forma general ejemplo en la FigAur Ga 4G, sTe Are p o r t a uAn Tn uTc Gleó Cti dTo de mapea exacta o aproximadamente. supresiones (indels) permitidas, la habilidad de d e la siguiente manera: gdue anLAiencdateu n(rGains)a en( Ae)Al g G oe cn Guo rm rTTea G,A e r CCena lCCdmo TTenn d AAtee .TTu nTTE nsGG u cCCpleo TóTsti ibdloe permitir indels consecutivos, la capacidad de alinear EEnl tgrarudpaos :de restricciones puede variar dependiendo lecturas apareadas (PE), el uso de información de Referencia A G G T A C C T A T T G C T calidad (QA), entre otras variantes. La Tabla 3 • Un conjunto de lecturas cortas de ADN resume las características de los programas de f1,...,fm, cada una de longitud l   alineación más representativos en la actualidad. Figura 4. Error de secuenciación. La lectura de la • Una secuencia de referencia R de Figura 4. Error de secuenciación. La lectura de la segunda fila segunda fila fue etiquetada como una G en lugar de tamaño |R| fue etiquetada como una G en lugar de una A, en estos casos la Por otra parte, algorítmicamente la mayoría de los una A, en estos casos la cobertura puede ayudar a cobertura puede ayudar a reconocer y corregir el error. programas de alineación de lecturas cortas utilizan • Un grupo de restricciones del proceso reconocer y corregir el error. solo dos estrategias: Tablas Hash y Transformada de Burrows-Wheeler (TBW), esta última siendo el Salida: cuales básicamente representan la sustitución Repeticiones: Normalmente los genomas contienen resultado de la evolución de los árboles y arreglos de de un solo nucleótido de la cadena de • Posiciones en R en donde cada lectura gran cantidad de regiones repetidas, las cuales crean sufijos. Ambas estrategias serán discutidas en los referencia (Figura 3a), los SNPs ocurren se mapea exacta o aproximadamente. problemas de alineación fundamentalmente por las apartados siguientes. principalmente por la diversidad encontrada limitadas longitudes de las lecturas generadas por las El grupo de restricciones puede variar máqdueinnatrso NdGeSu, nean meissemnaciae speenctriee, mpoárs ecjoermtapsl osean dependiendo de la plataforma específica de en el caso de los humanos un SNP podría tales lecturas, mayor es la probabilidad de que se secuenciación NGS utilizada, así como del ser responsable del color del cabello o 5.1 Algoritmos basados en Tablas Hash concuerden erróneamente en localidades del genoma tipo de datos procesados, es decir, si los datos la susceptibilidad a una enfermedad en que se repiten. Este punto se trata en varias formas, generados son lecturas sencillas o por pares, particular. Otras variaciones biológicas que Para lograr eficiencia, todos los métodos deben dependiendo del programa usado, muchos programas pero también de restricciones impuestas ocurren en secuencias genómicas son las basarse en un tipo de pre-computo. Tablas Hash utilizan la primer concordancia para la alineación, por el usuario. Es importante notar como inserciones y las supresiones (indels), en la utiliza la idea de compilar una lista de todas las la definición de mapeo establecida debe miencturaals unqusee gmoetrnotso ddeelsacalretcatnu raárdeiafise reredpeetlaitivas palabras de longitud $l$ y determinar una sola vez permitir alineaciones aproximadas, debido comrpelfeetraemnceinated, eblaidmoenatalableinmseernctieó nnoingsuupnroe sidóen los sus posiciones en el genoma de referencia. fundamentalmente a ciertas particularidades métoddeous nareosumelávse baesle s.prLoobsleimndae, ls rceacuusrarnienudno a Posteriormente puede utilizarse un algoritmo de que ocurren en el genoma y en la soludcieosnpelasz ammáise nsotofisdteicaladsasb acsoemsoc oenl uressop edcet oleaclturas hasheo, para transformar una lectura corta en una secuenciación, las cuales serán revisadas a por pgaenreosm. a de referencia, tal como se muestra en clave que permita una búsqueda rápida. Aunque esta continuación. los incisos b y c de la Figura 3. idea es teóricamente concebible, falla en la práctica Diferencias biológicas: Son diferencias Errores de secuenciación: Un error de por el uso excesivo de memoria en la computadora, locales pequeñas del genoma siendo secuenciación ocurre cuando la máquina de 5. PROGRAMAS DE ALINEACIÓN además de que, el esquema básico aún no considera considerado con respecto al genoma de secuenciación etiqueta incorrectamente una alineaciones inexactas. Una posible solución a este referencia conocido para su especie, ocurren base. Por ejemplo en la Figura 4, se reporta El desarrollo acelerado de las tecnologías NGS ha problema es el uso de $k-mers$ (sub-cadenas de con una frecuencia de aproximadamente un nucleótido de guanina (G) en el genoma, provocado, en los últimos años, el surgimiento de longitud $k$, con $k<l$), eligiendo un valor de $k$ 1/1000 en el caso del genoma humano (13). en donde un nucleótido de Adenina (A) gran cantidad de software para la alineación de mucho menor a $l$ se pueden almacenar todos los Un ejemplo de estos son los polimorfismos ocurre realmente. Es posible diferenciarlo lecturas cortas. Al respecto existen diferentes $k-mers$ traslapados, que aparezcan en la referencia de nucleótido simple (SNP), los de un SNP debido a que un error máquina trabajos que han revisado y comparado desde en una lista, tal como se observa en la parte a de la diversos puntos de vista tales aplicaciones, el más Figura 5. Posteriormente cada lectura puede dividirse completo es el de Fonseca y equipo (14) quienes en semillas de longitud $k$ y buscarse sobre la lista 266 RevistaMexicanadeIngenieríaBiomédica·volumen36·número3·Sep-Dic,2015 generalmente ocurre en una única fila de muestra características particulares que lo las lecturas, mientras que un SNP ocurre hace apropiado a determinada plataforma de en todas las lecturas que cubren esa región. secuenciación (illumina, Roche 454, etc.), o De esta forma la cobertura o profundidad a un tipo de dato específico (ADN, bisulfito, de las lecturas cortas puede utilizarse para miARN, ARN, etc.). También difieren en detectar y corregir el error. La frecuencia de la forma en que reportan los resultados ocurrencia de los errores de secuenciación es de la alineación, el número de desapareos, muy baja, alrededor del 1% en las lecturas de inserciones y supresiones (indels) permitidas, la mayoría de las tecnologías NGS (5). la habilidad de permitir indels consecutivos, Repeticiones: Normalmente los la capacidad de alinear lecturas apareadas genomas contienen gran cantidad de regiones (PE), el uso de información de calidad (QA), repetidas, las cuales crean problemas entre otras variantes. La Tabla 3 resume las de alineación fundamentalmente por las características de los programas de alineación limitadas longitudes de las lecturas generadas más representativos en la actualidad. por las máquinas NGS, en esencia entre Por otra parte, algorítmicamente la más cortas sean tales lecturas, mayor mayoría de los programas de alineación de es la probabilidad de que se concuerden lecturas cortas utilizan solo dos estrategias: erróneamente en localidades del genoma Tablas Hash y Transformada de Burrows- que se repiten. Este punto se trata en Wheeler (TBW), esta última siendo el varias formas, dependiendo del programa resultado de la evolución de los árboles y usado, muchos programas utilizan la arreglos de sufijos. Ambas estrategias serán primer concordancia para la alineación, discutidas en los apartados siguientes. mientrasqueotrosdescartanáreasrepetitivas completamente, lamentablemente ninguno de Algoritmos basados en Tablas Hash los métodos resuelve el problema, recurriendo Para lograr eficiencia, todos los métodos a soluciones más sofisticadas como el uso de deben basarse en un tipo de pre-computo. lecturas por pares. Tablas Hash utiliza la idea de compilar una lista de todas las palabras de longitud l y PROGRAMAS DE ALINEACIÓN determinar una sola vez sus posiciones en el genoma de referencia. Posteriormente El desarrollo acelerado de las tecnologías puede utilizarse un algoritmo de hasheo, NGS ha provocado, en los últimos años, el para transformar una lectura corta en una surgimiento de gran cantidad de software clave que permita una búsqueda rápida. para la alineación de lecturas cortas. Al Aunque esta idea es teóricamente concebible, respecto existen diferentes trabajos que han falla en la práctica por el uso excesivo de revisado y comparado desde diversos puntos memoria en la computadora, además de de vista tales aplicaciones, el más completo es que, el esquema básico aún no considera el de Fonseca y equipo (14) quienes presentan alineaciones inexactas. Una posible solución un análisis comparativo de 60 programas a este problema es el uso de k −mers (sub- de este tipo. Otros trabajos como los de cadenas de longitud k, con k < l), eligiendo las referencias (15), (16) y (17), limitan el un valor de k mucho menor a l se pueden estudio a un pequeño subconjunto de tales almacenartodoslosk−merstraslapados,que programas (los más utilizados y referenciados aparezcan en la referencia en una lista, tal al momento de escribir cada artículo), pero como se observa en la parte a de la Figura 5. analizándolos en forma más profunda. En Posteriormente cada lectura puede dividirse realidad, es difícil poder aseverar que un en semillas de longitud k y buscarse sobre la programa sea mejor que otro, cada uno lista (ver Figura 5, parte b). Revista Mexicana de Ingeniería Biomédica (ver Figura 5, parte b). Si las semillas de una lectura (ver Figura 6), lo anterior se conoce como el se encuentran en la lista, en el orden correcto y principio de las cajas o del palomar. Los $k-mers$ adjuntas una a otra, la lectura existe en el genoma que se alinean perfectamente al genoma constituyen (parte c y d de la Figura 5). En términos del espacio una “semilla”, y al aplicar un algoritmo más preciso utilizado, ahora el problema es más tratable ya que como los basados en programación dinámica en la Pahcahyec oaB alou timstaucyhcoo l.$4D^ek$la dseicfeureenncitaecsi ón$ka-mlaearcse$le raecnió nelh ardwarevdeeclionsdpardo gdrea mesatsad seeamlinilelaac, ióens dpeosAibDlNe ,aulninaeraerv ilsaió lnectu2r6a7 integral genoma. Aún así este algoritmo no permite conteniendo errores. Esta estrategia de dos pasos alineación inexacta. llamada “siembra y extiende” se implementa en Tabla 3. Programas de alineación representativos. Lamcouluchmans ah2erhraamceiernetfaesr etnacleias acolmasop MlatAaQfo r(m18a)s, dPeASS seEclu aelngcoiarictimóno sporpevoriota pduaesdpeo rmeoldaifliicnaerasdeo rp:arIall uamlinineaar, ABI So(l1id9,),R SoSchAeH4A524 ,(A2B0)I S, aSnOgeAr,PH (e2l1ic)o, s,RIMonATPo r(r2e2n)t yy lPecatcuBraios .pLeorms liítmieintdeos eenrrloarseslo n(dgeitsuapdaersedoes lee citnudrealss)s.e muestrSaenqMenapla (2c3o)lu. mna tres, utilizando como unidad el Suponga que se permiten dos errores durante la nucleótido. La columna 4 y 5 indican si el alineador permite desapareos e indels, cuando es posible se ha alineación, en tal caso se puede asegurar que a lo registrado el número máximo permitido de estos. La columna 6 indica si el programa permite inserciones y mucho dos de los $k-mers$ en que se ha dividido la lectubroar craodnotesncdornánse ecrurtoirveoss .y Eenl rleastcoo lduem ensato7s sneom louse stran las alineaciones reportadas, en esta se utiliza la nocmonetnecnldartáunr,a :alTin-etáonddaoss,eM e-nL afomrmejao re,xAac-tAa leaal tgoernioo,mUa- Solo alineaciones únicas y S-número de diferencias definido por el usuario. Las últimas columnas indican si el alineador utiliza información de calidad de las lecturas y su Revista Mexicana de Ingeniería Biomédica habilidad para manejo de lecturas por pares. Programa  de   Plataforma  de   Longitud  de   Desapareos   Inserciones  y   Indels   Alineaciones   QA   PE   alineación   Secuenciación   lectura   permitidos   borrados   cons.   reportadas   posición no importa, la semilla AGTCxGA es capaz   Min/Max   Permitidos   Bfast   I,So,4,Hel   11/-­‐-­‐   S   S   S   M,A,U   N   S   de alinearse a AGTCAGA, AGTCCGA, etc. Es AGCATAGCAT AGC 1,6 CATAGC   GCA 2,7 evidente que utilizar un conjunto de semillas Bowtie   I,So,4,Sa,P   4/1k   S   S   a) N   T,M,A,S   S   S   CAT 3,8   espaciadas en lugar de una semilla regular Bwa   I,So,4,Sa,P   4/200   S   8   SA   TA 4A,S   S   S     TAG 5 b) incrementa la sensibilidad del método, aunque tiene GASSST   I,So,4,Sa,P   50/500   S   S   N   A,M,U   -­‐   -­‐   el efecto lateral de incrementar el tiempo de Gmap   I,4,Sa,Hel,Ion,P   8/-­‐-­‐   S   S   S   c) M   N   N     cómputo. Maq   I,So   8/63   S   S   NC  AT A..  GC S   S     3 6 Apareo Novoaling   I,So,4,Ion,P 30/300   8 2 N T,M,A,U,S S S Las herramientas basadas en el algoritmo siembra y 8 - No Apareo   - 1 No apareo extiende gastan la mayor parte del tiempo en la etapa Pass   I,So,4 23/1K S S S T,M S S d)   de extensión, implementada usualmente mediante Rmap   I.So,4 11/10K S 0 N M,S S S     algún algoritmo de programación dinámica, como el Seqmap   I 15/500 5 3 N T N N Smith-Waterman (28) o el Needleman-Wush (29),   Figura 5. El algoritmo de hasheo. a) El genoma se divide en $3- Shrimp2   I,So,4 30/1K S S N T,M,R N S los cuales permiten en forma natural alineaciones mers$ traslapados y la posición de cada uno de estos se   Soap   I 7/60 5 almacena e3n la tabl a. b) LNa lectura Mta,Am,Ub ién se diviNd e enS s emillas locales con indels y desapareos. Para superar la   de tamaño 3 y se buscan en la tabla Hash. c) Las posiciones para complejidad temporal de esta etapa, los programas Soap2   I 27/1k 2 0 S T,M,A N S cada semilla se comparan unas con otras c) Si se obtienen las   utilizan optimizaciones comunes de los algoritmos Ssaha2   I,4,Sa 15/48K S posic iones Sa djuntas y en eNl oRredveisnt ac MoMr,eSr xeicctaon,a edset aInsg reeNnpi erreísae BSn itoamn éudnicaa de programación dinámica y en algunos casos, como   alineación exacta. Zoom   I,So,4 12/240 S S N M,S,U S S en SHRiMP2, comandos especiales del CPU para   posición no importa, la semilla AGTCxGA es capaz paralelizar el trabajo. Otros métodos agregan un paso de alinearse a AGTCAGA, AGTCCGA, etc. Es AGCATAGCAT AGC 1,6 CATAGC intermedio entre la siembra y la extensión, tal es el Tabla 3. ProgramaGsC dAe aline2a,7ción representativos. La columna 2 hace reefveirdenecniat ea laSsq ipeulmaetba froaurmtialsi zdae rs ecuueEnnxc itaieccnioódnne jsuopnotrota dads epo r esle millas alineadora:) IlluminCaA, TABI S3o,l8id, Roche 454, ABI Sanger, Helicos, Ion Torrent y PacBio. Los límites en las longitudes de lecturas se caso de GASSST, el cual cada vez que encuentra una espaciadas en lugar de una semilla regular muestran en la columATnAa tres, 4utilizando como unidad el nucleót i d o . La columna 4 y 5 Tin Adi cTa n G s iA e l Cal iAneador Dpeer mlai pter idmeesar psaermeoilsl ae: indels, cuando es posibleT AseG ha reg5istrado el nb)úmero máximo permitido de esitonsc. rLeam coelunmtana l6a i nsdeicnas siib eill pidroagdraA mdTaGe plA e mrvmsé iAtteoT iCdnsAoe ,r ciaounen1sq eyur reo rtiene semilla, compara rápidamente la región vecina con el borrados consecutivos. En la columna 7 se muestran las alineaciones repoerlt adaesf, eecn teos t a slea tuetirliazla lad neo meinnccDlareteu lrmaa :s eTen-gttuoandrda sa, esMel- mLialtl iame: mejopr,o de resto de la lectura, usando un algoritmo mucho más A-Aleatorio, U-Solo acl)ineaciones únicas y S-número de diferencias definido por el usuario. Las últimas coluGmAnCasA i nvdsi cAaTnC sAi el alin2e aedroror res cómputo. rápido que los de programación dinámica. La etapa utiliza información de calidad de las lecturas y su hab i lidad para manejo de lecturas por pares. CAT AGC 3 6 Apareo A T C A agregada denominada filtro, consiste en calcular la Las herramientas basadas en el algoritmo siembra y 8 - No Apareo ATCA AT distancia de Euler, la cual halla el número de letras - 1 No apareo extiende gastan la mayor parte del tiempo en la etapa d) CA   de cada tipo en las regiones comparadas, si por de extensión, implementada usualmente mediante   Figura 5. El algoritmo de hasheo. a) El genoma Figura6a.lgEúlna laglogroitrmitmosoi edmeb praroygerxatmieancdieó.nE dninelámejeimcap, loc,olmao el ejemplo se trata de alinear una región conteniendo se divide en 3−mers traslapados y la posición de lecFtiugruaraA 6T.C EAl aslegobruistmcaoe snieTmAbTraG yA CexAtiepnedrme.i tEienn edlo ejuenmeprlroo,r la Smith-Waterman (28) o el Needleman-Wush (29), tres As, con una región que contiene cinco As, es Fciagduraa 5u.n oEl daelgoersittmoso sdee haalsmhaeoc.e an)a Eel ngenlaomtaa bsela d.ivbid)e eLna $3-yleucstaunrda oAsTemCAill asse dbeustcaam eanñ oTA2.TEGnAlCaAfa pseerdmeitsiieenmdbor au,nc eardraor y lectmurears$t atrmasblaiépnadoses yd liav ipdoesiceinóns deem cialldaas undoe dtea emstaoñs ose3 usseamnidlloa sseelmoasil lilncaeusa adleeen st aumpneaarñmpooi s2tie.c niEó nne .nlaE ffnaoslraem deaxe t sneinaestmuiórbnarlas ,e acolaibndseaea rscveaimonilelas evidente la existencia de al menos dos errores en la almacena en la tabla. b) La lectura también se divide en semillas locales con indels y desapareos. Para superar la y se buscan en la tabla Hash. c) Las posiciones qsuee asloinloeau nean duenala psoasliicnieóanc.i oEnne slac eoxntteiennseióunn seso olobseerrrvoar. que solo alineación, de esta forma las regiones que no de tamaño 3 y se buscan en la tabla Hash. c) Las posiciones para complejidad temporal de esta etapa, los programas para cada semilla se comparan unas con otras c) una de las alineaciones contiene un solo error. cada semilla se comparan unas con otras c) Si se obtienen las cumplan con este filtro pueden ser descartadas Si se obtienen las posiciones adjuntas y en el orden utilizan optimizaciones comunes de los algoritmos posiciones adjuntas y en el orden correcto, estas representan una disminuyendo notablemente la carga de la etapa de correcto, estas repreasliennetaacniónu nexaaactlain. eación exacta. de programación dinámica y en algunos casos, como en SHRiMP2, comandos especiales del CPU para alineación. Esta variante del algoritmo se llama   El problema fundamental del algoritmo siembra y paralelizar el trabajo. Otros métodos agregan un paso apropiadamente siembra, filtra y extiende. extiendein teesrm qeduieo elanstr el elac tsuieramsb rna eyc elas ietaxnte ndsiióvni,d itarsl ee s eenl Siembra Extiende subcadecnaasos dec aGdAaS SvSeTz, el mcuáasl capdeaq vueez ñqause enccuuaenndtroa uneal T A T G A C A De la primer semilla: semilla, compara rápidamente la región vecina con el ATGA vs ATCA 1 error número de errores permitidos se incrementa. Estas De la segunda semilla: resto de la lectura, usando un algoritmo mucho más GACA vs ATCA 2 errores subcadenas tan pequeñas suelen producir errores en 5.2 Algoritmos basados en TBW rápido que los de programación dinámica. La etapa la fase de sembrado, puesto que tienen mayor A T C A agregada denominada filtro, consiste en calcular la La transformada de Burrows-Wheeler (TBW), probabilidad de alinearse equivocadamente en ATCA AT distancia de Euler, la cual halla el número de letras presentada originalmente en (30), es un algoritmo CA m  últipledse rceagdiao ntiepso deenl glaesn oremgiao n(efsa lcsooms ppaorasditaisv, ossi) , peosr que transforma una cadena de caracteres en otra por estae jreamzóplno qsue et rnatoa edse caolimneúanr uenl au sreog dióen sceomntielnlaiesn ddoe Figura 6. El algoritmo siembra y extiende. En el ejemplo, la tres As, con una región que contiene cinco As, es mucho más fácil de comprimir. El re-ordenamiento lectura ATCA se busca en TATGACA permitiendo un error y menos de 10 nucleótidos. Para sobrellevar el usando semillas de tamaño 2. En la fase de siembra, cada semilla evidente la existencia de al menos dos errores en la se hace en tal modo que la cadena resultante agrupa problema, algunos programas como ZOOM (24), se alinea en una posición. En la extensión se observa que solo alineación, de esta forma las regiones que no los caracteres similares en la cadena original, de esta una de las alineaciones contiene un solo error. GASSScTu m(p2l5a)n, BcoFnA eSsTte (f2il6tr)o yp uSeHdeRni MsePr 2 d(e2sc7a)r tahdaans forma puede comprimirse fácilmente usando recurriddoi smalin uuyseon dod en ostaebmleimlleanst e elsap caacrigaad daes , lae est adpae cdier codificación {\it move-to-front} y codificación {\it semillasa lcinoenatceiónnie. nEdsota p ovsairciainotne esd e“ln oal gimorpitmorot a”se, elnla lmaas El problema fundamental del algoritmo siembra y run-length}. No obstante, recientemente la TBW cuales ealp raolpgiaodraimtmenot en soie mchbreac, afi letrla yti pexot iedned en. u cleótido extiende es que las lecturas necesitan dividirse en encontró una aplicación diferente a la compresión presente. Por ejemplo, indicando a x como la subcadenas cada vez más pequeñas cuando el de datos, luego de que Ferragina y Manzini (31), número de errores permitidos se incrementa. Estas subcadenas tan pequeñas suelen producir errores en 5.2 Algoritmos basados en TBW la fase de sembrado, puesto que tienen mayor La transformada de Burrows-Wheeler (TBW), probabilidad de alinearse equivocadamente en presentada originalmente en (30), es un algoritmo múltiples regiones del genoma (falsos positivos), es que transforma una cadena de caracteres en otra por esta razón que no es común el uso de semillas de mucho más fácil de comprimir. El re-ordenamiento menos de 10 nucleótidos. Para sobrellevar el se hace en tal modo que la cadena resultante agrupa problema, algunos programas como ZOOM (24), los caracteres similares en la cadena original, de esta GASSST (25), BFAST (26) y SHRiMP2 (27) han forma puede comprimirse fácilmente usando recurrido al uso de semillas espaciadas, es decir codificación {\it move-to-front} y codificación {\it semillas conteniendo posiciones “no importa”, en las run-length}. No obstante, recientemente la TBW cuales el algoritmo no checa el tipo de nucleótido encontró una aplicación diferente a la compresión presente. Por ejemplo, indicando a x como la de datos, luego de que Ferragina y Manzini (31), 268 RevistaMexicanadeIngenieríaBiomédica·volumen36·número3·Sep-Dic,2015 Si las semillas de una lectura se encuentran a x como la posición no importa, la en la lista, en el orden correcto y adjuntas semilla AGTCxGA es capaz de alinearse una a otra, la lectura existe en el genoma a AGTCAGA, AGTCCGA, etc. Es (parte c y d de la Figura 5). En términos del evidente que utilizar un conjunto de semillas espacio utilizado, ahora el problema es más espaciadas en lugar de una semilla regular tratable ya que hay a lo mucho 4k diferentes incrementa la sensibilidad del método, k−mersenelgenoma. Aúnasíestealgoritmo aunque tiene el efecto lateral de incrementar no permite alineación inexacta. el tiempo de cómputo. Las herramientas basadas en el algoritmo El algoritmo previo puede modificarse siembra y extiende gastan la mayor parte para alinear lecturas permitiendo errores del tiempo en la etapa de extensión, (desapareos e indels). Suponga que se implementada usualmente mediante algún permitendoserroresdurantelaalineación, en algoritmodeprogramacióndinámica, comoel tal caso se puede asegurar que a lo mucho dos Smith-Waterman (28) o el Needleman-Wush delosk−mersenquesehadivididolalectura (29), los cuales permiten en forma natural contendrán errores y el resto de estos no los alineaciones locales con indels y desapareos. contendrán, alineándose en forma exacta al Para superar la complejidad temporal de esta genoma (ver Figura 6), lo anterior se conoce etapa, los programas utilizan optimizaciones como el principio de las cajas o del palomar. comunes de los algoritmos de programación Los k − mers que se alinean perfectamente dinámica y en algunos casos, como en al genoma constituyen una “semilla”, y al SHRiMP2, comandos especiales del CPU aplicar un algoritmo más preciso como los para paralelizar el trabajo. Otros métodos basados en programación dinámica en la agregan un paso intermedio entre la siembra vecindad de esta semilla, es posible alinear la y la extensión, tal es el caso de GASSST, lectura conteniendo errores. Esta estrategia el cual cada vez que encuentra una semilla, de dos pasos llamada “siembra y extiende” compara rápidamente la región vecina con se implementa en muchas herramientas tales el resto de la lectura, usando un algoritmo como MAQ (18), PASS (19), SSAHA2 (20), mucho más rápido que los de programación SOAP (21), RMAP (22) y SeqMap (23). dinámica. La etapa agregada denominada El problema fundamental del algoritmo filtro, consiste en calcular la distancia de siembra y extiende es que las lecturas Euler, la cual halla el número de letras de necesitan dividirse en subcadenas cada cada tipo en las regiones comparadas, si vez más pequeñas cuando el número de por ejemplo se trata de alinear una región errores permitidos se incrementa. Estas conteniendo tres As, con una región que subcadenas tan pequeñas suelen producir contiene cinco As, es evidente la existencia de errores en la fase de sembrado, puesto al menos dos errores en la alineación, de esta que tienen mayor probabilidad de alinearse forma las regiones que no cumplan con este equivocadamente en múltiples regiones del filtro pueden ser descartadas disminuyendo genoma (falsos positivos), es por esta razón notablemente la carga de la etapa de que no es común el uso de semillas alineación. Esta variante del algoritmo de menos de 10 nucleótidos. Para se llama apropiadamente siembra, filtra y sobrellevar el problema, algunos programas extiende. como ZOOM (24), GASSST (25), BFAST (26) y SHRiMP2 (27) han recurrido al uso Algoritmos basados en TBW de semillas espaciadas, es decir semillas conteniendo posiciones “no importa”, en las La transformada de Burrows-Wheeler cuales el algoritmo no checa el tipo de (TBW), presentada originalmente en (30), nucleótido presente. Por ejemplo, indicando es un algoritmo que transforma una cadena

Description:
Solexa, Illumina. 125 nt. 98\%. 1 Tb. 3~10 días. 20000. SOLiD. 550xl. Applied Biosystems 75 nt. 99.99\%. 300 Gb. 7 días (SE). 14 días (PE). 15000.
See more

The list of books you might like

Most books are stored in the elastic cloud where traffic is expensive. For this reason, we have a limit on daily download.