Cap´ıtulo 4 del libro MA´QUINAS MOLECULARES BASADAS EN ADN cuyos autores son Mario J. P´erez Jim´enez y Fernando Sancho Caparrini Publicado en el an˜o 2003 por el Secretariado de Publicaciones de la Universidad de Sevilla, Colecci´on de divulgaci´on cient´ıfica, nu´mero 2, ISBN 84-472-0777-3, 2003. 4. Estructura y procesamiento del ADN Inspirados en el desarrollo y la evoluci´on natural de los organismos vivos, en general, y del ADN, en particular, trataremos de presentar sistemas o dispositivos computacionales artificiales que sean plausibles; es decir, implementables hoy d´ıa (o en un futuro cercano) con la tecnolog´ıa bioqu´ımica de la que se dispone. Para ello extraeremos de la propia realidad f´ısica ciertos objetos que puedan ser con- siderados como datos susceptibles de ser manipulados, as´ı como ciertas operaciones que puedan ser ejecutadas sobre dichos objetos. A partir de ah´ı, hemos de describir procesos a trav´es de sucesiones finitas de transiciones entre configuraciones que reflejen los distin- tos estados del sistema. La instanciaci´on de los datos de entrada y de salida permiten considerar dichos procesos como computaciones. La estructura de datos que vamos a considerar es la que proporcionan las mol´eculas de ADN, y las operaciones ser´an todas aquellas que en la actualidad pueden ser imple- mentadas, in vitro, con razonable fiabilidad. En la primera secci´on de este cap´ıtulo se presenta de manera sucinta algunos hitos que han marcado de manera decisiva el desarrollo emergente de la computacio´n a nivel molecular. En la segunda secci´on se estudia brevemente la estructura del ADN, que va a proporcionar los datos de los sistemas computacionales que sera´n estudiados a lo largo del texto. Adem´as, se analizan los distintos tipos de enlaces que se pueden producir entre los elementos b´asicos que integran el ADN, para formar cadenas simples o doble hebras. La tercera seccio´n est´a dedicada a la descripcio´n de algunas operaciones que se pueden realizar en el laboratorio con cadenas del citado ´acido y que constituyen la base de las ma´quinas moleculares. 4.1. Introduccio´n El hombre siempre tuvo el convencimiento de que algunos rasgos de cada generacio´n se transmit´ıan a la siguiente (todo ser engendra otros semejantes, sintetizaba una creencia generalizada). No obstante, las reglas y mecanismos que rigen la herencia eran descono- cidos por completo. Curiosamente, en 1872, Darwin aseguraba en un art´ıculo (The expressions of the emo- tions in man and animals) que las leyes que gobiernan la herencia son desconocidas en su mayor parte, mientras que desde hac´ıa seis an˜os (1866) estaban publicados los trabajos de J.G. Mendel en los Anales de la Sociedad de Historia Natural de Brunn. En ellos, Mendel establec´ıa los principios que rigen la herencia (los caracteres de los padres no se transmi- ten por azar, sino a trav´es de un mecanismo preciso con entidad de ley). Concretamente, hab´ıa descubierto que los caracteres se transmit´ıan de padres a hijos de forma discreta, segu´n fuese dominante o recesivo. A esos caracteres con la capacidad de tomar valores se les denomin´o genes. A principio del siglo XX se descubrio´ que los cromosomas (descritos por Hofmeister en 1848 y cuya denominaci´on se debe a Waldeyer, 1888) est´an relacionados directamente con los mecanismos de la herencia, al ser portadores del material gen´etico que determina las caracter´ısticas de la descendencia. Entre 1943 (Claude, Porter) y 1947 (Mirsky) se des- cubre que los cromosomas esta´n compuestos, b´asicamente, por prote´ınas y ADN. Debido a la mayor complejidad de la estructura molecular de las prote´ınas, se ten´ıa el convenci- miento de que ´estas deb´ıan ser las encargadas de transportar la informacio´n gen´etica de los padres. Los trabajos de J. Watson y F. Crick de principio de la d´ecada de los cincuenta (entre 1951 y 1953) echar´ıan por tierra el papel relevante atribuido a las prote´ınas en relacio´n con la herencia. Concretamente J. Watson y F. Crick: Demuestran que las mol´eculas de ADN codifican toda la informaci´on gen´etica de los organismos vivos. Descifran la estructura molecular del ADN. Descubrenelprincipiodecomplementariedadas´ıcomoeldireccionamientodedichas mol´eculas (por lo cual recibieron el premio Nobel). Justifican la posibilidad de usar ciertas t´ecnicas para su manipulaci´on. A principio de la d´ecada de los cincuenta comienza a ponerse de manifiesto la analog´ıa existente entre algunos procedimientos matema´ticos y ciertos procesos biolo´gicos. Por una parte, para calcular el valor de una funcio´n computable en un elemento, x, de su dominio, es necesario realizar una serie de operaciones elementales del modelo (en el que la funcio´n es computable) sobre el dato de entrada x; por otra, todo organismo vivo se puede considerar, en esencia, como el resultado de un proceso evolutivo que consiste en realizar una serie de operaciones bioqu´ımicas sobre cadenas de ´acido desoxirribonucleico (ADN). En cierto sentido, L.M. Adleman materializo´ esta similitud en noviembre de 1994 ([1]) mostrando que era posible usar mecanismos bioqu´ımicos para atacar la resolubili- dad meca´nica de ciertos problemas matem´aticos especialmente dif´ıciles. Concretamente, mediante un experimento realizado en el laboratorio L.M. Adleman consiguio´ resolver una instancia concreta de un problema presuntamente intratable usando t´ecnicas de biolog´ıa molecular para la manipulacio´n del ADN (un problema se dice que es presuntamente intratable si cualquier soluci´on algor´ıtmica conocida del mismo necesita una cantidad de recursos de tipo exponencial en el taman˜o del dato de entrada). En abril de 1995, inspirados en las ideas de Adleman, R.J. Lipton [51] describe un m´etodo teo´rico para resolver instancias arbitrarias de otro problema computacionalmente intratable usando mol´eculas de ADN, y proporciona por primera vez un procedimiento general susceptible de ser considerado como un esquema algor´ıtmico molecular. La resolubilidad algor´ıtmica pr´actica de problemas esta´ relacionada directamente con la potencia de ca´lculo y la densidad de almacenamiento de informacio´n de los ordenadores convencionales. En este contexto, el paralelismo represento´, en su d´ıa, un avance significa- tivo, y la miniaturizaci´on de las componentes f´ısicas de la ma´quina pasa a ser un objetivo importante. Como indicamos en el cap´ıtulo anterior, R.P. Feynman ([29]) introduce el concepto teo´rico de computaci´on a nivel molecular, y lo postula como una revoluci´on en el marco de la miniaturizacio´n de las componentes f´ısicas de las ma´quinas. A partir de entonces, los organismos vivos, en general, y algunas mol´eculas en particular, son consideradas poten- cialmentecomom´aquinascapacesdedesarrollarprocesossusceptiblesdeserinterpretados como operaciones de ca´lculo. Las ideas de Feynman adquieren una especial relevancia a partir de 1983, cuando R. Churchhouse establece las limitaciones f´ısicas de la velocidad de c´alculo de un procesador convencional. El auge de los actuales ordenadores electro´nicos ha sido posible gracias al invento del transistor que sustituy´o a las v´alvulas y tubos de vac´ıo de la primera generaci´on de los ordenadores electro´nicos. Con los transistores comenz´o propiamente la segunda generacio´n (en 1958) y propicio´, por primera vez, la manipulacio´n electro´nica del silicio. Los transistores dieron paso, sucesivamente, a los circuitos integrados (tercera generacio´n, mediados de la d´ecada de los sesenta), compuestos por cientos de transistores, y los chips de silicio (cuarta generacio´n, principio de la d´ecada de los setenta) que incorporan miles de transistores y basan su funcionamiento en un proceso de grabado a trav´es de un rayo de luz. As´ı como el transistor permitio´ por primera vez la manipulacio´n electr´onica del silicio, el experimento de Adleman puede ser considerado como un primer paso hacia la cons- truccio´n de un prototipo de ordenador molecular basado en la manipulacio´n bioqu´ımica del carbono. En julio de 2000, un equipo de cient´ıficos de la Universidad de California desarroll´o un interruptor del taman˜o de una millon´esima de mil´ımetro (un nan´ometro), a partir de una mol´ecula. Todo parece indicar que este interruptor puede representar una alternativa revolucio- naria en relaci´on con los actuales chips de silicio, debido a las consideraciones siguientes: En su funcionamiento sustituye la luz por una reaccio´n qu´ımica, lo que representa un importante ahorro en el consumo de energ´ıa. Estosnuevosinterruptorespodr´ıandisponerdem´asdemilprocesadoresenelespacio ocupado hoy d´ıa por un procesador (los actuales chips de silicio tienen una altura aproximada de cinco mil nano´metros). Se estima que estos interruptores podr´ıan aumentar la velocidad de procesamiento de la informacio´n, cien mil millones de veces la de un ordenador convencional, y podr´ıan reproducir la capacidad equivalente a cien ordenadores convencionales en el taman˜o de un grano de sal fina. En noviembre de 2001, Ehud Shapiro y otros [8], del Weizmann Institute of Science de Tel Aviv, consiguieron implementar una m´aquina de Turing a trav´es de mol´eculas de ADN en el laboratorio. 4.2. Estructura del ADN Tradicionalmente la mol´ecula de ADN se ha representado como una mol´ecula de es- tructura uniforme con apariencia de doble h´elice (en forma de escalera de caracol), tal y como la describieron Watson y Crick inicialmente. Figura 4.1. Estructura helicoidal de una mol´ecula de ADN Sin embargo, en los u´ltimos quince an˜os los avances t´ecnicos han permitido desterrar esta idea de uniformidad en su estructura, mostrando que se pueden producir variantes mucho ma´s complejas. Pese a que es imprescindible conocer a fondo dicha complejidad para poder realizar implementaciones eficientes, y debido al uso que de las mol´eculas vamos a hacer, nos centraremos en la idea tradicional y mantendremos en mente la visi´on de una mol´ecula con forma de doble hebra helicoidal (habitualmente, las estructuras ma´s complejas en las mol´eculas de ADN se producen cuando se aumenta la longitud de las mismas). El primer dato que llama la atencio´n es que esta estructura helicoidal (ver figura 4.1) no responde tan solo a un resultado ma´s o menos aleatorio de la naturaleza, sino que juega un papel importante a la hora de preservar la seguridad de la informacio´n que va escrita en la mol´ecula. Gracias a esta estructura, dicha informaci´on, codificada a trav´es de la sucesio´n de ba- ses nitrogenadas que conforman la mol´ecula, queda hacia el interior (en la zona media de los peldan˜os de la escalera), de forma que las paredes exteriores de la h´elice la protegen de posibles alteraciones que se pudieran producir por reacciones con mol´eculas del en- torno. Los enlaces que mantienen unida la doble h´elice son localmente d´ebiles (unos m´as que otros) de tal manera que no precisan mucha energ´ıa para su ruptura. No obstante, globalmente dotan a la mol´ecula de una configuracio´n que resulta muy estable y robusta. A lo largo de millones de an˜os, en el proceso evolutivo de los organismos vivos, se han desarrollado complejos procedimientos biol´ogicos que permiten modificar, de forma controlada, la estructura interna de las mol´eculas de ADN. As´ı por ejemplo, algunas enzimas son capaces de reconocer diversos puntos dentro de las largas cadenas de ADN, quedando ancladas a ellos y provocando el comienzo de operaciones tan complejas como son la separacio´n o uni´on de la doble hebra, copia de su totalidad o trozos espec´ıficos, modificacio´n de alguna (o algunas) base concreta, etc. Para comprender la estructura del ADN es preciso conocer los elementos ba´sicos que lo integran. Por ello, vamos a describir de manera muy somera esas componentes, igno- rando muchos detalles t´ecnicos de tipo bioqu´ımico que no son relevantes para el desarrollo posterior que se va a realizar. El ´acido desoxirribonucleico (ADN) es un pol´ımero que, en su estructura lineal, consta de una serie de mon´omeros denominados desoxirribonucle´otidos (que llamaremos breve- mente nucle´otidos). A su vez, cada nucle´otido consta de (v´ease figura 4.2) : (a) Un azu´car (desoxirribosa) que tiene cinco a´tomos de carbono enumerados del 1’ al 5’ , y que en el carbono 3’ tiene un grupo hidroxilo (OH). (b) Un grupo fosfato (P), unido al azu´car por el carbono 5’. (c) Una base nitrogenada, unida al azu´car por el carbono 1’. La enumeracio´n con primas de los cinco ´atomos de carbono que integran el azu´car, se debe a que la base nitrogenada tambi´en tiene a´tomos de carbono que son enumerados sin primas. Generalmente se identifica cada nucleo´tido con la base nitrogenada que contiene. Exis- ten cuatro tipos de bases nitrogenadas: adenina, citosina, guanina y timina, que se repre- sentan por las iniciales correspondientes: A, C, G, T. La adenina y la guanina pertenecen al grupo de las purinas, mientras que la citosina y la timina pertenecen al grupo de las piramidinas. 5’ P 4’ OH 3’ ’ 2 1’ B Figura 4.2. Estructura esquem´atica de un nucle´otido De los nucleo´tidos no s´olo nos interesa su estructura bioqu´ımica sino la forma en que pueden enlazarse entre s´ı. Existen dos maneras diferentes: (a) Mediante un enlace fosfodiester (covalente): el grupo fosfato 5(cid:48) de un nucle´otido se une al grupo hidroxilo 3(cid:48) de otro (ver la figura 4.3). 5’ 5’ 5’ 5’ P P P P 4’ 4’ 4’ 4’ OH OH OH OH 3’ 3’ 3’ 3’ 2’ 2’ 2’ 2’ 1’ 1’ 1’ 1’ B B B B 1 2 3 4 Figura 4.3. Enlace fosfodiester: cadena simple 5(cid:48)–B B B B 1 2 3 4 (b) Mediante un enlace de hidr´ogeno que se realiza a trav´es de las bases nitrogenadas (ver la figura 4.4). El enlace fosfodiester (covalente) entre nucleo´tidos permite la construccio´n de cadenas simples de ADN, como se muestra en la figura 4.3. Dichas cadenas poseen dos extremos de comportamiento muy diferente tanto qu´ımica como biolo´gicamente; uno de ellos con un grupo fosfato (determinado por un carbono 5(cid:48)) dispuesto a nuevos enlaces, y el otro con un grupo hidroxilo (identificado por un carbono 3(cid:48)) en an´aloga disposici´on. Entre otras propiedades bioqu´ımicas, la diferencia existente entre ambos extremos proporciona una polaridad odireccionamiento alasmol´eculasdeADN.As´ıhablaremosdeladireccio´n5(cid:48) → 3(cid:48) o la direcci´on 3(cid:48) → 5(cid:48). A la hora de trabajar con cadenas simples, sobreentenderemos que est´an escritas en la direccio´n 5(cid:48) → 3(cid:48), a menos que se explicite lo contrario. Por ejemplo, la cadena CTAGAC es, en realidad, la cadena 5(cid:48)-CTAGAC-3(cid:48) (y que tambi´en se podr´ıa leer as´ı: 3(cid:48)-CAGATC-5(cid:48)). El enlace de hidro´geno es ma´s d´ebil que el fosfodiester y se rige por el principio de complementariedad: la adenina so´lo se puede enlazar con la timina (y rec´ıprocamente), y la citosina so´lo con la guanina (y rec´ıprocamente). M´as au´n, el enlace entre la adenina y la timina se establece a trav´es de dos puentes de hidro´geno mientras que entre la citosina y la guanina se producen tres puentes de hidr´ogeno, lo cual proporciona un poco m´as de fuerza a este u´ltimo enlace. Combinando enlaces fosfodiester y enlaces de hidro´geno se obtienen cadenas dobles de ADN, como se muestra en la figura 4.4. Es decir, dicha combinacio´n proporciona doble hebras que se disponen espacialmente formando la estructura de doble h´elice: dos cadenas simples esta´n alineadas de forma antiparalela (es decir, una con la direcci´on 5(cid:48) → 3(cid:48) y la otra con direccio´n 3(cid:48) → 5(cid:48)) y unidas por enlaces de hidr´ogeno; los nucleo´tidos esta´n unidos por enlaces fosfodiester, con los grupos fosfatos orientados hacia el exterior de la h´elice y las bases nitrogenadas pro´ximas al centro. Todo ello proporciona una gran estabilidad a la mol´ecula. As´ı pues, en la formacio´n de doble hebras de ADN existen dos hechos ba´sicos que conviene volver a destacar: 1. Los enlaces de hidro´geno se rigen por el principio de complementariedad de Watson– Crick. 2. Las cadenas simples tienen una direccionalidad dada por el enlace fosfodiester y el enlace de hidr´ogeno s´olo puede afectar a dos cadenas simples de polaridad opuesta. Por ejemplo, las cadenas 5(cid:48)-CTAGAC-3(cid:48) y 5(cid:48)-GATCTG-3(cid:48) no pueden formar doble hebras, a pesar de que las sucesiones CTAGAC y GATCTG satisfacen la condicio´n de complementariedad; en cambio s´ı la pueden formar las siguientes cadenas sim- ples 5(cid:48)-CTAGAC-3(cid:48) y 3(cid:48)-GATCTG-5(cid:48) porque las correspondientes sucesiones son complementarias y, adema´s, las cadenas tienen direccionamiento distinto. 5’ 5’ 5’ 5’ P P P P 4’ 4’ 4’ 4’ OH OH OH OH 3’ 3’ 3’ 3’ 2’ 2’ 2’ 2’ 1’ 1’ 1’ 1’ B B B B 1 2 3 4 - - - - B B B B 1 2 3 4 1’ 1’ 1’ 1’ 2’ 2’ 2’ 2’ 3’ 3’ 3’ 3’ OH OH OH OH 4’ 4’ 4’ 4’ P P P P 5’ 5’ 5’ 5’ Figura 4.4. Enlace fosfodiester + Enlace de hidr´ogeno: doble hebra Si γ es una cadena simple, notaremos γ la cadena formada por los nucleo´tidos comple- mentarios (las cadenas complementarias se expresar´an, en cambio, en la direcci´on 3(cid:48) → 5(cid:48), salvo que se explicite lo contrario). 4.3. Procesamiento de cadenas de ADN La complejidad estructural del ADN, as´ı como la diversidad en la formacio´n de estas mol´eculasapartirdelasdistintascombinacionesdelasbasesnitrogenadas,vaacompan˜ada de una amplia gama de operaciones que sobre ellas se realizan en los seres vivos y que, en los u´ltimos an˜os, se han podido reproducir en el laboratorio. A continuaci´on describimos, sin entrar en mucho detalle, algunas de estas operaciones, que constituyen la base tanto de la ingenier´ıa gen´etica como de la computacio´n molecular basada en ADN. Para mayor detalle se remite al cap´ıtulo 0 de [74] y al cap´ıtulo 1 de [94]. 4.3.1. Desnaturalizacio´n y Renaturalizaci´on La estructura en doble h´elice del ADN es especialmente so´lida. La estabilidad de la doble hebra proviene, como hemos comentado anteriormente, de dos tipos de fuerzas qu´ımicas, los enlaces de hidro´geno y los enlaces fosfodiester, as´ı como en la distribucio´n espacial de las componentes. Adema´s, la h´elice, en estado natural, se encuentra cubierta por mol´eculas de agua que forman lo que podr´ıa considerarse como una especie de escudo. El proceso biolo´gico por el cual se rompen los enlaces de hidr´ogeno de una doble hebra dando lugar a dos cadenas simples de ADN, se denomina desnaturalizaci´on (melting o reannealing). Este proceso se puede simular en el laboratorio calentando la soluci´on en la que est´en las doble hebras de ADN, hasta una temperatura comprendida entre 85 y 94 grados cent´ıgrados. El proceso inverso, denominado renaturalizaci´on (annealing), se consigue sometiendo la soluci´on con cadenas simples complementarias a un enfriado lento hasta aproximada- mente los 55 grados cent´ıgrados, a fin de permitir que las bases nitrogenadas complemen- tarias se vayan uniendo a trav´es de los correspondientes enlaces de hidro´geno. 4.3.2. Medida de la longitud de una mol´ecula La longitud de una cadena simple se define como el nu´mero de bases nitrogenadas que contiene, y se expresa en mer. La longitud de una cadena doble se define como el nu´mero de pares de bases nitrogenadas complementarias que contiene y se expresa en bp (pares de bases). La t´ecnica ma´s usual que se utiliza para medir una mol´ecula de ADN se denomina electroforesis en gel. El procedimiento se basa en el hecho de que toda mol´ecula de ADN esta´ dotada de una carga el´ectrica negativa que es proporcional a su longitud. Adema´s, la fuerza necesaria para desplazarla debe ser, igualmente, proporcional a su longitud. Por tanto, si un conjunto de mol´eculas de ADN es sometido a un campo el´ectrico en una solucio´n ideal, todas las mol´eculas se desplazar´an hacia el electrodo positivo a igual velocidad, con independencia de la longitud que posean. Una forma de discriminar las mol´eculas entre s´ı, en funcio´n de su longitud, consiste en sustituir la soluci´on ideal por un gel, que provoca un rozamiento mayor en las mol´eculas de m´as longitud. Para ello: Se coloca un gel adecuado en disoluci´on y se ubica en un recipiente rectangular (habitualmente se consigue an˜adiendo al disolvente gel en polvo y calentando la disolucio´n). Con la ayuda de un instrumento en forma de peine, y durante el proceso de enfriado, se realizan una serie de ranuras en el gel. En las distintas ranuras formadas por el peine se colocan las mol´eculas de ADN que se quieren medir. Se activa el campo el´ectrico, situando el electrodo positivo en el lado opuesto a las ranuras, desactiva´ndolo cuando la primera mol´ecula llegue a ´el. La longitud de cada mol´ecula se calcula a partir de la distancia recorrida durante el proceso y el tiempo transcurrido. 4.3.3. Extracci´on de mol´eculas Es posible seleccionar de un tubo que contiene en disolucio´n cadenas simples de ADN, todas aquellas mol´eculas que contienen como subcadena una cierta cadena prefijada. Para realizar esta operacio´n, dado un tubo de ensayo, T, que contiene una soluci´on con cadenas simples de ADN, y γ, una cadena simple de ADN prefijada, se utiliza la t´ecnica de las sondas met´alicas, que consiste en lo siguiente: Se consideran unas microesferas de hierro que tienen adheridas la cadena 3(cid:48) −γ, y se introducen en el tubo T. Se somete la solucio´n a un proceso de renaturalizacio´n. Se coloca un ima´n a un lado del tubo, T, y se vierten en otro recipiente, T , las 1 mol´eculas no adheridas a 3(cid:48) −γ. Se retira el im´an, se an˜ade nuevo disolvente y se somete la solucio´n a un proceso de desnaturalizacio´n. Se vuelve a colocar un im´an a un lado del tubo, T, y se vierte en otro recipiente, T , las mol´eculas no adheridas a 3(cid:48) −γ. 2 El tubo T estara´ formado por las mol´eculas del tubo inicial que no contienen a γ 1 como subcadena, y T por aquellas que s´ı contienen a γ como subcadena. 2 Esta operaci´on suele ser problema´tica a la hora de ser implementada en el laboratorio ya que puede dar lugar a errores; es decir, en el tubo T podr´ıa existir alguna mol´ecula 1 que contiene a γ como subcadena, o bien en el tubo T podr´ıa existir alguna mol´ecula que 2 no contiene a γ como subcadena. No obstante, como veremos en la seccio´n 5.3 del cap´ıtulo 5, estos errores se pueden amortiguar y controlar, en cierto sentido. 4.3.4. Alargar y copiar una cadena de ADN Las enzimas son unas proteinas que catalizan ciertas reacciones qu´ımicas que tienen lugar en los organismos vivos. Algunas enzimas esta´n especializadas en determinadas reaccioneshastatalpuntoquesoncapacesdeaumentarlavelocidaddelareaccio´nmillones de veces, lo que permite la supervivencia de muchas c´elulas. Sin lugar a dudas, las enzimas juegan un papel fundamental en el mecanismo de la vida.
Description: