Sei sulla pagina 1di 48

INSTITUTO DE BIOTECNOLOGÍA-UNAM

MÉTODOS FISICOQUÍMICOS EN BIOTECNOLOGÍA:

SECUENCIACIÓN
DE ÁCIDOS NUCLEICOS

PROYECTO DE INVESTIGACIÓN:
ROSALIA DE NECOCHEA CAMPION
JUAN CARLOS CANUL TEC

CUERNAVACA,MOR JUNIO 2004


INDICE

Algunos acontecimientos relevantes al desarrollo de los 3


métodos de secuenciación de los ácidos nucleicos

1.0 INTRODUCCIÓN 5
1.1 Los orígenes de la investigación de los ácidos nucleícos 6
1.2 La identificación de los componentes 7
1.3 El descubrimiento de la estructura del ADN 8

2.0 FUNDAMENTOS TEÓRICOS 11


2.1 Estructura de los ácidos nucleicos 11
2.2 Función biológica de los ácidos nucleicos 12

3.0 DESARROLLO HISTÓRICO 13


3.1 Secuenciación de ácidos nucleicos 13
3.2 El método de degradación química 17
3.2.1 Ventajas y desventajas 19
3.3 El método enzimático 20
3.3.1 Limitaciones del método enzimático 21

4.0 MÉTODOS CONTEMPORÁNEOS EN LA SECUENCIACIÓN 22


4.1 Automatización del método de Sanger 22
4.1.1 La técnica de PCR y su relevancia a la secuenciación 23
4.1.2 Polimerasa Taq 24
4.1.3 Marcado de la cadena de ADN 25
4.1.4 Incorporación del marcaje a la cadena de ADN 26
4.1.5 Secuenciación automatizada 28
4.1.6 El desarrollo de maquinas de secuenciación 29
4.2 Secuenciación de ARN 31
4.2.1 Métodos indirectos 31
4.2.2 Métodos directos 33
4.3 Resumen de enzimas utilizadas en la secuenciación 34

5.0 ESTRATEGIAS Y APLICACIONES DE LA SECUENCIACIÓN DE 35


ÁCIDOS NUCLEICOS
5.1 Proyecto de secuenciación del genoma humano 35
5.2 Estrategias para la secuenciación de fragmentos grandes 37
5.2.1 “Chromosome Walking” 37
5.2.2 “Shotgun Sequencing” 38
5.3 Otras aplicaciones 40

6.0 El FUTURO DE LA SECUENCIACION 41


6.1 Secuenciación por hibridización 41
6.2 Secuenciación a futuro sin fragmentación de ADN 41

7.0 REFERENCIAS 43

1
INDICE DE TABLAS Y FIGURAS
Figuras

Figura 1. Las bases presentes en los ácidos nucleicos 7

Figura 2. Estructura química de los nucleótidos 8

Figura 3. Estructura de la doble hélice del ADN 11

Figura 4. El método de secuenciación de Maxam y Gilbert 19

Figura 5. Enzimas de restricción 20

Figura 6. El método de secuenciación de Sanger 21

Figura 7. La reacción de PCR 23

Figura 8. Secuenciadora con detección paralela para 96 caplilares 31

Figura 9. La secuenciadora ABI PRISM 3700 32

Figura 10. La estrategia de “chromosome walking” 38

Figura 11. La estrategia de secuenciación “shotgun” 39

Figura 12. Secuenciación por hibridización 41

Tablas

Tabla 1. 22
Descubrimientos significativos que permitieron el desarrollo de métodos
automatizados de secuenciación de ácidos nucleicos

Tabla 2. 35
Algunas de las enzimas que han tenido un papel importante
en el desarrollo de los métodos de secuenciación

2
Algunos acontecimientos relevantes al desarrollo de los métodos de
secuenciación de los ácidos nucleícos

1871. Johann Meisher describe el ácido desoxirribonucleico (ADN) en el


esperma de la trucha.

1944. Oswald Avery, Colin McLeod y Macyln McCarthy demuestran que el ADN
es la substancia en donde reside la información genética.

1950. Erwin Chargaff determina que las cantidades de adenina y timina, y de


citosina y guanina, son las mismas en el ADN: “reglas de Chargaff”.

1952. Rosalind Franklin y Maurice Wilkins llevan a cabo estudios de


cristalografía de rayos X del ADN.

1953. James Watson y Francis Crick proponen el modelo de la doble hélice del
ADN.

1958. Matthew Meselson y Frank Stahl demuestran que la replicación del ADN
es semiconservativa.

1960. Arthur Kornberg descubre y aísla la enzima ADN polimerasa.

1961. Marshall Niremberger y Severo Ochoa establecen el código genético


universal.

1968. Matthew Meselson y Robert Yuan aíslan la primera endonucleasa de


restricción.

1977. Allan Maxam y Walter Gilbert, y Frederick Sanger et al., desarrollan


simultáneamente métodos para la determinación de la secuencia de
nucleótidos del ADN.

1978. F. Sanger y su equipo reportan la secuencia genómica completa del


virus øX174.

1981. Se reporta la secuencia del genoma de la mitocondria humana.

1983. Marvin Carruthers y Leroy Hood desarrollan un método para secuenciar


automáticamente fragmentos de ADN de 5 a 75 pares de bases.

3
1986. Leroy Hood y Lloyd Smith desarrollan el primer secuenciador automático,
que usa un láser que reconoce marcadores de fluorescencia en el ADN.

1987. Kary Mullis desarrolla la técnica de PCR que permite amplificar millones
de veces fragmentos específicos de ADN.

1988. Por iniciativa de Watson, el Instituto Nacional de Salud en EUA,


establece la Oficina para la Investigación del Genoma Humano.

1990. Tres grupos desarrollan simultáneamente el método de electroforesis


capilar, que optimiza la automatización de los métodos de secuenciación del
ADN.

Se inicia el Proyecto del Genoma Humano.

1995. Se reporta la primera secuencia completa del genoma de un organismo


vivo, el de la bacteria Haemophilus influenzae.

1996. Se reporta la primera secuencia del genoma de un eucarionte, el de la


levadura Saccharomyces cerevisiae.

1998. Se reporta la primera secuencia del genoma de un animal; el de


Caenorhabditis elegans.

1999. Se reporta la secuencia nucleotídica del cromosoma humano 22.

2000. Se reporta la primera secuencia del genoma de una planta, el de


Arabidopsis thaliana.

2001. Se reporta por dos grupos en forma simultánea, la secuencia


nucleotídica del genoma humano.

2002. Se reportan las secuencias nucleotídicas de los genomás del ratón (Mus
musculus) y del arroz (Oryza sativa).

4
1.0 INTRODUCCIÓN.

El lento y tortuoso progreso que acompañó los inicios de la investigación de los


ácidos nucleicos es representativo de lo limitado de las técnicas y la falta de
facilidades en los períodos tempranos de la bioquímica. Las dificultades
encontradas por los investigadores fueron muchas. Era difícil asegurar la
homogeneidad del material de trabajo. No existían métodos establecidos para
el estudio de macromoléculas, y tampoco pautas para el aislamiento de
unidades estructurales. Afortunadamente, algunas substancias cercanamente
relacionadas fueron sintetizadas por químicos orgánicos en experimentos que
usualmente no estaban relacionados con los ácidos nucleicos. Si la
investigación de los ácidos nucleicos debe mucho a la química orgánica en su
período inicial, el trabajo conjunto de la biología y la química han hecho de la
investigación contemporánea de los ácidos nucleicos una rica fuente de
descubrimiento e invención que ha transformado y mejorado la condición
humana.

En general, los ácidos nucleicos son polímeros lineales de nucleótidos.


Pueden tener desde 80 nucleótidos, como en el tARN, hasta más de 108 pares
de nucleótidos en un cromosoma eucariótico. El cromosoma de Escherichia
coli tiene 4 x 106 pares de bases, 4Mpb. El ADN genómico de una sola célula
humana tiene 3,900 Mpb. A un laboratorio de la mitad de la década de los
setentas le habría tomado dos meses secuenciar 150 nucleótidos.
Actualmente, un laboratorio especializado es capaz de secuenciar varios
millones de nucleótidos al día. Desde esta perspectiva, resulta notoria la
capacidad de secuenciación de ácidos nucleicos de las tecnologías disponibles
actualmente. Y es principalmente, el desarrollo y la automatización de los
métodos fisicoquímicos de macromoléculas biológicas, en general, lo que ha
permitido lograr estos avances en el conocimiento del material genético.

A finales del siglo pasado, se secuenciaron los primeros genomás,


correspondientes a las bacterias Haemophilus Influenzae y Mycobacterium
genitalium. Esfuerzos más recientes han permitido la determinación de
secuencias genómicas más complejas. El primer eucarionte secuenciado fue
Saccharomyces cerevisiae. Posteriormente se reportaron las secuencias de los
genomás de Caenorhabditis elegans, de Drosophila melanogaster y de
Arabidopsis thaliana. A principios del año 2001, dos grupos, de manera
simultánea e independiente, reportaron la secuencia del genoma humano, y a
fines del año 2002 se reportó el genoma del ratón y del arroz.

5
Con la determinación de la secuencia nucleotídica del genoma humano y
la de otros organismos nos hemos adentrado en el conocimiento de la célula.
Conociendo la secuencia de todos los genes de un organismo, es posible
deducir su proteoma. Asimismo, con la información que se tiene, es posible
empezar el estudio integral y global de las redes metabólicas y conocer la
manera en que una célula regula la expresión genética en diferentes
condiciones metabólicas. Sin embargo, este nuevo conocimiento es preliminar.
Si bien podemos enlistar todos los genes de una célula, la determinación de las
posibles interacciones entre sus productos es una meta a largo plazo todavía.
Hay, pues, mucho más que conocer para entender el proceso mismo de la
vida.

En este trabajo se expone una breve perspectiva histórica de algunos de


los hechos que han repercutido sensiblemente en el avance de las tecnologías
para la secuenciación de los ácidos nucleícos. Desde el tortuoso camino que
llevo a la elucidación de la estructura de la doble hélice, pasando por los
esfuerzos iniciales para desentrañar el lenguaje del ADN (y de la vida) y los
esfuerzos más recientes que inauguraron la era de la genómica. Una mirada
hacia atrás siempre es importante, no sólo porque ayuda a consolidar los
conceptos de una materia en particular, sino también porque se puede
aprender de las experiencias de otros. Además, se presentan los fundamentos
teóricos y físicos relacionados con la química de los ácidos nucleicos.y su
secuenciación. Finalmente, se citan algunas de las aplicaciones que han
permitido profundizar en el conocimiento del material genético de las células.

1.1 Los orígenes de la investigación de los ácidos nucleicos.

La historia de los ácidos nucleicos iniciando en 1869, con los estudios


del bioquímico sueco Friedrich Miescher. En Tuebingen, Miescher extrajo un
material de una fracción nuclear de leucocitos presentes en pus obtenido de
vendajes quirúrgicos. El material extraído, al cual denomino nucleína, era rico
en fósforo. En 1870, Miescher se movió a Basel, donde encontró que el
extracto de esperma de salmón era una gran fuente de nucleína. La nucleína
era una substancia albuminoide y fuertemente ácida, combinada con una base
nitrogenada que Miescher cristalizó y llamo protamina. De hecho, la nucleína
era en realidad una nucleoproteína. Richard Altmann (1889) obtuvo el primer
material libre de proteína, al cual dio el nombre de ácido nucleico. Jules
Piccard, compañero de Miescher en Basel, hizo más estudios con la nucleína y
encontró que también contenía guanina e hipoxantina. Sin embargo, ni
Meischer, ni sus colegas y sucesores se imaginaron que el ácido nucleico
pudiera llevar mensajes complejos en patrones repetidos de componentes más
pequeños (Levine y Suzuki, 2000). La botella con el inocente polvo blanco se
6
quedó en el anaquel del laboratorio. Tuvieron que pasar varias décadas para
revelar que, de hecho, era una botella de genes.

1.2 La identificación de los componentes.

Lentamente se fueron llevando a cabo estudios más exactos para la


identificación de los componentes de los ácidos nucleicos. La guanina (G)
había sido aislada del guano; sin embargo, su relación con los ácidos nucleicos
se estableció hasta 1910, al compararla con el nucleósido que Phoebus
Levene obtuvo del ácido guanílico. Albrecht Kossel y A. Neumann aislaron la
adenina (A) y la timina (T) de la glándula del timo. Ascoli y Steudel
descubrieron la citosina (C) y el uracilo (U) (Schlenk, 1988).

La ribosa y la desoxirribosa fueron aisladas por Levene en 1909 y 1930,


respectivamente. En ambos casos, el aislamiento de los nucleósidos fue un
requisito para proveer el material inicial. La hidrólisis con piridina del ácido
nucleico de levadura produjo fosfatos y los nucleósidos adenosina, citosina,
guanosina y uridina. Levene determinó que en todos los nucleósidos la pentosa
era una ribosa y nombró al ácido original como ácido ribonucleico (ARN). Los
nucleósidos fueron identificados como derivados de las bases A, C, G y U
(figura 1). En 1929, Levene identificó la desoxirribosa del ácido nucleico aislado
del tejido de la pantorrilla, al cual denominó ácido desoxirribonucleico (ADN).
Este ácido exhibía una mayor resistencia a la hidrólisis química que el ARN, y
consiguió degradarlo con enzimás, seguido de la hidrólisis ácida de sus
desoxinucleótidos.

En 1935, se descubrió que el ADN podría ser cortado enzimáticamente


en mononucleótidos, en presencia de arsenato. Usando este procedimiento,
Klein y Thannhauser obtuvieron los desoxirribonucleótidos y establecieron que
cada nucleótido está unido por un enlace fosfodiéster del hidroxilo 5´ al
hidroxilo 3´ de su otro vecino (figura 2).

Figura 1. Las bases presentes en los


ácidos nucleicos. Las bases guanina
(G), adenina (A) y citosina (C) existen
en el ADN y el ARN. La timina (T) sólo
se encuentra en el ADN y es
substituida en el ARN por el uracilo
(U). Estas bases están unidas
covalentemente a los azúcares
desoxirribosa y ribosa, para formar
así los nucleótidos del ADN y ARN,
respectivamente (ver figura 3).
7
De manera lenta y errática, las ideas provenientes de diversos campos
empezaron a señalar al ADN como un participante de importancia en la vida de
la célula. El trabajo de Fred Griffith en 1928 y el de los investigadores Oswald
Avery, Colin McLeod y Macyln McCarthy, en 1944, permitió demostrar
inequívocamente que la información genética reside en el ADN. Esta
contribución dio lugar a que un importante esfuerzo científico se enfocara en la
determinación de la composición y la estructura química de la molécula del
ADN. Pese a lo anterior, durante algún tiempo muchos bioquímicos insistieron
en que el ADN era una molécula demásiado “tonta” como para llevar mucha
información; los componentes del ADN parecían muy simples y repetitivos
como para ser portadores de información.

Figura 2. Estructura
química de los (a)
ribonucleótidos y (b)
desoxirribonucleótidos
, constituyentes de los
ácidos nucleicos. En el
ARN, el C-1´ de la D-
ribosa está unido al N-
9 de A o G, o al N-1 de
C o U. En el ADN, la 2´-
desoxi-D-ribosa está
unida de la misma forma a las cuatro bases, pero la T toma el lugar del U (los
números con tilde se refieren a los átomos de la pentosa; los números sin tilde se
refieren a los de la base nitrogenada). Los grupos fosfato pueden estar unidos al
C3´ o al C5´ de la pentosa. Si el grupo fosfato está ausente, el compuesto es un
nucleósido. En todos los nucleótidos y nucleósidos naturales, el enlace N-
glicosídico que une la base nitrogenada al C1´ del azúcar es de configuración _
(Voet & Voet, 1995).

1.3 El descubrimiento de la estructura del ADN.

A mediados del siglo pasado, los investigadores no pudieron avanzar


más en la elucidación de la estructura primaria del ADN. Ninguno de los
requerimientos claves para la determinación de la secuencia estaba a la mano:
no habían métodos para obtener muestras puras de ADN con una secuencia
de bases homogénea, y tampoco estaban disponibles métodos para el corte de
cadenas de ADN en una base específica. Consecuentemente, toda la atención
se centró en la estructura secundaria.

Dos experimentos independientes demostraron que el ADN poseía una


estructura secundaria ordenada. Ambos dejaron información vital para sus

8
sucesores, sin embargo, cada contribución tenía un error. En 1938, William
Astbury obtuvo un patrón de difracción de rayos-x de fibras secas de ADN, y
dedujo que el espacio de 3.34 Å a lo largo del eje de la fibra correspondía al de
una sucesión cercana de nucleótidos planos. Éstos sobresalían
perpendicularmente a lo largo del eje de la molécula para formar una estructura
relativamente rígida. Algunos años después, J. Gulland estudió la viscosidad y
la birrefringencia de flujo del ADN y postuló la presencia de puentes de
hidrógeno que unían a los grupos hidroxilo de la piridina y la purina y a algunos
de los grupos aminos. Desafortunadamente, utilizó las formás tautoméricas
enol para la timina y la guanina. La importancia de las formás tautoméricas
correctas (ceto), se reconoció hasta 1953.

Erwin Chargaff estudió la composición del ADN de una amplia variedad


de fuentes. Mediante cromatografía en papel separó los productos de la
hidrólisis del ADN y con espectroscopia ultravioleta cuantificó sus abundancias
relativas. Sus datos mostraron que la proporción de purinas (A+G) siempre es
igual a la proporción de pirimidinas (C-T) en el ADN de cualquier organismo.
Aunque la proporción (G+C)/(A+T) varía de especie a especie, diferentes
tejidos de una sola especie tienen la misma composición de ADN. Cualquier
estructura propuesta para el ADN tenía que considerar este patrón (figura 3).

Los patrones de difracción de rayos X realizados por Rosalind Franklin y


Maurice Wilkins revelaron que el ADN podía tener dos estructuras secundarias
posibles, cuya formación dependía de la humedad relativa a la cual se
obtuvieran los datos. La forma A del ADN se obtuvo a baja humedad. En
cambio, el patrón del B-ADN prevalece a una humedad elevada. Éste patrón
entrecruzado, representativo de las estructuras helicoidales, tiene una fuerte
reflexión a 0.34 nm, que indica el espaciamiento entre los pares de bases
adyacentes, y una reflexión a 3.4 nm que corresponde a un giro completo de la
hélice. Franklin propuso que este comportamiento requería que los grupos
fosfatos estuvieran expuestos al agua en el exterior de la hélice, con el
corolario de que las bases estuvieran en el interior de la hélice.

En 1953, James Watson y Francis Crick descifraron la estructura del


ADN. Watson propuso que el número de nucleótidos en la célula unitaria
cristalográfica favorecía una hélice de doble cadena. Crick dedujo de los datos
del patrón de difracción que la estructura era una díada, es decir, que tiene una
asimetría tal que las cadenas equivalentes son antiparalelas, es decir, corren
en direcciones opuestas a lo largo del eje longitudinal. Sólo quedaba por
resolver un problema: cómo construir el núcleo de la hélice, empacando las
bases juntas en una estructura regular. A partir de las conclusiones de Gulland,
Watson sabía que los puentes de hidrógeno unían las bases del ADN. Esto lo
9
convenció de que la esencia de la cuestión tenía que ser una regla que
gobernara los puentes de hidrógeno entre las bases.

Aconsejado por Jerry Donohue, Watson manipuló modelos de las bases,


en las formás tautoméricas ceto, apareando la A con la T y la G con la C.
Encontró una relación simple y convincente que involucraba dos puentes de
hidrógeno para una pareja A·T y tres puentes de hidrógeno para una pareja
G·C. La característica especial de este esquema de apareamiento de bases es
que la geometría relativa de los enlaces uniendo las bases a las pentosas es
virtualmente idéntico para los pares A·T y G·C. Resultó obvio que si una purina
siempre se aparea con una pirimidina, entonces una secuencia irregular de
bases en una cadena sencilla de ADN podría estar apareada regularmente en
el centro de una doble hélice sin pérdida de simetría. Las reglas de Chargaff
fueron reveladas directamente como una consecuencia obligatoria de una
estructura de doble hélice para el ADN. Sobre todo, ya que la secuencia de
bases de una cadena automáticamente determina la de su pareja, Crick y
Watson pudieron visualizar fácilmente cómo una cadena sencilla podría ser el
templado para la síntesis de una segunda cadena de secuencia de bases
complementaria (figura 3).

El modelo de Watson y Crick de la estructura del ADN fue aceptado


rápidamente porque lograba dos cuestiones importantes. Primero, daba cuenta
de toda la evidencia química y física disponible. Segundo, abría el camino para
explicar, de manera más detallada, como lleva a cabo el ADN las funciones
necesarias para ser el portador de la información hereditaria. A partir de este
momento, fue aparente que toda la información requerida para especificar la
diversidad de las moléculas biológicas, necesaria para llevar a cabo las
funciones de la célula, había que buscarla en la secuencia irregular de las
bases nucleotídicas. Alexander Dounce, en 1950, postuló que el ARN era el
templado que dirigía la síntesis de proteínas celulares y que una secuencia de
tres nucleótidos especificaba solo un aminoácido. El reconocimiento de varios
tipos de ARN por Robert Holley no tardó en llegar. Más adelante, Gobind
Khorana sintetizó los 64 tri-ribonucleósidos difosfato y los poli-ribonucleótidos
con secuencias repetidas de di-, tri- y tetranucleótidos que fueron usados como
mARN para identificar cada triplete del código. Y el establecimiento del código
genético por Marshall Niremberg y Severo Ochoa fue el evento culminante.

10
Figura 3. Representación esquemática de la estructura de la doble hélice del ADN.
En el texto se explica la configuración de la estructura.

2.0 FUNDAMENTOS TEORICOS.

2.1 Estructura de los ácidos nucleicos.

El ADN es una doble hélice. Cada una de las hélices es un polímero


integrado por millones de nucleótidos que son los monómeros del polímero.
Cada nucleótido está formado por una desoxirribosa, una base púrica o
pirimídica y un grupo fosfato. Las dos cadenas de ADN son antiparalelas y se
unen entre sí a través de puentes de hidrógeno que se forman entre las bases
complementarias (A·T y G·C) de las dos hebras del ADN. De esta manera, se
obtiene una estructura tipo doble hélice, donde las bases de los nucleótidos se
encuentran orientadas hacia el interior, mientras que los grupos fosfato y las
desoxirribosas lo hacen hacia el exterior, formando los esqueletos fosfodiéster
de cada hélice (figura 3). Los pares de nucleótidos se encuentran separados
entre sí por 3.4 Å, cada diez pares de nucleótidos (34 Å) se alcanza una vuelta
de la hélice. La diferencia fundamental entre todas las moléculas de ADN que
forman el material genético de los seres vivos es la secuencia de los millones
de estos cuatro tipos de nucleótidos con sus bases A, T, G y C en cada
molécula de ADN.
11
Al igual que en el ADN, los estudios de la estructura del ARN empezaron
con su estructura primaria. Esta búsqueda se logró en paralelo que la del ADN,
pero tuvo la complejidad extra del grupo hidroxilo 2´ de los ribonucleótidos. A
diferencia del ADN, las moléculas de ARN constan generalmente de cadenas
únicas de polinucleótido, debido a que se forman copiando la secuencia de
bases de una cadena de ADN. El apareamiento de las bases de Watson-Crick
en el ARN es normal, aunque el tARN es una rica fuente de pares de bases
inusuales. Hoy se sabe que el ARN tiene una mayor versatilidad estructural
que el ADN en la variedad de sus especies, en la diversidad de sus
conformaciones, y en su reactividad química. Los ARNs naturales pueden
formar estructuras de doble cadena o adoptar una forma globular compuesta
por pequeños dominios dobles conectados por segmentos de cadena sencilla.
Las dobles hélices del ARN sólo pueden adoptar la forma A, ya que el hidroxilo
2´ de la ribosa constituye un impedimento estérico.

2.2 Función biológica de los ácidos nucleicos.

Las funciones de los ácidos nucleicos son de almacenamiento,


expresión y replicación de la información biológica. En términos generales,
todas las moléculas de ADN tienen una configuración similar. Sin embargo, el
ADN de una determinada especie de organismos tiene una secuencia de
bases propia: su estructura primaria está agrupada en unidades funcionales
llamadas genes. La información que contiene esta secuencia desempeña
diversas funciones. Los genes estructurales codifican para enzimás, proteínas
estructurales y proteínas reguladoras. Otros tipos de genes codifican moléculas
de ARN que no especifican la estructura primaria de un polipéptido, i.e., tARNs.

El primer paso en la síntesis de proteínas es la síntesis de una molécula


de ARN usando como molde un segmento de una de las cadenas del ADN. En
la transcripción, el orden de los desoxirribonucleótidos de uno o varios genes
se transfiere uno por uno a una secuencia de ribonucleótidos complementaria.
Este proceso está mediado por la enzima ARN polimerasa; y al igual que la
replicación del ADN, siempre ocurre en la dirección 5' a 3'.

Como los procariontes no tienen membrana nuclear, las moléculas de


ARN que se transcriben de los genes son inmediatamente traducidas a nivel de
los ribosomás para sintetizar las proteínas. En el caso de los eucariontes, los
ARN transcritos son transportados del núcleo al citoplasma, a través de la
membrana nuclear. Además, los genes de los eucariontes contienen intrones,
estructuras de ADN que interrumpen la región del gen que codifica para la
proteína (exón). Al transcribirse un gen en los núcleos de las células de los
eucariontes, el ARN resultante incluye tanto las regiones de los intrones como
12
las de los exones. Esta molécula de ARN se “procesa” para dar lugar al mARN
maduro que se exporta del núcleo de la célula al citoplasma, donde luego se
traduce en proteína.

La información genética contenida en cada molécula de mARN se


traduce en proteínas a través de un proceso enzimático que se realiza en los
ribosomás. En la traducción participan principalmente tres tipos distintos de
ARN: el ARN ribosomal (rARN), que junto con varias proteínas forman los
ribosomás; el ARN mensajero (mARN), que acarrea la información genética
contenida en genes específicos del ADN y los ARNs de transferencia (tARN),
que sirven como adaptadores específicos para cada aminoácido durante el
ordenamiento lineal de éstos en la síntesis de proteínas, conforme la secuencia
del mARN.

La síntesis de proteínas, que de facto es la traducción de la secuencia


de nucleótidos presentes en el mARN, se lleva a cabo mediante la
polimerización de aminoácidos en proteínas, a nivel de los ribosomás en
dirección 5' a 3'. La secuencia del mARN realiza la codificación en forma de
tripletes de bases (codones) de acuerdo con el código genético, incorporando
en cada paso de lectura un aminoácido de la proteína. Cada tARN tiene una
secuencia complementaria o anticodón para el codón del aminoácido, que le
permite reconocer el codón correcto sobre el mARN.

3.0 DESARROLLO HISTORICO

3.1 Secuenciación de ácidos nucleicos.

Inicialmente, se pensaba que la secuenciación de los ácidos nucleicos


era mucho más difícil que la de las proteínas, y muy poco progreso se hizo
hasta 1960. Esto se debió, en parte, a la falta de substratos puros del tamaño
adecuado, con los cuales desarrollar los métodos y en parte, a la composición
de los ácidos nucleicos. Se esperaba que la interpretación de los resultados de
la secuenciación de los ácidos nucleicos (cuatro monómeros) fuera más difícil
que el de las proteínas (20 aminoácidos), y se tendrían que aislar productos de
degradación más grandes para poder traslaparlos y deducir sus secuencias.
Por otro lado, el hecho de tener cuatro componentes solamente, se pensaba,
haría más fáciles los analices finales. Al inicio, la dificultad predominante fue la
interpretación de los resultados, pero a medida que las técnicas se fueron
mejorando y que se fueron estudiando moléculas más largas, la cuestión del
análisis empezó a ser más importante. Hoy, la secuenciación de ácidos
nucleicos es más rápida y simple que la secuenciación de proteínas.
13
La estrategia básica de la secuenciación de ácidos nucleicos es idéntica
a la que se utiliza en la secuenciación de proteínas. Ésta involucra:

1.- La degradación específica y el fraccionamiento de los polinucleótidos


de interés a fragmentos suficientemente pequeños para ser secuenciados.

2.- La secuenciación de los fragmentos pequeños.

3.- El ordenamiento de los fragmentos a través de la repetición de los


pasos anteriores, usando un procedimiento de degradación que produce una
serie de fragmentos de polinucleótidos que traslapan el punto de corte en la
primera serie.

El primer ácido nucleico en ser secuenciado fue el tARNAla de levadura.


La secuencia de este nucleótido de 76 bases fue realizada por Holley y
colaboradores en siete años (Stewart y Letham, 1977). Ellos usaron métodos
de secuenciación similares a los que se usaban para secuenciar proteínas; la
hidrólisis parcial con enzimás y el fraccionamiento de los productos en
columnas de intercambio iónico. El grupo de Holley introdujo el uso de la
ribonucleasa T1 (de Aspergillus oryzae), la cual corta ARN después de residuos
de guanina y de la ribonucleasa pancreática A, que corta después de residuos
pirimídinicos.

Poco después, Frederick Sanger y sus colaboradores dirigieron sus


esfuerzos para desarrollar técnicas de fraccionamiento más rápidas y simples,
las cuales permitieron la secuenciación de ARN y luego de ADN. El grupo de
Sanger marcó el ARN con 32P, y pudo detectarlo mediante autoradiografías.
Además, introdujeron un método más sencillo para fraccionar los
oligonucleótidos. Una técnica de separación bidimensional, con electroforesis
en acetato de celulosa, seguido de la electroforesis de intercambio iónico en
papel. Siguiendo este enfoque general, el grupo de Sanger desarrollo varios
métodos para estudiar los nucleótidos aislados (Sanger, 1988).

Uno de los métodos consistía en someter a los oligonucleótidos


digeridos con la ribonucleasa T1, a una digestión parcial con una exonucleasa
5´ y correr los productos en una electroforesis sobre papel de dietilaminoetil
(DEAE)-celulosa a pH 1.9. La degradación secuencial del extremo 5´ da una
mezcla de fragmentos, en donde todos tienen el mismo extremo 3´ pero
difieren en sus extremos 5´. En la electroforesis los fragmentos se ordenan por
tamaño, y de la posición relativa de dos bandas adyacentes es posible
identificar la naturaleza de los nucleótidos, por los cuales ellos difieren. Otro
método exitoso fue la técnica “correría de puntos” (“wandering spot”). Se
14
desarrolló un sistema bidimensional en el que primero se digería con una
exonucleasa y los fragmentos obtenidos se ordenaban de acuerdo a su
tamaño, de tal manera que cada punto difería del punto siguiente por un
nucleótido. El sistema fue arreglado para que las posiciones relativas de dos
puntos vecinos dependieran de los nucleótidos por los cuales diferían. El
método fue extendido para usarse con digestiones más complejas, pero no fue
posible distinguir la A de la G con absoluta certidumbre. Con estos métodos, se
secuenció el ARN ribosomal 5S de 120 residuos (Sanger, 1988). El arte de
secuenciar ARN por estás técnicas alcanzó su cenit en 1976, con la
secuenciación del genoma de 3,569 nucleótidos del bacteriofago MS2 por
Walter Fiers.

El principal problema con la secuenciación del ADN era su talla muy


larga; el ADN más pequeño que se encontraba disponible era el de genomas
de bacteriófagos de cadena simple, de cerca de 5000 nucleótidos, como el
øX174. Y éstos eran muy largos para poder secuenciarlos con los métodos que
existían hasta ese momento. Otra dificultad era la falta de enzimas de
restricción adecuadas. No existía una enzima con una especificidad análoga a
la de la ribonucleasa T1 para el ADN.

Alrededor de 1973, se usaron técnicas similares a las empleadas con el


ARN para secuenciar ADN, y se pudieron determinar unas pocas secuencias
de unos 50 residuos. Sin embargo, los métodos eran lentos y laboriosos, y
resultó obvio que si se iban a atacar secuencias vastas de materiales
genéticos, se necesitaba un nuevo enfoque. Una alternativa a la hidrólisis
parcial fue usar técnicas de copiado enzimático para la secuenciación. C.
Weissmann y sus colaboradores descubrieron que el bacteriófago Q_ tiene una
ARN polimerasa que copia su propio ARN y desarrollaron técnicas para marcar
el ARN y deducir su secuencia. La enzima obvia para copiar el ADN fue la ADN
polimerasa.

Un enfoque elegante para conseguir la digestión específica del ADN,


que pudo ser combinado con un procedimiento de copiado, fue sugerido por C.
Chamberlin en 1963. La técnica hace referencia a que en condiciones
normales los substratos de la ADN polimerasa son los desoxirribonucleósidos
trifosfatos, pero si se remplaza el magnesio por manganeso en el medio, se
pueden usar ribonucleósidos trifosfatos. Si la incubación se hace con un
ribonucleósido trifosfato, por ejemplo, el rCTP y tres desoxirribonucleósidos
trifosfatos, se puede construir una cadena de ADN con todos los dCs
remplazados por rCs. Estos enlaces son lábiles en soluciones alcalinas o
pueden ser digeridos con una ribonucleasa. De esta manera, se puede

15
preparar una digestión específica en C y otras digestiones similares para
escindir los otros residuos.

Por otra parte, la ADN polimerasa requiere un ADN de cadena sencilla


como templado y un iniciador o “primer”. Éste es un oligonucleótido que
contiene un extremo 3´ libre que es complementario con una cadena molde de
ADN y funciona como punto de inicio para la adición de nucleótidos. Sanger y
su grupo utilizaron como templado el ADN de cadena sencilla del bacteriófago
f1 y sintetizaron el iniciador con base en el método desarrollado por Khorana.
Como iniciador usaron un desoxirribonucleótido con una secuencia predicha a
partir de la secuencia de aminoácidos, ya conocida, de una proteína de la
superficie del bacteriófago. Con este método, pudieron determinar la secuencia
de 80 nucleótidos. Sin embargo, para poder sintetizar otros 80 residuos,
necesitaban hacer otro iniciador. Este procedimiento era todavía lento para
analizar muchos fragmentos.

Hasta el momento, Sanger y su grupo habían obtenido en sus


experimentos ADN altamente marcado, usando el substrato radioactivo con
una actividad específica alta y en bajas concentraciones. Ellos observaron que
cuando usaban 32P-ATP, los productos de ADN formados se terminaban antes
de que se incorporara una A. Debido, presumiblemente, a que a la enzima le
faltaba ATP. Esto les sugirió un nuevo enfoque para secuenciar ADN. Si uno
puede producir una mezcla de fragmentos con el mismo extremo 5´ (que
corresponde al extremo 5´ del iniciador) y terminarlos en posiciones 3´
correspondientes a las A´s, la determinación de los tamaños relativos de todos
esos fragmentos debería producir una medida de la posición relativa de las
A´s. Esto, combinado con datos similares de los otros tres nucleótidos, es todo
lo que uno necesita para la determinación completa de una secuencia.
Paralelamente, se estudiaron otros métodos de fraccionamiento, y la
electroforesis en gel de acrilamida resulto ser la más eficiente. Con esta técnica
se pudieron separar nucleótidos de hasta 250 residuos de acuerdo a su
tamaño. En el gel, los fragmentos más pequeños migran más rápido que los
más grandes, y cada uno puede ser separado de sus vecinos, los cuales
difieren en tamaño sólo por un nucleótido. Después de introducir ligeras
modificaciones, desarrollaron el método del “más y menos”, con el que se
determinó la mayoría de la secuencia del bacteriofago øX174. Sin embargo, el
grupo de Sanger no tardaría en desarrollar un método más eficiente y
confiable: el enzimático, que se discute más adelante.

16
Después de 1975, se realizó un progreso dramático en la tecnología de
la secuenciación de los ácidos nucleicos. Tres avances hicieron esto posible:

1.- El descubrimiento de las endonucleasas de restricción, enzimás que


cortan ADN de cadena doble en secuencias específicas.

2.- El desarrollo de mejores técnicas de secuenciación de ADN.

3.- El desarrollo de técnicas de clonación que permitieron la adquisición


de un segmento de ADN en las cantidades necesarias para secuenciarlo.

En 1977, se reportaron dos protocolos para la secuenciación de ADN. El


primer método fue el de Maxam y Gilbert. Con este método, al igual que con el
de Sanger, se obtiene una autoradiografía en donde puede leerse una
secuencia. Sin embargo, se determina la secuencia de una molécula de ADN
utilizando químicos que cortan en posiciones específicas fragmentos marcados
en sus extremos 5´. El segundo método es el de Sanger. Éste utiliza un
templado de ADN de cadena sencilla para sintetizar la hebra complementaria,
la cual se termina en posiciones específicas. En los dos casos, la secuencia de
la molécula se determina por diferencias en los tamaños de los fragmentos
generados.

3.2 El método de degradación química (Maxam and Gilbert, 1977).

En este método, un fragmento de ADN de cadena doble o sencilla se


marca en los extremos 5´ o 3´ de una o ambas hebras con 32P. Después,
la muestra de ADN se divide en cuatro alícuotas y se fragmenta en
cuatro reacciones químicas distintas. Posteriormente, los fragmentos de
ADN generados pueden ser separados por electroforesis en cuatro
carriles distintos con base en su tamaño. Conociendo el nucleótido en el
que se realizaron los cortes, se puede inferir la secuencia de la molécula
original (figura 4). Las reacciones químicas que se utilizan para
fragmentar la molécula de ADN son las siguientes:

1. Corte de las purinas. Las purinas adenina y guanina se metilan


con dimetil sulfato (DMS). Después, la reacción es tratada en
condiciones alcalinas; la molécula de ADN se fragmenta en las
purinas metiladas. Como resultado, se obtiene una serie de
bandas oscuras que corresponden a las guaninas (las cuales se
metilan 5 veces más rápido), y bandas claras que corresponden a
las adeninas. Para interpretar fácilmente el patrón de bandas

17
generadas, se puede comparar contra un tratamiento que
favorezca el corte de las adeninas.

2. Corte de adeninas. Esta reacción es una variación de la anterior.


Las purinas metiladas se tratan inicialmente con un ácido diluido.
Esto favorece el corte de las adeninas metiladas. Después de un
tratamiento alcalino las guaninas también son cortadas. Este
tratamiento genera una serie de bandas oscuras y claras que
también corresponden a las adeninas, y las guaninas,
respectivamente.

3. Corte de pirimidinas. Esta reacción utiliza el reactivo hidracina,


que corta las bases citosina y timina. Posteriormente, se trata con
piperidina para completar la reacción.

4. Corte de citosina. La presencia de NaCl 2M inhibe la reacción de


hidracina con tiamina, y el tratamiento posterior con piperidina,
produce solamente fragmentos que terminan en citosina.

Desde que se reporto este método, no se han encontrado reactivos


químicos específicos que corten las bases A o T, por lo que se utiliza la
estrategia de corte descrita en la figura 4. Esta estrategia permite distinguir
entre los nucleótidos que se encuentran al final de cada corte y deducir la
secuencia de ADN.

18
1 2 3 4

Figura 4. El método de Maxam y Gilbert para secuenciar ADN. Los números de los
carriles en el gel corresponden a los distintos tipos de corte que se describen en el
texto.

3.2.1 Ventajas y desventajas del método de degradación química.


La baja resolución obtenida cuando se reportó la técnica no se debió a
un factor inherente al método de Maxam-Gilbert, si no a una limitante de los
geles de acrilamida. En un inicio, se consideraba un logro poder diferenciar el
tamaño de 250 fragmentos y determinar la secuencia de ese tamaño. El
análisis de una secuencia en geles de acrilamida era complicado, ya que no se
podía separar los fragmentos grandes. Otro problema que comúnmente afecta
la resolución de las bandas obtenidas en el gel es el ensanchamiento de
bandas cuyas secuencias favorecen la formación de estructuras secundarias.
Para mejorar la resolución del gel se ha reportado que el uso de geles de
acrilamida muy delgados, en conjunto con un voltaje alto de corrimiento,
produce bandas más delgadas y mejor separadas (Sanger y Coulson, 1978).

Otro aspecto del método de Maxam-Gilbert que puede ser un poco


laborioso es la necesidad de separar y analizar individualmente las hebras del
ADN que se quiere secuenciar (Sanger et al., 1977). Esto se puede realizar
mediante enzimás de restricción (figura 5) que separen los extremos

19
etiquetados para el análisis. Alternativamente, las dos hebras marcadas
pueden ser desnaturalizadas y separadas en un gel (Maxam y Gilbert, 1977).

Hoy en día, el método más usado para la secuenciación de ácidos


nucleicos es el método de Sanger. Sin embargo, es justo decir que el método
de Maxam-Gilbert es el más adecuado para determinar la secuencia de
fragmentos cortos de ADN, debido a que puede determinar la secuencia desde
la primera base. En cambio, el método de Sanger sólo permite la lectura a
partir de la base 10-20 (Tahara et al., 1990).

Figura 5. Las enzimás de restricción reconocen secuencias


específicas de ADN y pueden ser utilizadas para separar las
hebras etiquetadas antes de secuenciar por el método de
Maxam-Gilbert.

3.3 El método enzimático (Sanger et al., 1977).

El método de secuenciación enzimático salió casi al mismo tiempo que


el de Maxam y Gilbert, pero ha sido más utilizado. Esto se debe, en gran
parte, a que se han realizado grandes avances en la automatización de
esta técnica, lo cual se discutirá más adelante. El método de Sanger se
basa en el uso de la ADN polimerasa para sintetizar cadenas de ADN
con una terminación específica. Con este método se generan
fragmentos de ADN de todos los tamaños posibles que se puedan
distinguir entre sí, por el tipo de marcaje que llevan o por la
incorporación de un terminador específico. Las enzimás del tipo de la
ADN polimerasa requieren de un templado de ADN de cadena sencilla, y
realizan la síntesis de la hebra complementaria extendiéndola a partir de
un iniciador en dirección 5’ a 3’. Entre los componentes de la reacción se
incluyen nucleótidos que no tienen un grupo hidroxilo en su extremo 3’
(ddNTP), para poder obtener una terminación especifica en las cadenas.
Una vez que el ddNTP se incorpora como el residuo terminal, evita que
la cadena de ADN sintetizada continúe extendiéndose. La incorporación
de los ddNTPs es al azar, de tal forma que se obtienen fragmentos de
todos los tamaños posibles que terminan en un residuo especifico.

En el método de Sanger (1977), la estrategia es hacer cuatro


reacciones diferentes de síntesis de ADN, utilizando un ddNTP distinto
en cada tubo. Con la mezcla del nucleótido normal (dNTP) y su
20
terminador (ddNTP), se pueden generar fragmentos complementarios de
diferentes tamaños que terminan en el mismo nucleótido. Después,
estos fragmentos se pueden separar en un gel de electroforesis con
cuatro carriles distintos, para determinar la secuencia del templado
(figura 6).

Figura 6. El método de Sanger. Cuatro reacciones con ddNTPs diferentes permiten


la síntesis de distintos fragmentos con una terminación específica. Estos
fragmentos se pueden separar por electroforesis y comparando los tamaños, se
puede determinar la secuencia del templado.

El método de Sanger tiene varias ventajas sobre el método de Maxam-


Gilbert (Blackburn y Gait, 1996). Las reacciones de secuenciación del método
enzimático se pueden realizar en unas horas, en cambio las del método de
Maxam-Gilbert tardan al menos un día. Las reacciones del método de Sanger
son más “puras”, con menos contaminantes que puedan afectar la resolución
del gel.

3.3.1 Limitaciones del método enzimático.

Cuando se reportó este método para la secuenciación de ADN, se usaba


el fragmento Klenow de la polimerasa I, y sólo un ciclo de síntesis (incubando a
37 ºC) para obtener fragmentos de distintos tamaños. Todos los fragmentos
tenían incorporados en sus cadenas, nucleótidos marcados con 32P. El grupo
21
de Sanger reportó que con esta técnica se podía determinar una secuencia de
hasta 300 nucleótidos, a partir de 15 bases del iniciador, aproximadamente. Al
momento de publicar esta técnica, también reportaron que la mayor dificultad
era que los ddGTPs no estaban disponibles comercialmente. Desde entonces
se ha experimentado con variaciones del protocolo original y se han realizado
grandes avances en la automatización de este método. En la tabla 1 se
resumen algunos de los avances más importantes que han permitido el
desarrollo de métodos automatizados para la secuenciación de ADN.

4.0 MÉTODOS CONTEMPORÁNEOS EN LA SECUENCIACIÓN

4.1 Automatización del método de Sanger

En la tabla 1 se resumen algunos de los avances mas importantes que


han permitido el desarrollo de métodos automatizados para la secuenciación
de ADN (usando el método de Sanger).

Tabla 1. Descubrimientos significativos que permitieron el desarrollo de los


métodos automatizados de secuenciación de ácidos nucleicos.

Avance Descripción Referencia


Reacción en Técnica que permite la amplificación Mullis, 1990
cadena de la exponencial de un fragmento de ADN
polimerasa
(PCR)
Polimerasa Taq Polimerasa termoestable que puede Innis et al., 1988;
utilizarse en el PCR Carballeira et al.,
1990
Marcaje del El marcaje y el tipo de detección utilizado Prober et al.,
ADN para identificar los fragmentos de ADN 1987; Igloi, 1998
sintetizados
Secuenciadores Desarrollo de máquinas automatizadas Hunkapiller, et al.,
automatizados con la capacidad determinar la secuencia 1991; Lipshutz y
de miles de pares de bases por día Fodor, 1994

22
4.1.1 La técnica de PCR y su relevancia en la secuenciación de ADN.

En 1985, el químico Kary Mullis desarrolló la técnica de la reacción en


cadena de la polimerasa (PCR). Este método permite la amplificación
exponencial de una molécula de ADN, generando millones de copias de un
fragmento. Esto se lleva acabo con oligonucleótidos que contienen un grupo
extremo 3´ libre, que es complementario con la cadena molde de ADN. Los
“oligos” funcionan como punto de inicio para la adición de nucleótidos y para
copiar la cadena molde en el PCR. Una vez que el oligonucleótido se une a su
blanco, la polimerasa de ADN puede seguir extendiendo la hebra
complementaria. En una reacción típica de PCR se usan dos oligonucleótidos
que flanquean la región de ADN que se desea amplificar. El número de copias
del fragmento de ADN que se encuentra entre los dos oligonucleotidos se
amplifica con varios ciclos de reacción.
Cada ciclo de una reacción de PCR
consta de tres pasos (figura 7):

1) Desnaturalización de las hebras


de ADN- El templado es el fragmento
de ADN que se desea amplificar, junto
con la región que reconocen los
oligonucleótidos. Para que el
oligonucleótido se pueda unir, es
necesario que el templado sea de
cadena sencilla. Así que este paso del
PCR es para separar las cadenas de
ADN, si el templado es de doble
cadena. Además, en este paso se
deshace cualquier tipo de estructura
secundaria formada entre los
segmentos complementarios de los
oligonucleótidos y que pudiera Figura 7. La reacción de PCR consiste en
varios ciclos de 3 pasos. Las
interferir con su habilidad de unirse al temperaturas y los tiempos indicados son
templado. Típicamente, la ejemplos y varían dependiendo de las
desnaturalización del ADN se hace características del ADN que se desee
con una incubación breve del tubo de amplificar.
reacción a una temperatura de 94 ºC.

2) Temperatura de alineamiento - Esta temperatura se calcula con base en


las características de los oligos que serán utilizados. La temperatura a la cual
la mitad de los oligos están unidos a su blanco (Tm), se calcula tomando en
cuenta el tamaño de los oligos y su contenido de GC (%GC). Después de
23
desnaturalizar las hebras de ADN, se incuba a una temperatura cercana a la
Tm, para que los oligos puedan encontrar su región complementaria en el
templado. y se unan a ella.

3). Extensión de la cadena de ADN - Este es el último paso de un ciclo de


reacción de PCR y normalmente se hace a 72 ºC, la temperatura óptima para
la polimerasa de ADN. En este paso, la polimerasa extiende la cadena
complementaria del templado. La síntesis de la cadena complementaria tiene
como punto de inicio el complejo oligonucleótido/templado. El tiempo de
incubación de este paso depende del tamaño del segmento que se desea
amplificar. Como regla general se considera que la polimerasa puede sintetizar
1,000 bases por minuto. En la reacción de PCR, típicamente, se llevan acabo
de 30 a 40 ciclos de estos tres pasos, para lograr la amplificación deseada.

La técnica de PCR resultó relevante para la secuenciación de ácidos


nucleicos debido a que se adaptó al método de Sanger, de tal forma que se
puede sintetizar un mayor número de copias de los fragmentos con una
terminación específica. De esta forma, la señal del marcaje que lleva cada
fragmento aumenta, y es posible obtener lecturas más claras de los fragmentos
grandes, lo que a su vez, permite la lectura de secuencias más largas, una vez
que se pueda superar el problema de la resolución de los geles.

4.1.2 Polimerasa Taq.

Cuando se desarrolló el método de secuenciación de Sanger, se usó el


fragmento Klenow de la polimerasa I de E. coli para hacer la síntesis de los
fragmentos de ADN con una terminación específica (Sanger et al, 1977). En
1957, se aisló la Polimerasa I y durante muchos años se pensó que era la
única polimerasa que tenía E. coli (Brown, 1999). De hecho, su actividad es tan
grande que enmáscara la actividad de las otras polimerasas de esta bacteria, y
hasta que se obtuvó una mutante que no producía la polimerasa I (polA), fue
que se pudieron detectar las otras enzimás (Lewin, 1997). El uso de esta
enzima tiene algunas desventajas, en comparación con las polimerasas que se
aislaron de otros organismos, años después. La reacción de síntesis de ADN
reportada por Sanger en 1977, es de un solo paso, y en esta se tienen que
sintetizar todas las posibles combinaciones de fragmentos de ADN necesarios
para determinar la secuencia de un templado. La razón por la que la síntesis se
realiza en un solo paso se debe a que la temperatura óptima para la actividad
de Klenow es alrededor de 37 ºC (temperatura óptima de crecimiento de E.
coli). Por lo tanto, al elevar la temperatura para desnaturalizar los híbridos o
estructuras secundarias del ADN, se inactiva la Klenow, y es necesario añadir
más enzima para hacer un segundo ciclo de síntesis de fragmentos de ADN.
24
El uso de la Klenow para generar fragmentos de ADN en las reacciones
de PCR y para síntetizarlo en la secuenciación de ácidos nucleicos se fue
reemplazando con otras polimerasas más estables, aisladas de organismos
termófilos. Una de las polimerasas más conocidas, fue aislada de Thermus
aquaticus, y se le dio el nombre de Taq (Innis et al., 1988). Dedido a que esta
enzima es resistente a altas temperaturas, fue posible automatizar la reacción
de PCR, sin necesidad de añadir enzima nueva en cada ciclo de reacción. La
temperatura de extensión de las cadenas de ADN se realiza a 72 ºC, en lugar
de 37 ºC. Al hacer el alineamiento de los oligos a una temperatura más
elevada, se obtiene una mayor especificidad y homogeneidad en los
fragmentos generados para la reacción.

Las polimerasas termoestables que se caracterizaron a finales de los


80s contribuyeron a optimizar el método de Sanger para secuenciar ácidos
nucleicos. En ese tiempo, se reportó la purificación de polimerasas que podían
sintetizar hasta 1500 bases de ADN por minuto, y que mantenían su actividad
en un intervalo amplio de temperaturas elevadas (70-80 ºC) (Carballeira et al.,
1990). Con estas enzimás, por fin fue posible obtener fragmentos uniformes de
ADN de hasta 1000 bases y se pudo determinar una secuencia de este tamaño
(Innis et al., 1988).

4.1.3 Marcado de la cadena de ADN.

Se han explorado distintas maneras de marcar la cadena de ácidos


nucleicos sintetizados para la secuenciación de ácidos nucleicos por el método
de Sanger. Originalmente, se utilizaron nucleótidos marcados con 32P en la
mezcla de síntesis y algunos de éstos se incorporaban en la cadena (Sanger et
al., 1977). Los nucleótidos incorporados al final de la cadena (ddNTPs) no
llevaban ningún marcaje (32P), sólo carecían del grupo hidroxilo 3’ para evitar
que se siguiera extendiendo la cadena. Para poder resolver el orden de los
fragmentos sintetizados de esta forma, era necesario separarlos en un gel de
archilamida de cuatro carriles distintos y luego tomarle una radiografía para
detectar el marcaje (32P). En los años siguientes, se exploraron otros tipos de
marcas que no fueran radioactivas para etiquetar estos fragmentos de ADN
(Igloi, 1998). Eventualmente, los fluoróforos fueron remplazando a los isótopos
radioactivos, como el método preferido de marcaje (Prober et al., 1987). La
razón de esto, es que marcar moléculas de ADN con isótopos radioactivos es
laborioso, tardado, peligroso y caro (Smith et al., 1985). Además, las
propiedades de las moléculas fluorescentes han contribuido al desarrollo de
técnicas automatizadas de secuenciación de ácidos nucleicos. Por ejemplo, la
posibilidad hacer todas las reacciones de terminación específica en un solo
tubo (Prober et al., 1987).
25
Existen muchas diferentes etiquetas para los fragmentos de ADN. Las
moléculas fluorescentes tienen varias propiedades que se adaptaron con cierta
facilidad hacia el desarrollo de métodos automatizados para la secuenciación
de ácidos nucleicos, y las limitaciones en su uso se han ido resolviendo. Por
ejemplo, se observó que una inconsistencia en la intensidad de la señal de los
distintos fragmentos, podía complicar la interpretación de la información que se
obtenía del detector (Bennett, 2003). Experimentando con distintos fluoróforos,
se han encontrado algunos que dan una señal constante y que se pueden
distinguir entre si con mayor facilidad (Rosenblum et al., 1997). También, se
observó que la modificación de los dideoxynucleótidos (ddNTPs) con algún
componente fluorescente, puede causar que la migración del fragmento de
ADN en un gel de acrilamida sea un poco distinta, y causar dificultad en la
interpretación de la secuencia. Prober et al. (1987) encontraron que era posible
usar cuatro etiquetas fluorescentes de la misma familia y que estaban
estructuralmente relacionados, pero con distintos rangos de absorción. La
similitud de estructura provoca que la influencia sobre la migración de los
distintos fragmentos sea mínima y facilita la interpretación de la secuencia.

Además, se ha intentado variar la proporción de nucleótidos que están


en la mezcla de reacción. Ansorge et al. (1990) encontraron que la polimerasa
T7 tiene preferencia por algunos nucleótidos. Observaron que si se usa una
proporción equimolar de cada ddNTP, marcado con una molécula fluorescente,
la magnitud de la señal que se obtiene es distinta, y se incrementa en el orden
A<G<C<T. Para compensar esta preferencia natural, se varió la proporción de
los ddNTPs en la mezcla de reacción (2:2:1:0.5 = T:C:G:A) y así la intensidad
de la señal obtenida de las bandas fue constante).

Otro problema, fue la afinidad de las polimerasas por los terminadores


ddNTPs. Tabor y Richardson (1995) identificaron el residuo crítico que
discriminaba entre dNTPs y ddNTPs en el sitio activo de la polimerasa Taq y
mediante ingeniería de proteínas reemplazaron este aminoácido. El resultado
fue una polimerasa intrínsicamente termoestable con 8,000 veces más afinidad
por los ddNTPs.

4.1.4 Incorporación del marcaje a la cadena de ADN.

Independientemente del tipo de marcaje utilizado, existen distintas


formás de incorporar el marcaje a los fragmentos de ADN generados en una
reacción de síntesis. Se han explorado tres formás distintas de incorporación:

1. Marcaje del iniciador- El iniciador parece ser un buen lugar para


incorporar una marca porque se encuentra en el extremo 5’ de la cadena de
26
ADN y no existen muchas posibilidades de que el marcaje interfiera con el
proceso enzimático de la síntesis. Sin embargo, en la práctica esta región ha
sido difícil de modificar enzimáticamente porque es muy inerte. Kempe et al.
(1985) reportaron que después de una incubación de 96 horas con ARN ligasa,
sólo pudieron modificar 20% del iniciador en el extremo 5’ con un marcador de
biotina.

2. Marcaje incorporado en la cadena- Se pueden incorporar nucleótidos


marcados a la cadena de ADN durante su síntesis, tal como lo hicieron Sanger
et al.(1997). Es importante que el marcaje no interfiera con la actividad de la
polimerasa que incorpora los nucleótidos a la cadena. Igloi (1998) reportó que
sólo dos de las polimerasas termoestables, utilizadas comúnmente en la
secuenciación, aceptan dNTPs fluorescentes como sustratos. A pesar de que
el marcaje de ADN fue el primero en reportarse, no se ha utilizado tan
ampliamente porque no tiene ventajas claras sobre los otros métodos.

3. Marcaje del nucleótido terminal- Este método de marcaje, claramente,


es el más sencillo y el mejor por varias razones. En este caso, el nucleótido
responsable de la terminación (ddNTP), es el que lleva la marca. Esto asegura
que todas las cadenas sintetizadas a partir de un templado, lleven incorporado
una sola marca en el mismo lugar (al final de la cadena, en el extremo 3’). De
esta manera, se obtienen fragmentos que producen bandas uniformes y cuyas
secuencias se pueden determinar más fácilmente. Sin embargo, esta no ha
sido la razón principal por la que este método ha sido el más popular. Una
ventaja adicional de tener el nucleótido terminal marcado, es que se pueden
usar nucleótidos terminales que lleven cuatro tipos distintos de marcaje (uno
diferente para cada nucleótido). Esto implica que las cuatro reacciones de
terminación específica (ddATP, ddCTP, ddGTP, y ddTTP) se pueden llevar
acabo en el mismo tubo, y ya no se tienen que hacer por separado (Prober et
al., 1987). Además, debido a que se puede determinar cual es el nucleótido
terminal de los fragmentos de ADN con base en su señal, es posible resolver la
secuencia de un templado con sólo un carril. Las bandas que se ven, emiten
una señal distinta, dependiente del nucleótido terminal incorporado. El hecho
de que las bandas puedan ser diferenciadas con un carril, elimina la variación
que puede ocurrir entre carriles. Además, si por alguna razón se produce
terminación inespecífica (en un dNTP), no se detecta el fragmento, porque no
lleva un ddNTP marcado al final. Hoy en día, este es el método que más se
utiliza para marcar las cadenas de ADN. Kelley (1994) reportó que la
información obtenida en las primeras 300 bases de la secuenciación, es más
precisa (98% contra 95%) utilizando terminadores (ddNTPs) que llevan una
marca fluorescente en lugar de iniciadores con una marca fluorescente.

27
4.1.5 Secuenciación automatizada

Los hallazgos de la década de los 80s (mejores polimerasas, PCR,


marcas fluorescentes) contribuyeron al desarrollo de máquinas automatizadas
capaces de determinar miles de bases de secuencia por día. Las primeras
máquinas de secuenciación salieron a finales de los 80s. En 1986, Smith et al.
reportaron una técnica de secuenciación automatizada, basada en la
terminación específica con cuatro diferentes fluoróforos. La mezcla de síntesis
se cargaba en un solo carril de gel, en tubo, y se usaba un detector óptico para
determinar la absorción de cada banda, casi al final del tubo. Esta información
pasaba directamente a una computadora y permitía obtener información
precisa de hasta 200 pares de bases (pb) de la secuencia. Sin embargo,
habían varias áreas que podían ser optimizadas para aumentar la longitud de
la secuencia obtenida: (1) el tamaño, diámetro y composición del gel
electroforético, (2) los reactivos para la reacción de secuenciación, (3) las
condiciones de electroforesis, (4) equipo óptico/electrónico de detección, (5) los
marcadores fluorescentes (Smith et al., 1986).

Posteriormente, se experimentó con el uso de una máquina que tenía un


detector óptico capaz de leer la información de cuatro carriles (Ansorge et al.,
1987). En este caso, se reportó que era posible obtener información precisa de
más de 400 pb, usando solo un marcador fluorescente y separando las cuatro
reacciones. Sin embargo, se reportó que a pesar de las aparentes ventajas del
uso de marcadores distintos y un carril de detección, era mejor separar las
reacciones para que los resultados no se vieran afectados por las diferencias
(causantes de variación en la migración electroforética) o similitudes (espectros
de absorción traslapados) entre los marcadores (Ansorge et al, 1987).

Ansorge et al. (1988) reportaron el primer protocolo que usaba


marcadores fluorescentes en lugar de isótopos radioactivos para el método de
secuenciación de Maxam-Gilbert. Utilizaron un marcador que no interfería con
la degradación de la molécula de ADN y lograron secuenciar 50
oligonucleótidos de 20 bases cada uno, en un sólo gel. En este reporte, los
autores demuestran que también es factible automatizar el método de Maxam-
Gilbert usando fluoróforos. Sin embargo, en los años siguientes no hubo
muchos avances en esta área, ya que el desarrollo de las técnicas
automatizadas de secuenciación se enfocó principalmente en mejorar el
método de Sanger.

En 1994, se reportó el uso de la polimerasa termoestable “SequiTherm”,


que es capaz de sintetizar fragmentos grandes con terminación específica.
Esto permitió determinar hasta 1000 bases de una secuencia por reacción
28
(Zimmmerman et al., 1994). Esto fue un gran hallazgo, porque a pesar de los
avances en la automatización de la secuenciación la información que se
obtenía después de unas 400 bases de secuencia era difícil de interpretar y
susceptible a error. La excepción eran reacciones de secuenciación utilizando
la polimerasa T7, con la cual era posible obtener hasta 700 bases de
secuencia con 99% de precisión, pero esta tenia la desventaja de no ser
termoestable (Ansorge et al., 1990; Church et al., 1994).

4.1.6 El desarrollo de máquinas de secuenciación

Después de que Smith et al. (1986) reportaron el uso de la primera máquina


automatizada que usaba un detector óptico para obtener la información de
secuenciación (la cual pasaba directamente a una computadora). Se empezó a
experimentar con otros equipos y variaciones de la técnica de secuenciación
con el objetivo de mejorar el rendimiento con estas máquinas.

a) Secuenciadoras basadas en geles tipo “slab”--Estas secuenciadoras


usan un gel vertical para separar los fragmentos generados durante la
reacción de secuenciación y tienen distintos sistemas de detección para
leer el orden de los marcadores fluorescentes. Meldrum (2000) hace una
comparación de algunas propiedades de las máquinas comerciales más
comunes que salieron en los 1990s:

ABI PRISM 377 _ Esta secuenciadora salió a finales de los 80s. Se


basaba en el uso de un carril para detectar cuatro marcadores
fluorescentes distintos. Usa una cámara CCD y es capaz de leer hasta
200 bases por muestra por hora. Se pueden cargar hasta 96 muestras
en un solo gel y éstos se detectan simultáneamente.

ASTRAL _ Esta máquina usa un láser de Argón para iluminar las


muestras lateralmente. Puede detectar más de cuatro marcadores
distintos por muestra y es capaz de acomodar hasta 96 muestras por
gel. En un experimento típico se pueden obtener 300 bases de
secuencia por muestra en un tiempo de 7-8 hrs.

LI-COR Modelo 4200 _ Esta máquina salió en 1997 y tiene un sistema


de análisis que detecta una longitud de onda cercana al infrarrojo. Esta
máquina es capaz de detectar los productos de 2 reacciones de
secuenciación simultáneos y bidireccionales, produciendo 2 veces más
información de cada reacción de secuenciación. Tiene 64 carriles y se
producen secuencias de hasta 1000 bases de cada extremo del
templado con una precisión del 99%.
29
Había mucho interés en reducir el tiempo requerido para obtener los
datos de secuenciación, dado que esto era uno de los pasos limitantes
para completar proyectos de secuenciación. La compañía MJ Research,
Inc. introdujo una máquina en 1998 que llamaron el sistema “HUGE”.
Ésta se basaba en el uso de un gel horizontal de poliacrilamida ultra-
delgado (75 µm); Tenía 96 carriles y podía leer 450 bases por carril en
90 minutos (Meldrum, 2000) . Este aparato se superó en 1999, cuando
se introdujo el secuenciador “Clipper”, desarrollado por la compañía
Visible Genetics, Inc. Éste era capaz de secuenciar 400 bases en 30
minutos en un gel de poliacrilamida con un grosor de 50 µm, o 1000
bases en menos de cuatro horas (Yager et al., 1999).

b) Secuenciadoras basadas en electroforesis capilar- El segundo tipo de


secuenciadoras automáticas se basaba en un sistema capilar para hacer
la separación de los fragmentos de distinto tamaños. Los capilares se
caracterizan por tener un diámetro pequeño (≈200 µm) y permiten hacer
una separación rápida de alta resolución sin calentar la muestra (Huang
y Mathies, 1994). Por mucho tiempo, esta técnica de separación se vio
limitada por el problema de cómo detectar múltiples capilares sin tener
que usar múltiples detectores. Por lo tanto, a pesar del beneficio de que
la separación capilar es muy rápida (1-2 horas con excelente resolución),
no podía competir con las secuenciadoras que separaban las muestras
en un gel tipo “slab” (Huang y Mathies, 1994; Behr et al., 1999). En
1994, Huang y Mathies reportaron el uso de un aparato con un sistema
de detección paralelo de dos fluoróforos que podía leer la información de
25 capilares simultáneamente. Esta máquina era aproximadamente 10
veces más rápida que las secuenciadoras típicas de geles tipo “slab”.
Pronto empezaron a salir otras secuenciadoras automáticas que usaban
separación por electroforesis capilar, con sistemas de detección
paralelos (figura 8) para multiples capilares, por ejemplo:

CEQ 2000 (Evans, 2000) _ Esta secuenciadora tiene ocho capilares con
un detector de cuatro colores. Los pasos para preparar el gel, i.e., la
desnaturalización de la muestra y la carga, son automatizadas. Este
sistema es capaz de determinar 500 bases de secuencia de cada capilar
en 2 horas, o leer hasta 96 muestras automáticamente en un día.

Secuenciadora MCE (Behr et al., 1999) _ Esta secuenciadora se


desarrolló en el Instituto Max-Planck. Tiene una detección paralela de 96
capilares (Figura 8) y es capaz de procesar 15,000 muestras sin
intervención humana.
30
Figura 8. Esta secuenciadora tiene un detector paralelo capaz de leer la información
de 96 capilares simultáneamente. Luz de un láser de Argón se guía por una fibra
óptica (Fi) hasta el generador (PI) que distribuye la luz de forma uniforme por todos
los capilares.

MegaBACE 1000 _ Esta máquina también tiene 96 capilares y es posible


obtener secuencias hasta de 800 pares de bases por corrida (Meldrum, 2000)

ABI PRISM 3700 _ Esta es la secuenciadora que se utiliza en el Instituto de


Biotecnología de la UNAM (figura 9). Puede detectar 5 marcadores
fluorescentes distintos y correr 24 horas sin intervención humana. Cuenta con
96 capilares (y 8 de reserva) y se puede recargar hasta cuatro veces
automáticamente. Se pueden hacer hasta 500 corridas sin necesidad de
cambiar los capilares. Cada corrida dura aproximadamente 2.5 hrs y detecta un
promedio de 550 bases por reacción de secuenciación (Meldrum, 2000).

31
Figura 9. La secuenciadora ABI PRISM 3700. Es el aparato que actualmente se tiene
en el IBt-UNAM. Hay una segunda máquina en el Centro de Investigación sobre
Fijación de Nitrogeno (CIFN-UNAM). Puede correr 768 reacciones de secuencia sin
atención técnica en 36 horas. La longitud de las lecturas obtenidas es de un
promedio de 600-700 bases” (kinish.cifn.unam.mx/~retligen/infrastructura.htm).

4.2 Secuenciación de ARN

Paralelo al desarrollo de los métodos de secuenciación de ADN, también


se reportaron avances en la secuenciación de ARN. Desde que Holley
secuenció un tARN para Alanina en 1965, se han desarrollado métodos de
secuenciación de ARN similares a los utilizados para secuenciar ADN
(Blackburn y Gait, 1996). Básicamente, los métodos de secuenciación de ARN
se dividen en 2 categorías.

4.2.1 Métodos indirectos

En este caso, el ARN se convierte primero a cADN con la enzima transcriptasa


reversa y luego se usa el fragmento obtenido como templado para la reacción
de secuenciación. En realidad, este método determina la secuencia de una
molécula de ADN a partir de la cual se infiere la secuencia de la molécula de
ARN. Este método indirecto es uno de los más comunes para la secuenciación
de ARN porque tiene todas las ventajas de la secuenciación de ADN.

32
4.2.2 Métodos directos

Estos métodos se utilizan para secuenciar la molécula de ARN cuando es


complicado utilizar el método indirecto (Igloi, 1998). Esto suele suceder con
ARNs muy pequeños, o con estructuras secundarias extensas (ribosomales,
transferencia). Todas estas técnicas requieren de que el ARN este en forma
pura.

a) Método enzimático-- En los primeros reportes se experimentó con una


forma enzimática para secuenciar ARN directamente. En este caso,
los autores Brownlee y Cartwright (1977) reportaron los resultados de
la secuenciación de una molécula de mARN de casi 200 pb.
Utilizaron un iniciador marcado con 32P y la transcriptasa reversa.
Usando reacciones similares a las del método de Sanger, los autores
generaron fragmentos de cADN con una terminación específica dada
por ddNTPs. Después, resolvieron el orden de los fragmentos de
ADN generados en un gel de acrilamida. Se ha visto que la
concentración del ARN templado influye mucho en la resolución del
gel. Los autores Carpenter y Simon (1990) reportaron que cuanto
mayor era la cantidad de ARN viral usado como templado, menor era
la resolución obtenida en el gel de acrilamida debido a que las
bandas eran anchas, complicando la interpretación del orden. Ellos
obtuvieron la mejor resolución utilizando 0.4 µg (0.75 pmol) de ARN
como templado. En una reacción de secuenciación de rARN, Bakin y
Ofengand (1992) obtuvieron la mejor resolución empleando 10 veces
menos ARN, es decir, solamente 0.13 pmol.

A pesar de que se generan fragmentos de ADN, el método


enzimático es un método directo porque el templado es una molécula
de ARN. La marca se puede incorporar a los fragmentos de ADN de
maneras alternativas a la usada por Brownlee y Cartwright en 1977.
El uso de ddNTPs marcados tiene la ventaja de que los fragmentos
que sufren una terminación prematura no se detectan ni interfieren
con la interpretación de la secuencia. La terminación prematura suele
ser un problema más común en la secuenciación de ARN por la
formación de estructuras secundarias que interfieren con la actividad
de la transcriptasa reversa. Además, la síntesis de fragmentos de
ADN a 37 ºC carece de las ventajas de las altas temperaturas que se
pueden usar con otras enzimas (polimerasa Taq).

33
b) Método químico-- En 1977 se presentó un método de ruptura química
del ARN similar al de Maxam y Gilbert (Donis-Keller et al., 1977). La
molécula de ARN (en este caso ARN ribosomal) se marca con una
molécula de 32P en un extremo. Después se utilizaron nucleasas para
hacer digestiones de la molécula de ARN marcado en distintos
lugares. La RNAsa T1 corta las guaninas, la RNAsa U2 corta las
adeninas y una hidrólisis alcalina rompe todos los enlaces
fosfodiéster (Donis-Keller et al., 1977). Se utiliza un gel de acrilamida
para separar los fragmentos de estos tres tipos de ruptura, lo que
permite determinar el orden de las guaninas, adeninas y pirimidinas
de una molécula de ARN ribosomal.

A diferencia del método enzimático, en el que se puede usar un


iniciador marcado para generar los fragmentos que serán
secuenciados, el método químico requiere que la molécula de ARN
sea marcada directamente. Esto se puede hacer introduciendo una
marca de 32P en el extremo 5’ de la molécula con una cinasa T4, o en
el extremo 3’ con una ligasa T4 (Blackburn and Gait, 1996).

4.3 Resumen de enzimas usadas en la secuenciación de ácidos


nucleicos.

En la tabla 2 se resumen algunas de las enzimas mas comunes utilizadas


en la secuenciación de ácidos nucleicos. Estas enzimas eran entre las
primeras herramientas en la biología molecular y se aprovecharon sus
actividades naturales en la secuenciación de los ácidos nucleicos.

34
Tabla 2- Algunas de las enzimas que han tenido un papel importante en el
desarrollo de los métodos de secuenciación

Enzima Función Referencia


Fragmento Una polimerasa de ADN que utilizo Sanger en su reacción Sanger et
Klenow de secuenciación. No es termoestable. al., 1977
T7 Una polimerasa de ADN no termoestable que se utilizaba (Ansorge et
frecuentemente en las reacciones de secuenciación con el al., 1990)
Método Sanger. Se utilizaba frecuentemente para
incorporar terminadores (ddNTPs) etiquetadas con un
fluoroforo.
Taq Una polimerasa termoestable aislada de T. aquaticus Innis et al.,
polimerasa (termofilo). Fue una gran herramienta en el desarrollo de 1988
la técnica de PCR.
Enzimas de El primero fue aislado de E. coli en 1968 por Matthew Maxam y
restricción Meselson y Robert Yuan. Son nucleasas que reconocen y Gilbert,
cortan secuencias específicas de ADN (doble cadena). Se 1977
utilizan en el método de degradación química para aislar
los fragmentos (32P) que serán secuenciados.
Transcriptasa Una polimerasa de ADN que sintetiza una cadena de ADN Brownlee y
reversa utilizando una molécula de ARN como templado Cartwright,
1977
RNAsa T1 La RNAsa T1 corta las moléculas de ARN (cadena sencilla) Donis-Keller
en las guaninas. et al., 1977
RNAsa U2 RNAsa U2 corta las moléculas de ARN (cadena sencilla) Donis-Keller
en las adeninas. et al., 1977
32
RNA ligasa Se utiliza para unir una marca radioactiva ( P) en el Blackburn y
extremo 5’ de la molécula de ARN (cadena sencilla). Gait, 1996
Cinasa T4 Se utiliza para unir una marca radioactiva (32P) en el Blackburn y
extremo 3’ de la molécula de ARN (cadena sencilla). Gait, 1996

5.0 ESTRATEGIAS Y APLICACIONES DE LA SECUENCIACIÓN DE


ÁCIDOS NUCLEICOS

5.1 Proyecto de secuenciación del genoma humano

Uno de los factores principales que motivó el desarrollo de la tecnología


de las secuenciadoras automáticas fue el proyecto de secuenciación del
genoma humano. Tal vez ningún proyecto de secuenciación genómica ha
recibido tanta atención como éste, concebido en Estados Unidos en 1988
(Olson, 1993). En ese tiempo, la tecnología de secuenciación automatizada
estaba en sus primeras etapas de desarrollo, y era muy ambicioso intentar
secuenciar un genoma de miles de millones de pb. Sin embargo, el comienzo
35
de este proyecto se anunció oficialmente en 1990 por los departamentos de
Salud y Energía con un presupuesto de 3 mil millones de dólares y la meta de
completar la secuencia en 15 años (Venter et al., 2001).

¿De qué nos sirve la información de la secuencia de un genoma? De una


forma muy general, los objetivos principales del proyecto de secuenciación del
genoma humano eran los siguientes (Olson, 1993):

a) Mejorar la infraestructura de la investigación genética - La secuencia


del genoma humano permitiría la ampliación del conocimiento
genético de nuestro organismo. Se pueden utilizar técnicas como el
PCR para analizar detalladamente ciertos segmentos del genoma.
Conociendo su secuencia, se pueden diseñar oligonucleótidos que
reconocen y se unen a secuencias complementarias en el ADN.

b) Comparar el papel de una secuencia de ADN en los humanos y en


los organismos modelo – Se pueden comparar las secuencias de los
genes identificados en el genoma humano con los genes de otros
organismos y conocer el grado de similitud o diferencia que existe
entre dos especies. También se puede inferir la función de ciertos
genes con base en los conocimientos de otro gen similar, identificado
en otro organismo.

c) Mejorar la bioquímica analítica del ADN - Este era el reto más grande
cuando se anunció el inicio del proyecto de secuenciación del
genoma humano, ya que se refería a mejorar las herramientas para
el análisis de ADN. Éste era un reto técnico, ya que para obtener la
secuencia completa del genoma humano en el tiempo propuesto era
necesario desarrollar la estrategia y las máquinas de secuenciación
con capacidad de secuenciar dos Mpb por año.

La secuencia del genoma humano se reportó en el 2001, cuatro años antes de


la fecha prevista (Venter et al., 2001). Esto se debe en parte a los esfuerzos de
más de 20 grupos internacionales que colaboraron para completar la
secuencia, y a los avances en la tecnología de las secuenciadoras automaticas
(la mayor parte de la secuencia se obtuvo con máquinas ABI PRISM 3700;
figura 9). Pero la razón principal por la que se logró completar la secuencia fue
un cambio en la estrategia de secuenciación (Internacional Human Genome
Sequencing Consortium, 2001). La necesidad de tener una buena estrategia
para secuenciar fragmentos grandes de ADN (e.g, un cromosoma), fue
evidente en el proyecto de secuenciación del genoma humano.

36
5.2 Estrategias para la secuenciación de fragmentos grandes de ADN.

5.2.1 “Chromosome Walking”

Hay dos estrategias generales para secuenciar fragmentos grandes de


ADN. La primera se llama caminata cromosomal “chromosome walking”
(Brown, 1999; figura 10) y consiste en lo siguiente: (1) la fragmentación parcial
del ADN para su inserción en un vector de clonación; (2) la obtención de un
banco de clonas de fragmentos que contienen segmentos que se traslapan y;
(3) la secuenciación de una clona y la identificación de una segunda que posea
la continuación del segmento que se está secuenciando. Este proceso se
repite hasta que se completa la secuencia de la molécula original de ADN (e.g.,
un cromosoma).

Esta estrategia se utilizó originalmente en el proyecto de secuenciación


del genoma humano. Tiene la ventaja de que se asegura la obtención de la
secuencia completa de la molécula original de ADN. En teoría, no se requiere
hacer secuenciación redundante; sin embargo, tiene varias desventajas que
afectan el tiempo y el costo de un proyecto de secuenciación. Primero, cada
clona se tiene que analizar individualmente y en serie. No se puede secuenciar
la siguiente clona hasta no conocer la primer secuencia. Segundo, se requiere
la síntesis de un enorme número de iniciadores para continuar la
secuenciación. Suponiendo que cada iniciador empleado es único y sirve para
secuenciar sólo una parte de una clona particular, se requiere sintetizar de 5 a
10% de la secuencia total (Cantor y Smith, 1999). Tomando esto en cuenta, no
es sorprendente que hasta 1998 sólo se había secuenciado el 5% del genoma
humano (Venter et al., 2001). Era necesario un cambio de estrategia para
completar la secuencia del genoma humano en el tiempo previsto.

37
Figura 10. La estrategia “chromosome walking” permite determinar la secuencia de
un fragmento enorme de ADN ensamblando muchas secuencias pequeñas de
distintas clonas (www.bio.miami.edu/dana/250/25003_10.htm).

5.2.2 “Shotgun Sequencing”

La segunda estrategia general para la secuenciación de fragmentos grandes


de ADN, se llama secuenciación tipo “shotgun” (figura 11). La gran diferencia
entre esta estrategia y la anterior es que en el “shotgun” la secuenciación se
hace a partir de fragmentos al azar. Después, se utiliza un programa de
cómputo para encontrar las regiones que se traslapan entre las secuencias
individuales. Así se va ensamblando la secuencia del fragmento original
(Brown, 1999). Esta estrategia de secuenciación tiene la ventaja de que es
rápida, requiere la síntesis de pocos iniciadores, y tiene una eficiencia
comprobada (Cantor y Smith, 1999). Una de las desventajas de esta estrategia
es que requiere la redundancia de las secuencias para asegurar la obtención
de una muestra completa del ADN original. Otra desventaja es que se requiere
mucha tecnología computacional para ensamblar la secuencia original y que a
veces quedan “gaps” (regiones del fragmento original que no se secuenciaron).
Utilizando esta estrategia de secuenciación, es necesario secuenciar al menos
5 veces el ADN original para poder lograr un muestreo completo (Venter et al.,
38
2001). Tal vez, esta razón es suficiente para explicar la resistencia durante
tanto tiempo para la realización del proyecto del genoma humano,
considerando que es un genoma al menos 25 veces más grande que cualquier
otro genoma ya secuenciado (Internacional Human Genome Sequencing
Consortium, 2001). Aun cuando Weber y Myers (1997) presentaron un plan
para terminar la secuenciación del genoma humano con esta estrategia,
demostrando que sería más rápido y menos costoso, su propuesta no fue bien
recibida.

Figura 11. En la estrategia “shotgun” se secuencian fragmentos al azar y luego


usando un programa computacional se encuentran las regiones que se traslapan
para determinar la secuencia del fragmento original
(http://www.bioteach.ubc.ca/Bioinformatics/GenomeProjects/shotgun%201.gif).

En 1998 se fundó la compañía de biotecnología Celera Genomics, con el


propósito de completar el proyecto de secuenciación del genoma humano
utilizando la estrategia “shotgun” (Myers, 1999). La validez de esta estrategia
fue establecida en el 2001 cuando Venter et al. (investigadores de Celera
Genomics) reportaron que habían completado la secuenciación del genoma
humano en menos de un año.

39
Al conocerse la secuencia del genoma humano se hicieron varios hallazgos
importantes (Venter et al., 2001; Internacional Human Genome Sequencing
Consortium, 2001):

a) El genoma está compuesto por 1% de exones, 24% de intrones y 75% de


regiones intergénicas.

b) Hay entre 30,000 y 40,000 genes que codifican para proteínas.

c) Se han identificado más de 2.1 millones de polimorfismos de un solo


nucleótido (SNPs) en el genoma. Éstos ocurren más o menos uno de cada
1300 bases.

Si se secuencia una región del genoma de dos individuos, se encontrará que


son 99.3% idénticos. En gran parte, las diferencias son cambios de una sola
base conocidos como SNPs; se encontraran las dos alternativas en más de 1%
de la población (Chiche et al., 2002). Dado que muchas enfermedades
genéticas están asociadas a variaciones pequeñas como los SNPs, hay interés
en utilizar la información del proyecto del genoma humano para identificar los
SNPs responsables de ciertas enfermedades (Tang et al., 2004).

5.3 Otras aplicaciones

El avance en la secuenciación de los ácidos nucleicos ha sido una herramienta


que ha generado muchos conocimientos en el campo de la genómica. Hasta el
2001 se habían reportado los genomas completos de 599 virus, 185 organelos,
31 eubacterias, 7 arqueobacterias, un hongo, dos animales y una planta
(Internacional Human Genome Sequencing Consortium, 2001). Las
ramificaciones de tener esta información son innumerables, y su valor
incalculable. Entre otras cosas, nos ha permitido entender cómo se asocian las
enfermedades con la variabilidad genética, la función de genes caracterizados
en otros organismos, el patrón de expresión de genes nuevos, el aislamiento
de genes específicos por PCR, la similitud o variación genética entre especies
diferentes, la organización de la información genética, el origen de algunos
genes, etc. Hay cientos de ejemplos de cada una de estas categorías. Tal vez,
lo que sea más importante recordar es que no parece haber límite en las
aplicaciones de la información que se obtiene de la secuenciación de los
ácidos nucleicos. Gracias a esta información, se han logrado avances en la
investigación de áreas como la medicina, la química, la biología molecular, la
sistemática, la proteómica, y mucho más.

40
6.0 El FUTURO DE LA SECUENCIACION

6.1 Secuenciación por hibridización

Entre otras cosas el conocimiento de la secuencia de los genomas o los


genes de los organismos también ha permitido desarrollar nuevos métodos de
secuenciación. Como reportan Isaksson y Landegren (1999) uno de estos es
la secuenciación por hibridización. Una forma en la cual puede funcionar este
método es utilizando “microarrays”. Estos son soportes pequeños en los
cuales se imobilian pequeños fragmentos de ADN en un orden conocido.
Después se pasa la muestra de ADN (con secuencia desconocida) y se
cuantifica el grado de hibridización, y por consecuencia el grado de identidad
con las secuencias fijas en el soporte (Cantor y Smith, 1999). Esto parece
funcionar especialmente bien en la identificación de SNPs. Wang et al. (1998)
reportaron que es posible identificar el genotipo de un individuo analizando 500
SNPs a la vez en un experimento de hibridización con un “microarray” de
oligonucleotidos. Una posibilidad para la secuenciación de acidos nucleicos a
futuro, que discuten los autores Cantor y Smith (1999) es el hacer hibridización
contra oligonucleotidos que formen palabras de tal forma que se pueda ir
determinando la secuencia sobrelapando los fragmentos (de 6-8 nucleótidos)
con los cuales híbrida el fragmento secuenciado (Figura 12).

Figura 12. La forma en la cual se puede utilizar hibridización para secuenciar. La


molécula de ADN se hibridiza contra pequeños oligonucleotidos que son como
“palabras”. Después, se determina la secuencia.

6.2 Secuenciación a futuro sin fragmentación de ADN

Los autores Cantor y Smith (1999) presentan algunas posibilidades de cómo


puedan evolucionar los métodos en la secuenciación de acidos nucleicos. Las
posibilidades se discuten en función de que poder secuenciar moléculas
individuales de ADN sin fragmentarlos en segmentos. Por ejemplo, usar
moléculas de ADN fijas a un soporte que se van degradando con una
exonucleasa y algún detector que determine cuales son los nucleótidos que se
van liberando (Cantor y Smith, 1999). Una segunda posibilidad es utilizar
microscopia electronica para determinar la secuencia de acidos nucleicos en
41
una molécula de ADN. Esto se podría hacer tal vez marcando las bases
individuales con algún metal pesado.

Ninguno de estos dos métodos se ha implementado por dificultades en


los detalles (Cantor y Smith, 1999). En el primer caso hay dos complicaciones:
como marcar cada base con alguna etiqueta como un fluoroforo, y tener un
detector suficientemente sensible que sea capaz de detectar un solo nucleótido
marcado. En el segundo caso (microscopia electronica), no se pudo marcar
cada base con algún metal sin tener reacciones laterales no deseadas (con
otras bases la molécula de ADN). Sin embargo, tal vez a futuro, se logren
resolver estas dificultades, o se descubran otras alternativas eficientes para
hacer la secuenciación de moléculas individuales de ADN.

42
7.0 REFERENCIAS

Ansorge, W., B. Sproat, J. Stegemann, C. Schwager and M. Zenke (1987)


AutomatedDNA sequencing: ultrasensitive detection of fluorescent bands
during electrophoresis. Nucleic Acids Res 15(11): 4593-4602

Ansorge, W. A. Rosenthal, B. Sproat, C. schwager, J. Stegemann and H. Voss


(1988) Non-radioactive automated sequencing of oligonucleotides by
chemical degradation. Nucleic Acids Res 16(5): 2203-2206

Ansorge, W., J. Zimmerman, C. Schwager, J. Stegemann, H. Erfle, and H. Voss


(1990) One label, one tube, Sanger DNA sequencing in one and two
lanes on a gel. Nucleic Acids Res 18(11): 3419-3420

Bakin, A. and J. Ofengand (1992) A high sensitivity method for sequencing


RNA: application to ribosomal RNA. BioTechniques 13(5):682-683

Behr, S., M. Matzig, A. Levin, H. Eickhoff, C. Heller, (1999) A fully automated


multicapillary electrophoresis device for DNA analysis. Electrophoresis
20: 1492-1507

Bennet, P. (2003) DNA sequencing and the human genome Project. Molecular
Biology In Cellular Pathology. John Wiley & Sons, Ltd pp. 308-328

Blackburn, G. M. and M. Gait (1996), Nucleic Acids in Chemistry and Biology,


2nd Ed., Oxford, U. Pr., NY, EUA.

Brown, T.A. (1999) Genomes. Bios Scientific Publishers, Ltd. John Wiley &
Sons, Inc, New York, USA. pp. 59-82

Brownlee, G. and E. Carterwright (1977) Rapid gel sequencing of RNA by


primed synthesis with reverse transcriptase. J Mol Biol 114: 93-117

Cantor, C. and C. Smith (1999) Genomics: The science and technology behind
the human genome project. John Wiley & Sons, Inc.

Carballeira, N., M. Nazabal, J. Brito, O. Garcia (1990)Purification of a


thermostable DNA polimerase from Thermus thermophilus HB8, useful in
the polymerase Chain reaction. BioTechniques 9(3): 276-281

Carpenter, C. and A. Simon (1990) Simplified RNA sequencing using dideoxy


chain termination. BioTechniques 8(1): 26-27
43
Chiche, J., A. Cariou, J. Mira (2002) Bench-to-bedside review: Fulfilling
promises of the human genome project. Critical Care 6(3): 212-215

Church, G. G. Gryan, N. Lakey, S. Kieffer-Higgins, L. Mintz, M. Temple, M.


Rubenfield, L. Jaehn, H. Ghazizadeh, K. Robison, and P. Richterich
(1994) Automated multiplex sequencing. Chapt 2. Automated DNA
sequencing and analysis. Edit. Adams, M. C. Fields, J. Venter. Academic
Press, Inc. SD, USA. Pp. 11-16

Donis-Keller, H. A. Maxam, and W. Gilbert (1977) Mapping adenines, guanines,


and pyrimidines in RNA. Nucleic Acids Res 4(8): 2527-2538

Evans, T. (2000) Engineering in genomics. Developing and commercializing a


DNA sequencer. IEE EMB 19(4): 117-120

Huang, X. and R. Mathies (1994) Application of capillary array electrophoresis


to DNA sequencing. Chapt 3. Automated DNA sequencing and
analysis. Edit. Adams, M. C. Fields, J. Venter. Academic Press, Inc.
SD, USA. Pp. 17-28

Hunkapiller, T., R. Kaiser, B. Koop, and L. Hood (1991) Large-scale and


automated DNA sequence determination. Science 25: 59-67

Igloi, G. (1998) Strategies for introducing non-radioactive labels during the


automated Sequence analysis of nucleic acids. Elec J Biotech 1(1): 23
30

Innis, M., D. Myambo, D. Gelfand, and M. Brow (1988) DNA sequencing with
Thermus aquaticus DNA polymerase and direct sequencing of
polymerase Chain reaction-amplified DNA. Proc Natl Acad Sci, 85:9436
9440

International Human Genome Sequencing Consortium (2001) Initial sequencing


and analysis of the human genome. Nature 409: 860-921

Isaksson, A. and U. Landegren (1999) Accessing genomic information:


alternatives to PCR. Curr Opin Biotechnology 10: 11-15

Kelley, J. (1994) Automated Dye-terminator DNA sequencing. Chapt 26.


Automated DNA sequencing and analysis. Edit. Adams, M. C. Fields, J.
Venter. Academic Press, Inc. SD, USA. Pp. 175-181
44
Kempe, T., W. Sundquist, F. Chow, and L. Hu (1985) Chemical and enzymatic
biotin-labeling of oligodeoxyribonucleotides. Nucleic Acids Res 13:45-57

Levine, J., Suzuki, D. El secreto de la vida. Dirección General de Divulgación


de la ciencia, UNAM, México (2000).

Lewin, B. (1997) Genes. Oxford University Press, Inc. New York. Pp. 472-477

Lipshutz, R. and S. Fodor (1994) Advanced DNA sequencing technologies.


Curr Opin Struct Biol 4:376-380

Maxam, A. and W. Gilbert (1977) A new method for sequencing DNA. Proc Natl
Acad Sci 74(2): 560-564

Meldrum, D. (2000) Automation for genomics, part two: sequencers,


microarrays, and future trends. Genome Res 10: 1288-1303

Mullis, K (1990) The unusual origin of the polymerase chain reaction. Sci Am
262(4):56-65

Myers, G. (1999) Whole-genome DNA sequencing. Computing in Science &


Engineering. IEEE pp. 33-43

Olson, M. (1993) The human genome project. Proc Natl Acad Sci, USA. 90:
4338-4344

Prober, J. et al., (1987) A system for rapid DNA sequencing with fluorescent
chain-terminating dideoxynucleotides. Science. 238: 336-341

Rosenblum, B., L. Lee, S. Spurgeon, S. Khan, S. Menchen, C Heiner, and S.


Chen (1997) New dye-labeled terminators for improved DNA sequencing
patterns. Nucleic Acids Res 25(22):4500-4504

Sanger, F., S. Nicklen, and A.R. Coulson (1977) DNA sequencing with chain
terminating inhibitors. Proc Natl Acad Sci 74(12): 5463-5467

Sanger, F. and A.R. Coulson (1978) The use of thin acrylamide gels for DNA
sequencing. FEBS Lett 87(1): 107-110

Sanger, F. (1988) Early nucleic acid chemistry. Trends Biochem Sci 13: 67-69

45
Schlenk, F., (1988).Early nucleic acid chemistry, Trends Biochem. Sci., 13:
67-69

Smith, L., S. Fung, M. Hunkapiller, T. Hunkapiller, and L Hood (1985) The


synthesis of oligonucleotides containing an aliphatic amino group at the
5’ terminus: synthesis of fluorescent DNA primers for use in DNA
sequence analysis. Nucleic Acids Res. 13(7): 2399-2412

Smith, L. J. Sandlers, R. Kaiser, P. Hughes, C. Dodd, C. Connell, C. Heiner, S.


Kent, and L. Hood (1986) Fluorescence detection in automated DNA
sequence analysis. Nature 321: 64-69

Stewart, P. R. and D. Letham (1977), The ribonucleic acids, 2nd Ed., Springer
Verlag, NY, EUA, pp. 374.

Tabor, S. and C. Richardson (1995) A single residue in DNA polymerases of


the Escherichia coli DNA polymerase I family is critical for distinguishing
between deoxy and dideoxyribonucleotides. Proc Natl Acad Sci, USA 92:
6339-6343

Tahara, T., J. Kraus, and L. Rosenberg (1990) Direct DNA sequencing of PCR
Amplified genomic DNA by the Maxam-Gilbert method. BioTechniques
8(4): 366-367

Tang, K., P. Oeth, S. Kammerer, M. Denissenko, J. Ekblom, C. Jurinke, D. van


den Boom, A. Braun, and C. Cantor. (2004) Minin Disease
susceptibility genes through SNP analyses and expression profiling
using MALDI-TOF máss spectrometry. J. Proteome Res 3(2): 218-227

Venter, C. et al. (2001) The sequence of the human genome. Science 291:
1304-1351

Voet, D. and J. Voet, (1995) Biochemistry, 2nd Ed. John Wiley and Sons, Inc.
NY, EUA

Wang, D. et al. (1998) Large-scale identification, mapping, and genotyping of


single nucleotide polymorphisms in the human genome. Science 280:
1077-1082

Watson, J. and F. Crick.(1953) Molecular structure of nucleic acids: structure for


deoxyribose nucleic acids. Nature, 171: 737-738

46
Weber, J. and E. Myers (1997) Human Whole-genome shotgun sequencing.
Genome Res 7: 401-409

Yager, T., L. Baron, R. Batra, A. Bouevitch, D. Chan, K. Chan, S. Darasch, R.


Gilchrist, A. Izmailov, J. Lacroix, K. Marchellata, J. Renfrew, D. Rushlow,
E. Stinbach, C. Ton, P. Waterhouse, H. Zaleski, J. Dunn, and J. Stevens
(1999) High performance DNA sequencing, and the detection of
mutations and polymorphisms on the Clipper sequencer. Electophoresis
20: 1280-1300

Zimmermann, J., S. Wirmann, H. Voss, C. Schwager, and W. Ansorge (1994)


Improved fluorescent cycle sequencing protocol allows reading nearly
1000 bases. BioTechniques 17(2): 302-305

47

Potrebbero piacerti anche