Actuaciencia: Técnicas de secuenciación

¿Cuál fue el método inicial de secuenciación del ADN?

A finales de la década de 1970 se desarrollaron dos métodos que permitían la secuenciación de una molécula de ADN de una manera sencilla y rápida. Al principio, la idea consistía en imitar los clásicos métodos de secuenciación de proteínas, donde las moléculas eran fragmentadas y analizada su composición en función de sus características físico-químicas, deduciendo así su secuencia a partir de fragmentos solapantes. Pero este método, que para proteínas resultaba muy eficaz, mostró sus carencias a la hora de analizar una molécula resultante de la combinación de cuatro nucleótidos diferentes. Así, en 1977, los grupos de A. Maxam y W. Gilbert por un lado, y de F. Sanger por otro, desarrollaron sendos métodos de secuenciación específicos para el ADN.

¿En qué consiste el método químico de Maxam y Gilbert?

En este método se usa fósforo radiactivo para marcar el ADN. Una vez marcado, el ADN se fracciona con reacciones químicas específicas para cada una de las cuatro bases. Cuatro alícuotas de la misma muestra se tratan bajo condiciones distintas y, posteriormente, un tratamiento con piperidina rompe la molécula a nivel de la base modificada. Los productos así obtenidos son separados en geles de poliacrilamida en función de su tamaño.

¿En qué consiste el método enzimático de Sanger?

Este método también es conocido como método de los terminadores de cadena o dideoxi, y se basa en el uso de dideoxinucleótidos (ddNTP) que se diferencian de los deoxinucleótidos (dNTP) en que carecen del grupo –OH en el carbono 3´de la ribosa.

En este –OH del carbono 3´de la ribosa es precisamente donde la enzima incorpora el siguiente nucleótido de la cadena que se está sintetizando, formando un enlace fodfoéster. Al carecer de grupo –OH, tras la incorporación a la cadena de un ddNTP, el proceso de replicación se termina ya que no se permite la incorporación de un nuevo nucleótido.

A efectos prácticos lo que se hace es diseñar un oligonucleótido de entre 18-25 bases complementario a una zona de la cadena de ADN que se quiere secuenciar. Tras unirse este oligonucleótido al ADN molde, la ADN polimerasa I va a extender la cadena desde el grupo OH libre del extremo 3´ del oligonucleótido mediante la incorporación de dNTPs complementarios al molde de ADN (ver nota).

La reacción de secuenciación se da en cuatro alícuotas de la misma muestra en las que se darán sendas reacciones de síntesis incluyendo cada alícuota pequeñas cantidades de los cuatro diferentes ddNTPs (ddATP, ddGTP, ddCTP y ddTTP). La incorporación a la cadena replicada de uno de estos nucleótidos (en inhibición competitiva con el correspondiente dNTP), da lugar a una mezcla de cadenas de distintas longitudes acabando en todas las diferentes posiciones posibles donde un ddNTP es incorporado en lugar de un dNTP.

Sustituyendo uno de los dNTPs por el mismo nucleótido marcado radiactivamente podemos visualizar las bandas de diferente tamaño separadas en un gel de poliacrilamida, ocupando cada una de las reacciones un carril.

Secuenciación Sanger: Conceptos Básicos

Imagen modificada de "Secuenciación de Sanger", de Estevezj (CC BY-SA 3.0). La imagen modificada se encuentra bajo una licencia (CC BY-SA 3.0)

Cobertura o profundidad genética

La cobertura (o profundidad) en la secuenciación del ADN es el número de lecturas únicas que incluyen un nucleótido dado en la secuencia reconstruida.

Para distinguir entre errores de secuenciación y SNP ( polimorfismos de un solo nucleótido) verdaderos, es necesario aumentar aún más la precisión de la secuencia mediante la secuenciación de genomas individuales un gran número de veces.

Alineamiento en e lgenCHST14. Nótese la profundidad relativa en la región con puntos azules ubicados a lo largo de una línea vertical. Los fragmentos de ADN contiguos se les llama contigs

La cobertura promedio para un genoma completo se puede calcular a partir de la longitud del genoma original (G), el número de lecturas (N) y la longitud de lectura promedio (L) como

Por ejemplo, un genoma hipotético con 2.000 pares de bases reconstruidos a partir de 8 lecturas con una longitud media de 500 nucleótidos tendrá una redundancia de 2x.

La cobertura es 177 (bases azules: númeo de lecturas por el tamaño de la lectura promedio) dividido por el tamaño del genoma (en rojo) que es de 35. Por lo tanto la cobertura es 177 / 35 = 5.

Tener buena cobertura es fundamental para distinguir mutaciones de errores de secuenciación

Compilación esquemática de las mutaciones reportadas en CHST14. En gris, mutaciones nuevas; subrayadas, mutaciones recurrentes encontradas en pacientes con MCEDS (SíndromedeEhlers-Danlos Músculo-contractural)

Técnicas de secuenciación masiva

En 2001 secuenciar 1000.000 bytes (1 megabyte) costaba 100.000$. En 2021 cuesta 1000.000 veces menos: 0.1$ o sea 10 céntimos.

Enriquecimiento del blanco basado en captura: El ADN es fragmentado en segmentos cortos (A). Posteriormente se añaden adaptadores (rojo y verde) (B) que se unen a los fragmentos de ADN para lograr la construcción de la biblioteca (C). Luego se hibrida la biblioteca con sondas complementarias a las regiones de interés (azul) (D). Las sondas se encuentran marcadas con biotina (amarillo) y pueden ser capturadas por medio de perlas magnéticas recubiertas con avidina (unión avidina-biotina) (E). Por último, mediante un imán se capturan las perlas magnéticas y se obtiene una biblioteca que contiene sólo fragmentos de ADN representando regiones de interés (F).

Enriquecimiento del blanco basado en amplicones (PCR multiplex): Las regiones de interés son amplificadas a partir de ADN genómico (doble hebra, color negro) por medio de cebadores específicos (flechas de color azul, rojo, verde) (A). Se obtienen así múltiples copias de las regiones amplificadas (doble hebra color azul, rojo, verde) (B). Luego se añaden los adaptadores para la construcción de la biblioteca (amarillo y violeta) (C). Posteriormente, la biblioteca es purificada para eliminar ADN genómico y los dímeros de adaptadores (D).

Secuenciación en plataformas Illumina. Luego de la preparación de la biblioteca se realiza amplificación de grupos (clusters) en celda de flujo (A a D). La biblioteca es diluida y cargada en la celda de flujo de modo que cada hebra de ADN se une a la celda de flujo por medio de hibridación de los adaptadores (verde y violeta) con oligonucleótidos complementarios a los mismos (unidos al soporte sólido). Mediante una reacción de polimerización se genera una copia del inserto desde el oligonucleótido unido al soporte sólido (A). Posteriormente se genera la PCR-puente: el fragmento se curva y el adaptador del extremo libre se une a un oligonucleótido complementario anclado al soporte sólido. Mediante otra reacción de polimerización (B) se obtiene una segunda hebra complementaria a la inicial (C). El proceso se repite hasta generar un grupo (cluster) a partir de la hebra primaria. La generación del grupo facilita la detección por medio de fluorescencia. La secuenciación propiamente dicha (secuenciación por síntesis) (E a H) se genera a partir de cebadores específicos para los adaptadores (flecha verde). En cada flujo, los nucleótidos marcados con fluorescencia (terminadores reversibles) compiten por elongar la cadena de ADN (E) y se une a ella sólo aquel complementario a la hebra molde (F). El resto de los nucleótidos es eliminado, y una fuente lumínica excita el fluoróforo del nucleótido añadido (G). La señal es recolectada por un dispositivo CCD para luego ser analizada. El ciclo vuelve a repetirse con un nuevo flujo para incorporar otro nucleótido a la cadena (H).

Secuenciación por Síntesis (Illumina): Conceptos Básicos

Secuenciación en plataforma Ion Torrent. La PCR en emulsión (A a D) consiste en millones de reacciones de PCR ocurriendo simultáneamente en micelas contenidas en una emulsión. En cada micela se disponen sólo una hebra de ADN (inserto - color negro) flanqueada por adaptadores (verde claro y rojo), y una perla con secuencias complementarias a uno de los adaptadores (verde oscuro) (A). La hebra de ADN se une por complementariedad a la perla (B). Mediante cebadores específicos complementarios al adaptador libre (rojo claro) se generan ciclos de amplificación clonal (C) para obtener una perla con múltiples copias del mismo fragmento de ADN inicial (D). La secuenciación por semiconductor (E a H) se realiza luego de romper la emulsión, enriquecer las perlas amplificadas clonalmente y cargarlas en el chip semiconductor. Cada una de las perlas alcanza un pocillo en el chip (E). A partir de cebadores complementarios al adaptador del extremo libre se realizan flujos de un nucleótido en particular (en el ejemplo se observa una adenina) (F). Si el nucleótido correspondiente a ese flujo es añadido a la cadena por complementariedad con la hebra molde, se libera un protón (H+) al generarse la reacción de polimerización (G). La liberación de protones en el pocillo causa un cambio de pH que luego se traduce a un cambio de voltaje y genera la señal cruda de secuenciación (H). Si existiesen homopolímeros, la adición de más de un nucleótido incrementaría el cambio de voltaje de manera proporcional.

EJERCICIOS:

1 PREGUNTA: Di a qué secuencia corresponde este gel de secuenciación Sanger. ¿Cuál será el extremo 5´?

2 PREGUNTA: Di a qué secuencia corresponde este gel de secuenciación Sanger

3 PREGUNTA: Si el ADN humano haploide tiene 3 GB ¿Cuántas bases tiene? En 2001 secuenciar 1000.000 bytes (1 megabase) costaba 100.000$. En 2021 cuesta 1000.000 veces menos: 0.1$ o sea 10 céntimos. ¿Cuánto costaba secuenciar un genoma humano haploide en el año 2000 y cuanto en 2021?

Solución: Un gigabyte es una unidad de almacenamiento de información cuyo símbolo es el GB, equivalente a 10⁹. Si 1000.000 de bases costaba 100.000$, entonces 3000 millones costaban 3000x100.000$ = 300 millones de dólares. En 2021 3000x0.1$ = 300$

4 PREGUNTA: La cobertura promedio para un genoma completo se puede calcular a partir de la longitud del genoma original (G), el número de lecturas (N) y la longitud de lectura promedio (L) como

Ecuación de Lander/Waterman

Por ejemplo, un genoma hipotético con 2.000 pares de bases reconstruidos a partir de 8 lecturas con una longitud media de 500 nucleótidos tendrá una redundancia de 2x.

Si tengo un genoma de 1 Mega y la longitud promedio de los ADN secuenciados es de 1000 bases y N =30000. ¿Qué cobertura tengo?

5 PREGUNTA: Se estima que aproximadamente el 97% del genoma es “basura”. O mejor dicho, que no se sabe cuál es su función ¿crees que es relevante secuenciar genomas completos? ¿cuáles son tus impresiones sobre las funciones que puede tener ese genoma “basura”?

Solución

6 PREGUNTA: ¿Cuál es la secuencia de este cromograma procedente de una secuenciación Sanger?

7 PREGUNTA: ¿Cuál es la secuencia de este cromograma procedente de una secuenciación Sanger?

Solución: 5’CTGNGTAAAAATNCTNTTTNACTTNAGNNATGATTACAAAATAATTATT3’

8 PREGUNTA: Di cuál sería la secuencia de la cadena superior de izquierda a derecha (5' --> 3') y cuál la de la secuencia de abajo de derecha a izquierda (5'--->3')