Pregunta:
¿Cómo puedo mejorar un ensamblaje de lectura larga con un genoma repetitivo?
gringer
2017-05-25 16:46:36 UTC
view on stackexchange narkive permalink

Actualmente estoy intentando ensamblar un genoma de un parásito de roedor, Nippostrongylus brasiliensis . Este genoma tiene un genoma de referencia existente, pero está muy fragmentado. Aquí hay algunas estadísticas de continuidad para los andamios del genoma de referencia actual de Nippo (ensamblado a partir de lecturas de Illumina):

  Secuencias totales: 29375 Longitud total: 294.400206 Mb Secuencia más larga: 394.171 kb Secuencia más corta: 500 b Longitud media: 10.022 kb Mediana Longitud: 2,682 kb N50: 2024 secuencias; L50: 33,527 kb N90: 11638 secuencias; L90: 4.263 kb  

Es muy probable que este genoma sea difícil de ensamblar debido a la naturaleza altamente repetitiva de las secuencias genómicas. Estas secuencias repetitivas vienen en (al menos) tres clases:

  1. Repeticiones en tándem con una unidad de repetición de longitud mayor que la longitud de lectura de los secuenciadores de Illumina (por ejemplo, 171 pb)
  2. Repeticiones en tándem con una longitud acumulativa mayor que la longitud del fragmento de los secuenciadores de Illumina, o la longitud de la plantilla para lecturas vinculadas (por ejemplo, 20 kb)
  3. Complejo (es decir, no secuencia repetitiva) que aparece en múltiples lugares a lo largo del genoma

Canu parece manejar bastante bien con los dos primeros tipos de repeticiones, a pesar de la abundancia de estructura repetitiva en el genoma. Aquí está el resumen de unitigging producido por Canu en uno de los ensamblajes que he intentado. Observe que aproximadamente el 30% de las lecturas abarcan o contienen una repetición larga:

  categoría lee% longitud de lectura tamaño de característica o análisis de cobertura -------------- - ------- ------- ---------------------- ------------ ------------ -------------------- medio-faltante 694 0.07 7470.92 + - 5552.00 953.06 + - 1339.13 (mal recorte) medio -hump 549 0.05 3770.05 + - 3346.10 74.23 + - 209.86 (mal corte) no-5-prime 3422 0.33 6711.32 + - 5411.26 70.92 + - 272.99 (mal corte)
no-3-prime 3161 0.30 6701.35 + - 5739.86 87.41 + - 329.42 (mal recorte) cobertura baja 27158 2.59 3222.51 + - 1936.79 4.99 + - 1.79 (fácil de ensamblar, potencial para un consenso de calidad más bajo) único 636875 60.76 6240.20 + - 3908.44 25.22 + - 8.49 (fácil de ensamblar, perfecto, yay) repeat-cont 48398 4.62 4099.55 + - 3002.72 335.54 + - 451.43 (posibilidad de errores de consenso, sin impacto en el ensamblaje) repeat-dove 135 0.01 16996.33 + - 6860.08 397.37 + - 319.52 (difícil de ensamblar, probablemente no se ensamblará correctamente o ni siquiera en absoluto) span-repeat 137927 13.16 9329.94 + - 6906.27 2630.06 + - 3539.53 (la lectura abarca una repetición grande, generalmente fácil de ensamblar) uniq-repeat-cont 155725 14.86 6529.83 + - 3463.16 (debe estar en una ubicación única, bajo potencial de errores de consenso, sin impacto en el ensamblaje) uniq-repeat-dove 28248 2.70 12499 .99 + - 8446.95 (terminará contigs, potencial para ensamblar mal) uniq-anchor 5721 0.55 8379.86 + - 4575.71 3166.22 + - 3858.35 (repetición de lectura, con sección única, probable mala lectura)  

Sin embargo, el tercer tipo de repetición me produce un poco de dolor. Usando el ensamblaje anterior, aquí están los parámetros de continuidad de los contigs ensamblados:

  Secuencias totales: 3505 Longitud total: 322.867456 Mb Secuencia más larga: 1.762243 Mb Secuencia más corta: 2.606 kb Longitud media: 92.116 kb Longitud media: 42.667 kb N50: 417 secuencias; L50: 194,126 kb secuencias de N90: 1996; L90: 35.634 kb  

No es un ensamblaje malo , particularmente dada la complejidad del genoma, pero siento que podría mejorarse abordando las complejas repeticiones genómicas de alguna manera. Aproximadamente 60 Mb de los contigs en este ensamblaje están vinculados entre sí en una gran web (basada en la salida de GFA de Canu):

60Mb linked structure from Canu GFA

Las regiones repetitivas suelen tener más de 500 pb de longitud, un promedio de 3 kb, y he visto al menos un caso que parece ser una secuencia de 20 kb duplicada en varias regiones.

Los valores predeterminados de Canu parecen dar los mejores resultados de ensamblaje para los pocos parámetros que he probado, con una excepción: recorte. Intenté jugar un poco con los parámetros de recorte y, curiosamente, una cobertura de recorte de 5X (con superposición de 500 pb) parece dar un ensamblaje más contiguo que con una cobertura de recorte de 2X (con la misma superposición).

Si alguien está interesado en echar un vistazo a estos datos, puede encontrar archivos llamados FASTQ de ejecuciones de secuenciación Nippo aquí. Todavía estoy en el proceso de cargar los archivos de señales de nanoporos sin procesar, pero estarán disponibles en las próximas semanas asociadas con el proyecto ENA PRJEB20824. También hay un archivo de Zenodo aquí que contiene el GFA y los contigs de ensamblaje.

¿Alguien tiene alguna otra sugerencia sobre cómo podría resolver estas repeticiones complejas?

Para aclarar: ¿quieres soluciones computacionales o estás abierto a resecuenciar utilizando técnicas específicas para mejorar el ensamblaje?
Se preferirían las soluciones computacionales, pero la resecuenciación no está descartada.
Estoy confundido con la pregunta. Parece que tiene estadísticas de un conjunto de iluminación y también datos de nanoporos que no forman parte de las estadísticas informadas. Entonces, la respuesta obvia parece ser, p. Ej. Canu + pilon (o similar) para intentar un mejor ensamblaje combinando ambos tipos de datos. Pero supongo que eso no es lo que buscas. ¿Puedes aclarar?
Ix Canu [este ensamblador] (https://github.com/marbl/canu)? ¿A quién se parecen los contigs del montaje con Illumina? Parece que con nanoPore el montaje es mucho mejor.
Sí, puedo usar los datos de Illumina para corregir el ensamblaje de Canu, pero eso no ayuda a resolver las repeticiones de "tipo 3". Las regiones son lo suficientemente similares como para que las lecturas de illumina se mapeen en múltiples puntos del genoma.
Los contigs de Illumina son de alta calidad (es decir, tienen buenos puntajes BUSCO, lo que indica pocos errores de variantes), pero bastante cortos. Cualquier olfateo de una repetición y el contig termina. Tengo más de unos pocos ejemplos de regiones que harían que una lectura de Illumina (incluso 10 lecturas vinculadas) se acobardara de miedo.
Incluso si los contigs de Illumina son de alta calidad, no significa que funcionen bien para un genoma tan repetido.
One responder:
#1
+6
user172818
2017-05-30 04:41:53 UTC
view on stackexchange narkive permalink

No puede resolver 20 kb casi idénticas repeticiones / segdups con 10 kb de lecturas. Todo lo que puede hacer es apostar su suerte en unas pocas lecturas excesivamente largas que abarquen algunas unidades por casualidad. Para obtener copias divergentes, vale la pena consultar este documento. Utiliza lecturas de Illumina para identificar k-mers en regiones únicas e ignora k-mers no únicos en la etapa de superposición. El documento decía que esta estrategia es mejor que usar superposiciones estándar, que compro, pero probablemente tampoco puede resolver un segmento de 20 kb con un puñado de desajustes.

Estos enfoques basados ​​en desajustes siempre tienen limitaciones y puede que no funcione para segdups / repeticiones recientes. La solución definitiva es obtener lecturas largas, más largas que sus unidades de repetición / segdup. Las lecturas de ~ 100kb en la preimpresión reciente cambiarán las reglas del juego para usted. Si sus repeticiones de ~ 20kb no son en tándem, las lecturas vinculadas de ~ 100kb de 10X también pueden ayudar.

Ya tenemos algunas lecturas de 100kb en nuestras muestras, pero parece que es posible que necesitemos más. Se envió una muestra de ADN a Canberra para secuenciarla en un curso de capacitación de Nanopore (por un colega), así que con suerte obtendremos buenas lecturas largas de eso.
"Unas pocas" lecturas de 100 kb no ayudarán mucho. Debe aplicar el protocolo ultralargo, que es diferente del protocolo estándar.


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...