Actualmente estoy intentando ensamblar un genoma de un parásito de roedor, Nippostrongylus brasiliensis . Este genoma tiene un genoma de referencia existente, pero está muy fragmentado. Aquí hay algunas estadísticas de continuidad para los andamios del genoma de referencia actual de Nippo (ensamblado a partir de lecturas de Illumina):
Secuencias totales: 29375 Longitud total: 294.400206 Mb Secuencia más larga: 394.171 kb Secuencia más corta: 500 b Longitud media: 10.022 kb Mediana Longitud: 2,682 kb N50: 2024 secuencias; L50: 33,527 kb N90: 11638 secuencias; L90: 4.263 kb
Es muy probable que este genoma sea difícil de ensamblar debido a la naturaleza altamente repetitiva de las secuencias genómicas. Estas secuencias repetitivas vienen en (al menos) tres clases:
- Repeticiones en tándem con una unidad de repetición de longitud mayor que la longitud de lectura de los secuenciadores de Illumina (por ejemplo, 171 pb)
- Repeticiones en tándem con una longitud acumulativa mayor que la longitud del fragmento de los secuenciadores de Illumina, o la longitud de la plantilla para lecturas vinculadas (por ejemplo, 20 kb)
- Complejo (es decir, no secuencia repetitiva) que aparece en múltiples lugares a lo largo del genoma
Canu parece manejar bastante bien con los dos primeros tipos de repeticiones, a pesar de la abundancia de estructura repetitiva en el genoma. Aquí está el resumen de unitigging producido por Canu en uno de los ensamblajes que he intentado. Observe que aproximadamente el 30% de las lecturas abarcan o contienen una repetición larga:
categoría lee% longitud de lectura tamaño de característica o análisis de cobertura -------------- - ------- ------- ---------------------- ------------ ------------ -------------------- medio-faltante 694 0.07 7470.92 + - 5552.00 953.06 + - 1339.13 (mal recorte) medio -hump 549 0.05 3770.05 + - 3346.10 74.23 + - 209.86 (mal corte) no-5-prime 3422 0.33 6711.32 + - 5411.26 70.92 + - 272.99 (mal corte)
no-3-prime 3161 0.30 6701.35 + - 5739.86 87.41 + - 329.42 (mal recorte) cobertura baja 27158 2.59 3222.51 + - 1936.79 4.99 + - 1.79 (fácil de ensamblar, potencial para un consenso de calidad más bajo) único 636875 60.76 6240.20 + - 3908.44 25.22 + - 8.49 (fácil de ensamblar, perfecto, yay) repeat-cont 48398 4.62 4099.55 + - 3002.72 335.54 + - 451.43 (posibilidad de errores de consenso, sin impacto en el ensamblaje) repeat-dove 135 0.01 16996.33 + - 6860.08 397.37 + - 319.52 (difícil de ensamblar, probablemente no se ensamblará correctamente o ni siquiera en absoluto) span-repeat 137927 13.16 9329.94 + - 6906.27 2630.06 + - 3539.53 (la lectura abarca una repetición grande, generalmente fácil de ensamblar) uniq-repeat-cont 155725 14.86 6529.83 + - 3463.16 (debe estar en una ubicación única, bajo potencial de errores de consenso, sin impacto en el ensamblaje) uniq-repeat-dove 28248 2.70 12499 .99 + - 8446.95 (terminará contigs, potencial para ensamblar mal) uniq-anchor 5721 0.55 8379.86 + - 4575.71 3166.22 + - 3858.35 (repetición de lectura, con sección única, probable mala lectura)
Sin embargo, el tercer tipo de repetición me produce un poco de dolor. Usando el ensamblaje anterior, aquí están los parámetros de continuidad de los contigs ensamblados:
Secuencias totales: 3505 Longitud total: 322.867456 Mb Secuencia más larga: 1.762243 Mb Secuencia más corta: 2.606 kb Longitud media: 92.116 kb Longitud media: 42.667 kb N50: 417 secuencias; L50: 194,126 kb secuencias de N90: 1996; L90: 35.634 kb
No es un ensamblaje malo , particularmente dada la complejidad del genoma, pero siento que podría mejorarse abordando las complejas repeticiones genómicas de alguna manera. Aproximadamente 60 Mb de los contigs en este ensamblaje están vinculados entre sí en una gran web (basada en la salida de GFA de Canu):
Las regiones repetitivas suelen tener más de 500 pb de longitud, un promedio de 3 kb, y he visto al menos un caso que parece ser una secuencia de 20 kb duplicada en varias regiones.
Los valores predeterminados de Canu parecen dar los mejores resultados de ensamblaje para los pocos parámetros que he probado, con una excepción: recorte. Intenté jugar un poco con los parámetros de recorte y, curiosamente, una cobertura de recorte de 5X (con superposición de 500 pb) parece dar un ensamblaje más contiguo que con una cobertura de recorte de 2X (con la misma superposición).
Si alguien está interesado en echar un vistazo a estos datos, puede encontrar archivos llamados FASTQ de ejecuciones de secuenciación Nippo aquí. Todavía estoy en el proceso de cargar los archivos de señales de nanoporos sin procesar, pero estarán disponibles en las próximas semanas asociadas con el proyecto ENA PRJEB20824. También hay un archivo de Zenodo aquí que contiene el GFA y los contigs de ensamblaje.
¿Alguien tiene alguna otra sugerencia sobre cómo podría resolver estas repeticiones complejas?