Pregunta:
¿Cómo lidiar con la heterocigosidad durante el pulido del ensamblaje del genoma basado en lecturas largas?
Kamil S Jaron
2017-05-21 16:49:59 UTC
view on stackexchange narkive permalink

Todas las plataformas de secuenciación de lectura larga se basan en la secuenciación de una sola molécula, lo que provoca mayores tasas de error por base. Por esta razón, se agregó un paso de pulido a las tuberías de ensamblaje del genoma: mapear las lecturas sin procesar de nuevo al ensamblaje y corregir los detalles del ensamblaje.

Tengo un conjunto de datos PacBio RSII decente del genoma individual de especies no modelo muy heterocigotas . El ensamblaje salió bien, pero cuando intenté pulir el ensamblaje usando carcaj, no pudo converger en un par de iteraciones y apuesto a que se debe a una gran divergencia de haplotipos.

¿Hay alguna otra forma de pulir un genoma con tales propiedades? Por ejemplo, ¿hay alguna manera de separar las lecturas largas por haplotipo, para que pueda pulir usando solo un haplotipo?

Dos respuestas:
#1
+4
roblanf
2017-05-22 08:36:12 UTC
view on stackexchange narkive permalink

Algunas posibilidades:

Falcon

Prueba falcon y falcon-unzip. Estos están diseñados exactamente para su problema y sus datos: https://github.com/PacificBiosciences/FALCON

No Falcon

Si cree que ha ensamblado haplotipos (lo que parece razonable esperar dada la cobertura suficiente), debería poder ver los dos haplotipos simplemente haciendo todas las alineaciones por pares de sus contigs. Los haplotipos deberían aparecer como pares de contigs que son MUCHO más similares (incluso con mucha divergencia entre haplotipos) que otros pares. Una vez que tenga todos esos pares, simplemente puede seleccionar uno de cada par para pulir.

De hecho, tengo ambas secuencias de haplotipos. Los obtuve usando una herramienta llamada [haplomerger2] (http://www.ncbi.nlm.nih.gov/pubmed/22555592). Pero esta herramienta produce un ensamblaje haploide quimérico, por lo que no son haplotipos en fase correcta. Falcon-unzip es un software que podría funcionar. Era demasiado joven para intentarlo en ese momento, pero podría intentar darle otra oportunidad ahora.
#2
+3
gringer
2017-05-22 13:12:38 UTC
view on stackexchange narkive permalink

También puede probar en Canu. Está diseñado para ensamblajes de lectura larga (tanto PacBio como Nanopore), aunque no específicamente para secuenciación de población compleja. Intenta dividir un genoma en sus componentes únicos y genera rutas a partir de esos componentes que están bien respaldados por las lecturas.

Con respecto al pulido, parece ser que el pulido no convergen, y habrá muchas variantes que simplemente oscilarán entre dos posibilidades. Para mí y al menos otra persona en London Calling este año, básicamente no hubo ganancia en precisión para pulir más allá de la tercera iteración. Usé mi propio algoritmo de corrección de errores, pero ellos usaron el pulido más "estándar" con Pilon. Por lo que vale, el consorcio nanopore WGS utilizó Racon para pulir sus ensamblajes Canu.

De hecho, he ensamblado el genoma usando Canu, obtuve ~ 2x tamaño haploide del genoma, que colapsé en haplotipos usando [HaploMerger2] (http://www.ncbi.nlm.nih.gov/pubmed/22555592). Sepa que a nivel mundial el montaje es bueno. Solo necesita ser pulido.
Oh si. Lo siento, miré la primera respuesta y asumí que se trataba solo de ensamblaje. Ahora me doy cuenta de que la pregunta era discutir * pulido *, en lugar de ensamblar.
@gringer También estaba tratando de pulir un ensamblaje de genoma altamente heterocigótico (generado por canu), usando Racon (Quiver colapsaría los haplotipos), pero no pude obtener un resultado satisfactorio (básicamente, ninguna estadística ha cambiado). ¿algún consejo?
Mi recomendación general en este momento sería usar nanopulido en modo de metilación para corregir, luego Pilon con Illumina lee para * solo * corregir los fragmentos de homopolímero (es decir, sin corrección de SNP y sin andamiaje de largo alcance). Basado en esto: https: //github.com/rrwick/Basecalling-comparison#methylation


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...