¿Qué herramientas puedo usar para una tubería de núcleo bacteriano / pangenoma?

Pregunta:

¿Qué herramientas puedo usar para una tubería de núcleo bacteriano / pangenoma?

AudileF

2017-07-14 16:13:43 UTC

view on stackexchange narkive permalink

Quiero realizar una comparación del genoma en un grupo de aislados. Quiero analizar dos grupos amplios de taxones y comparar el genoma accesorio en cada grupo. He estado usando prokka (v1.12) y roary (v3.8.2) para hacer esto, pero parece que el archivo accessories_binary_genes.fa es en realidad una representación falsa.

Nota: gene_presence_absence.Rtab contiene toda la presencia / ausencia total de conjuntos de genes accesorios. A pesar de esto, sigo descontento con la nomenclatura de los grupos de genes [problema para otro día]

[github problema 335] Lo mejor es ignorar el archivo accessories_binary_genes.fa. Es solo para crear un árbol rápido y sucio con FastTree. El archivo en sí se filtra para eliminar variaciones muy comunes y no comunes para acelerar la generación del árbol, de ahí la diferencia en los números.

Se excluyen el 5% superior y el 5% inferior. Está truncado en 4000 genes.

He estado buscando canales alternativos y un nuevo software BPGA parece prometedor. ¿Alguien tiene experiencia con esto?

Básicamente, quiero una herramienta que me proporcione los conjuntos de genes centrales y accesorios, sin el ruido de los impactos genéticos parciales.

Puede usar OrthoMCL, que es una implementación más antigua y menos fácil de usar del mismo flujo de trabajo. Creo que eso le devolverá * todos * los nombres de los genes en lugar de truncar nada.

Aún puede usar roary y usar la información contenida en el archivo `gene_presence_absence.csv`, que está completo y contiene los ID de genes para cada grupo ortólogo

Dos respuestas:

Jason Sahl

2017-07-17 19:19:36 UTC

view on stackexchange narkive permalink

LS-BSR debería poder ofrecerle lo que está buscando. Consulte el artículo.

Después de ejecutar el análisis principal, hay un flujo de trabajo documentado simple para dividir el pangenoma en núcleo y accesorio, según un umbral definido por el usuario. Soy el desarrollador, por lo que puedo ayudar si tiene algún problema.

Hola Jason, gracias por la respuesta. ¿No se supone que LS-BSR sea menos sensible que el rugido? También podría proporcionar un enlace / fuente para el flujo de trabajo que menciona. Gracias.

Además, ¿cómo aborda LS-BSR los genes rotos debido a los bordes contig?

Obviamente, esto causará problemas. El gen truncado parecerá divergente o faltante dependiendo de dónde esté roto. Una forma de abordar este problema es mapear los datos sin procesar con el pangenoma y determinar si la región realmente falta o no, aunque esto no es parte del paquete LS-BSR.

Creo que estas son ideas realmente importantes que debería integrar a su respuesta [editándola]. Además, no dude en utilizar hipervínculos a sus scripts, pero intente dar una respuesta completa, de modo que la próxima vez que alguien tenga un problema similar de pangenoma, entenderá qué hacer ahora.

Sergio Arredondo

2017-07-17 16:21:39 UTC

view on stackexchange narkive permalink

Roary también tiene en cuenta los parálogos, por lo que a veces dos genes centrales se dividen en diferentes grupos en función de sus genes vecinos y terminan con una nomenclatura diferente (grupo _ * ...). Como sugirió Andrew Page en el número de github, consideraría gene_presence_absence.Rtab (esto contiene todos los genes ortólogos) y eliminaría las filas correspondientes a los vectores que solo contienen 1s (genes centrales). De esta forma tendrá una matriz de 1 y 0 correspondiente a la presencia / ausencia de un gen accesorio particular en sus aislamientos.

Hola Sergio, sí, esto es correcto pero mi principal preocupación son los nombres de los genes. Si un gen se rompe / se divide entre contigs, podría terminar etiquetado como, por ejemplo, Gene_1 y Gene_2, esto sería una representación errónea del contenido genético. es parcialmente un problema con prokka también me imagino.

Tiene razón, el borde de contigs puede llevar a una representación falsa del contenido del gen.

Aparentemente, podría haber un nuevo software para abordar estos problemas próximamente https://github.com/tseemann/prokka/issues/244

ⓘ

Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.

acerca de - nota legal

Loading...