Pregunta:
¿Cómo transferir anotaciones gff en el genoma con duplicaciones extensas?
scalefreegan
2017-05-31 16:01:10 UTC
view on stackexchange narkive permalink

Los genomas microbianos pueden contener numerosas duplicaciones. A menudo, nos gustaría transferir anotaciones de una especie anotada a una recién secuenciada.

Las herramientas existentes (por ejemplo, RATT, LiftOver, Kraken) hacen suposiciones específicas sobre cuán estrechamente relacionadas están las especies o no se transfieren cuando se encuentran múltiples coincidencias en el nuevo genoma, especialmente si las secuencias son muy similares.

Específicamente, tengo una aplicación de biología sintética donde los genes se pueden duplicar ampliamente. Son idénticos en secuencia pero se duplican muchas veces y se reubican (es decir, no solo adyacentes entre sí). Ninguna de las herramientas mencionadas anteriormente puede transferir coordenadas de anotaciones a genomas con múltiples copias de características.

¿Existe alguna herramienta o software preexistente que transfiera anotaciones en este escenario? ¿Ideas sobre formas de hacer esto de manera sólida?

¿Puede proporcionar más detalles? ¿Cuál es su entrada (por ejemplo, lecturas sin procesar, ensamblajes, marcos de lectura abierta)? ¿Qué tipo de secuenciación? ¿Cuál es la salida exacta que desea? 'No estoy seguro de entender su punto sobre las suposiciones. Además, LiftOver y Kraken son herramientas completamente diferentes con diferentes usos
¿Sería esto teóricamente posible? ¿Cómo puede suponer que las anotaciones son transferibles si hay muchas duplicaciones? Probablemente sea mejor buscar homólogos en su lugar.
@terdon, ¿te refieres a los ortólogos? homólogos = ortólogos (no duplicados) + parálogos (duplicados)
@Chris_Rands No, me refiero a homólogos. Precisamente porque no podemos saber si son orto- o para- (tengo una buena publicación sobre la diferencia entre los dos [aquí] (https://biology.stackexchange.com/a/4964/1306), por el manera), por lo que todo lo que puede hacer primero es encontrar homólogos y luego tratar de averiguar si son lo suficientemente similares como para transferir las anotaciones.
@terdon Veo que resolver bien orthologs / paralogs no es fácil, por supuesto, pero se puede hacer, dependiendo de los datos exactos (no sé cómo se ven los datos del OP), por ejemplo, algunos de mis colegas mantienen orthodb http: / /www.orthodb.org/
¡Oh, por supuesto que se puede hacer! Mi punto era que buscar regiones de homología (de cualquier tipo) parece una mejor manera de transferir anotaciones que intentar traducir coordenadas genómicas entre genomas de diferentes especies.
La entrada @Chris_Rands: serían ensamblajes, p. Ej. de novo a partir de la secuenciación del ADNg. El resultado sería una transferencia de anotaciones (por ejemplo, formato gff) de especies caracterizadas al genoma recién ensamblado (transferencia de coordenadas). Tanto LiftOver como Kraken (este, solo para asegurarse de que estuvieran en la misma página: https://github.com/nedaz/kraken) hacen esto. LiftOver más apropiado para la transferencia de coordenadas entre secuencias estrechamente relacionadas, p. Ej. diferentes montajes; Kraken usa la alineación del genoma (MUMer, Satsuma), por lo que es mejor para secuencias más divergentes.
@terdon: distinguir entre tipo / origen de homología iría más allá del alcance de lo que me gustaría lograr, pero la diferencia es importante, como usted señala. También es correcto decir que transferir regiones homólogas más pequeñas sería mejor, especialmente para especies divergentes. fyi sobre la aplicación: tengo una aplicación syn bio donde los genes pueden duplicarse extensamente. son idénticos en secuencia pero se duplican muchas veces y se reubican (es decir, no adyacentes). Ninguna de las herramientas mencionadas anteriormente pudo transferir coordenadas de anotaciones a genomas con múltiples copias de anotaciones.
Sí, ni esperaría que lo hicieran. Eso es lo que estaba diciendo. Las herramientas de Liftover simplemente mapean coordenadas, no podrán lidiar con este tipo de cosas. Me temo que tendrá que hacerlo manualmente obteniendo una lista de genes / proteínas de interés, encontrando sus homólogos y transfiriendo las anotaciones (con las salvedades obvias sobre si puede asumir o no que las anotaciones son transferibles). Desafortunadamente, no será muy divertido.
disculpas pensé que te referías a kraken: http://ccb.jhu.edu/software/kraken/, ¿quién nombra estas herramientas? de todos modos, esto no es trivial para hacerlo correctamente. deberá realizar el ensamblaje del genoma, las predicciones de genes y la asignación de ortólogos / parálogos; hay varias canalizaciones (algunas revisadas aquí: https://www.ncbi.nlm.nih.gov/pubmed/27043882), pero tomarán algún tiempo. alternativamente, para algo más 'rápido y sucio', las sugerencias de @terdon parecen sensatas
Dos respuestas:
#1
+5
BaCh
2017-05-31 20:34:48 UTC
view on stackexchange narkive permalink

Hay una forma muy simplista que uso que podría funcionar para lo que estás haciendo, es similar a lo que propuso terdon.

Toma una anotación de novo del genoma microbiano herramienta (tengo la mía propia, pero podrías usar / modificar prokka). Herramientas como estas a menudo predicen primero los límites de los genes (con otras herramientas como pródigo o destello) y luego intentan asignar una función a los genes encontrados. Esta asignación de funciones a menudo se hace con BLAST y otras herramientas ... y ahí es donde puedes entrar y modificar para hacer lo que necesites.

Yo uso una base de datos de proteínas de "conocimiento" de genes que quiero han anotado muy estrictamente como una primera línea de anotación (por ejemplo, en su caso: los genomas anotados). Para eso, recorro parámetros de identidad / similitud muy estrictos que se relajan gradualmente.

Por ejemplo: Bucle 0: solo transfiero anotaciones al 100% de identidad de ADN, la misma longitud Bucle 1: solo transfiere anotaciones al 100% de similitud , misma longitud Bucle 2: solo transferir anotaciones al 99% de similitud, longitud +/- 1% .... Bucle n: solo transferir anotaciones al 100- (n-1)% de similitud, longitud +/- (n-1 )%.

En cada ciclo, obviamente solo anota lo que no se haya anotado en ciclos anteriores.

Después de eso, usa la canalización de anotaciones "normal" de la herramienta para anotar el resto.

¿No requiere eso que se hayan encontrado primero los genes del genoma objetivo? ¿O su herramienta también puede realizar predicciones genéticas de novo? (Suena como una herramienta muy útil, por cierto, ¡felicitaciones!)
La búsqueda / predicción de genes procariotas es un problema más o menos resuelto, las herramientas existentes funcionan razonablemente bien. Vea http://prodigal.ornl.gov/ y http://prodigal.ornl.gov/ (solo para nombrar dos).
Sí, lo sé, me sorprendió que no lo mencionaras en tu respuesta. Si entiendo correctamente, el primer paso sería que el OP encontrara la lista de genes putativos en su genoma recién secuenciado, ¿verdad?
Correcto. Prokka (http://www.vicbioinformatics.com/software.prokka.shtml) utiliza una batería completa de herramientas de terceros (incluido pródigo) para anotar un genoma de-novo, comencé modificando prokka antes de escribir mi propio , que utiliza algunas ideas del proceso de prokka.
#2
+3
terdon
2017-05-31 19:04:23 UTC
view on stackexchange narkive permalink

Creo que primero tendrás que identificar las regiones homólogas a las definidas en tu GFF y luego transferir las anotaciones. Por supuesto, se supone que el homólogo también tendrá la misma anotación, lo que a menudo no es cierto. Sin embargo, no veo cómo puede hacerlo de otra manera, ya que no puede usar coordenadas genómicas (y de todos modos estaría haciendo la misma suposición incluso si pudiera) cuando los genomas son tan diferentes.

Para un enfoque muy simplista (que podría ser suficiente si, como dice, sus secuencias son casi idénticas), puede hacer algo como:

  1. Recopilar las secuencias de interés de sus especies ya anotadas.

  2. Utilice una herramienta como genewise o exonerate para mapearlos en el genoma objetivo. Ambas herramientas pueden devolver una salida con formato gff y ambas pueden encontrar múltiples resultados en el genoma objetivo. Para lo que desee, sugeriría usar un umbral muy alto de similitud de secuencia y cobertura de consulta (donde la secuencia objetivo encontrada cubre toda o la mayor parte de la secuencia de consulta utilizada).

    Dado que estos son genomas microbianos y, por lo tanto, el empalme no es un problema, podría hacer lo mismo incluso con un BLASTn o tBLASTn simple si comienza con secuencias de proteínas.

  3. En este punto, debería tener una lista de homólogos (algunos de los cuales serán ortólogos y otros paralogs) y puede transferir las anotaciones de la secuencia de consulta al objetivo.

Una vez más, hago hincapié en que esto es una suposición enorme: que las secuencias homólogas tienen la misma función y pueden anotarse automáticamente como lo que sea que tenga en el genoma de la consulta. Esto será cierto en muchos casos, pero también será falso en otros. Especialmente si está mirando parálogos (genes cuya duplicación ocurrió después del evento de especiación y, por lo tanto, es probable que hayan divergido en función).

Sin embargo, como dije antes, este problema sería exactamente el mismo incluso si lograras transferir anotaciones solo identificando las regiones sinténicas de los genomas 1 , por lo que no hay mucha diferencia allí.


1 Como dije en los comentarios, no veo cómo esto podría ser posible. Por definición, si tiene duplicaciones extensas, las coordenadas genómicas serán completamente diferentes y es imposible mapear de un genoma al otro.



Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...