Pregunta:
¿Existe alguna alternativa RepBase para anotaciones de elementos repetidos en todo el genoma?
Konrad Rudolph
2017-06-01 16:11:10 UTC
view on stackexchange narkive permalink

Estoy usando las bibliotecas RepBase junto con RepeatMasker para obtener anotaciones de elementos de repetición en todo el genoma, en particular para elementos transponibles.

Esto funciona bastante bien, y parece para ser el estándar de facto en el campo.

Sin embargo, hay dos problemas con el uso de RepBase, por lo que yo (y otros) hemos estado buscando alternativas (hasta ahora sin éxito):

  1. RepBase no es datos abiertos. Su acuerdo de licencia académica incluye una cláusula que prohíbe explícitamente la difusión de datos derivados de RepBase . No está claro hasta qué punto esto es vinculante / ejecutable, pero efectivamente evita la publicación de al menos algunos de los datos que estoy usando y generando. Esto es inaceptable para ciencia abierta.

    • Además de esto, el modelo de suscripción de RepBase también hace que sea imposible integrar RepBase en canalizaciones completamente automatizadas, porque se requiere la interacción del usuario para suscribirse a RepBase y para proporcionar las credenciales de inicio de sesión.
  2. RepBase se selecciona en gran medida manualmente. Esto es tanto bueno como malo. Bien, porque la curación manual de datos de secuencia es a menudo la forma más confiable de curación. Por otro lado, la curación manual está intrínsecamente sesgada; y lo que es peor, es difícil cuantificar este sesgo; los encargados de mantenimiento de RepBase lo reconocen.

¿Solo preguntaba por bibliotecas repetidas definidas? Lo interpreté de manera un poco más amplia como sobre las herramientas utilizadas para construir las bibliotecas también (lo que se vuelve relevante cuando se secuencian los genomas de nuevos taxones)
@Chris_Rands Ambos (bibliotecas y herramientas). Tu respuesta es acertada.
¿El objetivo es construir la biblioteca anotada de repeticiones o enmascarar partes repetitivas de un genoma?
@KamilSJaron Estoy trabajando con TE, así que necesito la biblioteca anotada, no (simplemente) una secuencia repetida enmascarada.
Ay, pero para los TEs solo un subconjunto de regiones repetitivas, existen herramientas especializadas para anotarlos (como [DNApipeTE] (https://github.com/clemgoub/dnaPipeTE) y [REPET] (https: //urgi.versailles. inra.fr/Tools/REPET)). Tal vez puedas especificarlo en la pregunta.
@KamilSJaron Bien, y esto podría valer la pena una respuesta. También actualizaré la pregunta. Dicho esto, también pido elementos repetitivos más allá de los TE.
¿También está seguro de que RepBase está en contra de las publicaciones que obtienen información basada en sus datos? ¿Podría ser que simplemente no quieran que comparta los datos sin procesar y los archivos que proporcionan? Ya que tienen un buen número de citas en diferentes campos: https://scholar.google.de/scholar?um=1&ie=UTF-8&lr&cites=11574259945967474319
@story Literalmente lo dicen en el acuerdo de usuario académico al que me vinculo. Aquí está la cita relevante: "Usted acepta NO hacer que Repbase (o cualquier parte del mismo, incluidos los informes de Repbase, mapas repetidos ** y otros materiales derivados, modificados o no **) estén disponibles para cualquier persona fuera de su grupo de investigación" Énfasis mío. De hecho, otra cláusula del acuerdo técnicamente incluso me prohíbe firmarlo porque mi instituto requiere la deposición de datos públicos, por lo que probablemente no se me permita firmar dichos acuerdos ".
Ya eso parece estar de acuerdo con mi declaración anterior. Supongo que mi punto es qué es exactamente lo que necesita compartir (según su publicación original) que se consideraría de su base de datos. Siento que esto no incluiría recuentos de características, pero las secuencias podrían ser un problema.
@story Necesito compartir potencialmente todos los datos que se usaron / generaron en mi análisis. Esto incluye particularmente la anotación de repetición específica que utilicé, que se deriva de RepBase, así como los datos de secuencia potencialmente de estas repeticiones.
Esta podría ser una pregunta antigua, pero alguien está tratando de configurar una alternativa nueva y abierta a repBase (que se está volviendo completamente comercial), o al menos así es como lo percibo: https://twitter.com/ TransposableMan / status / 1060519887897067521
Seis respuestas:
#1
+12
Konrad Rudolph
2017-06-01 17:15:48 UTC
view on stackexchange narkive permalink

Dfam ha lanzado recientemente un recurso hermano, Dfam_consensus , cuyo objetivo declarado es reemplazar RepBase. Del anuncio:

Dfam_consensus proporciona un marco abierto para que la comunidad almacene tanto las alineaciones de semillas (múltiples alineaciones de instancias para una familia determinada) como el modelo de secuencia de consenso correspondiente.

Tanto RepeatMasker como RepeatModeler se han actualizado para admitir Dfam_consensus.

Aún no lo he probado, pero parece prometedor.

#2
+6
Jens Bast
2017-06-27 13:06:22 UTC
view on stackexchange narkive permalink

Para las bibliotecas TE fiables preexistentes, es un poco complicado, porque no todo el mundo deposita las bibliotecas TE específicas de la especie en una base de datos como RepBase. Y hasta donde yo sé, DFAM contiene solo recursos humanos, ¿o me equivoco?

En cuanto a la generación de novo de bibliotecas TE específicas para especies (lo que debería hacerse para cualquier especie no está ya presente en, por ejemplo, RepBase): No existe un "estándar de oro" sobre cómo abordar esto mejor. En principio, uno tiene que pensar en dos partes principales: detección de repetición y anotación

Para repetir detección Recomendaría usar una combinación de dos cosas (lo cual es necesario, porque las copias de TE pueden fallar en los ensamblajes ya que las regiones repetitivas tienden a ser difíciles de ensamblar y desechadas en el ensamblaje final).

I) Detección repetida de lecturas sin procesar (como por ejemplo, DNApipeTE o tedna o RepeatExplorer). Para mí, DNAPipeTE funcionó bastante bien, pero todo tiene pros y contras. II) Detección repetida de ensamblajes (como con, por ejemplo, REPET o como se mencionó antes, RepeatModeler)

Luego, la anotación de estas repeticiones también son complicadas, porque la mayoría de los métodos se basan en la homología entre los TE de novo y los TE de algunas especies relacionadas (probablemente lejanamente). Pero algunos programas también tienen en cuenta la estructura (como REPCLASS). REPET puede realizar tanto la detección como la anotación, pero es un fastidio empezar a ejecutar.

Recomendaría usar algunos programas para hacer una detección repetida de novo en su especie de interés tanto en las lecturas sin procesar como en el ensamblaje, agrupando estas bibliotecas juntas (con, por ejemplo, uclust y 95% de identidad) y luego ejecutar una anotación con homología e identificación estructural.

Probablemente los programas no le proporcionarán TE completos y completos, sino secuencias de consenso de varias copias de familias de TE. Si lo desea, puede buscar todas las copias de una familia, extraerlas de los límites contigs plus y alinearlas manualmente y curar los límites manualmente. Luego, extienda los límites si no llega a las regiones circundantes (no alineables) o puntos de referencia de TE como LTR o TIR o algo así. Pero esto lleva mucho tiempo si solo desea comparar la abundancia de TE entre especies, por ejemplo, yo no haría esto y prefiero comparar la abundancia usando cobertura de lectura (como en Bast et al. 2016). Depende de todas las preguntas que quieras hacer.

#3
+4
Chris_Rands
2017-06-01 17:09:58 UTC
view on stackexchange narkive permalink

Puede usar RepeatScout, que ha definido bibliotecas repetidas para un número limitado de especies (incluidos humanos, ratones y ratas). Si su taxón no está representado, también puede hacer predicciones repetidas de novo con RepeatScout para construir su propia biblioteca para alimentar a RepeatMasker. La publicación RepeatScout incluye algunas comparaciones con RepBase. Otra herramienta relacionada es RepeatModeler, que envuelve RepeatScout con RECON y algunos otros programas, y comparte autores con el equipo de RepeatMasker.

En el lado positivo, RepeatScout / RepeatModeler son de código abierto y no utilizan la selección manual, ya que cumplen con sus criterios. En el aspecto negativo, no estoy seguro exactamente de cómo se mantienen RepeatModeler y las herramientas de componentes. Las páginas web y github de RepeatScout no se han actualizado durante varios años, aunque la página de RepeatModeler muestra que su última versión fue en 2017. De todos modos, sé que se ha utilizado alguna combinación de RepeatScout / RepeatModeler para anotar repeticiones de algunos bastante recientes genomas recién secuenciados, p. ej. para cíclidos, celacanto y pinzón de Darwin, por lo que creo que es justo decir que este tipo de enfoque se acepta en el campo, al menos para proyectos de genoma de vertebrados.

#4
+4
matt
2019-02-27 22:17:14 UTC
view on stackexchange narkive permalink

AFAIK Dfam y Repbase son actualmente las dos mejores fuentes de (una variedad de) secuencias TE.

En mis anotaciones del genoma he usado RepeatModeler + RepeatMasker y luego usé Repbase + tblastx y Dfam + nhmmer para clasificarlos.

El proceso de clasificación en mi pipeline PhyLTR ( https://github.com/mcsimenc/PhyLTR) se basa en Dfam y Repbase. El proceso que utilicé para la identificación de LTR es

  1. ID putativo con LTRHarvest (basado en características de secuencia estructural)
  2. Clasificación por homología con Repbase y Dfam
  3. Eliminación de elementos sin homología con secuencias en Repbase o Dfam.

Esto da como resultado un conjunto de LTR-R que son de longitud completa y tienen evidencia de que son LTR-R.

#5
+3
AntiSocialBehaviourOrder
2017-12-14 12:52:14 UTC
view on stackexchange narkive permalink

+1 por estar en desacuerdo con RepBase.

Utilizo las anotaciones de los GTF de Hammell Lab que publicaron con TEtoolkit. Es similar a lo que describió que está usando, por lo que esta puede ser una respuesta redundante e inútil, pero por la investigación que he hecho, parecen ser completas y bien curadas (para Drosophila, al menos).

#6
+1
jpalmer
2018-06-25 21:59:09 UTC
view on stackexchange narkive permalink

Sé que esta pregunta es un poco antigua, pero sigue siendo un problema para muchos investigadores que no pueden acceder a RepBase. Ahora parece que la versión más reciente de RepeatMasker depende de RepBase para la funcionalidad completa si se enmascara algo que no sea humano (actualmente, DFAM solo tiene modelos humanos). Recientemente descubrí un enfoque de repetición de enmascaramiento de novo llamado REpeat Detector (Red). Esta podría ser una solución para algunos que buscan enmascarar repeticiones en un ensamblaje del genoma para anotación. El documento está aquí. Luego también escribí un envoltorio sobre el rojo para que sea un poco más fácil aplicar una máscara suave a un genoma, que puede encontrar aquí.

Una de las limitaciones de Red es que las repeticiones no están clasificadas, por lo que solo se identifican. Tendría que usar algunas de las otras herramientas mencionadas anteriormente para intentar clasificarlas.



Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...