¿Existe alguna alternativa RepBase para anotaciones de elementos repetidos en todo el genoma?

Konrad Rudolph

2017-06-01 16:11:10 UTC

view on stackexchange narkive permalink

Estoy usando las bibliotecas RepBase junto con RepeatMasker para obtener anotaciones de elementos de repetición en todo el genoma, en particular para elementos transponibles.

Esto funciona bastante bien, y parece para ser el estándar de facto en el campo.

Sin embargo, hay dos problemas con el uso de RepBase, por lo que yo (y otros) hemos estado buscando alternativas (hasta ahora sin éxito):

RepBase no es datos abiertos. Su acuerdo de licencia académica incluye una cláusula que prohíbe explícitamente la difusión de datos derivados de RepBase . No está claro hasta qué punto esto es vinculante / ejecutable, pero efectivamente evita la publicación de al menos algunos de los datos que estoy usando y generando. Esto es inaceptable para ciencia abierta.
- Además de esto, el modelo de suscripción de RepBase también hace que sea imposible integrar RepBase en canalizaciones completamente automatizadas, porque se requiere la interacción del usuario para suscribirse a RepBase y para proporcionar las credenciales de inicio de sesión.
RepBase se selecciona en gran medida manualmente. Esto es tanto bueno como malo. Bien, porque la curación manual de datos de secuencia es a menudo la forma más confiable de curación. Por otro lado, la curación manual está intrínsecamente sesgada; y lo que es peor, es difícil cuantificar este sesgo; los encargados de mantenimiento de RepBase lo reconocen.

¿Solo preguntaba por bibliotecas repetidas definidas? Lo interpreté de manera un poco más amplia como sobre las herramientas utilizadas para construir las bibliotecas también (lo que se vuelve relevante cuando se secuencian los genomas de nuevos taxones)

@Chris_Rands Ambos (bibliotecas y herramientas). Tu respuesta es acertada.

¿El objetivo es construir la biblioteca anotada de repeticiones o enmascarar partes repetitivas de un genoma?

@KamilSJaron Estoy trabajando con TE, así que necesito la biblioteca anotada, no (simplemente) una secuencia repetida enmascarada.

Ay, pero para los TEs solo un subconjunto de regiones repetitivas, existen herramientas especializadas para anotarlos (como [DNApipeTE] (https://github.com/clemgoub/dnaPipeTE) y [REPET] (https: //urgi.versailles. inra.fr/Tools/REPET)). Tal vez puedas especificarlo en la pregunta.

@KamilSJaron Bien, y esto podría valer la pena una respuesta. También actualizaré la pregunta. Dicho esto, también pido elementos repetitivos más allá de los TE.

¿También está seguro de que RepBase está en contra de las publicaciones que obtienen información basada en sus datos? ¿Podría ser que simplemente no quieran que comparta los datos sin procesar y los archivos que proporcionan? Ya que tienen un buen número de citas en diferentes campos: https://scholar.google.de/scholar?um=1&ie=UTF-8&lr&cites=11574259945967474319

@story Literalmente lo dicen en el acuerdo de usuario académico al que me vinculo. Aquí está la cita relevante: "Usted acepta NO hacer que Repbase (o cualquier parte del mismo, incluidos los informes de Repbase, mapas repetidos ** y otros materiales derivados, modificados o no **) estén disponibles para cualquier persona fuera de su grupo de investigación" Énfasis mío. De hecho, otra cláusula del acuerdo técnicamente incluso me prohíbe firmarlo porque mi instituto requiere la deposición de datos públicos, por lo que probablemente no se me permita firmar dichos acuerdos ".

Ya eso parece estar de acuerdo con mi declaración anterior. Supongo que mi punto es qué es exactamente lo que necesita compartir (según su publicación original) que se consideraría de su base de datos. Siento que esto no incluiría recuentos de características, pero las secuencias podrían ser un problema.

@story Necesito compartir potencialmente todos los datos que se usaron / generaron en mi análisis. Esto incluye particularmente la anotación de repetición específica que utilicé, que se deriva de RepBase, así como los datos de secuencia potencialmente de estas repeticiones.

Esta podría ser una pregunta antigua, pero alguien está tratando de configurar una alternativa nueva y abierta a repBase (que se está volviendo completamente comercial), o al menos así es como lo percibo: https://twitter.com/ TransposableMan / status / 1060519887897067521