Estoy usando las bibliotecas RepBase junto con RepeatMasker para obtener anotaciones de elementos de repetición en todo el genoma, en particular para elementos transponibles.
Esto funciona bastante bien, y parece para ser el estándar de facto en el campo.
Sin embargo, hay dos problemas con el uso de RepBase, por lo que yo (y otros) hemos estado buscando alternativas (hasta ahora sin éxito):
-
RepBase no es datos abiertos. Su acuerdo de licencia académica incluye una cláusula que prohíbe explícitamente la difusión de datos derivados de RepBase . No está claro hasta qué punto esto es vinculante / ejecutable, pero efectivamente evita la publicación de al menos algunos de los datos que estoy usando y generando. Esto es inaceptable para ciencia abierta.
- Además de esto, el modelo de suscripción de RepBase también hace que sea imposible integrar RepBase en canalizaciones completamente automatizadas, porque se requiere la interacción del usuario para suscribirse a RepBase y para proporcionar las credenciales de inicio de sesión.
-
RepBase se selecciona en gran medida manualmente. Esto es tanto bueno como malo. Bien, porque la curación manual de datos de secuencia es a menudo la forma más confiable de curación. Por otro lado, la curación manual está intrínsecamente sesgada; y lo que es peor, es difícil cuantificar este sesgo; los encargados de mantenimiento de RepBase lo reconocen.