Antecedentes: cada vez más necesitamos alguna forma de almacenar muchos datos variantes asociados con muchos sujetos: piense en ensayos clínicos y pacientes hospitalarios, en busca de genes relevantes o causantes de enfermedades. Mil temas es donde comenzaríamos, se habla de millones en el horizonte. Con varias iniciativas de medicina genómica, es probable que esta sea una necesidad más amplia.
El problema: si bien existen muchas plataformas, es un campo en rápida evolución. Es difícil tener una idea de cómo (y si) se desempeñan y cómo se alinean entre sí:
- ¿Qué es escalable y puede manejar una gran cantidad de datos? ¿Qué tipo de límites?
- ¿Qué es robusto y no una pila tambaleante de componentes pirateados?
- ¿Qué tiene una gran comunidad detrás y en realidad se usa ampliamente?
- ¿Qué facilita el acceso y la búsqueda desde otro servicio? (Línea de comandos, REST o API de software)
- ¿Qué tipo de variantes manejan?
- ¿Qué tipo de parámetros se pueden usar en la búsqueda?
Soluciones que he visto hasta ahora:
- BigQ: se usa con i2b2, pero su uso más amplio no está claro
- OpenCGA: parece el más desarrollado, pero he escuchado quejas sobre el tamaño de los datos que escupe
- Usar BigQuery sobre una base de datos de Google Genomics: no parece ser una solución general
- Gemini: recomendado, pero ¿es realmente escalable y accesible desde otros servicios?
- SciDb: una base de datos comercial general
- Quince
- LOVD
- Adam
- Cualquiera que sea la plataforma en la que se ejecute DIVAS & RVD: que puede no estar disponible gratuitamente
- Varias soluciones gráficas / genómicas: nosotros (y la mayoría de las personas) Probablemente no esté tratando con datos gráficos del genoma en este momento, pero ¿es esta una posible solución?
- Desarrolle la suya propia: se recomienda con frecuencia, pero soy escéptico, esta es una solución plausible para un gran conjunto de datos.
¿Alguien con experiencia da una reseña o guía de alto nivel sobre este espacio de plataforma?