Pregunta:
Trabajar con compilaciones de genoma antiguo
zx8754
2017-06-01 01:47:18 UTC
view on stackexchange narkive permalink

¿Sigue siendo válido trabajar con compilaciones de genoma antiguas y confiar en ellas?

Por ejemplo, NCBI36 / hg18. ¿Los resultados de artículos basados ​​en compilaciones antiguas requerirían LiftOver y un nuevo análisis para ser útiles?

Un poco de contexto, esto está relacionado con otra publicación, donde tenemos resultados de aCGH basados en compilación anterior: ¿Cómo valido un único resultado de muestra de ArrayCGH?

Esto probablemente dependerá del tipo de análisis que tenga en mente. Al final, todos los datos que generamos hoy serán algún día obsoletos, pero eso no significa necesariamente que todas las conclusiones estén equivocadas. Si fuera más específico sobre los tipos de análisis que tiene en mente (o artículos concretos que utilicen hg18), tal vez sería más fácil dar una respuesta correcta.
Cuatro respuestas:
#1
+8
Karel Brinda
2017-06-01 02:03:51 UTC
view on stackexchange narkive permalink

En mi opinión, no es muy confiable. LiftOver es muy limitado en términos de transformaciones que puede soportar. El formato de cadena LiftOver solo puede capturar regiones coincidentes en el mismo orden. Significa que puede dar cuenta de indels, pero incluso las variaciones estructurales simples se vuelven problemáticas.

Por ejemplo, cuando hay un ensamblaje más nuevo disponible, generalmente es una práctica recomendada reasignar todas las lecturas en lugar de transformar el existente alineaciones.

#2
+4
Manuel
2017-06-01 04:34:31 UTC
view on stackexchange narkive permalink

Creo que en este momento, las únicas compilaciones humanas que vale la pena considerar son hg19 / GRCh37, ya que muchas bases de datos como gnomAD todavía usan esta versión exclusivamente. Por otro lado, hg38 / GRCh8 tiene muchas correcciones importantes y la característica útil (pero infrautilizada) de los loci alternativos.

Cualquier versión de versiones anteriores debe reasignarse a una más reciente.

#3
+2
story
2017-06-08 11:38:40 UTC
view on stackexchange narkive permalink

Podría usar liftOver, que no siempre es genial.

Siempre que encuentro esto (especialmente datos NGS disponibles en el SRA), a menudo obtengo los archivos sin procesar (por ejemplo, fastqs) y vuelvo a align / re-map.

En su caso (matrices) puede ser un poco difícil. Sin embargo, no es imposible, ya que recientemente tomé algunos datos antiguos de microarrays de ADN / ARN de levadura y los actualicé al genoma más nuevo. Solo requiere los datos correctos (como el ADN para la normalización) y una buena comprensión de todo el proceso.

Un último recurso / alternativa es alinear sus datos nuevos con el genoma antiguo para poder hacer comparaciones. Esto no es ideal, pero funciona en los casos en que la actualización de una fuente no es posible o requiere una GRAN cantidad de tiempo / esfuerzo. He hecho esto para algunos experimentos de mosca en los que todos los datos disponibles / anteriores se realizaron en dm3. Todos los genomas antiguos generalmente se pueden encontrar en http://archive.ensembl.org.

#4
  0
burger
2017-06-08 05:09:09 UTC
view on stackexchange narkive permalink

Para el mouse, todavía veo personas que usan mm9 / NCBI37 en publicaciones de alto perfil a pesar de que mm10 / GRCm38 se lanzó hace más de 5 años (2011). Personalmente, no creo que sea una gran idea, pero sin duda es válida según los revisores.

También depende de su aplicación. Si está trabajando con regiones de codificación (probablemente bien conocidas desde hace mucho tiempo) o extrayendo estadísticas de todo el genoma (enriquecimiento en TSS, por ejemplo), las diferencias deberían ser insignificantes.



Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...