Pregunta:
Anotación de funciones: RefSeq vs Ensembl vs Gencode, ¿cuál es la diferencia?
Plasma
2017-05-17 00:24:16 UTC
view on stackexchange narkive permalink

¿Cuáles son las diferencias reales entre las diferentes bases de datos de anotaciones?

Mi laboratorio, por razones que aún desconozco, prefiere las anotaciones de Ensembl (estamos trabajando con la estimación de la expresión de transcripción / exón), mientras que algunos programas incluyen anotaciones de RefSeq. ¿Existen diferencias significativas entre ellos hoy en día, o son, a todos los efectos, intercambiables (por ejemplo, las coordenadas de exón entre las anotaciones de RefSeq y Ensembl son intercambiables)?

Cinco respuestas:
Mitra
2017-05-17 14:34:08 UTC
view on stackexchange narkive permalink

Para agregar a la respuesta sesgada a la derecha: Si bien es cierto que:

Gencode es un conjunto aditivo de anotaciones (el manual realizado por Havana y uno automatizado realizado por Ensembl ),

los archivos de anotación (GTF) son bastante similares para algunas excepciones que involucran el cromosoma X y el par Y y comentarios adicionales en el archivo Gencode (ver más en Preguntas frecuentes - Gencode ).

¿Cuáles son las diferencias reales entre las diferentes bases de datos de anotaciones?

Son algunas diferencias, pero la principal para mí (y podría ser estúpido) es

que Refseq está desarrollado por el NCBI estadounidense y

ENSEMBL está desarrollado principalmente por el EMBL-EBI europeo.

A menudo, los laboratorios o las personas simplemente comienzan a usar lo que conocen mejor (debido a un curso o taller) o porque comienzan a trabajar con una de las bases de datos con una herramienta específica y seguir con ella más tarde.

Mi laboratorio, por razones aún desconocidas yo, prefiere las anotaciones de Ensembl (estamos trabajando con la estimación de la expresión de transcripción / exón), mientras que algunos software se envían con anotaciones de RefSeq.

Su laboratorio puede ser principalmente de personas con sede en Europa o también pueden tener leer artículos como el de Frankish et al. Comparación de la anotación de genes GENCODE y RefSeq y el impacto del conjunto de genes de referencia en la predicción del efecto variante. BMC Genomics 2015; 16 (Suppl 8): S2 - DOI: 10.1186 / 1471-2164-16-S8-S2

De Frankish et al. paper paper:

Las transcripciones completas GENCODE contienen más exones, tienen una mayor cobertura genómica y capturan muchas más variantes que RefSeq en conjuntos de datos de genoma y exoma, mientras que el conjunto GENCODE Basic muestra un mayor grado de concordancia con RefSeq y tiene menos características únicas.

En cuanto a:

¿Existen diferencias significativas entre ellos hoy en día, o son, a todos los efectos, intercambiables (por ejemplo, las coordenadas de exón entre RefSeq y las anotaciones de Ensembl son intercambiables)?

No. No creo que haya grandes diferencias entre ellos, ya que la imagen global debería permanecer igual (aunque verá resultados diferentes si está interesado en un pequeño conjunto de genes). Sin embargo, no son directamente intercambiables . Particularmente porque hay muchas versiones de Ensembl y Refseq basadas en diferentes anotaciones del genoma (y tampoco serán intercambiables entre sí en la mayoría de los casos).

Sin embargo, puede traducir fácilmente la mayoría [1] de sus ID de Refseq a ID de ENSEMBL y viceversa con herramientas como http://www.ensembl.org/biomart/martview, por ejemplo (también hay bibliotecas / API dedicadas como Biocondutor: biomaRt

[1] La mayoría de las veces, pueden estar anotadas en una de las bases de datos pero no tienen (todavía) un equivalente en la otra.

EDITAR

Bueno, incluso si la gente tiende a mantener lo que está acostumbrado (y que las anotaciones se amplían y corrigen constantemente) según el tema de investigación uno podría estar interesado en usar una base de datos sobre otra:

De Zhao S, Zhang B. Una evaluación integral de las anotaciones de ensembl, RefSeq y UCSC en el contexto del mapeo de lectura de RNA-seq y cuantificación. BMC Genomics.2015; 1 6: 97. paper:

Al elegir una base de datos de anotaciones, los investigadores deben tener en cuenta que ninguna base de datos es perfecta y que algunas anotaciones genéticas pueden ser inexactas o completamente incorrectas. [..] Wu y col. [27] sugirió que cuando se realizan investigaciones que enfatizan estimaciones de expresión génica reproducibles y robustas, podría preferirse una anotación menos compleja del genoma, como RefGene. Al realizar una investigación más exploratoria, se debe elegir una anotación genómica más compleja, como Ensembl.

[..]

[27] Wu P-Y, Phan JH, Wang MD. Evaluación del impacto de la elección de la anotación del genoma humano en las estimaciones de expresión de RNA-seq. BMC Bioinformatics. 2013; 14 (Suplemento 11): S8. doi: 10.1186 / 1471-2105-14-S11-S8.

rightskewed
2017-05-17 07:29:24 UTC
view on stackexchange narkive permalink

Ensembl vs Gencode

https://www.gencodegenes.org/faq.html

La anotación GENCODE se realiza fusionando la anotación genética manual de La Habana y la anotación genética automatizada Ensembl. [...] En términos prácticos, la anotación GENCODE es idéntica a la anotación Ensembl.

Además, para las diferencias del archivo GTF:

El único La excepción es que los genes que son comunes a las regiones PAR del cromosoma X e Y humanos se pueden encontrar dos veces en GENCODE GTF, mientras que solo se muestran para el cromosoma X en el archivo Ensembl.

Gencode (Ensembl) vs RefSeq

Gencode es en casi todos los casos más completo. Por ejemplo, este es NCBI RefSeq vs Ensembl (v24, versión 83) para el gen BRCA: enter image description here

RefSeq y Gencode no son intercambiables en la mayoría de los casos, aunque las anotaciones RefSeq sí suele ser un subconjunto de los de Gencode.

¿Cómo está expresando la captura de pantalla de BRCA su punto? No es muy obvio a primera vista (al menos para mí)
Ian Sudbery
2017-05-17 18:34:35 UTC
view on stackexchange narkive permalink

Para agregar consejos prácticos a lo que otros han dicho:

En un sentido práctico, creo que la mayor diferencia entre RefSeq y Ensembl / GENCODE está en la compensación de sensibilidad / especificidad.

Ensembl apunta más hacia el final inclusivo, incluyendo un número mucho mayor de variantes de transcripción, muchas de las cuales son débilmente compatibles.

RefSeq intercambia parte de esta sensibilidad por especificidad - usted puede tener más confianza en que existe una transcripción de RefSeq, pero menos en que la anotación de ReqSeq incluye todas las transcripciones reales de un gen.

Es por eso que prefiero la anotación de Ensembl, ya que puedes consultar un conjunto más seguro seleccionando solo las transcripciones de Havana (Havana o Ensembl / Havana). Ver: http://www.ensembl.org/Help/Faq?id=152
Zz...zZ
2017-10-04 18:52:40 UTC
view on stackexchange narkive permalink

Si bien las anotaciones entre RefSeq y Gencode no son tan diferentes en las regiones de codificación (genes), Gencode es mucho más rico en las regiones intergénicas. Esto podría ser muy ventajoso para estudios epigenéticos, donde la regulación es de interés.

¡Hola! ¿Existe alguna publicación u otro material que pueda vincular con respecto a su reclamo? Eso sería muy interesante...
Max
2019-08-07 15:19:05 UTC
view on stackexchange narkive permalink

Las preguntas frecuentes de UCSC Genome Browser Genes tratan esta pregunta en detalle: https://genome.ucsc.edu/FAQ/FAQgenes.html#ens

Oficialmente , los modelos de genes Ensembl y GENCODE son los mismos. En los últimos ensamblajes de genoma humano y de ratón (hg38 y mm10), los identificadores, las secuencias de transcripción y las coordenadas del exón son casi idénticas entre las versiones equivalentes de Ensembl y GENCODE (excluyendo secuencias alternativas o secuencias fijas).

GENCODE utiliza la convención UCSC de prefijar los nombres de los cromosomas con "chr", por ejemplo "chr1" y "chrM", pero Ensembl los llama "1" o "MT". En el momento de escribir este artículo (Ensembl 89), algunas transcripciones difieren debido a problemas de conversión. Además, alrededor de 160 genes PAR están duplicados en GENCODE pero solo una vez en Ensembl. Las diferencias afectan a menos del 1% de las transcripciones. Aparte de la anotación genética en sí, los enlaces a bases de datos externas difieren.

El Historial de versiones de GENCODE muestra las fechas de publicación y se puede vincular a las versiones de Ensembl correspondientes. Puede descargar los modelos de transcripción genética desde el sitio web https://gencodegenes.org o desde http://ensembl.org. Para la mayoría de las aplicaciones, los archivos distribuidos en el sitio web GENCODE deberían ser más fáciles de usar, ya que los enlaces de bases de datos de terceros son más fáciles de analizar y los identificadores de secuencia coinciden con los archivos del genoma UCSC, al menos para los cromosomas primarios.

Puede encontrar información adicional sobre esta pregunta en la página de preguntas frecuentes de GENCODE.



Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...