Para agregar a la respuesta sesgada a la derecha: Si bien es cierto que:
Gencode es un conjunto aditivo de anotaciones (el manual realizado por Havana y uno automatizado realizado por Ensembl ),
los archivos de anotación (GTF) son bastante similares para algunas excepciones que involucran el cromosoma X y el par Y y comentarios adicionales en el archivo Gencode (ver más en Preguntas frecuentes - Gencode ).
¿Cuáles son las diferencias reales entre las diferentes bases de datos de anotaciones?
Son algunas diferencias, pero la principal para mí (y podría ser estúpido) es
que Refseq está desarrollado por el NCBI estadounidense y
ENSEMBL está desarrollado principalmente por el EMBL-EBI europeo.
A menudo, los laboratorios o las personas simplemente comienzan a usar lo que conocen mejor (debido a un curso o taller) o porque comienzan a trabajar con una de las bases de datos con una herramienta específica y seguir con ella más tarde.
Mi laboratorio, por razones aún desconocidas yo, prefiere las anotaciones de Ensembl (estamos trabajando con la estimación de la expresión de transcripción / exón), mientras que algunos software se envían con anotaciones de RefSeq.
Su laboratorio puede ser principalmente de personas con sede en Europa o también pueden tener leer artículos como el de Frankish et al. Comparación de la anotación de genes GENCODE y RefSeq y el impacto del conjunto de genes de referencia en la predicción del efecto variante. BMC Genomics 2015; 16 (Suppl 8): S2 - DOI: 10.1186 / 1471-2164-16-S8-S2
De Frankish et al. paper paper:
Las transcripciones completas GENCODE contienen más exones, tienen una mayor cobertura genómica y capturan muchas más variantes que RefSeq en conjuntos de datos de genoma y exoma, mientras que el conjunto GENCODE Basic muestra un mayor grado de concordancia con RefSeq y tiene menos características únicas.
En cuanto a:
¿Existen diferencias significativas entre ellos hoy en día, o son, a todos los efectos, intercambiables (por ejemplo, las coordenadas de exón entre RefSeq y las anotaciones de Ensembl son intercambiables)?
No. No creo que haya grandes diferencias entre ellos, ya que la imagen global debería permanecer igual (aunque verá resultados diferentes si está interesado en un pequeño conjunto de genes). Sin embargo, no son directamente intercambiables . Particularmente porque hay muchas versiones de Ensembl y Refseq basadas en diferentes anotaciones del genoma (y tampoco serán intercambiables entre sí en la mayoría de los casos).
Sin embargo, puede traducir fácilmente la mayoría [1] de sus ID de Refseq a ID de ENSEMBL y viceversa con herramientas como http://www.ensembl.org/biomart/martview, por ejemplo (también hay bibliotecas / API dedicadas como Biocondutor: biomaRt
[1] La mayoría de las veces, pueden estar anotadas en una de las bases de datos pero no tienen (todavía) un equivalente en la otra.
EDITAR
Bueno, incluso si la gente tiende a mantener lo que está acostumbrado (y que las anotaciones se amplían y corrigen constantemente) según el tema de investigación uno podría estar interesado en usar una base de datos sobre otra:
De Zhao S, Zhang B. Una evaluación integral de las anotaciones de ensembl, RefSeq y UCSC en el contexto del mapeo de lectura de RNA-seq y cuantificación. BMC Genomics.2015; 1 6: 97. paper:
Al elegir una base de datos de anotaciones, los investigadores deben tener en cuenta que ninguna base de datos es perfecta y que algunas anotaciones genéticas pueden ser inexactas o completamente incorrectas. [..] Wu y col. [27] sugirió que cuando se realizan investigaciones que enfatizan estimaciones de expresión génica reproducibles y robustas, podría preferirse una anotación menos compleja del genoma, como RefGene. Al realizar una investigación más exploratoria, se debe elegir una anotación genómica más compleja, como Ensembl.
[..]
[27] Wu P-Y, Phan JH, Wang MD. Evaluación del impacto de la elección de la anotación del genoma humano en las estimaciones de expresión de RNA-seq. BMC Bioinformatics. 2013; 14 (Suplemento 11): S8. doi: 10.1186 / 1471-2105-14-S11-S8.