Pregunta:
¿Cómo leer e interpretar un archivo de cuantificación de expresión génica?
0x90
2017-06-08 07:25:46 UTC
view on stackexchange narkive permalink

Tengo un archivo de cuantificación de expresión genética de TCGA que contiene las siguientes líneas:

  ENSG00000242268.2 591.041000514ENSG00000270112.3 0.0ENSG00000167578.15 62780.6543066ENSG00000273842.1 0.0ENSG00000078237.5 36230.832883ENSG00000146083.10 189653.152706ENSG00000225275.4 0.0ENSG00000158486.12 420.761140072ENSG00000198242.12 2914738.3675ENSG00000259883.1 1632.83700531ENSG00000231981.3 0.0ENSG00000269475.2 0.0ENSG00000201788.1 0.0ENSG00000134108.11 925529.547944ENSG00000263089.1 2646.63769677ENSG00000172137.17 23162.6989867ENSG00000167700 .7 291192.25157  
  1. ¿Cuál es el .number que se agrega al gen, por ejemplo el .2 en ENSG00000242268.2

  2. ¿Por qué el valor cuantificado no es un número entero? ¿Qué significa 591.041000514 ?

En caso de que alguien quiera más información sobre el gen LINC02082.

One responder:
Daniel Standage
2017-06-08 08:05:40 UTC
view on stackexchange narkive permalink
  1. La primera columna contiene identificadores de genes de Ensembl, y el sufijo es un número de versión que se puede usar para rastrear los cambios en las anotaciones de genes a lo largo del tiempo. De la documentación de ID estables de Ensembl :

    La anotación de Ensembl utiliza un sistema de ID estables que tienen prefijos basados ​​en el nombre científico de la especie más el tipo de función, seguido de una serie de dígitos y una versión, p. ej. ENSG00000139618.1. Es posible que se omita la versión.

  2. Si sigue el primer enlace que proporcionó, le llevará a una página con detalles del archivo 2edcaaa7 -63b4-40b4-abbe-5d7a84012e60.FPKM-UQ.txt.gz . Lo primero que me llamó la atención sobre este nombre de archivo fue FPKM , o "fragmentos por kilobase de exón por millón de lecturas", que es una unidad de expresión de ARN de uso común. Dado que estos no son recuentos de lecturas sin procesar, no se espera que estos valores sean números enteros.

    La mejor explicación que he visto de FPKM proviene de una publicación de blog escrita por Harold Pimentel de la fama kallisto y detective. De la publicación del blog:

    La interpretación de FPKM es la siguiente: si tuviera que secuenciar este grupo de ARN nuevamente, espera ver fragmentos de FPKM_i por cada mil bases en la función para cada N / 10 ^ 6 fragmentos que haya secuenciado. Básicamente es solo la tasa de fragmentos por base multiplicada por un número grande (proporcional al número de fragmentos que secuenciaste) para hacerlo más conveniente.


Sin embargo, de manera más general, incluso cuando FPKM no es la unidad de abundancia de expresión utilizada, la mayoría de los métodos de cuantificación y las unidades de expresión asociadas no producirán estimaciones enteras.

Herramientas como DESeq2 pueden generar otras estadísticas de expresión que son similares, pero no iguales, a FPKM. No estoy seguro de si tiene sentido responder esto para la pregunta específica (es decir, debido a la normalización FPKM), o en el caso más general, donde diría que los valores son de punto flotante debido a varios procedimientos de normalización diferentes (por ejemplo, corrección para longitud de transcripción, profundidad de secuenciación, ruido de disparo, covariables de confusión).


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...