Pregunta:
¿Cómo se calcula exactamente la "longitud efectiva" en FPKM?
user172818
2017-06-02 00:49:22 UTC
view on stackexchange narkive permalink

Según esta famosa publicación de blog, la longitud efectiva de la transcripción es:

$ \ tilde {l} _i = l_i - \ mu $

donde $ l_i $ es la longitud de la transcripción y $ \ mu $ es la longitud promedio del fragmento. Sin embargo, normalmente la longitud del fragmento es de aproximadamente 300 pb. ¿Qué pasa si cuando la transcripción $ l_i $ es menor que 300? ¿Cómo se calcula la longitud efectiva en este caso?

Una pregunta relacionada: cuando se calcula la FPKM de un gen, ¿cómo elegir una transcripción? ¿Elegimos una transcripción "canónica" (¿cómo?) O combinamos las señales de todas las transcripciones a un FPKM a nivel de gen?

Tres respuestas:
#1
+14
Devon Ryan
2017-06-02 01:03:41 UTC
view on stackexchange narkive permalink

La longitud efectiva es $ \ tilde {l} _i = l_i - \ mu + 1 $ (observe el código R en la parte inferior de la publicación del blog de Harold), que en el caso de $ \ mu < l_i $ debería ser 1 . Idealmente, usaría la longitud media del fragmento asignada a la característica en particular, en lugar de un $ \ mu $ global, pero eso es mucho más trabajo para un beneficio probable 0.

En cuanto a elegir una transcripción en particular, idealmente, se usaría un método como salmon o kallisto (o RSEM si tienes tiempo para matar). De lo contrario, sus opciones son (A) elegir la isoforma principal (si se conoce en su tejido y condición) o (B) usar un "modelo genético de unión" (sumar las longitudes de exón no redundantes) o (C) tomar la transcripción mediana longitud. Ninguna de esas tres opciones marca una gran diferencia si está comparando entre muestras, aunque todas son inferiores a un salmón / kallisto / etc. métrica.

¿Por qué el salmón et al. mejores métodos? No utilizan métricas arbitrarias que serán las mismas en todas las muestras para determinar la longitud de la función. En cambio, utilizan la maximización de expectativas (o similar, ya que al menos el salmón en realidad no usa EM) para cuantificar el uso de isoformas individuales. La longitud efectiva del gen en una muestra es entonces el promedio de las longitudes de la transcripción después de ponderar su expresión relativa (sí, uno debe eliminar $ \ mu $ allí). Esto puede variar entre muestras, lo que es bastante útil si tiene un cambio de isoforma entre muestras / grupos de tal manera que los métodos AC anteriores no se verían (piense en los casos en los que el cambio es a una transcripción más pequeña con mayor cobertura sobre ella ... resultando en la cobertura / longitud en los métodos AC para ser manipulado).

Pero `\ tilde {l}` es un denominador. Establecerlo en 1 aumentaría drásticamente el valor de las transcripciones cortas. Esto me suena peligroso ... Además, ¿podría aclarar cuál es la ventaja del salmón / kallisto sobre A / B / C? Gracias.
Las transcripciones cortas tienen FPKM absurdamente altos, es una de las cosas inútiles de los FPKM. Actualizaré la pregunta sobre el salmón / kallisto / etc.
#2
+10
nomad
2017-06-18 23:04:10 UTC
view on stackexchange narkive permalink

Tengo una publicación de blog que describe la longitud efectiva (así como estas diferentes unidades de abundancia relativa). La breve explicación es que lo que la gente llama "longitud efectiva" es en realidad la longitud efectiva esperada (es decir, la expectativa, en un sentido estadístico, de la longitud efectiva). La noción de longitud efectiva es en realidad una propiedad de una transcripción, un par de fragmentos, y es igual al número de posibles ubicaciones de inicio para un fragmento de esta longitud en la transcripción dada. Si toma el promedio de todos los fragmentos que se asignan a una transcripción (potencialmente ponderada por la probabilidad condicional de esta asignación), esta cantidad es la longitud efectiva esperada de la transcripción. Esto a menudo se aproxima simplemente como $ l_i - \ mu $, o $ l_i - \ mu_ {l_i} $ --- donde $ \ mu_ {l_i} $ es la media de la distribución de longitud de fragmento condicional (condicionado a que la longitud del fragmento sea < $ l_i $ para dar cuenta exactamente del problema que plantea).

#3
+4
Kristoffer Vitting-Seerup
2017-06-16 16:01:15 UTC
view on stackexchange narkive permalink

Para conocer la parte de la longitud efectiva, consulte la respuesta de Devons. Solo tengo una pequeña adición: Kallisto / Salmon / RSEM incorporan todas las estimaciones de sesgo en la longitud efectiva, lo que significa que la longitud efectiva no solo representa el sesgo de longitud si toma los valores de esas herramientas (dado que se ejecutaron con los algoritmos de sesgo habilitados naturalmente ).

Con respecto a obtener estimaciones del nivel de genes, no debe elegir una transcripción específica. En su lugar, debe extraer / calcular el RPKM / FPKM / TxPM (transcripción por millón que produce Kallisto / Salmon / RSEM) para cada transcripción y sumarlos para obtener la estimación del nivel de genes.



Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...