¿Diferencia entre CPM y TPM y cuál para el análisis posterior?

Pregunta:

novicebioinforesearcher

2017-08-15 00:51:22 UTC

view on stackexchange narkive permalink

¿Cuál es la diferencia entre TPM y CPM cuando se trata de datos de secuencia de ARN?

¿Qué métricas usaría si tuviera que realizar algún análisis posterior que no sea la expresión diferencial para, por ejemplo,

Análisis de agrupamiento usando la función Hclust y luego trazando el mapa de calor para encontrar diferencias en términos de niveles de expresión, correlación y pca

¿Es incorrecto usar TPM para tal análisis? Si es así, entonces cuando ¿Se usa TPM frente a CPM?

Dos respuestas:

Devon Ryan

2017-08-15 02:15:28 UTC

view on stackexchange narkive permalink

Puede encontrar las diversas ecuaciones en esta publicación de blog de Harold Pimental, que se cita con frecuencia. De todos modos, CPM es básicamente recuentos normalizados en profundidad, mientras que TPM está normalizado por longitud (y luego normalizado por los valores normalizados por longitud de los otros genes).

Si uno tiene que elegir entre esas dos opciones, normalmente elige TPM para la mayoría de las cosas, ya que generalmente la normalización de longitud es útil. Siendo realistas, probablemente desee log (TPM) , ya que de lo contrario, el ruido en sus genes más expresados terminará conduciendo todo.

en un caso dado, si uno recortara los adaptadores de los datos de secuencia de rna secuenciados en el extremo emparejado, esto daría como resultado una longitud de lectura diferente, como dice anteriormente `TPM es longitud normalizada` ¿significa que esta diferencia en la longitud de lectura se tiene en cuenta?

@novicebioinforesearcher No, transcripción / longitud del gen, que se correlaciona (algo) con los recuentos y, por lo tanto, tenderá a impulsar la agrupación a menos que se maneje de una manera razonable.

Rob Patro también escribió un artículo bastante bueno sobre el tema: http://robpatro.com/blog/?p=235

Konrad Rudolph

2017-08-15 14:45:03 UTC

view on stackexchange narkive permalink

Ni CPM ni TPM son adecuados aquí, porque ninguno realiza una normalización sólida entre muestras (consulte la publicación de blog a la que está vinculado Devon).

DESeq2 proporciona dos métodos sólidos de normalización del espacio de registro para el análisis posterior, el registro regularizado ( rlog ) y la transformación estabilizadora de varianza ( vst ). La viñeta DESeq2 explica cómo utilizarlos para cosas como hclust.

En una nota más general, CPM no tiene en cuenta las diferencias de longitud de transcripción, mientras que TPM sí. Si la elección es entre TPM y CPM, por lo tanto, usaría TPM. Sin embargo, si solo está comparando las mismas transcripciones en los experimentos, la longitud de la transcripción es en realidad invariable, por lo que no importa (pero el CPM aún no es una buena normalización de experimentos cruzados).

Ahora estoy confundido, entonces, ¿cuál es el uso de TPM, por qué uno lo produce y cuándo o dónde lo usa? , en otras palabras, qué herramientas, análisis en la secuencia de ARN usaría TPM si todo gira en torno al uso de recuentos y empujándolo a través de DESeq2

Las herramientas producen TPM porque no tienen la información (= las otras muestras) necesaria para realizar la normalización entre muestras. A falta de eso, TPM es lo mejor que pueden hacer. El TPM también es útil para comparaciones * dentro de la muestra *: puede brindarle una estimación precisa de la cantidad de genes que se expresan en una muestra dada entre sí.

Por favor, corríjanme si me equivoco aquí, dado un diseño experimental, diferentes tipos de células de un ratón normal dicen 4 tipos de células (3 réplicas cada uno), secuenciados usando la misma preparación de biblioteca pero pueden estar en diferentes momentos. El objetivo sería verificar el conjunto de transcripciones específicas del tipo de celda, usaría TPM, donde, como si quisiera agregar un parámetro de importancia (necesita un valor p), ¿usaría un análisis basado en recuentos sin procesar? Supongo que la confusión para mí es cuando usamos la palabra "expresión". La gente usa TPM y lo llama expresión, también usa conteos sin procesar y lo llama expresión

Ambos son estimaciones de expresión, dados los datos. Su caso de uso parece razonable, aunque en general preferiría determinar "transcripciones específicas del tipo de célula" comparando diferentes tipos de células, en lugar de basarme únicamente en una sola muestra. Lo que implicaría realizar análisis de expresión diferencial.

¿Qué implicaría realizar un análisis de expresión diferencial?

@novicebioinforesearcher Sobre cualquier conjunto de datos que desee comparar. Rara vez (¡si es que alguna vez!) Tiene sentido describir un gen como específico de un tipo de célula sin decir “a diferencia de estos otros tipos de células”. Por ejemplo, un gen específico de un tipo de célula, no obstante, puede expresarse en forma moderada: mientras esté * completamente ausente * en otras células, es específico del tipo de célula. De hecho, este es a menudo el caso. Por lo tanto, * no puede * caracterizar muchos genes específicos de tipos de células sin comparar diferentes tipos de células.

¿VST / RLOG está normalizado para la longitud de la transcripción? Si no es así, ¿es posible obtener VST / RLOG de longitud normalizada?

@rmf No, no se normalizan para la longitud de la transcripción; ambas funciones simplemente cambian la forma * distribución * de los conteos a algo más cercano a lineal. Para aquellos propósitos en los que usaría rlog / vst, normalmente no es importante tener en cuenta la longitud de la transcripción. Sin embargo, puede aplicar una transformación adicional (llamémoslo rlog-TMP), si tiene una aplicación en la que necesita valores normalizados de muestra cruzada y dentro de la muestra.

¿Diría que está bien hacer algo como `(vst / length) * (10 ^ 6)` y usar eso para mapas de calor donde realmente quiero comparar la expresión de un gen con otro gen?

@rmf Sí, pero en un mapa de calor generalmente escala por fila (gen) de todos modos (ya sea explícitamente o la función de trazado realiza la división internamente) por lo que la normalización por longitud de transcripción será estrictamente una operación no operativa.

ⓘ

Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.

acerca de - nota legal