Pregunta:
Faltan genes y normalización de la salida de RSEM usando EBSeq
J0HN_TIT0R
2017-06-02 03:57:13 UTC
view on stackexchange narkive permalink

Sin entrar en demasiados antecedentes, me uní a un laboratorio como pasante de bioinformática mientras completaba mi maestría en el campo. El laboratorio tiene datos de una secuencia de ARN que subcontrataron, pero el único problema es que los únicos datos que tienen son preprocesados ​​de la empresa que realizó la secuenciación: filtrar las lecturas, alinearlas y colocar las lecturas alineadas a través de RSEM. Actualmente tengo resultados de RSEM para cada una de las cuatro muestras que consisten en: identificación del gen, identificación (es) de transcripción, longitud, recuento esperado y FPKM. Estoy intentando obtener los archivos FASTQ de la secuenciación, pero por ahora, esto es lo que tengo y estoy tratando de sacar algo de ello si es posible.

Encontré este artículo que habla sobre cómo los recuentos de lectura esperados pueden ser mejores que los recuentos de lecturas sin procesar al analizar la expresión diferencial con EBSeq; es solo la opinión de un hombre, y es de 2014, por lo que puede ser incorrecta o estar desactualizada, pero pensé en intentarlo ya que tengo los conteos esperados.

Sin embargo, solo tengo un par de preguntas sobre la ejecución de EBSeq para las que no puedo encontrar las respuestas:

1: En los archivos RSEM de salida que tengo, no todos los genes están representados en cada uno, aproximadamente el 80% de ellos lo están, pero para el los que no lo son, ¿debería eliminarlos antes del análisis con EBSeq? Se ejecuta cuando lo hago, pero no estoy seguro de si es correcto.

2: ¿Cómo sé qué factor de normalización usar al ejecutar EBSeq? Esta es más una pregunta conceptual que técnica.

¡Gracias!

Dos respuestas:
#1
+6
Daniel Standage
2017-06-02 05:14:21 UTC
view on stackexchange narkive permalink

Sí, esa publicación de blog representa solo la opinión de un chico (¡hola!) y se remonta a 2014 , que es como décadas en años de genómica. :-) Por cierto, hay bastante literatura que discute las mejoras que los recuentos de lectura esperados derivados de un algoritmo de maximización de expectativas proporcionan sobre los recuentos de lecturas sin procesar. Sugeriría leer los artículos de RSEM para empezar [ 1] [ 2] .

Pero tu pregunta principal trata sobre la mecánica de ejecutar RSEM y EBSeq. Primero, RSEM fue escrito explícitamente para ser compatible con EBSeq, por lo que me sorprendería mucho si no funciona correctamente de inmediato. En segundo lugar, la función MedianNorm de EBSeq funcionó muy bien en mi experiencia para normalizar los recuentos de bibliotecas. En ese sentido, el blog que mencionaste anteriormente tiene otra publicación que puede resultarle útil.

Pero dejando de lado las bromas, estas herramientas son de hecho anticuadas. Las herramientas RNA-Seq sin alineación brindan mejoras de órdenes de magnitud en el tiempo de ejecución en comparación con las antiguas alternativas basadas en alineación, con una precisión comparable. Sailfish fue el primero de una lista cada vez mayor de herramientas que ahora incluye Salmon y Kallisto. Al comenzar un nuevo análisis desde cero (es decir, si alguna vez obtiene los archivos FASTQ originales), realmente no hay una buena razón para no estimar la expresión utilizando estas herramientas mucho más rápidas, seguido de un análisis de expresión diferencial con DESeq2, edgeR o sleuth.


1 Li B, Ruotti V, Stewart RM, Thomson JA, Dewey CN (2010) Estimación de la expresión génica de RNA-Seq con incertidumbre de mapeo de lectura . Bioinformática , 26 (4): 493–500, doi: 10.1093 / bioinformatics / btp692.

2 Li B, Dewey C (2011) RSEM: cuantificación precisa de la transcripción a partir de datos de RNA-Seq con o sin un genoma de referencia. BMC Bioinformatics , 12: 323, doi: 10.1186 / 1471-2105-12-323.

"Realmente no hay una buena razón para no estimar la expresión con estas herramientas mucho más rápidas", a menos que no tenga las lecturas sin procesar, como es el caso
Oh wow. ¡Gran descuido de mi parte!
¡Vaya, nunca esperé obtener una respuesta del autor real! Usé R para procesar los marcos de datos en una sola matriz de todos los recuentos esperados para cada gen de cada muestra.
¡Me sorprendió igualmente ver un enlace a mi antiguo blog en StackExchange! :)
Como pequeña pregunta de seguimiento, en última instancia, estoy tratando de obtener el cambio de pliegue y el valor p asociado para cada gen por condición. Encontré GetMultiFC () para obtener los cambios de pliegue, pero no tengo claro la diferencia exacta entre el cambio de pliegue y el cambio de pliegue posterior. Estoy pensando que el cambio de pliegue posterior es solo el cambio de pliegue para los valores normalizados, por lo que es el que debería usar, pero no estoy seguro de eso. Además, ¿es posible obtener valores p asociados?
#2
+3
gringer
2017-06-02 06:40:29 UTC
view on stackexchange narkive permalink
  1. Incluya todos los genes / transcripciones en su análisis.

Una transcripción que no se detecta podría pasar desapercibida debido a un error de muestreo (es decir, la preparación del secuenciador / biblioteca simplemente pasó por alto transcripción), o podría deberse a que la transcripción no se genera en una muestra en particular. No es raro que los genes se apaguen en respuesta a diferentes factores biológicos, por lo que los genes de recuento cero no deben ignorarse. No puedo hablar de mi experiencia con EBSeq, pero siempre que el paquete de análisis trate un recuento cero como "no observado" en lugar de "ausente" (y haga las correcciones relevantes), es una buena idea mantenerlas.



Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...