Sin entrar en demasiados antecedentes, me uní a un laboratorio como pasante de bioinformática mientras completaba mi maestría en el campo. El laboratorio tiene datos de una secuencia de ARN que subcontrataron, pero el único problema es que los únicos datos que tienen son preprocesados de la empresa que realizó la secuenciación: filtrar las lecturas, alinearlas y colocar las lecturas alineadas a través de RSEM. Actualmente tengo resultados de RSEM para cada una de las cuatro muestras que consisten en: identificación del gen, identificación (es) de transcripción, longitud, recuento esperado y FPKM. Estoy intentando obtener los archivos FASTQ de la secuenciación, pero por ahora, esto es lo que tengo y estoy tratando de sacar algo de ello si es posible.
Encontré este artículo que habla sobre cómo los recuentos de lectura esperados pueden ser mejores que los recuentos de lecturas sin procesar al analizar la expresión diferencial con EBSeq; es solo la opinión de un hombre, y es de 2014, por lo que puede ser incorrecta o estar desactualizada, pero pensé en intentarlo ya que tengo los conteos esperados.
Sin embargo, solo tengo un par de preguntas sobre la ejecución de EBSeq para las que no puedo encontrar las respuestas:
1: En los archivos RSEM de salida que tengo, no todos los genes están representados en cada uno, aproximadamente el 80% de ellos lo están, pero para el los que no lo son, ¿debería eliminarlos antes del análisis con EBSeq? Se ejecuta cuando lo hago, pero no estoy seguro de si es correcto.
2: ¿Cómo sé qué factor de normalización usar al ejecutar EBSeq? Esta es más una pregunta conceptual que técnica.
¡Gracias!