Pregunta:
Fusión de datos de secuenciación para experimentos de ChIP-seq
olga
2017-06-03 17:42:58 UTC
view on stackexchange narkive permalink

Necesito fusionar datos de secuenciación de diferentes ejecuciones de secuenciación pero para la misma biblioteca ChiP-seq (HiSeq 2000).

¿Existen ventajas o desventajas potenciales al fusionar archivos en la etapa .fastq o .BAM (alineación con Bowite / 1.1.2)?

Tres respuestas:
#1
+7
Konrad Rudolph
2017-06-03 17:48:05 UTC
view on stackexchange narkive permalink

No creo que importe. Ambos son fáciles de fusionar (BAM a través de samtools merge y FASTQ (comprimido con gzip) a través de cat ), y ninguno de los métodos tiene desventajas específicas, a menos que sus archivos FASTQ estén ordenados por alguna razón. (pero generalmente no deberían serlo).

Una ventaja de mantener los archivos FASTQ separados es que hace que sea un poco más fácil paralelizar el paso de mapeo: simplemente ejecute el mapeador en paralelo en los archivos FASTQ separados. Aunque bowtie tiene una opción ( -p ) para esto, el rendimiento de eso es un poco peor que ejecutar el mapeo en archivos divididos.

#2
+3
Sarah Carl
2017-06-06 13:19:38 UTC
view on stackexchange narkive permalink

Para ChIP-seq, realmente no debería importar. Pero tenga en cuenta que, de forma predeterminada, samtools merge conserva la información del grupo leído (el campo @RG en el encabezado) de cada archivo de entrada. Esto podría plantear un problema para algunos análisis posteriores (por ejemplo, para el HaplotypeCaller de GATK) si desea que los datos combinados se consideren como parte de la misma muestra. Puede cambiar este comportamiento usando la opción -c .

No creo que uno necesite información de "@RG" para un ChIP-Seq, quiero decir que es muy poco probable que alguien quiera hacer una llamada de variantes con ChIP-Seq. Así que, en cualquier caso, apenas importaría. Simplemente no mencionaría sobre el `@RG` aquí ya que la gente podría confundirse.
Punto justo. Pero como Olga preguntó sobre ventajas o desventajas, pensé que valdría la pena mencionarlo. Podría ser útil en el futuro, o para otros usuarios, al fusionar archivos para otras aplicaciones además de ChIP-seq, ya que `samtools merge` se usa ampliamente.
#3
+2
ewels
2017-06-06 22:40:14 UTC
view on stackexchange narkive permalink

Esté de acuerdo con los demás en que realmente no importa. Sin embargo, una cosa a tener en cuenta: si está deduplicando sus archivos BAM (probablemente debería hacerlo para los datos de ChIP-seq), asegúrese de hacer esto después fusionar .. :)

Tenga en cuenta que si en lugar de una biblioteca, tiene varias réplicas técnicas (es decir, varias bibliotecas de la misma muestra), debe alinear para cada réplica técnica por separado, luego deduplicar y LUEGO fusionar. Esto le permite mantener fragmentos únicos de cada biblioteca que pueden parecer duplicados de PCR (porque se asignan al mismo lugar) pero que en realidad son únicos.


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...