De acuerdo con la página de manual, ejecutar samtools stats --split RG <file1.bam>
debería producir estadísticas resumidas separadas por grupo de lectura. Si no produce una lista de lecturas desagrupadas, los recuentos / estadísticas se pueden comparar con la ejecución sin el argumento --split RG
.
Aquí hay un ejemplo de salida de un archivo BAM con grupos de lectura combinados:
$ samtools stats --split RG both.bam | grep '^ SN'SN secuencias totales sin procesar: 2392SN secuencias filtradas: 0SN secuencias: 2392SN está ordenado: 1SN 1er fragmentos: 2392SN últimos fragmentos: 0SN lecturas mapeadas: 2341SN lecturas mapeadas y emparejadas: 0 # conjunto de bits de tecnología de extremo emparejado + ambos compañeros mappedSN lee sin mapear: 51SN lee correctamente emparejado: 0 # conjunto de bits de par adecuadoSN lee emparejado: 0 # bit de tecnología de extremo emparejado setSN lee duplicado: 0 # PCR o conjunto de bits ópticos duplicadosSN lee MQ0: 0 # mapeado y MQ = 0SN lee QC falló: 0SN alineaciones no primarias: 0SN longitud total: 2292231 # ignora clippingSN bases mapeadas: 2255361 # ignora clippingSN bases mapeadas (cigarro): 1538560 # más precisasSN bases recortadas: 0SN bases duplicadas: 0SN desajustes: 254720 # de NM fieldsSN tasa de error : 1.655574e-01 # desajustes / bases mapeadas (cigarro) Longitud promedio de SN: 958SN longitud máxima: 9078SN calidad promedio: 20.0SN promedio de tamaño de inserto: 0.0SN desviación estándar del tamaño de inserto: 0.0SN hacia adentro pares ted: pares 0SN orientados hacia afuera: pares 0SN con otra orientación: pares 0SN en diferentes cromosomas: 0
El comando --split
también ha producido archivos .bamstat , que se pueden consultar para obtener estadísticas de resumen de grupos de lectura individuales. En este caso, solo me interesa la línea "secuencias totales sin procesar":
$ grep 'secuencias totales sin procesar' * .bamstatboth.bam_minusOnly.bamstat: SN secuencias totales sin procesar: 1901both.bam_plusOnly .bamstat: SN total de secuencias sin procesar: 491
Hay 1901 secuencias del grupo "minusOnly" y 491 secuencias del grupo "plusOnly", y sé por las estadísticas anteriores que hay 2392 secuencias en total. 1901 + 491 = 2392, entonces sé que no hay lecturas desagrupadas en este archivo.