Pregunta:
¿La fracción MAPQ = 0 de un archivo BAM depende de los tamaños de inserción?
719016
2018-01-09 15:56:39 UTC
view on stackexchange narkive permalink

Al realizar la secuenciación de Illumina 2x150bp de ADN genómico, y después de alinear las lecturas con GRCh38, ¿el porcentaje de la fracción no N del genoma humano como MAPQ = 0 depende de los tamaños de inserción de los fragmentos genómicos?

Esto es, para dos muestras idénticas con una cobertura final idéntica, la muestra A con un tamaño medio de inserción de 250 pb y la muestra B con un promedio de 450 pb, ¿cambiaría la fracción de MAPQ = 0 entre las dos?

Dos respuestas:
Devon Ryan
2018-01-09 16:35:17 UTC
view on stackexchange narkive permalink

Sí, como regla general, la capacidad de asignación aumenta con el tamaño de la inserción (hasta un límite) y la longitud de lectura. Si esto realmente ocurrirá en un caso dado, dependerá más de cuán aleatorias sean las muestras de secuenciación del genoma para comenzar (es decir, si la preparación de la biblioteca selecciona a favor / en contra de regiones de alta mapeo, entonces el tamaño del inserto no importará mucho) . La razón básica detrás de esto es que si un extremo de una lectura se alinea con un elemento repetitivo, la probabilidad de poder usar el otro extremo como ancla aumentará un poco si está más lejos. Habiendo dicho eso, a los secuenciadores de Illumina en particular les gusta una cierta longitud de fragmento para una secuenciación eficiente, por lo que no puede volverse loco por aumentar los tamaños de inserción y obtener un resultado decente (a menos que modifique la preparación de su biblioteca).

user172818
2018-01-11 08:10:33 UTC
view on stackexchange narkive permalink

Esto es, para dos muestras idénticas con una cobertura final idéntica, la muestra A tiene un tamaño de inserción promedio de 250 pb y la muestra B tiene un promedio de 450 pb, ¿cambiaría la fracción de MAPQ = 0 entre las dos?

Para humanos, espero que la muestra B tenga menos lecturas MAPQ = 0 (no tengo datos concretos para probar). Una gran parte del genoma humano se compone de repeticiones ALU. El tamaño promedio de una ALU es ~ 320 pb. Si su tamaño de inserción es ~ 450 pb, puede asignar lecturas en la mayoría de las ALU aisladas en principio. Con una inserción de ~ 250 pb, los fragmentos en el medio de las ALU no se podrán mapear de forma única.

Tenga en cuenta que para ver la diferencia, debe utilizar un mapeador que aproveche suficientemente la información de los extremos emparejados.

¿Bwamem lo aprovecha?


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...