Pregunta:
¿Por qué la mayoría de los alineadores no generan la operación CIGAR "X"?
medbe
2017-06-03 04:58:11 UTC
view on stackexchange narkive permalink

Mientras leo las especificaciones de SAM, el operador "X" CIGAR representa una discrepancia. Esto parece útil porque podemos saber dónde están los desajustes sin mirar el genoma de referencia. Sin embargo, muchos alineadores populares como BWA no generan "X". ¿Por qué omiten "X"?

Curiosamente, la información de desajuste se almacena en la etiqueta MD (al menos para BWA), por lo que parece haber sido una decisión consciente en lugar de una cuestión de simplicidad.
Por lo general, tampoco generan `=`.
@DevonRyan Creo que generará `M` o` X` / `=` así que si omiten `X` también omitirán automáticamente` = `
One responder:
#1
+8
John Marshall
2017-06-03 23:39:38 UTC
view on stackexchange narkive permalink

El formato SAM originalmente solo tenía M , I , D , N , S , H y P CIGAR. Consulte la especificación SAM original (si puede ver documentos de Apple Pages) y la Tabla 1 en El formato de alineación / mapa de secuencia y SAMtools (Li et al , 2009). Esto estaba en línea con las herramientas anteriores que usaban cadenas de CIGAR, en particular exonerar , que las introdujo solo con M , I , y D operadores.

BWA-backtrack se escribió al mismo tiempo que el formato SAM en 2008 y 2009 (y publicado en mayo de 2009). Su ChangeLog muestra que estaba generando información no coincidente en una etiqueta MD desde enero de 2009 y que MD se definió en la especificación SAM de la época ( y que la sintaxis del valor de la etiqueta estaba algo cambiante en febrero de 2009). La etiqueta MD también se describe en esa primera especificación SAM con formato de páginas v1.0.

Las etiquetas = y X Los operadores CIGAR se introdujeron más adelante en SAM v1.3 como resultado de este extenso hilo de lista de correo samtools-devel. Los caracteres utilizados para los operadores y las implementaciones iniciales estaban esencialmente en su lugar en noviembre de 2009.

Desde entonces, los operadores = / X realmente no han tomado de M , como has visto. Probablemente haya varios factores que contribuyen a esto:

  • Su introducción posterior, mucho después de la M / I / D básica los operadores y la etiqueta MD estaban bien establecidos;
  • Es posible que sean específicos de SAM y no estén disponibles en otros sabores de CIGAR;
  • El MD todavía proporciona más información: X no le dice cuáles eran las bases de referencia no coincidentes.


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...