Pregunta:
¿Por qué bwa-mem es el algoritmo estándar cuando se usa bwa?
terdon
2017-06-03 18:58:27 UTC
view on stackexchange narkive permalink

El estándar de la industria para alinear lecturas cortas parece ser bwa-mem. Sin embargo, en mis pruebas he visto que el uso de bwa backtrack (bwa-aln + bwa-sampe + bwa-samse) funciona mejor. Es un poco más lento, pero da resultados significativamente mejores en términos de sensibilidad y especificidad. Lo probé usando el genoma en una botella de datos y muestras públicas (NA12878 y NA12877 entre otros) y descubrí que el backtrack superó consistentemente a bwa-mem.

Entonces, ¿por qué bwa-mem es el estándar? ¿Me equivoco y otras pruebas han demostrado lo contrario? Realmente no veo cómo desde que probé usando los conjuntos de datos y datos de validación más comunes. ¿Es que el ligero aumento de la eficiencia supera la disminución del rendimiento?

La única otra explicación que puedo ver es que bwa backtrack está diseñado específicamente para lecturas de Illumina y todas mis pruebas se han realizado con datos de Illumina. ¿Es sólo que bwa-mem es "independiente del secuenciador"? ¿Para que podamos utilizar el mismo algoritmo independientemente de la plataforma de secuenciación que se utilice? En ese caso, tiene sentido usar backtrack si solo tratamos con datos de Illumina y mem si podemos tener diferentes secuenciadores. Pero, si es así, dado que Illumina está tan extendido, ¿por qué no se utiliza el backtrack con más frecuencia en los datos de Illumina? Siento que debo estar perdiendo algo.

Heng Li sería la mejor persona para responder a esto ... También podría valer la pena citar los puntos de referencia existentes o dar detalles de los que ha ejecutado.
Siempre existe el documento bwa mem https://arxiv.org/pdf/1303.3997.pdf
@MatthewBashton sí, lo sé. Desafortunadamente, no los tengo en una forma que sea fácil de mostrar y los ejecuté hace más de un año, por lo que es posible que ya no sean relevantes. Espero que otros hayan visto problemas similares y sepan por qué se preferiría uno sobre el otro. O que se ha publicado un artículo de revisión comparándolos y mi pubmed-fu simplemente me falló. De lo contrario, supongo que los volveré a ejecutar yo mismo, lo investigaré más a fondo y publicaré una nueva pregunta.
¿Cuál es tu longitud de lectura? http://bio-bwa.sourceforge.net recomienda mem como mejor para> 70 bp. Sería interesante ver un punto de referencia reproducible si ha encontrado lo contrario
@blmoore es en su mayoría ~ 150nt en promedio. Precisamente por eso me sorprendió ver esto. Sin embargo, me doy cuenta de que, a menos que muestre mis datos (que me temo que tendré que regenerar), es difícil para usted creer en mi palabra. Tenía la esperanza de que este fuera un problema bien conocido y simplemente era ignorante.
Hola @terdon; Nuestro equipo central de secuenciación ha analizado BWA-MEM frente al backtrack para varios conjuntos de datos y ha encontrado consistentemente que MEM es más rápido y más preciso que el backtrack. También hemos descubierto que si tiene una disminución significativa de la calidad en la pista de cola, el rendimiento de la pista de retroceso sufre mucho ... y esa es otra ventaja de MEM: no necesita un recorte de calidad, donde la pista de retroceso necesita que las lecturas se mapeen en toda su longitud. , que hemos observado independientemente de Heng Li y además de él (consulte [este hilo] (https://www.biostars.org/p/90149/)).
@WyattMcDonnell gracias, parece interesante aunque tengo problemas para leer ese tipo de hilo caótico. ¿Crees que podrías encontrar una respuesta con estos puntos?
nuestro departamento también utiliza backtrack de bwa para los datos de secuenciación de illumina. Como nota al margen, minimap2 (escrito por heng li) supera a bwa mem para lecturas largas, por lo que tengo problemas para averiguar dónde cae bwa mem en la imagen.
Muy relacionado (posiblemente un duplicado): https://bioinformatics.stackexchange.com/q/15/3144. Sin embargo, todavía no hay una comparación empírica de la efectividad de los dos enfoques del tipo que pedía el PO aquí.
Posible duplicado de [Diferencia entre BWA-backtrack y BWA-MEM] (https://bioinformatics.stackexchange.com/questions/15/difference-between-bwa-backtrack-and-bwa-mem)
One responder:
#1
+7
gringer
2017-06-04 12:38:44 UTC
view on stackexchange narkive permalink

bwa mem es más nuevo, más rápido y [debería ser] más preciso, especialmente para lecturas más largas.

De la página de manual de bwa ( presumiblemente en las propias palabras de Heng Li):

BWA es un paquete de software para mapear secuencias de baja divergencia contra un gran genoma de referencia, como el genoma humano. Consta de tres algoritmos: BWA-backtrack, BWA-SW y BWA-MEM. El primer algoritmo está diseñado para lecturas de secuencia de Illumina de hasta 100 pb, mientras que los dos restantes para secuencias más largas oscilaron entre 70 pb y 1 Mbp. BWA-MEM y BWA-SW comparten características similares, como soporte de lectura larga y alineación dividida, pero BWA-MEM, que es el último, generalmente se recomienda para consultas de alta calidad ya que es más rápido y más preciso. BWA-MEM también tiene un mejor rendimiento que BWA-backtrack para lecturas de Illumina de 70-100 pb.

Sí, sé que eso es lo que dice. Eso no es lo que he visto. ¿Tiene puntos de referencia o un artículo de revisión o algo que demuestre que bwa-mem es realmente más preciso?
El artículo de Heng Li sobre BWA está [aquí] (https://arxiv.org/abs/1303.3997). Compara la precisión de BWA-MEM con BWA-SW, y demuestra que BWA-MEM tiene un mayor número de lecturas mapeadas para el mismo número de lecturas incorrectas (ver Fig. 1).
Sí, pero no lo compara con bwa backtrack, que es sobre lo que estoy preguntando.
[Brian Bushnell] (https://www.biostars.org/p/199625/#199627) parece pensar que BWA-MEM es más preciso que BWA-backtrack.
Sí, mucha gente lo hace. Pero no he visto a nadie dar evidencia que apoye esto y mis pruebas han demostrado que no lo es.
Para ser justos, tampoco ha proporcionado ninguna evidencia que respalde esto. Sería genial si pudiera agregar un gráfico u otros resultados a su pregunta (preferiblemente con un conjunto de lectura / referencia descargable).
Sí, claro. Debo mostrar mis datos. Para ser honesto, hice esto hace más de un año y ya no los tengo. Es absolutamente posible que me equivoque y no hay razón alguna para que nadie me crea solo porque lo digo. Esperaba que alguien pudiera responder con sus propios puntos de referencia o, mejor aún, con un artículo revisado por pares que mostrara datos comparativos.


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...