Pregunta:
¿Cambian las llamadas variantes cuando llama desde CRAM?
morgantaschuk
2017-06-08 19:54:57 UTC
view on stackexchange narkive permalink

Estamos considerando cambiar nuestro formato de almacenamiento de BAM a CRAM. Trabajamos con muestras de cáncer humano, que pueden tener variantes de prevalencia muy baja (es decir, sin frecuencia diploide).

Si usamos CRAM con pérdida para ahorrar más espacio, ¿cuánto cambiarán las variantes llamadas desde esos archivos CRAM? ¿Qué estrategia de compresión tiene el menor impacto?

¿Existen otros impactos en las herramientas posteriores que no estemos considerando?

CRAM no ** necesita ** tener pérdidas, ¿hay alguna razón por la que lo necesite?
Ahorro de espacio en disco. Pagamos por GB y necesitamos conservar los datos durante 10 años.
No puedo discutir que el presupuesto no es una buena razón :)
Interesante pregunta. Creo que este es el tipo de cosas que hacen un buen proyecto paralelo. Tome un archivo bam llame a las variantes, transfórmelo para abarrotar y ejecute la llamada de variante. Mida la diferencia y la concordancia variante entre los dos enfoques utilizando varios archivos diferentes.
Si a uno le preocupa la absoluta integridad / reproducibilidad de los datos, la consideración del presupuesto no es una buena razón.
A menos que la respuesta sea: algunos tipos de compresión con pérdida no tienen ningún impacto en las llamadas variantes.
Los archivos BAM están comprimidos con compresión gzip estándar. Descomprímelos a "BAM desnudo" - no es mi terminología - y vuelve a comprimirlos con algo más fuerte como 7zip / LZMA. Siempre puede volver a comprimirlos nuevamente con la herramienta bgzip cuando los necesite nuevamente en formato BAM verdadero. Esto le permite llegar a la mayor parte del camino sin cambiar realmente el formato, lo que podría ser bueno si tiene las cosas configuradas como desee. No es una respuesta porque no responde a su pregunta, pero podría resolver su problema.
Dos respuestas:
user172818
2017-06-08 21:20:00 UTC
view on stackexchange narkive permalink

De forma predeterminada, un CRAM que crea con samtools no tiene pérdidas. Por lo general, reduce a la mitad el BAM de entrada en términos de tamaño de archivo. Si desea comprimir más, puede dejar que samtools convierta la mayoría de los nombres leídos en números enteros. No podrá distinguir los duplicados ópticos de los nombres leídos, pero esta es una preocupación menor. También puede soltar etiquetas inútiles dependiendo de su asignador y de la persona que llama descendente en uso. Para los datos sobre el cáncer, no reduciría la resolución de la calidad base sin puntos de referencia completos. Desafortunadamente, la calidad base ocupa la mayor parte del espacio en CRAM. Descartar los nombres de lectura originales y algunas etiquetas probablemente no le ahorrará mucho espacio.

Todas estas son excelentes sugerencias para reducir el tamaño del archivo sin perder información, pero no abordan la pregunta principal: el efecto de la pérdida en las llamadas variantes.
@DanielS Si no toca bases y cualidades y emparejamiento de nombres, no cambiará las llamadas variantes.
Sí, pero eso no tiene pérdidas, ¿verdad? ¿No implica la compresión con pérdida convencionalmente cambiar la secuencia y / o los valores de calidad para una mayor eficiencia de compresión?
Eso depende de la definición de "con pérdida" :) Para mí, perder nombres y etiquetas leídos tiene pérdidas.
¯ \\ _ (ツ) _ / ¯ Usted mismo dijo que las llamadas no deberían cambiar si la secuencia y la calidad no se modifican. Entonces todo lo demás es auxiliar. No me malinterpretes, creo que es valioso señalar que es posible reducir el tamaño del archivo sin cambiar la secuencia o la calidad, pero me parecía bastante claro que el OP estaba hablando de compresión con pérdida de la secuencia y / o puntajes de calidad. .
Por otra parte, esta respuesta es una respuesta razonable a la pregunta "¿Qué estrategia de compresión tiene el menor impacto?" ¡Ok, lo retiro todo! :-)
chrisamiller
2017-06-09 21:28:26 UTC
view on stackexchange narkive permalink

La principal preocupación siempre ha sido el "binning" de las puntuaciones de calidad que se produce mediante la compresión CRAM (y también es estándar en las plataformas HiSeqX, HiSeq4000 y NovaSeq). Como anécdota, puedo informar muy poca diferencia entre los puntajes de calidad de 4 contenedores y los puntajes de calidad total en muestras de cáncer, aunque no sé si he visto una comparación directa cara a cara.

+1. Mis colegas han realizado algunos puntos de referencia para demostrar que 4-bin tiene poco efecto en las muestras de * línea germinal *. He visto algo similar. Sin embargo, las muestras de cáncer siempre me hacen desconfiar. Sería estupendo que alguien hiciera una evaluación sistemática de las muestras de cáncer. No he visto uno hasta ahora.


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...