Pregunta:
¿Tiene sentido recalibrar las puntuaciones para las llamadas variantes?
Kamil S Jaron
2017-06-01 03:33:00 UTC
view on stackexchange narkive permalink

La canalización de llamadas GATK con más variantes incluye una recalibración del nivel de calidad base (BQSR) que requiere una lista de variantes conocidas. Recientemente, también se han realizado algunos trabajos para la recalibración de puntajes sin referencias: Lacer y atlas, que están motivados por aprovechar al máximo aDNA y conjuntos de datos de baja cobertura.

La importancia de aDNA se explica en esta conferencia, pero no me queda claro si / cómo es importante BQSR es para muestras de ADN frescas con una cobertura decente (> 15x). Especialmente cuando trabajo con organismos que no son modelo y no puedo simplemente usar las herramientas estándar.

¿Qué impacto tiene la recalibración de puntuaciones en las llamadas de variantes? ¿Existe una regla general por la cual no vale la pena el esfuerzo?

Cuatro respuestas:
#1
+5
burger
2017-06-02 03:07:27 UTC
view on stackexchange narkive permalink

Personalmente, no creo que BQSR tenga un gran impacto en las llamadas variantes, pero no es necesario que adivines. Si ejecuta GATK BQSR, genera una tabla y gráficos de exactamente cuánto se ajustan los puntajes de calidad. El ajuste variará dependiendo de la posición en el contexto de lectura y genómico (base anterior y siguiente). En mi experiencia, la diferencia es de unos pocos puntos como máximo, pero ciertamente es notable.

GATK recomienda BQSR para los datos del genoma y del exoma, que normalmente es mucho mayor que 15x.

#2
+2
Manuel
2017-06-01 04:27:28 UTC
view on stackexchange narkive permalink

Esa es una buena pregunta.

Yo diría que no necesita preocuparse por la recalibración de variantes para

  • un número bajo de muestras (p. ej., solo dos tríos); No pude hacer que la recalibración de GTAK de las puntuaciones de las variantes funcionara de todos modos
  • muestras de alta cobertura (p. Ej., X Ten genomas con cobertura 30x) donde las muestras de ADN son de alta calidad comparable y se han secuenciado con tecnología.

En general, tengo la impresión de que muchos de los pensamientos y modelos estadísticos avanzados integrados en GATK provienen de las fases anteriores del proyecto 1000 Genomes. Esto significa (1) cobertura baja, (2) genomas de cobertura diferente (3) secuenciados con diferentes versiones de tecnología mediante (4) muestras diferentes y (5) secuenciación de poblaciones.

Si se encuentra en un entorno clínico donde realiza una secuenciación 30x en plataformas X Ten de todos modos, entonces la recalibración de variantes probablemente no le ayudará mucho.

Por otro lado, si está integrando muchos conjuntos de datos de diferentes centros de datos y versiones de máquinas, etc. ., la recalibración de variantes puede valer la pena.

Una buena comprobación sería observar las distribuciones de calidad del genotipo y otras métricas relacionadas con la variante / calidad antes y después de la recalibración.

Cualquiera: corrija yo si me equivoco!

¿Está hablando de la recalibración del puntaje de calidad base (BQSR) aquí o de la recalibración del puntaje de calidad de la variante (VQSR)? Creo que el OP se refiere a BQSR pero estás discutiendo VQSR.
Sí, OP confirmó. La pregunta es sobre BQSR, así que me temo que estás respondiendo a la pregunta incorrecta.
* suspiro * y ahí pensé que podía aportar algo.
#3
+1
vchris_ngs
2017-06-06 16:07:56 UTC
view on stackexchange narkive permalink

Idealmente, estos métodos BQSR se hicieron teniendo en cuenta cómo los errores técnicos realmente arruinarán las llamadas de calidad base y cuando las máquinas estaban aún más en la fase de desarrollo mientras se usaban para el proyecto 1000G. A partir de ahora, las máquinas son más potentes y fuertes donde es poco probable que las usemos, pero aún las usamos con SNP listados para encontrar las covariables y construir un modelo alrededor de los datos usando la información con trucos de aprendizaje automático para mejorar la calidad de esas llamadas base. . Idealmente, debería ser más apropiado cuando se utilizan máquinas antiguas de Illumina u otras compañías estándar, pero con máquinas nuevas que son mucho más potentes y tienen un alto rendimiento, deberían tender a fallar. No recuerdo si se han realizado tales pruebas, pero obviamente sé que las nuevas máquinas de secuenciación siempre hacen tales pruebas para mostrar que han reducido tales errores, pero aún recomiendan tales BQSR para llamadas de variantes. Ahora el problema es la lista de SNP, este para mí es el problema real ya que la lista que usamos está lejos de ser el estándar de oro y si eso no se atiende adecuadamente, todo lo que inferimos sobre la calidad sigue siendo inestable. Este enlace es bastante informativo, pero es antiguo. Realmente vería mejoras con nuevos secuenciadores. Sin embargo, a mucha menos gente le importan estas pruebas en la investigación académica y el laboratorio traslacional realmente no invertirá tiempo y dinero en ellas, a menos que la instalación tenga algunos bioinformáticos que siempre realicen dichas pruebas mientras compran un nuevo secuenciador para el instituto. En términos de genómica clínica para encontrar variantes, creo que deberían usarse los secuenciadores más potentes y actualizados, pero no estoy seguro de si todavía usan BQSR y, de ser así, cuál es la lista que usan para construir el modelo de covariación en torno a los datos.

Tenga en cuenta que la pregunta está motivada por la investigación de organismos no modelo: no puedo usar una lista de variantes conocidas, porque dicha lista no existe para mi especie. Por lo tanto, quería saber qué tan importante es recalibrar QS, porque finalmente es posible, pero no solo ejecutando un paso más en la tubería de GATK.
Estoy de acuerdo en que es un organismo que no es modelo y por eso no tendrá ninguna lista de variantes. Pero dado que la motivación del enfoque también fue preguntar sobre el BQSR, dije. Puede echar un vistazo a este https://media.readthedocs.org/pdf/lts-workflows-sm-non-model-toolkit/latest/lts-workflows-sm-non-model-toolkit.pdf sobre cómo usar sus variantes de HC de su muestra para recalibrar. Además, este enlace de gatlk también podría ayudar. http://gatkforums.broadinstitute.org/gatk/discussion/3286/quality-score-recalibration-for-non-model-organisms. Ahora la decisión está en tu mano en cuanto a usar o comparar.
@KamilSJaron para no modelo, esta es una forma de hacerlo, pero si su máquina de secuenciación es bastante nueva y tiene una precisión mejorada, también puede eliminar el paso. Leería publicaciones para ver qué hacen, pero aún así, por mi bien, hago llamadas sin BQSR y con BQSR con variantes de HC y las uso como base de datos y comparo para llegar a una conclusión. Esa es mi opinión. También depende de la virtud del proyecto.
El primer enlace es muy relevante para mi pregunta original: "Si bien GATK UnifiedGenotyper sufre durante las llamadas indel sin recalibración y realineación, tanto HaplotypeCaller como FreeBayes funcionan igual o mejor sin estos pasos". Gracias. El segundo vínculo también es relevante, pero no tengo suficientes individuos secuenciados para elegir su enfoque de recalibración.
@KamilSJaron Me alegro de que sea relevante, pero de nuevo diría que se puede ejecutar con y sin y hacer una estimación. Dado que no tiene muchas muestras para crear su propia base de datos de HC SNP, también puede hacerlo con SNP estrictos y estrictos de sus individuos. O como no tiene muchas muestras, simplemente evite el paso BQSR y saque las mejores variantes y no una gran fracción de variantes. Las principales variantes a pesar de que la puntuación puede no ser muy precisa, pero las llamadas seguirán siendo muy seguras y preferiblemente verdaderas positivas. Supongo que depende de la cantidad de variantes a las que se transmite.
BQSR sigue siendo relevante, una de las razones de esto es que un nuevo hardware de illumina, como el NextSeq, solo puede generar puntuaciones Q agrupadas, BQSR esencialmente "deshace" las puntuaciones Q, lo que proporciona más granularidad que se utiliza en llamadas de variantes somáticas profundas. http://gatkforums.broadinstitute.org/gatk/discussion/4594/beware-of-using-binned-quality-scores-with-some-gatk-procedures. Además, NextSeq sufre de un problema de poli G de alta confianza, BQSR también será beneficioso aquí https://sequencing.qcfail.com/articles/illumina-2-colour-chemistry-can-overcall-high-confidence-g-bases/
Ah, eso era algo que no sabía, ya que todavía no me he encontrado con NextSeq. Este es un buen punto. Entonces el OP también debería pensar en ello y sí, simplemente estaba considerando cómo el BQSR entró en escena por primera vez. Pero esta es una buena captura para las puntuaciones Q agrupadas y sobre el problema de la poli G.
#4
  0
Bekir Ergüner
2020-01-22 16:32:17 UTC
view on stackexchange narkive permalink

En caso de que BQSR no sea una opción (es decir, organismos no modelo), sería mejor utilizar alguna secuencia de control interno como PhiX para la plataforma illumina. Aunque se supone que esto es una práctica común, algunas instalaciones lo ignoran. En principio, las máquinas deberían utilizar estas secuencias como referencia para que la puntuación sea más precisa. En mi experiencia, las primeras 10-15 bases de las lecturas de illumina siempre tuvieron una calidad inferior. Esto se puede ver fácilmente en las distribuciones de nucleótidos. Yo recomendaría recortar las primeras 10-15 bases y recortar los extremos según la calidad. Si la calidad de las lecturas individuales es importante, como la resecuenciación de baja cobertura o las aplicaciones de ensamblaje de genoma de novo.



Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...