Pregunta:
Distribución de frecuencia de alelos esperada de SNV en datos reales de NGS
German Demidov
2017-05-22 15:47:44 UTC
view on stackexchange narkive permalink

Tengo una gran cantidad de ~ 20x muestras de WGS humanas, alineadas, y todos los SNV que se llamaron con GATK según los parámetros de línea germinal estándar establecidos.

Lo que tengo que hacer es modelar la frecuencia de alelos de los SNV ( AF) para diferentes números de copia subyacentes. Será mejor que dé un ejemplo de juguete. Para una región genómica particular X:

Si X se presenta con 2 copias para las muestras en particular, esperamos que la FA esté muy cerca de 1 o de 0.5.

Si X es presentado por 4 copias, espero que cualquier AF en particular esté cerca de 0.25, 0.5, 0.75 o 1.

Por supuesto, puedo usar Distribución binomial para estos fines. Sin embargo, como sabemos, la distribución no es exactamente Binomial debido a sesgos de alineación / secuenciación y la mediana de FA para todos los SNV heterocigotos es más cercana a 0,48 pero no a 0,5 como cabría esperar. Otra cosa: para números altos de copias, esperamos coberturas más altas. Y GATK usa varios filtros, así que supongo que no veremos SNV con AF como 0.125 (en caso de que el segmento tenga ploidía 8), a pesar de la cobertura súper alta, GATK puede rechazar este AF "extraño".

He leído varios artículos que modelan las AF de SNV (y estoy de acuerdo en que la Distribución Binomial Beta puede ser bastante precisa), sin embargo, no estaba lo suficientemente convencido de que debería usar el modelado particular. Según su experiencia (en caso de que realice llamadas SNV), ¿qué distribución probabilística debería usar? ¿Cómo debo estimar los parámetros para cada uno de ellos (debo esperar para CN4 AF = 0.5 más frecuente que AF = 0.75 o viceversa, cómo estimar esto a partir de los datos)?

UPD: fuerte> Para simplificar, podemos decir que tenemos muchas regiones previamente identificadas con ploidía diferente de CN2, y puedo tomar estas coordenadas desde aquí. De modo que puedo utilizar un aprendizaje más o menos "supervisado" para la estimación de parámetros.

One responder:
#1
+4
winni2k
2017-06-04 06:17:18 UTC
view on stackexchange narkive permalink

No tengo suficiente experiencia para responder qué distribución probabilística debería usarse.

Sin embargo, esta pregunta también pregunta cómo estimar los parámetros de las distribuciones. Si se elige una distribución binomial, entonces el artículo de Heng Li titulado "Un marco estadístico para llamadas de SNP, descubrimiento de mutaciones, mapeo de asociaciones y estimación de parámetros genéticos de población a partir de datos de secuenciación" 1 es probablemente el definitivo. La sección 2.3.1 de ese documento describe un algoritmo EM para estimar frecuencias alélicas de múltiples muestras bajo el supuesto de equilibrio de Hardy-Weinberg para ploidía arbitraria pero constante.

Idealmente, incluso las herramientas más populares como GATK también usan el algoritmo EM para el registro para estimar la probabilidad, mientras que samtools usa tanto el método EM como el de Brent. Los problemas reales con la configuración de la ploidía a priori, pero no estoy al tanto de las herramientas que estiman la ploidía y luego usan esa información para las llamadas de SNV y descubre el AF. Sé que herramientas como ABSOLUTE tienen el poder de estimar la ploidía, pero luego debes usarlas como entrada para tus llamadas SNP posteriores. Pero creo que la mayoría de las herramientas suelen funcionar con la suposición con ploidy establecido a priori. Esto es lo que me viene a la mente a partir de ahora.


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...