Pregunta:
Dado un VCF de un genoma humano, ¿cómo evalúo la calidad frente a SNV conocidos?
ShanZhengYang
2017-05-21 02:49:51 UTC
view on stackexchange narkive permalink

Estoy buscando herramientas para comprobar la calidad de un VCF que tengo de un genoma humano. Me gustaría comparar el VCF con variantes conocidas públicamente en otros genomas humanos, p. Ej. ¿cuántos SNP ya están en las bases de datos públicas, si las inserciones / deleciones están en posiciones conocidas, la distribución de la longitud de inserción / deleción, otros SNV / SV, etc.? Sospecho que hay recursos de proyectos anteriores para verificar SNP e InDels conocidos por subpoblaciones humanas.

¿Qué recursos existen para esto y cómo lo hago?

Tres respuestas:
#1
+7
Kevin
2017-05-21 19:48:39 UTC
view on stackexchange narkive permalink

Para lograr (al menos algunos de) sus objetivos, le recomendaría el Predictor de efecto variable (VEP). Es una herramienta flexible que proporciona varios tipos de anotaciones en un archivo .vcf de entrada. Estoy de acuerdo en que ExAC es el catálogo estándar de oro de facto para la variación genética humana en las regiones de codificación. Para ver la distribución de frecuencias de las variantes por subpoblación global, asegúrese de que las "frecuencias de los alelos ExAC" estén marcadas además de los 1000 genomas. VEP ExAC

Salida en el navegador web: VEP_ExAC_res

Si descarga el .vcf anotado, las frecuencias estará en el campo INFO :

  ## INFO = <ID = CSQ, Number =., Type = String, Description = "Anotaciones de consecuencia de Ensembl VEP. Formato : Alelo | Consecuencia | IMPACTO | SÍMBOLO | Gen | Feature_type | Feature | BIOTYPE | EXON | INTRON | HGVSc | HGVSp | cDNA_position | CDS_position | Protein_position | Amino_acids | Codons | Existing_variation | DISTANCE | STRAND | FLAGS_CE | SÍMBOLO_SÍMBOLO | PolyPhen | AF | AFR_AF | AMR_AF | EAS_AF | EUR_AF | SAS_AF | AA_AF | EA_AF | ExAC_AF | ExAC_Adj_AF | ExAC_AFR_AF | ExAC_AMR_AF | ExAC_EAS_AF | ExAC_FIN_AF | ExAC_NFE_AF | ExAC_OTH_AF | ExAC_SAS_AF | CLIN_SIG | SOMÁTICA | Pheno | MOTIF_NAME | MOTIF_POS | HIGH_INF_POS | MOTIF_SCORE_CHANGE 

El Annovar mencionado anteriormente también puede realizar anotaciones con frecuencias de alelos ExAC. Finalmente, debería mencionar el recurso de genoma completo más nuevo, gnomAD.

Muy buena sugerencia. Tengo entendido que ExAC tiene aprox. 123K exomas y gnomAD ahora tiene alrededor de 15K genomas
Todas estas son excelentes respuestas, pero como este parece ser el favorito de la comunidad, lo marcaré como "la respuesta". Pero futuros lectores: ¡miren los demás!
#2
+5
Kamil S Jaron
2017-05-21 06:12:08 UTC
view on stackexchange narkive permalink

El mayor catálogo de variantes de codificación de proteínas es definitivamente ExAC (> 65.000 individuos). También publicaron una entrada de blog en la que describen cómo reproducir figuras en el documento (es un buen comienzo para familiarizarse con el conjunto de datos).

Para todo variantes del genoma Me gustaría ver los datos creados por el proyecto 1000 genomas (la última versión tiene más de 3000 individuos). Los conjuntos de llamadas variantes integradas se pueden descargar a través del portal y el catálogo de SV se puede encontrar aquí.

En este paper (también proyecto de 1000 genomas) hablan sobre la colocación no precisa de SV por parte de los llamadores de SV. Tendría esto en cuenta para la comparación de su genoma con las variantes conocidas.

Gracias por la ayuda. Estoy un poco confundido por el hipervínculo en "guía" que describe el script de Perl necesario. Usando este script, esto creará un VCF a partir de un total de ~ 2.5K individuos.
El script es parte de [VCFtools] (http://vcftools.github.io/), lo vinculan al manual del paquete en lugar del código fuente, se espera que instale el paquete, no solo que descargue el script. También descubrí que habían iniciado un portal en la página de inicio, así que edité la respuesta.
#3
+4
nuin
2017-05-21 10:18:16 UTC
view on stackexchange narkive permalink

Su mejor opción es utilizar programas que le proporcionen una anotación completa de las variantes presentes en su VCF. Dos ejemplos son snpEff y Annovar. Estos programas funcionan con variantes conocidas, consideran diferentes fuentes y le brindan información sobre cada elemento de su archivo, que puede filtrar después para tratar de comprender los efectos de cada variante.

Ahora hay acceso a gnomAD con ANNOVAR, lo cual es muy bueno.


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...