Pregunta:
¿Cómo leer la variante estructural VCF?
SmallChess
2017-05-29 11:25:31 UTC
view on stackexchange narkive permalink

El IGSR tiene una muestra para codificar variantes estructurales en el formato VCF 4.0.

Un ejemplo del sitio (el primer registro):

  #CHROM POS ID REF ALT CUAL FILTRO INFO FORMATO NA000011 2827693. CCGTGGATGCGGGGACCCGCATCCCCTCTCCCTTCACAGCTGAGTGACCCACATCCCCTCTCCCCTCGCA C. PASS SVTYPE = DEL; END = 2827680; BKPTID = Pindel_LCS_D1099159; HOMLEN = 1; HOMSEQ = C; SVLEN = -66 GT: GQ 1/1: 13.9  

¿Cómo leerlo? Por lo que puedo ver:

  • Esta es una eliminación ( SVTYPE = DEL )
  • La posición final de la variante viene antes de la posición inicial (¿hebra inversa?)
  • La referencia comienza desde 2827693 hasta 2827680 (13 bases en la hebra inversa)
  • La diferencia entre la referencia y la alternativa está 66 bases ( SVLEN = -66 )

Esto no me suena bien. Por ejemplo, no veo dónde comienza exactamente la eliminación. El campo SVLEN dice 66 bases eliminadas, pero ¿dónde? 2827693 a 2827680 solo tiene 13 bases entre ellos.

P: Cómo leer la eliminación correctamente de este registro VCF estructural ? ¿Dónde están las 66-13 = 53 bases que faltan?

Estoy bastante seguro de que el valor "FIN" es simplemente incorrecto en ese ejemplo. Tal vez envíe a la dirección de correo electrónico info @ una nota sobre esto para que puedan solucionarlo.
Me he tomado la libertad de preguntarle al proyecto 1000 genomas sobre esto, publicaré la respuesta si aún es relevante cuando la reciba.
Esta línea está equivocada en varios aspectos. VCF4.0 tiene algo así como 5 años y ha estado obsoleto durante mucho tiempo. Su especificación también se ha trasladado a github. En su lugar, debería leer la [última especificación] (https://samtools.github.io/hts-specs/VCFv4.3.pdf). El ejemplo de SV es correcto.
Esto se corrigió en las especificaciones VCF mantenidas en 2015 al ser informado como .
Dos respuestas:
#1
+8
Devon Ryan
2017-06-06 02:05:51 UTC
view on stackexchange narkive permalink

Acabo de recibir una respuesta de 1000Genomes con respecto a esto. Lo publicaré en su totalidad a continuación:

Mirando el ejemplo que mencionas, me resulta difícil llegar a una interpretación de la información en la que el final indicado parece ser correcto, así cree que esto puede ser un error.

Desde que se creó la v4.0, sin embargo, se han introducido nuevas versiones de VCF, mejorando y corrigiendo la especificación. La versión actual es v4.3 ( http://samtools.github.io/hts-specs/). Creo que el primer registro que se muestra en la página 11 proporciona un ejemplo preciso de este tipo de eliminación.

Actualizaré la página web para incluir esta información.

Así que puede tomar esto como una confirmación oficial de que todos teníamos razón al sospechar que el ejemplo era simplemente incorrecto.

¡Fue un seguimiento increíble! :)
#2
+4
terdon
2017-05-30 03:34:37 UTC
view on stackexchange narkive permalink

Entonces, en primer lugar, como han señalado otros, estoy bastante seguro de que ese ejemplo es incorrecto. Al menos, los números no coinciden como ha señalado.

Dicho esto, es imposible estar seguro sin mostrarnos también el encabezado del archivo VCF. El campo INFO (el quinto campo de un archivo VCF) es muy, muy variable y depende completamente de las líneas del encabezado. Cada programa (o humano) que implementa un VCF es libre de elegir tener lo que quiera en el campo INFO. Sin embargo, cada IDENTIFIER = necesita tener una línea INFO asociada al principio del archivo.

Entonces, el SVTYPE , SVLEN , HOMLEN etc. habrán comentado (comience con un # código>) líneas al principio del archivo que explican cuáles son estos valores. Así que compruébalo, aunque son relativamente estándar, nunca se sabe, la lectura obvia que usaste puede ser incorrecta a pesar de parecer tan razonable.

Aquí hay un ejemplo más reciente de una línea VCF para un SV tomado de la especificación VCF actual:

  ## fileformat = VCFv4.1 # # fileDate = 20100501 ## reference = 1000GenomesPilot-NCBI36 ## assembly = ftp: //ftp-trace.ncbi.nih.gov/1000genomes/ftp/release/sv/breakpoint_assemblies.fasta##INFO=<ID=BKPTID,Number= ., Type = String, Description = "ID del alelo alternativo ensamblado en el archivo de ensamblaje" > ## INFO = <ID = CIEND, Number = 2, Type = Integer, Description = "Intervalo de confianza alrededor de END para variantes imprecisas" > # # INFO = <ID = CIPOS, Number = 2, Type = Integer, Description = "Intervalo de confianza alrededor de POS para variantes imprecisas" > ## INFO = <ID = END, Number = 1, Type = Integer, Description = "Posición final del variante descrita en este registro "> ## INFO = <ID = HOMLEN, Number =., Type = Integer, Description =" Longitud del par de bases, micro-homología idéntica en los puntos de interrupción del evento ">
## INFO = <ID = HOMSEQ, Number =., Type = String, Description = "Secuencia de micro-homología idéntica del par de bases en los puntos de interrupción del evento" > ## INFO = <ID = SVLEN, Number =., Type = Integer, Description = "Diferencia de longitud entre los alelos REF y ALT" > ## INFO = <ID = SVTYPE, Number = 1, Type = String, Description = "Tipo de variante estructural" > ## ALT = <ID = DEL, Description = "Deletion" > ## ALT = <ID = DEL: ME: ALU, Descripción = "Eliminación del elemento ALU" > ## ALT = <ID = DEL: ME: L1, Descripción = "Eliminación del elemento L1" > ## ALT = <ID = DUP, Description = "Duplicación" > ## ALT = <ID = DUP: TANDEM, Description = "Duplicación en tándem" > ## ALT = <ID = INS, Descripción = "Inserción de secuencia nueva" > ## ALT = <ID = INS: ME: ALU, Description = "Inserción del elemento ALU" > ## ALT = <ID = INS: ME: L1, Description = "Inserción del elemento L1" > ## ALT = <ID = INV, Descripti on = "Inversión" > ## ALT = <ID = CNV, Descripción = "Copiar número de región variable" > ## FORMAT = <ID = GT, Número = 1, Tipo = Cadena, Descripción = "Genotipo" > ## FORMAT = <ID = GQ, Número = 1, Tipo = Flotante, Descripción = "Calidad del genotipo" > ## FORMAT = <ID = CN, Número = 1, Tipo = Entero, Descripción = "Copiar genotipo de número para eventos imprecisos" > ## FORMAT = <ID = CNQ, Número = 1, Tipo = Flotante, Descripción = "Calidad de genotipo de número de copia para eventos imprecisos" > # CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA000011 2827694 rs2376870 CGTGGATGCGGGGAC C. PASS SVTYPE = DEL; END = 2827708; HOMLEN = 1; HOMSEQ = G; SVLEN = -14 GT: GQ 1/1: 13.9  

Observe cómo coinciden los números y también cómo cada uno de los subcampos del campo INFO se explica con una línea ## INFO .



Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...