Entonces, en primer lugar, como han señalado otros, estoy bastante seguro de que ese ejemplo es incorrecto. Al menos, los números no coinciden como ha señalado.
Dicho esto, es imposible estar seguro sin mostrarnos también el encabezado del archivo VCF. El campo INFO (el quinto campo de un archivo VCF) es muy, muy variable y depende completamente de las líneas del encabezado. Cada programa (o humano) que implementa un VCF es libre de elegir tener lo que quiera en el campo INFO. Sin embargo, cada IDENTIFIER =
necesita tener una línea INFO asociada al principio del archivo.
Entonces, el SVTYPE
, SVLEN
, HOMLEN
etc. habrán comentado (comience con un # código>) líneas al principio del archivo que explican cuáles son estos valores. Así que compruébalo, aunque son relativamente estándar, nunca se sabe, la lectura obvia que usaste puede ser incorrecta a pesar de parecer tan razonable.
Aquí hay un ejemplo más reciente de una línea VCF para un SV tomado de la especificación VCF actual:
## fileformat = VCFv4.1 # # fileDate = 20100501 ## reference = 1000GenomesPilot-NCBI36 ## assembly = ftp: //ftp-trace.ncbi.nih.gov/1000genomes/ftp/release/sv/breakpoint_assemblies.fasta##INFO=<ID=BKPTID,Number= ., Type = String, Description = "ID del alelo alternativo ensamblado en el archivo de ensamblaje" > ## INFO = <ID = CIEND, Number = 2, Type = Integer, Description = "Intervalo de confianza alrededor de END para variantes imprecisas" > # # INFO = <ID = CIPOS, Number = 2, Type = Integer, Description = "Intervalo de confianza alrededor de POS para variantes imprecisas" > ## INFO = <ID = END, Number = 1, Type = Integer, Description = "Posición final del variante descrita en este registro "> ## INFO = <ID = HOMLEN, Number =., Type = Integer, Description =" Longitud del par de bases, micro-homología idéntica en los puntos de interrupción del evento ">
## INFO = <ID = HOMSEQ, Number =., Type = String, Description = "Secuencia de micro-homología idéntica del par de bases en los puntos de interrupción del evento" > ## INFO = <ID = SVLEN, Number =., Type = Integer, Description = "Diferencia de longitud entre los alelos REF y ALT" > ## INFO = <ID = SVTYPE, Number = 1, Type = String, Description = "Tipo de variante estructural" > ## ALT = <ID = DEL, Description = "Deletion" > ## ALT = <ID = DEL: ME: ALU, Descripción = "Eliminación del elemento ALU" > ## ALT = <ID = DEL: ME: L1, Descripción = "Eliminación del elemento L1" > ## ALT = <ID = DUP, Description = "Duplicación" > ## ALT = <ID = DUP: TANDEM, Description = "Duplicación en tándem" > ## ALT = <ID = INS, Descripción = "Inserción de secuencia nueva" > ## ALT = <ID = INS: ME: ALU, Description = "Inserción del elemento ALU" > ## ALT = <ID = INS: ME: L1, Description = "Inserción del elemento L1" > ## ALT = <ID = INV, Descripti on = "Inversión" > ## ALT = <ID = CNV, Descripción = "Copiar número de región variable" > ## FORMAT = <ID = GT, Número = 1, Tipo = Cadena, Descripción = "Genotipo" > ## FORMAT = <ID = GQ, Número = 1, Tipo = Flotante, Descripción = "Calidad del genotipo" > ## FORMAT = <ID = CN, Número = 1, Tipo = Entero, Descripción = "Copiar genotipo de número para eventos imprecisos" > ## FORMAT = <ID = CNQ, Número = 1, Tipo = Flotante, Descripción = "Calidad de genotipo de número de copia para eventos imprecisos" > # CHROM POS ID REF ALT QUAL FILTER INFO FORMAT NA000011 2827694 rs2376870 CGTGGATGCGGGGAC C. PASS SVTYPE = DEL; END = 2827708; HOMLEN = 1; HOMSEQ = G; SVLEN = -14 GT: GQ 1/1: 13.9
Observe cómo coinciden los números y también cómo cada uno de los subcampos del campo INFO se explica con una línea ## INFO
.