Pregunta:
Reasignación de coordenadas genómicas para tener en cuenta los indeles
Greg Slodkowicz
2017-05-30 19:35:08 UTC
view on stackexchange narkive permalink

Estoy interesado en obtener secuencias de codificación de mi gen favorito en todos los individuos de 1000Genomes (y proyectos similares). Utilizo GATK para obtener el subconjunto correcto de variantes, vcf-consent para mapear estas variantes en el genoma de referencia y finalmente samtools para extraer los exones individuales. Esto funciona bien si las variantes son SNP, pero si hay indeles, esto cambia las coordenadas de los exones y termino obteniendo la región incorrecta. ¿Existe alguna forma genérica de reasignar las coordenadas genómicas para dar cuenta de los cambios creados por indels?

Dos respuestas:
#1
+8
Karel Brinda
2017-05-30 20:23:34 UTC
view on stackexchange narkive permalink

Creo que necesitas un archivo de cadena LiftOver para transformar tus coordenadas. Puede obtener dicho archivo usando bcftools consenso con el parámetro -c :

  -c, --chain <file> escribe un archivo de cadena for liftover  

Luego, puede usarlo para transformar coordenadas en varios formatos genómicos usando CrossMap.

Bien, +1. Sería genial si pudieras expandir esto para incluir un comando de ejemplo que el OP podría ejecutar, los pasos necesarios, etc. Los sitios de Stack Exchange tienen pautas muy estrictas sobre lo que es una respuesta (es por eso que te he estado molestando tanto) e idealmente , queremos que una respuesta proporcione toda la información necesaria para resolver la pregunta formulada. En otras palabras, no publique consejos (ni siquiera los que sean muy útiles como este) como respuestas. Puede publicar un comentario o convertir el puntero en una respuesta completa.
Tal vez sea solo yo, pero su respuesta parece estar bien, incluso para el estándar SE, pero soy solo yo.
@nuin estuvo de acuerdo, por eso voté a favor. Creo que sería aún mejor con más detalles, eso es todo.
Sin resentimientos.
#2
+2
finswimmer
2019-01-16 01:17:46 UTC
view on stackexchange narkive permalink

Si el objetivo es extraer la secuencia de consenso para determinadas regiones, así es como funciona en 2019.

bgzip e indexe su vcf archivo.

   $ bgzip -c input.vcf > input.vcf.gz $  tabix input.vcf.gz  

Cree un region.txt que contenga una región por línea en el formato chr: from-to . Si ya tiene un archivo bed , puede usar este pequeño script awk para crearlo:

   $ awk '{print $ 1": "$ 2 + 1" - "$  3}' input.bed > Regions.txt  

Ahora ejecute esta combinación de samtools y bcftools:

  $ samtools faidx -r Regions.txt genome.fa | bcftools consenso input.vcf.gz -o consenso. fa  


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...