Pregunta:
llamada de variante en datos de estilo ChIP-seq: samtools mpileup con filtros mínimos
719016
2017-05-26 18:23:01 UTC
view on stackexchange narkive permalink

Estoy ejecutando samtools mpileup (v1.4) en un archivo bam con una cobertura muy entrecortada (datos de estilo ChIP-seq). Quiero obtener una lista de posiciones de primer paso con SNV y su frecuencia según lo informado por los recuentos de lectura, pero no importa lo que haga, sigo obteniendo todos los SNV filtrados por no pasar QC.

¿Qué es ¿El parámetro mágico configurado para una lista inicial de SNV y frecuencias?

EDITAR: esta es una pregunta que publiqué en "el otro" sitio web, pero no obtuve una respuesta allí.

¿Podrías intentar con otra persona solo para verificar? ¿Algo como [varscan] (http://dkoboldt.github.io/varscan/)?
@nuin Puedo intentarlo, ¿varscan permite desactivar el filtrado?
¿Podría agregar algunos ejemplos de comandos que probó?
@719016 Pruebe este [comando] (http://dkoboldt.github.io/varscan/using-varscan.html#v2.‌ 3_pileup2snp) y cambie opciones como _-- min -cover _, _-- min-reads2_ y _-- min-avg-qual_. Esto también lo ayudará a verificar si su problema está relacionado con samtools o con un archivo BAM
Estoy un poco preocupado de que si la profundidad no es alta y también los datos de ChIP-Seq tienen sesgos, entonces no son SNP de alta confianza. El objetivo de HC SNP es también la profundidad de lectura, que no es tanto en el tradicional ChIP-Seq
Sí, tal vez la llamada debería restringirse a cumbres cercanas a los picos, luego comparar muestra con muestra en el subconjunto de tales SNV
Dos respuestas:
#1
+7
burger
2017-05-27 06:16:16 UTC
view on stackexchange narkive permalink

Usé esto en el pasado para datos de ChIP-seq y generó SNV:

  samtools mpileup \ - sin comprimir --max-depth 10000 --min-MQ 20 --ignore -RG --skip-indels \ - fasta-ref ref.fa file.bam \ | bcftools llama a --consensus-caller \ > out.vcf  

Esto fue samtools 1.3 en caso de que eso haga una diferencia.

Conseguí que funcionara con estos parámetros. ¡Gracias!
#2
+5
user172818
2017-05-29 19:47:27 UTC
view on stackexchange narkive permalink

Otro enfoque es htsbox. Puede obtener una lista de candidatos con:

  htsbox pileup -Cvcf ref.fa -q20 -Q20 -s5 file.bam > out.vcf  

Aquí , -q establece la calidad mínima de mapeo, -Q establece la calidad mínima de base, -v genera solo variantes -c produce VCF, -C le da recuentos de bases en ambas cadenas y finalmente -s5 requiere al menos 5 bases de alta calidad para llamar a un alelo. Es útil cuando sus datos no cumplen con las suposiciones hechas por los llamadores de variantes típicos.

¿Por qué no samtools + bcftools o varscan? Transparencia y rapidez. Esta línea de comando simplemente cuenta en función de los parámetros que utiliza. No aplica operaciones adicionales. Y debido a esto, es un orden de magnitud más rápido que samtools mpileup o varscan. Vale la pena señalar que samtools usa BAQ de forma predeterminada, lo que reduce los FP ocasionalmente. Sin embargo, BAQ no es del todo necesario para lecturas más largas de Illumina y al mismo tiempo daña la sensibilidad.

Definitivamente voy a probar htsbox, como dices, funciona simplemente contando en función de los parámetros.


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...