Pregunta:
¿Se puede convertir un archivo de datos en formato VCF a FASTA?
WagonWheelWilly
2018-02-27 21:01:29 UTC
view on stackexchange narkive permalink

Estoy considerando comprar el producto 'MyGenome' de Veritas Genetics para analizar mi genoma para un proyecto. Me gustaría que los datos estuvieran en formato FASTA, pero Veritas solo proporciona datos VCF. ¿Es posible convertir estos datos VCF en formato FASTA?

¿Qué es "MyGenome" exactamente? ¿Secuenciarán todo tu genoma? ¿Solo tu exoma? ¿Regiones específicas del exoma?
@terdon Genoma completo 30X en HiseqX. [Enlace] (https://www.veritasgenetics.com/sites/default/files/media/documents/VG_ProductOnePager_myGenome_email.pdf)
Sí, eso no suena como el genoma completo real. O, más bien, parece que podrían secuenciar todo el genoma pero luego solo analizar regiones específicas del mismo (lo cual es algo razonable, no estoy diciendo que te estén estafando). "myGenome es una prueba *** de cribado *** de genoma completo [...]". Si es así, el método en la respuesta de b.nota no reconstruirá con precisión * su * genoma, sino solo aquellas regiones de su genoma que difieren del genoma de referencia en las regiones en las que sucedieron en la pantalla.
@terdon depende un poco de cómo hacen el archivo VCF, ¿no crees? La interpretación se basa solo en regiones específicas, pero deben tener un archivo con todas las variantes que OP debe obtener para este ejercicio VCF -> FASTA.
@b.nota mi suposición (y es solo una suposición) es que solo harán llamadas variantes para regiones específicas. Eso acelera enormemente el proceso y reduce los recursos necesarios y también posiblemente los protege de los litigios en algunos países.
Es muy probable que adivines bien. OP puede querer verificar primero con MyGenome, si todas las variantes se informan en el archivo VCF.
Posible duplicado de [¿Cómo manipular una referencia FASTA o bam para incluir variantes de un VCF?] (Https://bioinformatics.stackexchange.com/questions/2223/how-to-manipulate-a-reference-fasta-or-bam -para-incluir-variantes-de-un-vcf)
Es posible crear "a" fasta como se discutió, pero tengo mis dudas de si es un formato útil para trabajar. Pero esa no es la cuestión, supongo.
One responder:
benn
2018-02-27 21:15:03 UTC
view on stackexchange narkive permalink

Puede probar la función gatk FastaAlternateReferenceMaker

  java -jar GenomeAnalysisTK.jar \ -T FastaAlternateReferenceMaker \ -R reference.fasta \ -o output.fasta \ -L input.intervals \ -V input.vcf \ [--snpmask mask.vcf]  
Vale la pena señalar que esto solo reconstruirá el genoma del OP si el OP tiene datos WGS. De lo contrario, presumiblemente, esta herramienta usará el genoma de referencia para todo lo que no se menciona explícitamente en el archivo, por lo que no será el genoma del OP per se.
@b.nota gracias por su respuesta. Solo quiero informarle que me comuniqué con el soporte de Veritas para obtener más información (aún estoy esperando su respuesta) y aceptaré su respuesta una vez que pueda confirmar que esto funciona.


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...