¿Cómo descargo un genoma de referencia que puedo usar con bowtie2? Específicamente HG19. En UCSC hay muchas opciones de archivo.
¿Cómo descargo un genoma de referencia que puedo usar con bowtie2? Específicamente HG19. En UCSC hay muchas opciones de archivo.
Supongo que es una cuestión de preferencia, pero recomiendo las compilaciones de Ensembl . Decida si desea el ensamblaje principal o de nivel superior, y si desea archivos con máscara suave, repetición o sin máscara. El esquema de nomenclatura es muy sencillo; las combinaciones se describen en el archivo README
, y todos los archivos residen en un directorio.
Por ejemplo, si desea el ensamblado primario desenmascarado, el archivo a descargar sería Homo_sapiens.GRCh37.75.dna.primary_assembly.fa.gz
.
En cuanto a GoldenPath / UCSC , no hay necesidad de descargar y concatenar cromosomas separados (al contrario de lo que decía la otra respuesta); puede descargar la referencia completa (nivel superior) desde el directorio bigZips
; del README
:
Este directorio contiene el ensamblaje de febrero de 2009 del genoma humano (hg19, GRCh37 Genome Reference Consortium Human Reference 37 (GCA_000001405.1)), así como repetir anotaciones y secuencias de GenBank.
Aquí hay esencialmente tres opciones:
chromFa.tar.gz
, que contiene todo el genoma en un cromosoma por archivo; chromFaMasked.tar.gz
, lo mismo con repeticiones enmascaradas por N
; hg19.2bit
, que es el genoma completo en un archivo, pero debe extraerse con el programa de utilidad twoBitToFa
, que debe descargarse por separado. En cualquier caso, siempre descargo la referencia y construyo mi propio índice para el mapeo, ya que esto me permite más control; No todo el mundo puede necesitar tanto control, pero de todas formas crear el índice una vez es bastante rápido.
tl; dr: simplemente use las descargas de la página de inicio de Bowtie2 o de Illumina iGenomes. O simplemente descomprima y concatene los archivos FASTA que se encuentran en UCSC goldenpath y luego cree el índice.
Una respuesta un poco más larga:
Hay dos componentes para " genoma para un mapeador de lectura "como Bowtie o BWA.
Primero, debe elegir la secuencia real (liberación del genoma como GRCh37 / hg19 o GRCh38 / hg38). Hay versiones de parches como GRCh37.p3 en las que se pueden intercambiar algunas bases y, según la versión, se pueden añadir algunos loci contigs "no mapeados", pero generalmente GRCh37.p1 es aproximadamente lo mismo que GRCh37.p2, por ejemplo. Por lo general, la gente ha acordado una versión de parche específica para cada lectura y la usa para el mapeo de lectura.
Generalmente, existe el sabor UCSC hg19 / hg38 etc. y el sabor NCBI / GRC GRCh37, GRCh38, etc. (similar con el mouse). UCSC no tiene versiones además de la versión del genoma y (a mi leal saber y entender) no actualiza la secuencia del genoma después de publicar un archivo hg19 FASTA.
En segundo lugar, debe crear los archivos de índice para cada genoma. Según el mapeador de lectura que utilice, es posible que necesite o no los archivos FASTA originales para la alineación. Para Bowtie y Bowtie 2, no necesita los archivos FASTA originales después de crear el índice, ya que Bowtie 1/2 puede reconstruir la secuencia "sobre la marcha" a partir de los archivos de índice.
HTH