Pregunta:
Descarga de un genoma de referencia para Bowtie2
EMiller
2017-06-01 03:56:27 UTC
view on stackexchange narkive permalink

¿Cómo descargo un genoma de referencia que puedo usar con bowtie2? Específicamente HG19. En UCSC hay muchas opciones de archivo.

Dos respuestas:
#1
+11
Konrad Rudolph
2017-06-01 14:38:53 UTC
view on stackexchange narkive permalink

Supongo que es una cuestión de preferencia, pero recomiendo las compilaciones de Ensembl . Decida si desea el ensamblaje principal o de nivel superior, y si desea archivos con máscara suave, repetición o sin máscara. El esquema de nomenclatura es muy sencillo; las combinaciones se describen en el archivo README , y todos los archivos residen en un directorio.

Por ejemplo, si desea el ensamblado primario desenmascarado, el archivo a descargar sería Homo_sapiens.GRCh37.75.dna.primary_assembly.fa.gz .

En cuanto a GoldenPath / UCSC , no hay necesidad de descargar y concatenar cromosomas separados (al contrario de lo que decía la otra respuesta); puede descargar la referencia completa (nivel superior) desde el directorio bigZips ; del README:

Este directorio contiene el ensamblaje de febrero de 2009 del genoma humano (hg19, GRCh37 Genome Reference Consortium Human Reference 37 (GCA_000001405.1)), así como repetir anotaciones y secuencias de GenBank.

Aquí hay esencialmente tres opciones:

  1. chromFa.tar.gz , que contiene todo el genoma en un cromosoma por archivo;
  2. chromFaMasked.tar.gz , lo mismo con repeticiones enmascaradas por N ;
  3. hg19.2bit , que es el genoma completo en un archivo, pero debe extraerse con el programa de utilidad twoBitToFa , que debe descargarse por separado.

En cualquier caso, siempre descargo la referencia y construyo mi propio índice para el mapeo, ya que esto me permite más control; No todo el mundo puede necesitar tanto control, pero de todas formas crear el índice una vez es bastante rápido.

Creo que esto desencadena otra pregunta "¿cuál es la diferencia entre diferentes versiones de la misma construcción del genoma?". La respuesta de la pregunta debe incluir la diferencia entre el ADN y el análisis de genómica funcional / secuencia de ARN. En el mundo del ADN / variantes, la gente generalmente se apegará a los grandes proyectos de secuenciación que Heng Li decida que es "mejor". En el mundo de la genómica funcional / RNA-seq, la curación cuidadosa de los genomas es importante, dependiendo del mapeador de lectura y también de lo que admiten las herramientas posteriores (un conjunto más grande de herramientas significa una cola más larga de herramientas menos utilizadas que tienen requisitos idiosincrásicos).
#2
+9
Manuel
2017-06-01 04:21:54 UTC
view on stackexchange narkive permalink

tl; dr: simplemente use las descargas de la página de inicio de Bowtie2 o de Illumina iGenomes. O simplemente descomprima y concatene los archivos FASTA que se encuentran en UCSC goldenpath y luego cree el índice.

Una respuesta un poco más larga:

Hay dos componentes para " genoma para un mapeador de lectura "como Bowtie o BWA.

Primero, debe elegir la secuencia real (liberación del genoma como GRCh37 / hg19 o GRCh38 / hg38). Hay versiones de parches como GRCh37.p3 en las que se pueden intercambiar algunas bases y, según la versión, se pueden añadir algunos loci contigs "no mapeados", pero generalmente GRCh37.p1 es aproximadamente lo mismo que GRCh37.p2, por ejemplo. Por lo general, la gente ha acordado una versión de parche específica para cada lectura y la usa para el mapeo de lectura.

Generalmente, existe el sabor UCSC hg19 / hg38 etc. y el sabor NCBI / GRC GRCh37, GRCh38, etc. (similar con el mouse). UCSC no tiene versiones además de la versión del genoma y (a mi leal saber y entender) no actualiza la secuencia del genoma después de publicar un archivo hg19 FASTA.

En segundo lugar, debe crear los archivos de índice para cada genoma. Según el mapeador de lectura que utilice, es posible que necesite o no los archivos FASTA originales para la alineación. Para Bowtie y Bowtie 2, no necesita los archivos FASTA originales después de crear el índice, ya que Bowtie 1/2 puede reconstruir la secuencia "sobre la marcha" a partir de los archivos de índice.

HTH

No sé cómo me las arreglé para perder la descarga en la página de inicio de bowtie. ¡Espero que esto ayude a alguien más!


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...