Pregunta:
¿Qué es este formato de secuencia de 5 columnas de 2009?
bli
2017-10-31 19:58:24 UTC
view on stackexchange narkive permalink

Hay datos de secuenciación de alto rendimiento aquí, y no sé en qué formato están.

Se envió en 2009 y la descripción dice lo siguiente:

  • Estrategia de la biblioteca: ncRNA-Seq

  • Fuente de la biblioteca: transcriptómica

  • Selección de biblioteca: fraccionamiento de tamaño

  • Modelo de instrumento: Illumina Genome Analyzer II

  • Descripción: CIPPNK, archivo tar de Illumina * _seq.txt archivos proporcionados como archivo complementario

Obtuve el archivo aquí:

ftp: //ftp.ncbi.nlm.nih .gov / geo / samples / GSM455nnn / GSM455387 / suppl / GSM455387% 5FWT% 5FCIPPNK% 5Fseq% 5Fs1% 2Etar% 2Egz

En el interior, hay 330 archivos de s_1_0001_seq.txt a s_1_0330_seq.txt que son archivos de texto delimitados por tabulaciones donde la primera columna es siempre 1 , la segunda tiene el número que se encuentra en el nombre del archivo, luego 2 enteros misteriosos, y luego lo que parece una lectura de longitud 36, con a veces un punto en lugar de una letra ER:

  $ cabeza s_1_0330_seq.txt 1 330 690 785 330 44 145 TTCCTACATTGTTCCCCCATGCTGTTGGCACCATCA1 TTTTTATCACGAGTTTTAAATCTGTAGTCACCATCA1 330 53 141 330 784 461 AATAATGCATAACAAAACGGAATCTGTAGAA.AAA.1 TAATTGTAGTGATTGATCAATCTGTAGGCACCATCA1 330 588 634 330 718 678 TATTATGCACATTTTCTAGTTCACTGTAGGCACCAT1 TTACATGTTTCGGGTAGGAGCCTGTAGGCACCATCA1 330 635 834 TGTGATCATTAGTTCAAAGCCCCCTGTCGGCACCCT1 330494 523 TGAAAATCAAAAATGCTGAACTGTAGGCACCATCAA1 330393 783 TTTTTTTTTAAATTTAAAAAAACTGTAGGCACCATC1 330 48148 GTTTAACCGTGTAGACGTTGGTTTCTGTAGGCACCA>   

Creo que alguien en un mensaje de 2008 en sequanswers estaba tratando con este tipo de archivo:

http://seqanswers.com/forums/showpost.php?p= 1841&postcount = 8

¿Cuál es este formato que parecía tan estándar en ese entonces, que los autores no dieron más información que describir los archivos como "archivos Illumina * _seq.txt"? No me atrevo a hacerles una pregunta tan trivial (el contacto indicado es un premio Nobel y probablemente esté demasiado ocupado para responder preguntas bioinformáticas aleatorias).

En particular, ¿qué son las columnas 3? y 4, ¿y qué significan los puntos?

One responder:
Bioathlete
2017-10-31 20:07:31 UTC
view on stackexchange narkive permalink

Este es uno de los primeros formatos de secuenciador de Solexa / Illumina. Las columnas son el identificador de ubicación en la celda de flujo. Creo que el "." era el marcador de posición original para una base no leída, que ha sido reemplazada por una "N" en la salida de secuenciación actual de Illumina.

Desde http://www.crg.eu/en/content/ procesamiento y análisis de datos de secuenciación de illumina.

seq.txt (Gerald)

4 1 23 1566 ACCGCTCTCGTGCTCGTCGCTGCGTTGAGGCTTGCG

Las primeras 4 columnas son una ID que proporciona detalles de ubicación del grupo en la celda de flujo, seguidas de la secuencia de lectura. El tamaño del archivo Seq.txt suele oscilar entre 250 megabytes y 1 gigabyte. Se genera un archivo por carril.

Ah, entonces si los autores no proporcionaron otros archivos, supongo que la única forma en que puedo convertir esto a fastq es eligiendo cualidades arbitrarias.
Corregir este formato no contenía puntuaciones de calidad. Había un archivo qseq.txt que lo hizo. Aunque para ser honesto en ese entonces, los puntajes de calidad no eran tan significativos ya que el algoritmo de Illumina no era muy preciso al asignarlos.


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...