¿Qué es este formato de secuencia de 5 columnas de 2009?

bli

2017-10-31 19:58:24 UTC

view on stackexchange narkive permalink

Hay datos de secuenciación de alto rendimiento aquí, y no sé en qué formato están.

Se envió en 2009 y la descripción dice lo siguiente:

Estrategia de la biblioteca: ncRNA-Seq
Fuente de la biblioteca: transcriptómica
Selección de biblioteca: fraccionamiento de tamaño
Modelo de instrumento: Illumina Genome Analyzer II
Descripción: CIPPNK, archivo tar de Illumina * _seq.txt archivos proporcionados como archivo complementario

Obtuve el archivo aquí:

ftp: //ftp.ncbi.nlm.nih .gov / geo / samples / GSM455nnn / GSM455387 / suppl / GSM455387% 5FWT% 5FCIPPNK% 5Fseq% 5Fs1% 2Etar% 2Egz

En el interior, hay 330 archivos de s_1_0001_seq.txt a s_1_0330_seq.txt que son archivos de texto delimitados por tabulaciones donde la primera columna es siempre 1 , la segunda tiene el número que se encuentra en el nombre del archivo, luego 2 enteros misteriosos, y luego lo que parece una lectura de longitud 36, con a veces un punto en lugar de una letra ER:

  $ cabeza s_1_0330_seq.txt 1 330 690 785 330 44 145 TTCCTACATTGTTCCCCCATGCTGTTGGCACCATCA1 TTTTTATCACGAGTTTTAAATCTGTAGTCACCATCA1 330 53 141 330 784 461 AATAATGCATAACAAAACGGAATCTGTAGAA.AAA.1 TAATTGTAGTGATTGATCAATCTGTAGGCACCATCA1 330 588 634 330 718 678 TATTATGCACATTTTCTAGTTCACTGTAGGCACCAT1 TTACATGTTTCGGGTAGGAGCCTGTAGGCACCATCA1 330 635 834 TGTGATCATTAGTTCAAAGCCCCCTGTCGGCACCCT1 330494 523 TGAAAATCAAAAATGCTGAACTGTAGGCACCATCAA1 330393 783 TTTTTTTTTAAATTTAAAAAAACTGTAGGCACCATC1 330 48148 GTTTAACCGTGTAGACGTTGGTTTCTGTAGGCACCA>    
    
 Creo que alguien  en un mensaje de 2008 en sequanswers estaba tratando con este tipo de archivo:    http://seqanswers.com/forums/showpost.php?p= 1841&postcount = 8 
 ¿Cuál es este formato que parecía tan estándar en ese entonces, que los autores no dieron más información que describir los archivos como "archivos Illumina * _seq.txt"? No me atrevo a hacerles una pregunta tan trivial (el contacto indicado es un premio Nobel y probablemente esté demasiado ocupado para responder preguntas bioinformáticas aleatorias). 
   En particular, ¿qué son las columnas 3? y 4, ¿y qué significan los puntos?