Hay datos de secuenciación de alto rendimiento aquí, y no sé en qué formato están.
Se envió en 2009 y la descripción dice lo siguiente:
-
Estrategia de la biblioteca: ncRNA-Seq
-
Fuente de la biblioteca: transcriptómica
-
Selección de biblioteca: fraccionamiento de tamaño
-
Modelo de instrumento: Illumina Genome Analyzer II
-
Descripción: CIPPNK, archivo tar de Illumina * _seq.txt archivos proporcionados como archivo complementario
Obtuve el archivo aquí:
En el interior, hay 330 archivos de s_1_0001_seq.txt
a s_1_0330_seq.txt
que son archivos de texto delimitados por tabulaciones donde la primera columna es siempre 1
, la segunda tiene el número que se encuentra en el nombre del archivo, luego 2 enteros misteriosos, y luego lo que parece una lectura de longitud 36, con a veces un punto en lugar de una letra ER:
$ cabeza s_1_0330_seq.txt 1 330 690 785 330 44 145 TTCCTACATTGTTCCCCCATGCTGTTGGCACCATCA1 TTTTTATCACGAGTTTTAAATCTGTAGTCACCATCA1 330 53 141 330 784 461 AATAATGCATAACAAAACGGAATCTGTAGAA.AAA.1 TAATTGTAGTGATTGATCAATCTGTAGGCACCATCA1 330 588 634 330 718 678 TATTATGCACATTTTCTAGTTCACTGTAGGCACCAT1 TTACATGTTTCGGGTAGGAGCCTGTAGGCACCATCA1 330 635 834 TGTGATCATTAGTTCAAAGCCCCCTGTCGGCACCCT1 330494 523 TGAAAATCAAAAATGCTGAACTGTAGGCACCATCAA1 330393 783 TTTTTTTTTAAATTTAAAAAAACTGTAGGCACCATC1 330 48148 GTTTAACCGTGTAGACGTTGGTTTCTGTAGGCACCA>
Creo que alguien en un mensaje de 2008 en sequanswers estaba tratando con este tipo de archivo: http://seqanswers.com/forums/showpost.php?p= 1841&postcount = 8
¿Cuál es este formato que parecía tan estándar en ese entonces, que los autores no dieron más información que describir los archivos como "archivos Illumina * _seq.txt"? No me atrevo a hacerles una pregunta tan trivial (el contacto indicado es un premio Nobel y probablemente esté demasiado ocupado para responder preguntas bioinformáticas aleatorias).
En particular, ¿qué son las columnas 3? y 4, ¿y qué significan los puntos?