Quiero algunas plantillas de diferentes formatos de archivo que pueda usar para probar mis scripts e identificar posibles errores en mi código.
Por ejemplo, considere el nucleótido FASTA, un formato simple pero a menudo abusado, lo haría quiero que las plantillas capturen formatos regulares e irregulares, como he visto todos estos:
1) Secuencia de una sola línea
>1ATG
2) Secuencia de varias líneas
>1ATG
3) Letras mayúsculas y minúsculas en secuencia
>1Atg
4) Ns y Xs (y posiblemente otras letras) en secuencia
>1ANnxX
5) Encabezados inusuales ( a veces caracteres no ASCI, es necesario considerar la codificación)
>ATG > 汉字 ATG
6) Espacio en blanco entre registros
>1ATG>2ATG
7) Encabezados duplicados
>1ATG>1ATC
8) Encabezados o secuencias vacíos (FASTA válido ?)
>>
9) No hay una nueva línea '\ n'
carácter en la última línea (puede estropear el archivo concatenación)
>1A # < no hay nueva línea aquí
10) Diferentes caracteres de nueva línea según el sistema operativo
>1A # \ r \ n vs \ n
etc.
Debe haber plantillas separadas para FASTA de nucleótidos y proteínas, y otras separadas para FASTA alineadas.
Idealmente incluiría también otros aspectos, como diferentes formatos de compresión (como .gz
, .bzip2
) y diferentes extensiones de archivo (como . fa
, .fasta
).
Nunca he visto recursos que proporcionen plantillas que los cubran, pero creo que sería útil. Por supuesto, podría crear mis propias plantillas, pero tomaría tiempo capturar todas las variaciones probables de los formatos, particularmente para formatos de archivo más complejos.
Tenga en cuenta que no solo me interesa el formato FASTA, era un ejemplo.
También tenga en cuenta que conozco herramientas (como BioPython
) que deberían manejar muchos formatos bueno, pero también pueden tener errores. De todos modos, en la práctica, a veces termino analizando archivos directamente porque no quiero la sobrecarga o la dependencia de un paquete externo.
EDITAR: Por favor, no responda esta pregunta para decir que no Yo tampoco conozco tales recursos, de ahí la pregunta. La útil respuesta de bli muestra que hay al menos un conjunto de pruebas que podría usarse como punto de partida. Sé que normalmente es fácil buscar la especificación de cualquier formato de archivo en particular.