El uso de letras minúsculas / mayúsculas y N
/ n
en secuencias de genomas no está completamente estandarizado y siempre debe verificar la especificación del recurso que está utilizando .
Las letras minúsculas se usan más comúnmente para representar "secuencias enmascaradas suaves", una convención popularizada por RepeatMasker, donde se intercalan repeticiones (que cubre transposones, retrotransposones y pseudogenes procesados) y las secuencias de baja complejidad están marcadas con letras minúsculas. Tenga en cuenta que las repeticiones más grandes, como las repeticiones en tándem considerables, las duplicaciones segmentarias y las duplicaciones de genes completos, generalmente no están enmascaradas.
Sin embargo, existen otros usos para las letras minúsculas / mayúsculas, por ejemplo, Ensembl han usado letras mayúsculas / minúsculas para representar secuencias exónicas e intrónicas respectivamente.
N
y n
nucleótidos pueden representar "secuencias enmascaradas duras ”, Donde las repeticiones intercaladas y las secuencias de baja complejidad se reemplazan por N
s. Pero N
/ n
s pueden representar alternativamente nucleótidos ambiguos, de hecho, esta es la especificación de IUPAC.
También tenga en cuenta ocasionalmente ( aunque afortunadamente raramente) X
/ x
también se utiliza para representar nucleótidos ambiguos o "secuencias enmascaradas".