Pregunta:
Letras mayúsculas vs minúsculas en el genoma de referencia
Scott Gigante
2017-05-24 08:26:50 UTC
view on stackexchange narkive permalink

Estoy usando un genoma de referencia para el ratón mm10 descargado de NCBI y me gustaría comprender con mayor detalle la diferencia entre letras minúsculas y mayúsculas, que constituyen partes aproximadamente iguales del genoma. Entiendo que N se usa para 'enmascaramiento rígido' (áreas en el genoma que no se pudieron ensamblar) y letras minúsculas para 'enmascaramiento suave' en regiones repetidas.

  1. ¿Qué significa realmente este enmascaramiento suave ¿media?
  2. ¿Qué tan seguro puedo estar acerca de la secuencia en estas regiones?
  3. ¿Qué representa una n minúscula?
Tres respuestas:
#1
+25
rightskewed
2017-05-24 11:01:33 UTC
view on stackexchange narkive permalink

¿Qué significa realmente este enmascaramiento suave?

Gran parte de la secuencia de los genomas es repetitiva. El genoma humano, por ejemplo, tiene (al menos) dos tercios de elementos repetitivos [1].

Estos elementos repetitivos se enmascaran mediante la conversión de las letras mayúsculas a minúsculas. Un caso de uso importante de estas bases blandas enmascaradas será en las búsquedas de homología: un atatatatatat tenderá a aparecer tanto en genomas humanos como de ratón, pero probablemente no sea homólogo.

¿Qué tan seguro puedo estar acerca de la secuencia en estas regiones?

Como puede estar en posiciones sin máscara blanda. El enmascaramiento suave se realiza después de determinar las porciones del genoma que probablemente sean repetitivas. No hay duda de si una base en particular es 'A' o 'G', solo que es parte de una repetición y, por lo tanto, debe representarse como una 'a'.

¿Qué significa una minúscula n representan?

UCSC usa Tandom Repeat Finder y RepeatMasker para enmascaramiento suave de posibles repeticiones. Lo más probable es que NCBI use TANTAN. 'N's representa que no hay información de secuencia disponible para esa base. Su reemplazo por 'n' es probablemente un artefacto del software de repetición de enmascaramiento donde enmascara suavemente una 'N' por una 'n' para indicar que esa parte del genoma probablemente también se repita.

[1] http://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1002384

Respuesta informativa, pero creo que es controvertido decir que el genoma humano es "(al menos) dos tercios de elementos repetitivos"; el método de las nubes P que cita es bastante permisivo y la mitad es una cifra más comúnmente aceptada. Y el enmascaramiento suave no implica enmascarar todas las repeticiones en general, solo repeticiones intercaladas y secuencias de baja complejidad. Además, siempre hay incertidumbre en torno a la llamada de bases y la construcción de ensamblajes, y más aún para secuencias repetitivas, aunque mm10 es uno de los mejores ensamblajes, por supuesto ...
#2
+11
Chris_Rands
2017-05-24 13:16:19 UTC
view on stackexchange narkive permalink

El uso de letras minúsculas / mayúsculas y N / n en secuencias de genomas no está completamente estandarizado y siempre debe verificar la especificación del recurso que está utilizando .

Las letras minúsculas se usan más comúnmente para representar "secuencias enmascaradas suaves", una convención popularizada por RepeatMasker, donde se intercalan repeticiones (que cubre transposones, retrotransposones y pseudogenes procesados) y las secuencias de baja complejidad están marcadas con letras minúsculas. Tenga en cuenta que las repeticiones más grandes, como las repeticiones en tándem considerables, las duplicaciones segmentarias y las duplicaciones de genes completos, generalmente no están enmascaradas.

Sin embargo, existen otros usos para las letras minúsculas / mayúsculas, por ejemplo, Ensembl han usado letras mayúsculas / minúsculas para representar secuencias exónicas e intrónicas respectivamente.

N y n nucleótidos pueden representar "secuencias enmascaradas duras ”, Donde las repeticiones intercaladas y las secuencias de baja complejidad se reemplazan por N s. Pero N / n s pueden representar alternativamente nucleótidos ambiguos, de hecho, esta es la especificación de IUPAC.

También tenga en cuenta ocasionalmente ( aunque afortunadamente raramente) X / x también se utiliza para representar nucleótidos ambiguos o "secuencias enmascaradas".

#3
+4
Kamil S Jaron
2017-05-24 17:29:31 UTC
view on stackexchange narkive permalink
  1. Los nucleótidos en minúscula normalmente denotan secuencias enmascaradas suaves . Puede encontrar exactamente cómo se enmascaró el genoma en las preguntas frecuentes de NCBI:

¿Están enmascaradas las secuencias repetitivas en los genomas eucariotas?

Las secuencias repetitivas en archivos de secuencia de ensamblaje del genoma eucariota, identificadas por WindowMasker, se han enmascarado a minúsculas.

La ubicación y la identidad de las repeticiones encontradas de RepeatMasker también se proporcionan en un archivo separado. Estos intervalos podrían usarse para enmascarar las secuencias genómicas si se desea. Sin embargo, tenga en cuenta que muchos organismos menos estudiados no tienen buenas bibliotecas de repetición disponibles para que las use RepeatMasker.

  1. En mi humilde opinión, las regiones de baja complejidad son siempre es más probable que estén mal ensambladas que las secuencias de alta complejidad. Sin embargo, esto será un problema para los organismos no modelo. Supongo que la confiabilidad de las regiones enmascaradas del genoma del ratón será muy alta.

  2. No tengo idea, parece un artefacto.

  3. ol >

    Un ejemplo de uso de la máscara suave

    El mapeo de la secuencia a la referencia generalmente comienza con coincidencias perfectas de semillas (subcadenas) de las lecturas mapeadas y la secuencia de referencia. Las regiones enmascaradas blandas (de baja complejidad) no se usan para emparejamientos de semillas, pero se usan solo para la extensión de la alineación si había una semilla en una región vecina. Esta aplicación de máscara suave aplicada a problemas de ensamblaje de lectura larga se describe en este blog.



Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...