Pregunta:
¿Es conveniente usar RepeatMasker en procariotas?
Titouan Bougouin-Laessle
2017-08-24 18:42:57 UTC
view on stackexchange narkive permalink

Estoy buscando una forma de identificar regiones de baja complejidad y otras repeticiones en el genoma de Escherichia coli . Encontré que RepeatMasker se puede usar, por ejemplo, al redactar genomas de procariotas ( E. coli ejemplo). Pero RepeatMasker funciona con un conjunto de datos limitado de especies, ninguna de las cuales es procariota. De forma predeterminada, cuando se ejecuta RepeatMasker, si no se especifica ninguna especie, se comparará con los datos del homo sapiens.

Esto parece bastante inadecuado, pero la alternativa más relevante, PRAP, requiere una herramienta "muerta" (VisCoSe, de Michael Spitzer).

  1. ¿Sigue siendo aconsejable utilizar RepeatMasker en Escherichia coli ?
  2. En caso afirmativo, ¿qué configuración maximizaría la relevancia?
`RepeatMasker` no está diseñado para su uso con genomas procarióticos. No obstante, realiza un control de contaminación para * E. coli * para que pueda jugar con la marca `-is_only` para intentar detectar repeticiones bacterianas, probablemente sea mejor encontrar una herramienta alternativa o repetir la biblioteca
Las "repeticiones" tienen diferentes significados. Los tipos de repeticiones a enmascarar dependen en gran medida de los análisis posteriores; de hecho, a menudo se desaconseja la repetición de enmascaramiento. Si explica por qué desea enmascarar las repeticiones, obtendrá una respuesta más precisa.
@user172818 De hecho, no estoy interesado en enmascarar, pero realmente * encontrar * cualquier tipo de repeticiones, desde regiones de baja complejidad hasta pequeñas repeticiones, como se puede obtener usando `RepeatMasker`. Luego usaría estas repeticiones como (más o menos) una variable explicativa.
Dos respuestas:
mgalardini
2017-08-24 18:53:41 UTC
view on stackexchange narkive permalink

Si entendí correctamente su pregunta, desea enmascarar esas regiones en un genoma (¿FASTA?). Creo que podrías identificar esas regiones usando mummer y enmascararlas usando bedtools.

  # align genome against yourselfnucmer --maxmatch --nosimplify genome.fasta genome.fasta # seleccionar repeticiones y convertir las coordenadas a formato de cama show-coords -r -T out.delta -H | awk '{if ($ 1! = $ 3 && $ 2! = $ 4) print $ 0}' | awk '{print $ 8 "\ t" $ 1 "\ t" $ 2}' > repeats.bed # enmascara esas bases con bedtoolsbedtools maskfasta -fi genome.fasta -bed repeats.bed -fo masked.fasta  

Eche un vistazo a las opciones de nucmer y bedtools maskfasta para ajustar su análisis.

Este enfoque puede funcionar, pero parece una forma poco ortodoxa de enmascarar las repeticiones, ¿lo ha usado o ha visto a personas usarlo para genomas bacterianos?
Lo he usado, siguiendo los consejos que se encuentran en el manual de mummer: http://mummer.sourceforge.net/manual/#identifyingrepeats
gracias, lo usaste para procariotas? dicen en los documentos que en realidad no está diseñado para eso y solo identifica un número limitado de tipos de repetición, ¿así que asumí que esto no fue realmente recomendado?
sí, lo usé en E. coli K-12, encontrando 1324 repeticiones. Nunca probé otros métodos, así que no estoy seguro de cómo se compara con esos. Definitivamente sería interesante. No diría que los autores de mummer te desaniman a usar nucmer para encontrar repeticiones, solo que no fue hecho específicamente para ese propósito.
aechchiki
2017-08-30 03:20:51 UTC
view on stackexchange narkive permalink

Según tu comentario, parece que las regiones de enmascaramiento no son tu prioridad, pero prefieres encontrarlas (corrígeme si me equivoco):

no estoy interesado en enmascarar, pero realmente encontrar cualquier tipo de repeticiones, desde regiones de baja complejidad hasta pequeñas repeticiones

Para encontrar estas regiones, puede probar RepeatFinder. Según su artículo, parece que también es adecuado para genomas bacterianos. También parece ser más rápido porque se basa en la estructura de datos del árbol de sufijos en lugar de trabajar con un algoritmo de coincidencia de cadenas (como en RepeatMasker).



Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...