Pregunta:
Tienen motivos de ADN de 6-12 pb de largo, tratando de obtener puntajes de conservación.
Eric Brenner
2017-05-31 02:18:08 UTC
view on stackexchange narkive permalink

Tengo alrededor de 200 motivos de nucleótidos cortos (de 6 a 12 pb de longitud) del genoma humano y estoy tratando de ver qué tan conservados están en los vertebrados.

Estaba pensando que necesitaría hacer un archivo de cama para cada motivo que enumere todas sus ocurrencias en el genoma humano. A partir de ahí, pude mapear los lechos en archivos de un pez gordo de puntuaciones de PhastCons (esencialmente haciendo lo contrario de lo que el software PhastCons fue diseñado para hacer). ¿Suena como el mejor enfoque?

Me estoy atascando en el paso de pasar de los motivos a los archivos de cama. Intenté usar BLAST para encontrar todas las apariciones de motivos, pero su corta longitud está causando problemas.
Intenté jugar con el umbral del valor electrónico, el tamaño de la palabra y los parámetros de filtro, pero todavía no obtengo cualquier acierto.

¿Existe una solución alternativa para este problema o debería reconsiderar todo mi enfoque?

Hice algo similar, pero con una lista de n-mers bien definidos en lugar de "motivos", todos con el mismo valor de n. En caso de que esto pueda ser de alguna ayuda, el código que usé para hacer el archivo de la cama es el siguiente: https://bitbucket.org/blaiseli/conservation_mirna_targets/src/20b7a0894b957e69912f637ef2d0493779036029/trie.py?at=master&fileviewer=file-view- default El código puede no ser muy eficiente en memoria.
Tres respuestas:
#1
+7
BaCh
2017-05-31 02:53:31 UTC
view on stackexchange narkive permalink

En caso de que solo tengas ACGT en tus motivos

Los motivos cortos hacen que suene como si estuvieras en el negocio de buscar un mostrador kmer. Puede optar por utilizar software existente o crear el suyo propio.

  1. Usar software existente puede ser la ruta más sencilla. Una publicación anterior de 2014 probablemente le dará una primera idea de lo que hay: http://homolog.us/blogs/blog/2014/04/07/kmer-counting-a-2014-recap/. Tenga en cuenta que un par de algoritmos mencionados tienen sucesores, por lo que vale la pena investigar un poco. El pequeño tamaño de kmer hará que la mayoría de ellos se puedan utilizar para sus necesidades.
  2. Como el tamaño máximo de sus kmers es comparativamente pequeño (12 nt necesitan 24 bits, es decir, un máximo de 16,7 millones de entradas en su tabla de kmer), Debería poder rodar fácilmente su propio kmer contando en cualquier idioma que desee y en cualquier computadora de hoy en día. La sección de pseudocódigo en la entrada de Wikipedia para kmers le dará los primeros consejos para eso. Puede ser un poco más de trabajo, pero quizás más flexible según sus necesidades.

En caso de que tenga bases IUPAC (N, W, etc.) en sus motivos

No conozco ningún software preexistente que haga lo que necesita. Podría imaginar que los motivos cortos hacen posible el uso de expresiones regulares para este tipo de búsqueda, pero puede que me equivoque. Probar esto debería ser fácil en un script simple ya que todos los principales lenguajes de programación tienen módulos o bibliotecas para RE. Incluso si la ejecución de su conjunto de datos demora un par de horas, sería suficiente para un cálculo único.

#2
+3
rightskewed
2017-05-31 03:46:53 UTC
view on stackexchange narkive permalink

Para escanear motivos en un genoma (o base de datos), usaría FIMO, que le dará las ubicaciones exactas de estos motivos en su genoma.

Una vez que tenga las ubicaciones , puede usar un phastCons bigiwig de UCSC para calcular los puntajes de conservación de base. Sin embargo, recuerde que las puntuaciones de phastCons se suavizan en todas las ventanas y puede que no sea la mejor métrica si está tratando de comparar los niveles de conservación en los sitios de coincidencia de motivos en comparación con las secuencias que los flanquean.

Escribí un paquete hace un tiempo para hacer esto, incluido el descubrimiento de motivos de novo. Sin embargo, podría ser una exageración para su caso de uso.

En realidad, he usado FIMO antes, pero para comparar motivos con PWM (de JASPAR). Podría ser una pregunta tonta, pero ¿es bastante fácil compararlo con un genoma en lugar de una base de datos de PWM?
@EricBrenner Simplemente puede cargar un archivo de secuencia en la versión web.
#3
+1
Alex Reynolds
2018-03-07 06:10:38 UTC
view on stackexchange narkive permalink

En lo que respecta a los sitios de unión de factores de transcripción, en nuestros artículos hemos utilizado datos de conservación de phyloP por base en lugar de puntuaciones de phastCons suavizadas.

Usamos BEDOPS bedmap para mapear puntuaciones sobre múltiples sitios de encuadernación acolchados (en formato BED) para un modelo de motivo dado. Las puntuaciones phyloP son archivos WIG obtenidos de UCSC goldenpath y convertidos a BED a través de wig2bed.

La matriz resultante de intervalos de sitios de enlace y sus puntuaciones por base se pueden convertir en una clasificación mapa de calor o agregado para determinar la conservación promedio por base para un modelo de motivo.

Si bien los sitios de unión de TF muestran de forma innata un alto contenido de información y, por lo tanto, una alta conservación, las matrices pueden clasificarse aún más mediante mapas de puntuación de densidad de etiquetas ChIP-seq o DNaseI-seq.

Esto puede ayudar a filtrar patrones interesantes de bajo ruido y alta señal y es útil cuando la matriz tiene una ventana y la ventana incluye regiones de poca información con algunos residuos de alta información fuera del motivo principal. como es el caso de CTCF, por ejemplo.



Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...