Pregunta:
¿Cómo correlacionar dos señales de tipo gráfico de cama infladas con cero?
Ian Sudbery
2017-05-17 21:52:04 UTC
view on stackexchange narkive permalink

Esta pregunta se refiere a iCLIP, pero podría ser fácilmente ChIP-seq o ATAC-seq o frecuencias de mutación.

Tengo recuentos de lecturas de iCLIP en todo el transcriptoma y deseo saber si las señales están correlacionadas, es decir, si una de ellas es alta, es probable que la otra sea alta.

A menudo, cuando se trata de datos de este tipo (por ejemplo, datos iCLIP) sabemos que los datos son generalmente escasos, es decir, en la mayoría de las posiciones, ambas señales son cero y esto es correcto, y también inflado en cero, es decir, muchas bases que "deberían" tener a una señal le faltan esos datos. Por lo tanto, es probable que el simple hecho de calcular la correlación de Spearman arroje un valor artificialmente bajo.

¿Cuál podría ser una forma de evaluar la asociación? Debo agregar que el objetivo es evaluar la asociación de patrones de unión dentro de los genes, en lugar de (o así como) entre genes.

Cosas en las que he pensado:

  • Aplique algún tipo de suavizado a los datos (por ejemplo, una media móvil). Elimine las bases con 0 en ambas muestras. Calcule los lanceros.
  • Calcule la distancia promedio por pares entre cada lectura en la muestra uno y cada lectura en la muestra dos. Compare esto con los datos en los que las lecturas se han aleatorizado dentro de los genes.

En el primer caso, eliminar todas las bases con 0 en ambas muestras parece incorrecto. Pero si el 99,99% de todas las bases tienen cero en ambas muestras, entonces esto parece necesario para Spearman.

En el segundo caso, el resultado parece no ser intuitivo de interpretar. Y también calcular esto sería enormemente computacionalmente intensivo.

Cuatro respuestas:
Devon Ryan
2017-05-17 23:04:17 UTC
view on stackexchange narkive permalink

Honestamente, solo usaría multiBigwigSummary y luego plotCorrelation de deepTools para esto, pero estoy un poco sesgado. Allí, la idea sería considerar cada gen como una unidad (en su lugar, podría usar bins, pero no creo que eso haría tan bien lo que desea), es decir, dándole a las herramientas una entrada de archivo BED o GTF. Luego calcularía la señal promedio en cada gen / transcripción y podría hacer su correlación de Spearman. Las características con 0 en todas las muestras se pueden eliminar opcionalmente ( plotCorrelation --skipZeros ).

Si bien es cierto que podría recorrer los 9 metros y usar comparaciones por base, eso parece una un poco exagerado y sospecho que realmente no proporcionará más información apreciablemente (especialmente cuando se considera la sobrecarga de tiempo adicional).

Vea mi aclaración. - Quiero mirar los patrones espaciales dentro de los genes, no entre ellos.
@IanSudbery Ah, es bueno saberlo, mi respuesta no es aplicable entonces.
rightskewed
2017-05-17 23:08:39 UTC
view on stackexchange narkive permalink

En lugar de trabajar en el nivel básico, probablemente podría trabajar, digamos, en el nivel de genes. Kendall's tau, una métrica de asociación ordinal, se puede utilizar como una medida de correlación adecuada.

Si $ X $ y $ Y $ son sus réplicas de iCLIP, $ i $ representa el gen index y $ (x_i, y_i) $ representan el número de sitios de enlace RBP en $ X $ y $ Y $ respectivamente para el gen $ i ^ {th} $, la tau de Kendall se define como:

$ $ \ frac {\ text {# (pares concordantes)} - \ text {# (pares discordantes)}} {n (n-1) / 2} $$

Donde cualesquiera dos pares $ (x_i , y_i) $ y $ (x_j, y_j) $ son concordantes si:

  • $ x_i > x_j $ AND $ y_i > y_j $

O

  • $ x_i < x_j $ AND $ y_i < y_j $

En consecuencia, son discordantes si:

  • $ x_i < x_j $ AND $ y_i > y_j $

O

  • $ x_i > x_j $ AND $ y_i < y_j $
No estoy seguro de por qué la representación de texto está desactivada.
Vea mi aclaración: me interesan los patrones dentro de los genes, más que entre ellos. ¿Tau es mejor para manejar datos donde muchas observaciones son cero?
Si su interés es estudiar el patrón dentro de los genes, ¿su segunda muestra actúa como una réplica? No estoy seguro de entender completamente lo que significaría aquí "dentro de los genes".
No, estoy tratando de determinar si dos proteínas se muestran similares dentro de los patrones de unión de genes.
El soporte de Mathjax no se había activado. Ahora ha sido así que su respuesta se representa correctamente.
CloudyGloudy
2017-05-18 01:18:09 UTC
view on stackexchange narkive permalink

Depende de si desea tratar las intensidades de los picos como binarios (comparando presencia / ausencia de picos en los conjuntos) o continuos (comparando las magnitudes relativas de los picos).

Binario

Para empezar, una simple comparación binaria puede ser apropiada. Puede utilizar un llamador de picos de su elección para identificar picos en cada muestra de acuerdo con los criterios que desee. Luego, puede usar una métrica de similitud como el índice Jaccard para cuantificar el nivel de acuerdo entre los picos en las dos muestras.

Un obstáculo potencial es definir los límites de su los picos no serán del todo sencillos. Por ejemplo, un pico en una muestra puede tener 2 picos superpuestos en la otra muestra, uno en cada extremo. Una solución aproximada para esto es dividir el genoma en contenedores (tal vez alrededor de 100-1000 pb, dependiendo de la resolución deseada). Puede tratar un pico como si estuviera presente en un contenedor si más de la mitad del pico se encuentra en el contenedor. De esa forma, los contenedores de una muestra se pueden comparar directamente con los contenedores correspondientes de la otra muestra. Obviamente, esta no es la única forma de hacer esto; también existen otros métodos apropiados.

Continuo

Si desea tratar las intensidades pico como continuas, puede aplicar un método de agrupamiento similar, tomando el " puntuación "de un contenedor es la intensidad máxima promedio en las posiciones dentro de ese contenedor. Luego, podría desechar todos los contenedores sin picos o solo con picos de baja intensidad en todo el genoma. Luego, podría calcular la correlación de Spearman para los contenedores restantes. Supongo que será más difícil encontrar una correlación fuerte para las intensidades continuas, debido a la cantidad de variabilidad experimental que está inherentemente presente.

Si, después de seguir estos pasos, la correlación de Spearman sigue siendo "artificialmente bajo "como sugirió, entonces probablemente esto sea un problema con los datos subyacentes, no con el análisis general; tal vez sus dos conjuntos de datos no concuerden tan bien.

Me preocupaban los valores artificialmente bajos cuando la mayoría de las observaciones eran 0. Excluyendo los casos en los que las observaciones son 0 en ambas señales, simplemente no se "sentían" bien.
@IanSudbery Ya veo. Por lo tanto, también está interesado en la medida en que los "no picos" concuerdan entre sí. Entonces, una posibilidad es no tirar los contenedores donde ambos valores son cero y reportar la correlación de Spearman. Sin embargo, dado que dijo que los picos son bastante escasos, sus valores cero harán que sea difícil ver el grado de correlación entre los verdaderos positivos. Estoy de acuerdo en que no es "correcto" excluir los valores cero en las puntuaciones de correlación de Spearman, pero si en su lugar utiliza una métrica para las intersecciones establecidas (como el índice Jaccard), excluir los ceros estaría bien.
Mirar la intersección resuelve el problema de la dispersión, pero no el de inflado cero: las señales de pistas de aspecto similar tienden a estar cerca unas de otras, pero no una encima de la otra. Honestamente, estoy empezando a pensar que tu segunda sugerencia es la mejor que existe.
Eso es cierto, pero si usa el enfoque de agrupamiento para definir intersecciones en lugar de buscar una superposición estricta, esto podría ayudar. (es decir, cuenta como una intersección si el mismo contenedor contiene picos en ambas pistas, incluso si los picos en sí no se superponen directamente)
Sasha Favorov
2017-05-31 00:18:23 UTC
view on stackexchange narkive permalink

Es una de mis historias favoritas.

Eche un vistazo al software StereoGene, para la correlación de pistas genómicas, se describe en una preimpresión.

También puede ejecute MACS u otro llamador máximo y calcule la correlación de dos conjuntos de intervalos utilizando el paquete GenomtriCorr.



Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...