Esta pregunta se refiere a iCLIP, pero podría ser fácilmente ChIP-seq o ATAC-seq o frecuencias de mutación.
Tengo recuentos de lecturas de iCLIP en todo el transcriptoma y deseo saber si las señales están correlacionadas, es decir, si una de ellas es alta, es probable que la otra sea alta.
A menudo, cuando se trata de datos de este tipo (por ejemplo, datos iCLIP) sabemos que los datos son generalmente escasos, es decir, en la mayoría de las posiciones, ambas señales son cero y esto es correcto, y también inflado en cero, es decir, muchas bases que "deberían" tener a una señal le faltan esos datos. Por lo tanto, es probable que el simple hecho de calcular la correlación de Spearman arroje un valor artificialmente bajo.
¿Cuál podría ser una forma de evaluar la asociación? Debo agregar que el objetivo es evaluar la asociación de patrones de unión dentro de los genes, en lugar de (o así como) entre genes.
Cosas en las que he pensado:
- Aplique algún tipo de suavizado a los datos (por ejemplo, una media móvil). Elimine las bases con 0 en ambas muestras. Calcule los lanceros.
- Calcule la distancia promedio por pares entre cada lectura en la muestra uno y cada lectura en la muestra dos. Compare esto con los datos en los que las lecturas se han aleatorizado dentro de los genes.
En el primer caso, eliminar todas las bases con 0 en ambas muestras parece incorrecto. Pero si el 99,99% de todas las bases tienen cero en ambas muestras, entonces esto parece necesario para Spearman.
En el segundo caso, el resultado parece no ser intuitivo de interpretar. Y también calcular esto sería enormemente computacionalmente intensivo.