Pregunta:
¿Cómo seleccionar las vías más representativas de un análisis de enriquecimiento genético?
llrs
2017-05-26 19:07:00 UTC
view on stackexchange narkive permalink

He realizado un análisis de enriquecimiento de un grupo de genes. El resultado es una lista de vías y su valor p (las vías se seleccionan porque el valor p < 0,05). La lista todavía es bastante larga, así que quiero reducirla. Para ese propósito, he calculado el coeficiente de dados de las rutas en una matriz $ p $ x $ p $ donde $ p $ es el número de rutas en la lista. Quiero tanto las que son más diferentes (se superponen menos, su coeficiente de Dice es más bajo) como las vías más representativas de las vías más similares (así que si hay un grupo de 5 vías que se superponen sobre 0.8, tome solo una).

¿Cómo puedo seleccionar las vías más representativas?

Existe una herramienta similar para GO, pero se basa en descartar un GO no significativo, mientras que aquí todas las vías iniciales ya son significativas.

Si hago un agrupamiento de las rutas usando la matriz de coeficientes de Dice, no sé dónde (o cómo) cortar.

circular dendrogara

Intenté usar la altura para seleccionar los caminos. Pero no estoy seguro de la interpretación de la altura.

Algunas otras herramientas que he visto usan un gráfico de escala multidimensional, pero no estoy seguro de si realizarlo y cortar en cierto punto de la primera dimensión ayudaría. MDS plot

¿Está usando un valor p <0.05 o un valor p <0.05 / (# de términos probados)? Querrá usar el primero para evitar falsos positivos debido a múltiples pruebas
Supongo que tendrá que conformarse con una solución heurística "razonablemente buena", ya que hay algunas variables diferentes en el problema que está tratando de resolver (número de vías en el grupo, superposición / distancia deseada entre vías, etc. .) Puedo imaginar muchas respuestas posibles.
La corrección de @CloudyGloudy para múltiples pruebas ya está hecha, lo siento, no lo mencioné anteriormente. Sí, estaba jugando con la idea de seleccionar un solapamiento / distancia de 0.5 y mantener los que están por encima de eso, pero eso dejaría fuera los caminos que son completamente diferentes a los demás, pero tal vez podría seleccionar los que están por encima de 0.75 y los de menos de 0.25
Tres respuestas:
#1
+4
gringer
2017-05-28 15:23:34 UTC
view on stackexchange narkive permalink

Esto suena como algo que podría ser adecuado para un diagrama de mapa de calor agrupado, un diagrama de matriz de correlación o algo similar. ¿Ha mirado una matriz de correlación de la matriz de coeficientes de dados (o tal vez solo un diagrama de mapa de calor de esa matriz sin la matriz de correlación)?

El paquete corrplot parece que podría ser útil, en particular la hclust / presentación de rectángulos de dibujo.

Sin embargo, no puedo responder por este paquete; es algo que encontré al buscar "Matriz de correlación de gráficos R".

Con un mapa de calor o una gráfica de correlación pude observar las similitudes entre las vías, como hago actualmente con el dendrograma y la gráfica MDS. Sin embargo, la pregunta es cómo seleccionar esas vías más representativas. Gracias por sus correcciones y comentarios por cierto.
#2
+3
benn
2017-12-12 18:38:49 UTC
view on stackexchange narkive permalink

Una forma de agrupar vías significativas similares es cuantificar cuántos genes se superponen entre las vías y luego usar esto en agrupamiento (mapa de calor). He creado una herramienta en R que calcula el índice de superposición entre los términos GO y luego los agrupa en un mapa de calor. El índice de superposición es la fracción de genes que se superponen (número entre 0-1). Además, la correlación de Pearson se puede utilizar para agrupar en lugar del índice de superposición. Mi paquete ( gogadget) solo funciona con el análisis de goseq, pero puede utilizar goseq también para datos reactome o kegg.

He utilizado este agrupamiento de superposición enfoque para diferentes conjuntos de datos ahora, y generalmente podemos reducir 200-300 términos GO en 10-20 grupos funcionales.

¿Qué índice de superposición utiliza? Hay varios índices superpuestos. Aconsejaría no usar este enfoque en GO, existen métodos específicos para medir qué tan similares son dos términos GO. Consulte [GOSemSim] (www.bioconductor.org/packages/GOSemSim/).
El índice de superposición se define por el número de genes superpuestos dividido por el número de genes en el menor de los dos conjuntos de genes. Se describe en [Estudios de caso de bioconductores] (http://www-huber.embl.de/pub/pdf/HahneHuberGentlemanFalcon2008.pdf), capítulo 13.3. Este libro está escrito por grandes nombres de la bioinformática (como R. Gentleman y W. Huber).
Gracias por el nuevo índice de superposición, no lo sabía. Por cierto, la forma en que se calcula esta similitud entre genes es utilizando otros índices de superposición, por lo que esto no ayudará.
De acuerdo, pero mi punto no es qué índice usar, sino el enfoque de agrupamiento (lo mismo que sugiere [gringer] (https://bioinformatics.stackexchange.com/users/73/gringer)). Si miras en la [guía de usuario] (https://sourceforge.net/projects/gogadget/files/gogadget.2.1/) de mi paquete en la página 26-28, verás un mapa de calor. Normalmente obtengo buenos resultados con Ward.D y Euclidean. El árbol se puede cortar en R, pero es posible que primero desee ver y evaluar qué conjuntos de genes están agrupados en qué ramas antes de poder encontrar el límite correcto.
Lo siento, mi último comentario fue pensando en otra pregunta. Sí, este enfoque podría funcionar
#3
+2
Scott Gigante
2017-05-27 15:43:35 UTC
view on stackexchange narkive permalink

Si está satisfecho con una clasificación más segura de los conjuntos de genes más representativos, en lugar de reducir necesariamente la lista, puede probar EGSEA. Utiliza un enfoque de conjunto para dar una clasificación de los conjuntos de genes más relevantes y también produce una salida HTML interactiva con estadísticas, mapas de calor, mapas de ruta, diagramas de resumen y gráficos GO que le permite examinar la salida en diferentes niveles de granularidad.

Puede leer el artículo sobre bioRxiv o descargar el paquete de Bioconductor.

La clasificación ya está hecha, a través del valor p (se podría argumentar que una prueba más elaborada como la propuesta por EGSEA sería mejor) pero esto no parece responder cómo seleccionar las vías relevantes de la salida de EGSEA u otro software. / herramientas / métodos
No deberías clasificar por valor p. El valor p es solo una indicación de si el cambio observado es estadísticamente significativo, no una indicación de la magnitud del cambio observado.


Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 3.0 bajo la que se distribuye.
Loading...