Cómo decidir el número de vecinos y la resolución para la agrupación en clústeres de Louvain

gc5

2018-05-08 01:19:22 UTC

view on stackexchange narkive permalink

Estoy usando agrupamiento de Louvain (1,2) para agrupar células en datos scRNAseq, tal como lo implementa scanpy.

Uno de los parámetros necesarios para este tipo de agrupamiento es el número de vecinos utilizados para construir el gráfico de vecindad de celdas ( documentos).

Los valores más grandes dan como resultado una vista más global de la variedad, lo que lleva a un menor número de clústeres, mientras la reducción del número de vecinos va en sentido contrario. Sin embargo, no está claro cómo elegir este parámetro.

El parámetro de resolución parece funcionar de manera opuesta.

¿Conoce alguna metodología y / o regla general? definir estos parámetros? P.ej. dependiendo del tamaño del conjunto de datos?

Levine, Jacob H., et al. "La disección fenotípica de la LMA basada en datos revela células parecidas a progenitoras que se correlacionan con el pronóstico". Cell 162.1 (2015): 184-197.
Blondel, Vincent D., et al. "Despliegue rápido de comunidades en grandes redes". Revista de mecánica estadística: teoría y experimento 2008.10 (2008): P10008.

El algoritmo de Louvian tiene un problema con las comunidades desconectadas. Se recomienda el algoritmo de Leiden para resolver esto. Ver Traag et al. https://arxiv.org/abs/1810.08473

Si mal no recuerdo, el artículo del fenógrafo muestra que su algoritmo es bastante robusto para diferentes valores (razonables) de k.

@gc5, ¿obtuviste la respuesta? También quiero saber cuál es la mejor resolución. Como podemos conseguir más comunidades cuando aumentamos la resolución y viceversa. Gracias

@KhalidUsman no hay una respuesta satisfactoria hasta ahora.