Pregunta:
Cómo decidir el número de vecinos y la resolución para la agrupación en clústeres de Louvain
gc5
2018-05-08 01:19:22 UTC
view on stackexchange narkive permalink

Estoy usando agrupamiento de Louvain (1,2) para agrupar células en datos scRNAseq, tal como lo implementa scanpy.

Uno de los parámetros necesarios para este tipo de agrupamiento es el número de vecinos utilizados para construir el gráfico de vecindad de celdas ( documentos).

Los valores más grandes dan como resultado una vista más global de la variedad, lo que lleva a un menor número de clústeres, mientras la reducción del número de vecinos va en sentido contrario. Sin embargo, no está claro cómo elegir este parámetro.

El parámetro de resolución parece funcionar de manera opuesta.

¿Conoce alguna metodología y / o regla general? definir estos parámetros? P.ej. dependiendo del tamaño del conjunto de datos?

  1. Levine, Jacob H., et al. "La disección fenotípica de la LMA basada en datos revela células parecidas a progenitoras que se correlacionan con el pronóstico". Cell 162.1 (2015): 184-197.
  2. Blondel, Vincent D., et al. "Despliegue rápido de comunidades en grandes redes". Revista de mecánica estadística: teoría y experimento 2008.10 (2008): P10008.
El algoritmo de Louvian tiene un problema con las comunidades desconectadas. Se recomienda el algoritmo de Leiden para resolver esto. Ver Traag et al. https://arxiv.org/abs/1810.08473
Si mal no recuerdo, el artículo del fenógrafo muestra que su algoritmo es bastante robusto para diferentes valores (razonables) de k.
@gc5, ¿obtuviste la respuesta? También quiero saber cuál es la mejor resolución. Como podemos conseguir más comunidades cuando aumentamos la resolución y viceversa. Gracias
@KhalidUsman no hay una respuesta satisfactoria hasta ahora.
Dos respuestas:
galicae
2018-08-10 16:57:40 UTC
view on stackexchange narkive permalink

Una regla general es que para mejorar la varianza $ n $ veces necesitas $ n ^ 2 $ vecinos. Esto solo es aplicable si considera que los $ n ^ 2 $ vecinos más cercanos de una célula son biológicamente idénticos (es decir, "suficientemente similares"); si sus datos incluyen 10 tipos de celdas con 10 celdas cada una, entonces el uso de los 20 vecinos más cercanos para suavizar oscurecerá los datos.

Hasta donde yo sé, no existe una mejor respuesta a esta pregunta. Sugeriría probar diferentes números y ceñirse a lo que esté más de acuerdo con la biología del conjunto de datos.

¿Puedes poner algunas referencias a la regla general que escribiste? Sin embargo, terminé seleccionando resoluciones progresivas. Es de destacar que diferentes partes de un conjunto de datos pueden necesitar diferentes resoluciones. Gracias.
Phoenix Mu
2020-03-29 03:25:58 UTC
view on stackexchange narkive permalink

Leí un artículo donde los autores usaron diferentes combinaciones de parámetros para realizar iterativamente LSI hasta algunos criterios. ¿Quizás también se pueda aplicar una estrategia similar a la agrupación en clústeres de Louvain?

El artículo se puede encontrar aquí: https://www.nature.com/articles/s41587-019-0332-7. También puede consultar su código para ver cómo lo implementaron.



Esta pregunta y respuesta fue traducida automáticamente del idioma inglés.El contenido original está disponible en stackexchange, a quien agradecemos la licencia cc by-sa 4.0 bajo la que se distribuye.
Loading...