Изменения

Перейти к: навигация, поиск

Оценка качества в задаче кластеризации

72 байта убрано, 22:13, 25 января 2020
м
Нет описания правки
Принято выделять две группы методов оценки качества кластеризации:
* '''Внешние''' (англ. ''Internal'') метрики меры основаны на сравнении результата кластеризации с априори известным разделением на классы. * '''Внутренние''' (англ. ''External'') метрики меры отображают качество кластеризации только по информации в данных.
== Внешние метрики меры оценки качества ==Данные метрики меры используют дополнительные знания о кластеризуемом множестве: распределение по кластерам, количество кластеров и т.д.
=== Обозначения ===
=== Hubert Г statistic ===
Данная метрика мера отражает среднее расстояние между объектами разных кластеров:
: <math>
Г = \dfrac{1}{M} \sum \limits_{i=1}^{N-1} \sum \limits_{i=i+1}^{N} P(i, j) \cdot Q(i, j),
Можно заметить, что два объекта влияют на <math>Г</math>, только если они находятся в разных кластерах.
Чем больше значение метрики меры {{---}} тем лучше.
=== Phi Index ===
=== Variation of Information ===
Данная метрика мера измеряет количество информации, потерянной и полученной при переходе из одного кластера в другой.
: <math>
VI = - \sum_i p_i \log p_i - \sum_i p_j log p_j - 2 \sum_i \sum_j p_{ij} \log \dfrac{ p_{ij} }{ p_i p_j }
</math>
== Внутренние метрики меры оценки качества ==Данные метрики меры оценивают качество структуры кластеров опираясь только непосредственно на нее, не используя внешней информации.
=== Компактность кластеров (Cluster Cohesion) ===
</math>
Существует еще одна вариация данной метрикимеры, которая была предложена автором вместе с основной версией:
: <math>
DB^*(C) = \dfrac{1}{K} \sum \limits_{c_k \in C} \dfrac
=== COP Index ===
В данной метрике мере компактность вычисляется как расстояние от точек кластера до его центроиды, а разделимость основана на расстоянии до самого отдаленного соседа.
: <math>
COP(C) = \dfrac{1}{N} \sum \limits_{c_k \in C} |c_k| \dfrac{ 1/|c_k| \sum_{x_i \in c_k} \| x_i - \overline{c_k} \| }{ \min_{x_i \notin c_k} \max_{x_j \in c_k} \| x_i - x_j\| }
== Сравнение ==
Не существует лучшего метода оценки качества кластеризации. Однако, в рамках исследования<ref>[https://www.sciencedirect.com/science/article/abs/pii/S003132031200338X An extensive comparative study of cluster validity indices]</ref> была предпринята попытка сравнить существующие метрики меры на различных данных. Полученные результаты показали, что на искусственных датасетах наилучшим образом себя проявили индексы Silhouette(Sil), Davies–Bouldin*(DB*) и Calinski–Harabasz(CH). На реальных датасетах лучше всех показал себя Score function.
== См. также ==
44
правки

Навигация