Изменения

Оценка качества в задаче кластеризации

84 байта добавлено, 19:21, 25 января 2020

→‎Внутренние метрики оценки качества

: <math>

CS(C) = \dfrac{\~~sum~~sum_{c_k \in C} \{ 1 / |c_k| \sum_{x_i \in c_k} \max_{x_j \in c_k}\{\|x_i - x_j\|\} \}}{\~~sum~~sum_{c_k \in C} \min_{c_l \in C \setminus c_k} \{\|\overline{c_k} - \overline{c_l}\| \}}.

</math>

=== Sym-index ===

: <math>

Sym(C) = \dfrac {\max_{c_k, c_l \in C} \{\|\overline{c_k} - \overline{c_l}\|\}}{K\~~sum~~sum_{c_k \in C}\~~sum~~sum_{x_i \in c_k} \overset{~~d_ps~~\ast}{~~\ast~~d_{ps}}(x_i, c_k)}.

</math>

Чем выше данное значение, тем лучше.

== Сравнение ==

Не существует лучшего метода оценки качества кластеризации. Однако, в рамках исследования<ref>[https://www.sciencedirect.com/science/article/abs/pii/S003132031200338X An extensive comparative study of cluster validity indices]</ref> была предпринята попытка сравнить существующие метрики на различных данных. Полученные результаты показали, что на искусственных датасетах наилучшим образом себя проявили индексы Silhouette(Sil), Davies–Bouldin*(DB*) и Calinski–Harabasz(CH). На реальных датасетах лучше всех показал себя Score function.

Zeroday343

44

правки

Изменения

Оценка качества в задаче кластеризации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты