Изменения

Перейти к: навигация, поиск

Оценка качества в задаче кластеризации

84 байта добавлено, 19:21, 25 января 2020
Внутренние метрики оценки качества
: <math>
CS(C) = \dfrac{\sumsum_{c_k \in C} \{ 1 / |c_k| \sum_{x_i \in c_k} \max_{x_j \in c_k}\{\|x_i - x_j\|\} \}}{\sumsum_{c_k \in C} \min_{c_l \in C \setminus c_k} \{\|\overline{c_k} - \overline{c_l}\| \}}.
</math>
=== Sym-index ===
 
: <math>
Sym(C) = \dfrac {\max_{c_k, c_l \in C} \{\|\overline{c_k} - \overline{c_l}\|\}}{K\sumsum_{c_k \in C}\sumsum_{x_i \in c_k} \overset{d_ps\ast}{\astd_{ps}}(x_i, c_k)}.
</math>
Чем выше данное значение, тем лучше.
== Сравнение ==
Не существует лучшего метода оценки качества кластеризации. Однако, в рамках исследования<ref>[https://www.sciencedirect.com/science/article/abs/pii/S003132031200338X An extensive comparative study of cluster validity indices]</ref> была предпринята попытка сравнить существующие метрики на различных данных. Полученные результаты показали, что на искусственных датасетах наилучшим образом себя проявили индексы Silhouette(Sil), Davies–Bouldin*(DB*) и Calinski–Harabasz(CH). На реальных датасетах лучше всех показал себя Score function.
44
правки

Навигация