Изменения

Перейти к: навигация, поиск

Оценка качества в задаче кластеризации

1747 байт добавлено, 18:57, 25 января 2020
Внутренние метрики оценки качества
: <math>\delta^4(c_k, c_l) = \|\overline{c_k} - \overline{c_l}\| </math>,
: <math>\delta^5(c_k, c_l) = \dfrac{1}{|c_k| + |c_l|} (\sum_{x_i \in c_k} \|x_i - \overline{c_k}\| + \sum_{x_j \in c_l} \|x_j - \overline{c_l}\|) </math>,.
Оценки компактности:
: <math>\Delta^1(c_k) = \Delta(c_k) </math>.,
: <math>\Delta^3(c_k) = \dfrac{2}{|c_k|} \sum_{x_i \in c_k} \|x_i - \overline{c_k}\| </math>.
 === Индекс S_Dbw ===Основан на вычислении Евклидовой нормы : <math>\ \|x\| = (x^Tx)^(1/2) </math> и стандартных отклонений : <math> \sigma(X) = \dfrac{1}{|X|} \sum_{x_i \in X} (x_i - \overline{x}) ^ 2 </math>, : <math> stdev(C) = \dfrac{1}{K}\sqrt{\sum_{c_k \in C} \|\sigma(c_k)\|} </math>. Сам индекс определяется формулой: : <math> SDbw(C) = \dfrac{1}{K} \sum_{c_k \in C} \dfrac{\|\sigma(c_k)\|}{\|\sigma(X)\|} + \dfrac{1}{K(K-1)} \sum_{c_k \in C} \sum_{c_l \in C \setminus c_k} \dfrac{den(c_k,c_l)}{max(den(c_k),den(c_l))} </math>. Здесь : <math> den(c_k) = \sum_{x_i \in c_k} f(x_i, \overline{c_k}) </math>, : <math> den(c_k, c_l) = \sum_{x_i \in c_k \cup c_l} f(x_i, \dfrac{\overline{c_k} + \overline{c_l}}{2}) </math>, : <math> f(x_i, c_k) = 0 </math>, если <math> \|x_i - \overline{c_k}\| > stdev(C) </math> и 1 в ином случае.=== Силуэт (Silhouette) ===
Значение силуэта показывает, насколько объект похож на свой кластер по сравнению с другими кластерами.
</math> {{---}} среднее расстояние от <math>x_i \in c_k</math> до других объектов из кластера <math>c_k</math> (компактность),
: <math>
b(x_i, c_k) = min_{c_l \in C \setminus c_k } \{ \dfrac{1}{|c_l|} \sum_{x_j \in c_l} \|x_i - x_j\|\}
</math> {{---}} среднее расстояние от <math>x_i \in c_k</math> до объектов из другого кластера <math>c_l: k \neq l</math> (отделимость).
Можно заметить, что
COP(C) = \dfrac{1}{N} \sum \limits_{c_k \in C} |c_k| \dfrac{ 1/|c_k| \sum_{x_i \in c_k} \| x_i - \overline{c_k} \| }{ \min_{x_i \notin c_k} \max_{x_j \in c_k} \| x_i - x_j\| }
</math>
 
=== CS Index ===
Был предложен в области сжатия изображений, но может быть успешно адаптирован для любого другого окружения. Он оценивает компактность по диаметру кластера, а отделимость — как дистанцию между ближайшими элементами двух кластеров.
 
: <math>
CS(C) = \dfrac{\sum{c_k \in C} \{ 1 / |c_k| \sum_{x_i \in c_k} \max_{x_j \in c_k}\{\|x_i - x_j\|\} \}}{\sum{c_k \in C} \min_{c_l \in C \setminus c_k} \{\|\overline{c_k} - \overline{c_l}\| \}}.
</math>
 
Чем меньше значение данного индекса, тем выше качество кластеризации.
== Сравнение ==
44
правки

Навигация