Изменения

Перейти к: навигация, поиск

Оценка качества в задаче кластеризации

21 байт убрано, 06:04, 25 января 2019
dunn, silhouette
Чем больше значение метрики - тем лучше.
 
== Относительные оценки качества ==
 
=== Индекс Данна (Dunn Index) ===
Индекс Данна имеет множество вариаций, оригинальная версия выглядит следующим образом:
: <math>
D(C) = \dfrac{ min_{c_k \in C} \{ min_{c_l \in C \setminus c_k} \{ \delta(c_k, c_l) \} \} }{ max_{c_k \in C} \{ \Delta(c_k) \} }
</math>,
где:
: <math>\delta</math> - межкластерное расстояние, <math>\delta(c_k, c_k) = min_{x_i \in c_k, y_j \in c_l} \|x_i - x_j\|</math>,
: <math>\Delta(c_k)</math> - диаметр кластера, <math>\Delta(c_k) = max_{x_i,x_j \in c_k} \|x_i - x_j\|</math>.
=== Силуэт (Silhouette) ===
Значение силуэта показывает, насколько объект похож на свой кластер по сравнению с другими кластерами.
Пусть Оценка для всей кластерной структуры:: <math> Sil(С) = \dfrac{1}{N} \sum_{c_k \in C} \sum_{x_i \in c_k} \dfrac{ b(x_i, c_k) - a(x_i, c_k) }{ max \{ a(x_i, c_k), b(x_i, c_k) \} }</math>,где:
: <math>
a_{pj} a(x_i, c_k) = \dfrac{1}{n_{c_p} - 1|c_k|} \sum_{x_i x_j \in c_pc_k} \|x_i - x_j - x_k\|</math> - среднее расстояние от <math>x_j x_i \in c_pc_k</math> до других объектов из кластера <math>c_p</math>, а <math>n_{c_p} = |c_p|c_k</math>,
: <math>
d_b(x_i, c_k) = min_{qjc_l \in C \setminus c_k } = \{ \dfrac{1}{n_{c_q}|c_l|} \sum_{x_k x_j \in c_qc_l} \|x_i - x_j - x_k\|</math> - среднее расстояние от <math>x_j x_i \in c_pc_k</math> до объектов из другого кластера <math>c_qc_l: q k \neq pl</math>.Положим <math>b_{pj} = min_{q \neq p} d_{qj}</math>. Тогда "силуэт" элемента <math>x_j:</math>: <math> S_{x_j} = \dfrac{ b_{pj} - a_{pj} }{ max (a_{pj}, b_{pj}) }</math>
Можно заметить, что
: <math> -1 \le S_{x_j} Sil(C) \le 1
</math>.
 
Оценка для всей кластерной структуры:
: <math>
SWC = \dfrac{1}{N} \sum_{j=1}^{N} S_{x_j}
</math>
Чем ближе данная оценка к 1, тем лучше.
Есть также различные вариации упрощенная вариация силуэта:* Упрощенный силуэт: <math>a_{pj}</math> и <math>b_{pj}</math> вычисляютсяерез центры кластеров;* Альтернативный силуэт: S_{x_j} = \dfrac{ b_{pj} }{ a_{pjЪ + \epsilon } == Относительные оценки качества == === Индекс Данна (Dunn Index) ===: <math>D = min_{i,j \in \{1 .. c\}, i \neq j} \lbrack \dfrac{ da(c_ix_i, c_j) }{ max_{k \in \{1 .. c\} } \cdot diam(c_k) } \rbrack</math>, где: и <math>d</math> - межкластерное расстояние, <math>db(c_ix_i, c_jc_k) = min_{x \in c_i, y \in c_j} \|x - y\|</math>: <math>diam(c_i)</math> - диаметр кластера, <math>diam(c_i) = max_{x,y \in c_i} \|x - y\|</math>вычисляются через центры кластеров.
== См. также ==
49
правок

Навигация