Изменения

Перейти к: навигация, поиск

Оценка качества в задаче кластеризации

2219 байт добавлено, 07:01, 25 января 2019
C-Index, Davies–Bouldin
Данные метрики оценивают качество структуры кластеров опираясь только непосредственно на нее, не используя внешней информации.
=== Связность Компактность кластеров (Cluster Cohesion) ===
Идея данного метода в том, что чем ближе друг к другу находятся объекты внутри кластеров, тем лучше разделение.
</math>, где <math>M</math> - количество кластеров.
=== Разделимость Отделимость кластеров (Cluster Separation) ===
В данном случае идея противоположная - чем дальше друг от друга находятся объекты разных кластеров, тем лучше.
\end{cases}
</math>
Можно заметить, что два объекта влияют на <math>Г</math> , только если они находятся в разных кластерах.
Чем больше значение метрики - тем лучше.
: <math>
a(x_i, c_k) = \dfrac{1}{|c_k|} \sum_{x_j \in c_k} \|x_i - x_j\|
</math> - среднее расстояние от <math>x_i \in c_k</math> до других объектов из кластера <math>c_k</math>(компактность),
: <math>
b(x_i, c_k) = min_{c_l \in C \setminus c_k } \{ \dfrac{1}{|c_l|} \sum_{x_j \in c_l} \|x_i - x_j\|
</math> - среднее расстояние от <math>x_i \in c_k</math> до объектов из другого кластера <math>c_l: k \neq l</math>(отделимость).
Можно заметить, что
: <math> -1 \le Sil(C) \le 1
Есть также упрощенная вариация силуэта: <math>a(x_i, c_k)</math> и <math>b(x_i, c_k)</math> вычисляются через центры кластеров.
 
=== Calinski–Harabasz index ===
: <math>
CH(C) = \dfrac{ N-K }{ K-1 } \cdot \dfrac{ sum_{c_k \in C} |c_k| \cdot \| \overline{c_k} - \overline{X} \| }{ sum_{c_k \in C} sum_{ x_i \in c_k } \| x_i - \overline{c_k} \| }
</math>
Компактность основана на расстоянии от точек кластера до их центроидов, а разделимость - на расстоянии от центроид кластеров до глобального центроида.
 
=== C-Index ===
C-Index - нормализованная оценка компактности:
: <math>
CI(C) = \dfrac{ S(C) - S_{min}(C) }{ S_{max}(C) - S_{min}(C)}
</math>,
где:
: <math>
S(C) = \sum \limits_{c_k \in C} \sum \limits_{x_i, x_j \in c_k} \| x_i - x_j \|
</math>,
: <math>S_{min}(C) (S_max(C))</math> - сумма <math>\dfrac{ |c_k|\cdot(|c_k| - 1) }{2}</math> минимальных (максимальных) расстояний между всех парами объектов во всем датасете.
 
=== Davies–Bouldin Index ===
Это, возможно, одна из самых используемых мер оценки качества кластеризации.<br/>
Она вычисляет компактность как расстояние от объектов кластера до их центроидов, а отделимость - как расстояние между центроидами.
: <math>
DB(C) = \dfrac{1}{K} \sum \limits_{c_k \in C} \max \limits_{c_l \in C \setminus c_k} \Big\{ \dfrac{ S(c_k)+S(c_l) }{ \| \overline{c_k} - \overline{c_l} \| } \Big\}
</math>,
где:
: <math>
S(c_k) = \dfrac{ 1 }{ |c_k| } \sum \limits_{x_i \in c_k} \|x_i - \overline{c_k}\|
</math>
 
Существует еще одна вариация данной метрики, которая была предложена автором вместе с основной версией:
: <math>
DB^*(C) = \dfrac{1}{K} \sum \limits_{c_k \in C} \dfrac
{ \max \limits_{c_l \in C \setminus c_k} \{ S(c_k)+S(c_l) \} }
{ \min \limits_{c_l \in C \setminus c_k} \{ \| \overline{c_k} - \overline{c_l} \| \} }
</math>
== См. также ==
49
правок

Навигация