Изменения

Перейти к: навигация, поиск

Оценка качества в задаче кластеризации

2901 байт добавлено, 19:17, 28 ноября 2019
Источники информации: исправлена фамилия
=== Обозначения ===
Дано множество <math>S</math> из <math>n</math> элементов, и два разделения разделение на кластеры классы <math>X = \{ X_1, X_2, \ldots , X_r \}</math> , и полученное разделение на кластеры <math>Y = \{ Y_1, Y_2, \ldots , Y_s \}</math>, совпадения между <math>X</math> и <math>Y</math> могут быть отражены в таблице сопряженности <math>\left[n_{ij}\right]</math>, где каждое <math>n_{ij}</math> обозначает число объектов, входящих как в<math>X_i</math>, так и в <math>Y_j</math> : <math>n_{ij}=|X_i \cap Y_j|</math>.
: <math>\begin{array}{c|cccc|c}
{{} \atop X}\!\diagdown\!^Y &
\end{array}</math>
Пуст Пусть <math>p_{ij} = \dfrac{ n_{ij} }{ n }, p_{i} = \dfrac{ a_{i} }{ n }, p_{j} = \dfrac{ b_{j} }{ n } </math>.
Также рассмотрим пары <math>(x_i, x_j)</math> из элементов кластеризуемого множества <math>X</math>. Подсчитаем количество пар, в которых:
: <math>
GK = \sum_i p_i(1 - \max_j \dfrac{ p_{ij} }{ p_i })
</math>
 
=== Entropy ===
Энтропия измеряет "чистоту" меток классов:
: <math>
E = - \sum_i p_i ( \sum_j \dfrac{ p_{ij} }{ p_i } log( \dfrac{ p_{ij} }{ p_i } ) )
</math>
 
Стоит отметить, что если все кластера состоят из объектов одного класса, то энтропия равна 0.
 
=== Purity ===
Чистота ставит в соответствие кластеру самый многочисленный в этом кластере класс.
: <math>
P = \sum_i p_i ( \max_j \dfrac{ p_{ij} }{ p_i } )
</math>
 
Чистота находится в интервале [0, 1], причём значение = 1 отвечает оптимальной кластеризации.
 
=== F-мера ===
F-мера представляет собой гармоническое среднее между точностью (precision) и полнотой (recall).
: <math>
F = \sum_j p_j \max_i \big\lbrack 2 \dfrac{ p_{ij} }{ p_i } \dfrac{ p_{ij} }{ p_j } \big/ (\dfrac{ p_{ij} }{ p_i } + \dfrac{ p_{ij} }{ p_j }) \big\rbrack
</math>
 
=== Variation of Information ===
Данная метрика измеряет количество информации, потерянной и полученной при переходе из одного кластера в другой.
: <math>
VI = - \sum_i p_i \log p_i - \sum_i p_j log p_j - 2 \sum_i \sum_j p_{ij} \log \dfrac{ p_{ij} }{ p_i p_j }
</math>
: <math>
wcd(C) = \sum \limits_{c_k \in C} \dfrac{ 1 }{ |c_k| } \sum \limits_{x_i \in c_k} \|x_i - \overline{c_k}\|
</math>
 
=== Gamma Index ===
: <math>
G(C) = \dfrac{ \sum_{c_k \in C} \sum_{x_i,x_j \in c_k} |c_k| \cdot dl(x_i, x_j) }{ n_w (\binom{N}{2} - n_w) }
</math>
 
где:
: <math>dl(x_i,x_j)</math> {{---}} число пар <math>(x_k, x_l) \in X</math> таких, что (1) <math>x_k</math> и <math>x_l</math> принадлежат разным кластерам, и (2) <math>\|x_k - x_l\| < \|x_i - x_j\|</math>,
: <math>
n_w = \sum_{c_k \in C} \binom{|c_k|}{2}
</math>
 
=== COP Index ===
В данной метрике компактность вычисляется как расстояние от точек кластера до его центроиды, а разделимость основана на расстоянии до самого отдаленного соседа.
: <math>
COP(C) = \dfrac{1}{N} \sum \limits_{c_k \in C} |c_k| \dfrac{ 1/|c_k| \sum_{x_i \in c_k} \| x_i - \overline{c_k} \| }{ \min_{x_i \notin c_k} \max_{x_j \in c_k} \| x_i - x_j\| }
</math>
== Источники информации ==
# [https://en.wikipedia.org/wiki/Category:Clustering_criteria Wikipedia {{---}} Category:Clustering criteria]
# [http://synthesis.ipi.ac.ru/sigmod/seminar/sivogolovko20111124.pdf Сивоголовка Сивоголовко Е. В. Методы оценки качества четкой кластеризации]
# [http://www.cs.kent.edu/~jin/DM08/ClusterValidation.pdf Cluster Validation]
# [https://link.springer.com/article/10.1023/A:1012801612483 Halkidi, M., Batistakis, Y., Vazirgiannis, M., 2001. On clustering validation techniques. Journal of intelligent information systems, 17(2-3), pp.107-145.]
# [https://eurekamag.com/pdf/008/008337083.pdf Pal, N.R., Biswas, J., 1997. Cluster validation using graph theoretic concepts. Pattern Recognition, 30(6), pp.847-857.]
== Примечания ==
Анонимный участник

Навигация