Изменения

Перейти к: навигация, поиск

Оценка качества в задаче кластеризации

2100 байт добавлено, 19:17, 28 ноября 2019
Источники информации: исправлена фамилия
=== Entropy ===
Энтропия измеряет "чистоту" меток классов:
: <math>
E = - \sum_i p_i ( \sum_j \dfrac{ p_{ij} }{ p_i } log( \dfrac{ p_{ij} }{ p_i } ) )
</math>
 
Стоит отметить, что если все кластера состоят из объектов одного класса, то энтропия равна 0.
=== Purity ===
Чистота ставит в соответствие кластеру самый многочисленный в этом кластере класс.
: <math>
P = \sum_i p_i ( \max_j \dfrac{ p_{ij} }{ p_i } )
</math>
Чистота ставит в соответствие кластеру самый многочисленный в этом кластере класс. Чистота находится в интервале [0, 1], причём значение = 1 отвечает оптимальной кластеризации.
=== F-мера ===
F-мера представляет собой гармоническое среднее между точностью (precision) и полнотой (recall).
: <math>
F = \sum_j p_j \max_i \big\lbrack 2 \dfrac{ p_{ij} }{ p_i } \dfrac{ p_{ij} }{ p_j } \big/ (\dfrac{ p_{ij} }{ p_i } + \dfrac{ p_{ij} }{ p_j }) \big\rbrack
=== Variation of Information ===
Данная метрика измеряет количество информации, потерянной и полученной при переходе из одного кластера в другой.: <math>VI = - \sum_i p_i \log p_i - \sum_i p_j log p_j - 2 \sum_i \sum_j p_{ij} \log \dfrac{ p_{ij} }{ p_i p_j }</math>
== Внутренние метрики оценки качества ==
: <math>
wcd(C) = \sum \limits_{c_k \in C} \dfrac{ 1 }{ |c_k| } \sum \limits_{x_i \in c_k} \|x_i - \overline{c_k}\|
</math>
 
=== Gamma Index ===
: <math>
G(C) = \dfrac{ \sum_{c_k \in C} \sum_{x_i,x_j \in c_k} |c_k| \cdot dl(x_i, x_j) }{ n_w (\binom{N}{2} - n_w) }
</math>
 
где:
: <math>dl(x_i,x_j)</math> {{---}} число пар <math>(x_k, x_l) \in X</math> таких, что (1) <math>x_k</math> и <math>x_l</math> принадлежат разным кластерам, и (2) <math>\|x_k - x_l\| < \|x_i - x_j\|</math>,
: <math>
n_w = \sum_{c_k \in C} \binom{|c_k|}{2}
</math>
 
=== COP Index ===
В данной метрике компактность вычисляется как расстояние от точек кластера до его центроиды, а разделимость основана на расстоянии до самого отдаленного соседа.
: <math>
COP(C) = \dfrac{1}{N} \sum \limits_{c_k \in C} |c_k| \dfrac{ 1/|c_k| \sum_{x_i \in c_k} \| x_i - \overline{c_k} \| }{ \min_{x_i \notin c_k} \max_{x_j \in c_k} \| x_i - x_j\| }
</math>
== Источники информации ==
# [https://en.wikipedia.org/wiki/Category:Clustering_criteria Wikipedia {{---}} Category:Clustering criteria]
# [http://synthesis.ipi.ac.ru/sigmod/seminar/sivogolovko20111124.pdf Сивоголовка Сивоголовко Е. В. Методы оценки качества четкой кластеризации]
# [http://www.cs.kent.edu/~jin/DM08/ClusterValidation.pdf Cluster Validation]
# [https://link.springer.com/article/10.1023/A:1012801612483 Halkidi, M., Batistakis, Y., Vazirgiannis, M., 2001. On clustering validation techniques. Journal of intelligent information systems, 17(2-3), pp.107-145.]
# [https://eurekamag.com/pdf/008/008337083.pdf Pal, N.R., Biswas, J., 1997. Cluster validation using graph theoretic concepts. Pattern Recognition, 30(6), pp.847-857.]
== Примечания ==
Анонимный участник

Навигация