Изменения

Оценка качества в задаче кластеризации

2100 байт добавлено, 19:17, 28 ноября 2019

→‎Источники информации: исправлена фамилия

=== Entropy ===

Энтропия измеряет "чистоту" меток классов:

: <math>

E = - \sum_i p_i ( \sum_j \dfrac{ p_{ij} }{ p_i } log( \dfrac{ p_{ij} }{ p_i } ) )

</math>

Стоит отметить, что если все кластера состоят из объектов одного класса, то энтропия равна 0.

=== Purity ===

Чистота ставит в соответствие кластеру самый многочисленный в этом кластере класс.

: <math>

P = \sum_i p_i ( \max_j \dfrac{ p_{ij} }{ p_i } )

</math>

~~Чистота ставит в соответствие кластеру самый многочисленный в этом кластере класс.~~ Чистота находится в интервале [0, 1], причём значение = 1 отвечает оптимальной кластеризации.

=== F-мера ===

F-мера представляет собой гармоническое среднее между точностью (precision) и полнотой (recall).

: <math>

F = \sum_j p_j \max_i \big\lbrack 2 \dfrac{ p_{ij} }{ p_i } \dfrac{ p_{ij} }{ p_j } \big/ (\dfrac{ p_{ij} }{ p_i } + \dfrac{ p_{ij} }{ p_j }) \big\rbrack

=== Variation of Information ===

Данная метрика измеряет количество информации, потерянной и полученной при переходе из одного кластера в другой.: <math>VI = - \sum_i p_i \log p_i - \sum_i p_j log p_j - 2 \sum_i \sum_j p_{ij} \log \dfrac{ p_{ij} }{ p_i p_j }</math>

== Внутренние метрики оценки качества ==

: <math>

wcd(C) = \sum \limits_{c_k \in C} \dfrac{ 1 }{ |c_k| } \sum \limits_{x_i \in c_k} \|x_i - \overline{c_k}\|

</math>

=== Gamma Index ===

: <math>

G(C) = \dfrac{ \sum_{c_k \in C} \sum_{x_i,x_j \in c_k} |c_k| \cdot dl(x_i, x_j) }{ n_w (\binom{N}{2} - n_w) }

</math>

где:

: <math>dl(x_i,x_j)</math> {{---}} число пар <math>(x_k, x_l) \in X</math> таких, что (1) <math>x_k</math> и <math>x_l</math> принадлежат разным кластерам, и (2) <math>\|x_k - x_l\| < \|x_i - x_j\|</math>,

: <math>

n_w = \sum_{c_k \in C} \binom{|c_k|}{2}

</math>

=== COP Index ===

В данной метрике компактность вычисляется как расстояние от точек кластера до его центроиды, а разделимость основана на расстоянии до самого отдаленного соседа.

: <math>

COP(C) = \dfrac{1}{N} \sum \limits_{c_k \in C} |c_k| \dfrac{ 1/|c_k| \sum_{x_i \in c_k} \| x_i - \overline{c_k} \| }{ \min_{x_i \notin c_k} \max_{x_j \in c_k} \| x_i - x_j\| }

</math>

== Источники информации ==

# [https://en.wikipedia.org/wiki/Category:Clustering_criteria Wikipedia {{---}} Category:Clustering criteria]

# [http://synthesis.ipi.ac.ru/sigmod/seminar/sivogolovko20111124.pdf ~~Сивоголовка~~ Сивоголовко Е. В. Методы оценки качества четкой кластеризации]

# [http://www.cs.kent.edu/~jin/DM08/ClusterValidation.pdf Cluster Validation]

# [https://link.springer.com/article/10.1023/A:1012801612483 Halkidi, M., Batistakis, Y., Vazirgiannis, M., 2001. On clustering validation techniques. Journal of intelligent information systems, 17(2-3), pp.107-145.]

# [https://eurekamag.com/pdf/008/008337083.pdf Pal, N.R., Biswas, J., 1997. Cluster validation using graph theoretic concepts. Pattern Recognition, 30(6), pp.847-857.]

== Примечания ==

Анонимный участник

195.19.236.234

Изменения

Оценка качества в задаче кластеризации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты