Изменения

Оценка качества в задаче кластеризации

2901 байт добавлено, 19:17, 28 ноября 2019

→‎Источники информации: исправлена фамилия

=== Обозначения ===

Дано множество <math>S</math> из <math>n</math> элементов, ~~и два разделения~~ разделение на ~~кластеры~~ классы <math>X = \{ X_1, X_2, \ldots , X_r \}</math> , и полученное разделение на кластеры <math>Y = \{ Y_1, Y_2, \ldots , Y_s \}</math>, совпадения между <math>X</math> и <math>Y</math> могут быть отражены в таблице сопряженности <math>\left[n_{ij}\right]</math>, где каждое <math>n_{ij}</math> обозначает число объектов, входящих как в<math>X_i</math>, так и в <math>Y_j</math> : <math>n_{ij}=|X_i \cap Y_j|</math>.

: <math>\begin{array}{c|cccc|c}

{{} \atop X}\!\diagdown\!^Y &

\end{array}</math>

~~Пуст~~ Пусть <math>p_{ij} = \dfrac{ n_{ij} }{ n }, p_{i} = \dfrac{ a_{i} }{ n }, p_{j} = \dfrac{ b_{j} }{ n } </math>.

Также рассмотрим пары <math>(x_i, x_j)</math> из элементов кластеризуемого множества <math>X</math>. Подсчитаем количество пар, в которых:

: <math>

GK = \sum_i p_i(1 - \max_j \dfrac{ p_{ij} }{ p_i })

</math>

=== Entropy ===

Энтропия измеряет "чистоту" меток классов:

: <math>

E = - \sum_i p_i ( \sum_j \dfrac{ p_{ij} }{ p_i } log( \dfrac{ p_{ij} }{ p_i } ) )

</math>

Стоит отметить, что если все кластера состоят из объектов одного класса, то энтропия равна 0.

=== Purity ===

Чистота ставит в соответствие кластеру самый многочисленный в этом кластере класс.

: <math>

P = \sum_i p_i ( \max_j \dfrac{ p_{ij} }{ p_i } )

</math>

Чистота находится в интервале [0, 1], причём значение = 1 отвечает оптимальной кластеризации.

=== F-мера ===

F-мера представляет собой гармоническое среднее между точностью (precision) и полнотой (recall).

: <math>

F = \sum_j p_j \max_i \big\lbrack 2 \dfrac{ p_{ij} }{ p_i } \dfrac{ p_{ij} }{ p_j } \big/ (\dfrac{ p_{ij} }{ p_i } + \dfrac{ p_{ij} }{ p_j }) \big\rbrack

</math>

=== Variation of Information ===

Данная метрика измеряет количество информации, потерянной и полученной при переходе из одного кластера в другой.

: <math>

VI = - \sum_i p_i \log p_i - \sum_i p_j log p_j - 2 \sum_i \sum_j p_{ij} \log \dfrac{ p_{ij} }{ p_i p_j }

</math>

: <math>

wcd(C) = \sum \limits_{c_k \in C} \dfrac{ 1 }{ |c_k| } \sum \limits_{x_i \in c_k} \|x_i - \overline{c_k}\|

</math>

=== Gamma Index ===

: <math>

G(C) = \dfrac{ \sum_{c_k \in C} \sum_{x_i,x_j \in c_k} |c_k| \cdot dl(x_i, x_j) }{ n_w (\binom{N}{2} - n_w) }

</math>

где:

: <math>dl(x_i,x_j)</math> {{---}} число пар <math>(x_k, x_l) \in X</math> таких, что (1) <math>x_k</math> и <math>x_l</math> принадлежат разным кластерам, и (2) <math>\|x_k - x_l\| < \|x_i - x_j\|</math>,

: <math>

n_w = \sum_{c_k \in C} \binom{|c_k|}{2}

</math>

=== COP Index ===

В данной метрике компактность вычисляется как расстояние от точек кластера до его центроиды, а разделимость основана на расстоянии до самого отдаленного соседа.

: <math>

COP(C) = \dfrac{1}{N} \sum \limits_{c_k \in C} |c_k| \dfrac{ 1/|c_k| \sum_{x_i \in c_k} \| x_i - \overline{c_k} \| }{ \min_{x_i \notin c_k} \max_{x_j \in c_k} \| x_i - x_j\| }

</math>

== Источники информации ==

# [https://en.wikipedia.org/wiki/Category:Clustering_criteria Wikipedia {{---}} Category:Clustering criteria]

# [http://synthesis.ipi.ac.ru/sigmod/seminar/sivogolovko20111124.pdf ~~Сивоголовка~~ Сивоголовко Е. В. Методы оценки качества четкой кластеризации]

# [http://www.cs.kent.edu/~jin/DM08/ClusterValidation.pdf Cluster Validation]

# [https://link.springer.com/article/10.1023/A:1012801612483 Halkidi, M., Batistakis, Y., Vazirgiannis, M., 2001. On clustering validation techniques. Journal of intelligent information systems, 17(2-3), pp.107-145.]

# [https://eurekamag.com/pdf/008/008337083.pdf Pal, N.R., Biswas, J., 1997. Cluster validation using graph theoretic concepts. Pattern Recognition, 30(6), pp.847-857.]

== Примечания ==

Анонимный участник

195.19.236.234

Изменения

Оценка качества в задаче кластеризации

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты