Изменения

Перейти к: навигация, поиск

Оценка качества в задаче кластеризации

Нет изменений в размере, 17:32, 30 декабря 2020
м
Исправление обозначений во внешних мерах оценки качества
Также рассмотрим пары <math>(x_i, x_j)</math> из элементов кластеризуемого множества <math>X</math>. Подсчитаем количество пар, в которых:
* Элементы принадлежат одному кластеру и одному классу {{---}} <math>TP</math>
* Элементы принадлежат одному кластеру, но разным классам {{---}} <math>TNFP</math>* Элементы принадлежат разным кластерам, но одному классу {{---}} <math>FPFN</math>* Элементы принадлежат разным кластерам и разным классам {{---}} <math>FNTN</math>
=== Индекс Rand ===
Индекс Rand оценивает, насколько много из тех пар элементов, которые находились в одном классе, и тех пар элементов, которые находились в разных классах, сохранили это состояние после кластеризации алгоритмом.
: <math>
Rand = \dfrac{TP+FNTN}{TP+TN+FP+FN}
</math>
Имеет область определения от 0 до 1, где 1 {{---}} полное совпадение кластеров с заданными классами, а 0 {{---}} отсутствие совпадений.
=== Индекс Жаккара (англ. Jaccard Index) ===
Индекс Жаккара похож на [[#Индекс_Rand|Индекс Rand]], только не учитывает пары элементов находящиеся в разные классах и разных кластерах (<math>FNTN</math>).
: <math>
Jaccard = \dfrac{TP}{TP+TNFN+FP}
</math>
Имеет область определения от 0 до 1, где 1 {{---}} полное совпадение кластеров с заданными классами, а 0 {{---}} отсутствие совпадений.
Индекс Фоулкса – Мэллова используется для определения сходства между двумя кластерами.
: <math>
FM = \sqrt{ \dfrac{TP}{TP+TNFP} \cdot \dfrac{TP}{TP+FPFN} }
</math>
Более высокое значение индекса означает большее сходство между кластерами. Этот индекс также хорошо работает на зашумленных данных.
Классическая мера корреляции между двумя переменными:
: <math>
\Phi = \dfrac{ TP \times TN - FN - TN \times FP }{ (TP + TNFN)(TP + FP)(FN + FPTN)(FN FP + TN) }
</math>
1
правка

Навигация