Изменения

Перейти к: навигация, поиск

Оценка качества в задаче кластеризации

590 байт убрано, 08:03, 29 января 2019
Нет описания правки
* '''Внешние''' (англ. ''Internal'') метрики основаны на сравнении результата кластеризации с априори известным разделением на классы.
* '''Внутренние''' (англ. ''External'') метрики отображают качество кластеризации только по информации в данных.
* '''Относительные''' (англ. ''Relative'') метрики основаны на оценивании полученного разделения на кластеры относительно результатов работы другого алгоритма.
Иногда сложно отнести метод оценки качества кластеризации к одной определенной группе, поэтому нижеприведенное разделение является условным, в других источниках можно встретить иное разделение.
== Внешние метрики оценки качества ==
Данные метрики используют дополнительные знания о кластеризуемом множестве: распределение по кластерам, количество кластеров и т.д.
=== Rand Index Обозначения ===
Рассмотрим пары <math>(x_i, x_j)</math> из элементов кластеризуемого множества <math>X</math>. Подсчитаем количество пар, в которых:
* Элементы принадлежат одному кластеру и одному классу {{---}} <math>TP</math>
* Элементы принадлежат разным кластерам и разным классам {{---}} <math>FN</math>
=== Rand Index ===
Индекс Rand оценивает, насколько много из тех пар элементов, которые находились в одном классе, и тех пар элементов, которые находились в разных классах, сохранили это состояние после кластеризации алгоритмом.
: <math>
</math>
Более высокое значение индекса означает большее сходство между кластерами. Этот индекс также хорошо работает на зашумленных данных.
 
=== Hubert Г statistic ===
Данная метрика отражает среднее расстояние между объектами разных кластеров:
: <math>
Г = \dfrac{1}{M} \sum \limits_{i=1}^{N-1} \sum \limits_{i=i+1}^{N} P(i, j) \cdot Q(i, j),
</math>
где <math>M = n*(n-1)/2</math>, <math>P(i, j)</math> {{---}} матрица близости, а
: <math>Q(i, j) = \begin{cases}
0, & \mbox{если x(i) и x(j) лежат в одном кластере} \\
1, & \mbox{в другом случае } \\
\end{cases}
</math>
Можно заметить, что два объекта влияют на <math>Г</math>, только если они находятся в разных кластерах.
 
Чем больше значение метрики {{---}} тем лучше.
 
=== Minkowski Score ===
: <math>
MS = \dfrac
</math>
 
=== Goodman-Kruskal Index ===
== Внутренние метрики оценки качества ==
BSS = n \cdot \sum \limits_{j=1}^{M} (\overline{x_{j}} - \overline{x})^2
</math>, где <math>M</math> {{---}} количество кластеров.
 
=== Hubert Г statistic ===
Данная метрика отражает среднее расстояние между объектами разных кластеров:
: <math>
Г = \dfrac{1}{M} \sum \limits_{i=1}^{N-1} \sum \limits_{i=i+1}^{N} P(i, j) \cdot Q(i, j),
</math>
где <math>M = n*(n-1)/2</math>, <math>P(i, j)</math> {{---}} матрица близости, а
: <math>Q(i, j) = \begin{cases}
0, & \mbox{если x(i) и x(j) лежат в одном кластере} \\
1, & \mbox{в другом случае } \\
\end{cases}
</math>
Можно заметить, что два объекта влияют на <math>Г</math>, только если они находятся в разных кластерах.
 
Чем больше значение метрики {{---}} тем лучше.
 
== Относительные оценки качества ==
=== Индекс Данна (Dunn Index) ===
49
правок

Навигация