Изменения

Перейти к: навигация, поиск

Оценка качества в задаче кластеризации

259 байт добавлено, 16:03, 28 января 2019
- & ссылки
Rand = \dfrac{TP+FN}{TP+TN+FP+FN}
</math>
Имеет область определения от 0 до 1, где 1 {{- --}} полное совпадение кластеров с заданными классами, а 0 {{--- }} отсутствие совпадений.
=== Adjusted Rand Index ===
Jaccard = \dfrac{TP}{TP+TN+FP}
</math>
Имеет область определения от 0 до 1, где 1 {{- --}} полное совпадение кластеров с заданными классами, а 0 {{--- }} отсутствие совпадений.
=== Folkes and Mallows Index ===
: <math>
WSS = \sum \limits_{j=1}^{M} \sum \limits_{i = 1}^{|C_j|} (x_{ij} - \overline{x_j})^2
</math>, где <math>M</math> {{- --}} количество кластеров.
=== Отделимость кластеров (Cluster Separation) ===
В данном случае идея противоположная {{- --}} чем дальше друг от друга находятся объекты разных кластеров, тем лучше.
Поэтому здесь стоит задача максимизации суммы квадратов отклонений (between cluster sum of squares):
: <math>
BSS = n \cdot \sum \limits_{j=1}^{M} (\overline{x_{j}} - \overline{x})^2
</math>, где <math>M</math> {{- --}} количество кластеров.
=== Hubert Г statistic ===
Г = \dfrac{1}{M} \sum \limits_{i=1}^{N-1} \sum \limits_{i=i+1}^{N} P(i, j) \cdot Q(i, j),
</math>
где <math>M = n*(n-1)/2</math>, <math>P(i, j)</math> {{- --}} матрица близости, а
: <math>Q(i, j) = \begin{cases}
0, & \mbox{если x(i) и x(j) лежат в одном кластере} \\
Можно заметить, что два объекта влияют на <math>Г</math>, только если они находятся в разных кластерах.
Чем больше значение метрики {{- --}} тем лучше.
== Относительные оценки качества ==
</math>,
где:
: <math>\delta</math> {{--- }} межкластерное расстояние, <math>\delta(c_k, c_k) = min_{x_i \in c_k, y_j \in c_l} \|x_i - x_j\|</math>,: <math>\Delta(c_k)</math> {{--- }} диаметр кластера, <math>\Delta(c_k) = max_{x_i,x_j \in c_k} \|x_i - x_j\|</math>.
=== Силуэт (Silhouette) ===
: <math>
a(x_i, c_k) = \dfrac{1}{|c_k|} \sum_{x_j \in c_k} \|x_i - x_j\|
</math> {{- --}} среднее расстояние от <math>x_i \in c_k</math> до других объектов из кластера <math>c_k</math> (компактность),
: <math>
b(x_i, c_k) = min_{c_l \in C \setminus c_k } \{ \dfrac{1}{|c_l|} \sum_{x_j \in c_l} \|x_i - x_j\|
</math> {{- --}} среднее расстояние от <math>x_i \in c_k</math> до объектов из другого кластера <math>c_l: k \neq l</math> (отделимость).
Можно заметить, что
: <math> -1 \le Sil(C) \le 1
== См. также ==
* [[Кластеризация]]
* [[Оценка качества в задачах классификации и регрессии]]
== Источники информации ==
# [http://synthesis.ipi.ac.ru/sigmod/seminar/sivogolovko20111124.pdf Сивоголовка Е. В. Методы оценки качества четкой кластеризации]
# [http://www.cs.kent.edu/~jin/DM08/ClusterValidation.pdf Cluster Validation]
 
== Примечания ==
[[Категория:Машинное обучение]]
[[Категория:Кластеризация]]
49
правок

Навигация