Изменения

Перейти к: навигация, поиск

Оценка качества в задаче кластеризации

437 байт добавлено, 02:02, 25 января 2019
Нет описания правки
* Не существует оптимального алгоритма кластеризации. Иными словами, различные алгоритмы (или различные конфигурации одного алгоритма) выдают разные разделения на кластеры, и ни одно из них не является лучшим во всех ситуациях [8].
* Многие алгоритмы кластеризации не способны определить настоящее количество кластеров в данных. Чаще всего количество кластеров подается на вход алгоритма и подбирается несколькими запусками алгоритма. [1]
 
== Методы оценки качества кластеризации ==
S_{x_j} = \dfrac{ b_{pj} - a_{pj} }{ max (a_{pj}, b_{pj}) }
</math>
Можно заметить, что :<math> -1 \le S_{x_j} \le 1
</math>.
== Относительные оценки качества ==
 
=== Индекс Данна (Dunn Index) ===
: <math>
D = min_{i,j \in \{1 .. c\}, i \neq j} \lbrack \dfrac{ d(c_i, c_j) }{ max_{k \in \{1 .. c\} } \cdot diam(c_k) } \rbrack
</math>, где
: <math>d</math> - межкластерное расстояние, <math>d(c_i, c_j) = min_{x \in c_i, y \in c_j} \|x - y\|</math>
: <math>diam(c_i)</math> - диаметр кластера, <math>diam(c_i) = max_{x,y \in c_i} \|x - y\|</math>
== См. также ==
49
правок

Навигация