Изменения

Перейти к: навигация, поиск

Оценка качества в задаче кластеризации

201 байт добавлено, 16:51, 21 мая 2020
м
Score function: ошибка в формуле: bcd(C) + wcd(C) -> bcd(C) - wcd(C) (source : original paper "A Bounded Index for Cluster Validity")
Принято выделять две группы методов оценки качества кластеризации:
* '''Внешние''' (англ. ''InternalExternal'') меры основаны на сравнении результата кластеризации с априори известным разделением на классы. * '''Внутренние''' (англ. ''ExternalInternal'') меры отображают качество кластеризации только по информации в данных.
== Внешние меры оценки качества ==
: <math>
SF(C) = 1 - \dfrac{ 1 }{ e^{e^{bcd(C) + - wcd(C)}} }
</math>,
где:
</math>
Чтобы функция оценки была эффективной, она должна максимизировать bcd, минимизировать wcd и быть ограниченной. Чем больше данный индекс, тем выше качество.
=== Индекс Gamma ===
Чем выше данное значение, тем лучше.
=== Point Symmetry-Distance based indices (Индексы SymDB, SymD, Sym33) ===
Модифицируют оценку компактности для индексов Дэвиса-Боулдина, Данна и gD33 соответственно.
|+ Таблица 1 — Оценка сложности для 19 мер качества кластеризации.
|<math>Davies-Bouldin</math>
|<math>O(nlognn\log{n})</math>
|<math>CS</math>
|<math>O(nlognn\log{n})</math>
|-
|<math>Dunn</math>
|<math>O(n^2)</math>
|<math>DB^*</math>
|<math>O(nlognn\log{n})</math>
|-
|<math>Calinski-Harabasz</math>
|<math>O(nlognn\log{n})</math>
|<math>SF</math>
|<math>O(n)</math>
|<math>O(n^2)</math>
|<math>SV</math>
|<math>O(nlognn\log{n})</math>
|-
|<math>gD51</math>
|<math>O(n^2)</math>
|<math>OS</math>
|<math>O(n^2logn2\log{n})</math>
|-
|<math>gD33</math>
|<math>O(n^2)</math>
|<math>SDbw</math>
|<math>O(nlognn\log{n})</math>
|-
|<math>gD43</math>
|<math>O(n^2)</math>
|<math>C-index</math>
|<math>O(n^2logn2\log{n})</math>
|-
|<math>gD53</math>
|<math>O(nlognn\log{n})</math>
|
|
1
правка

Навигация