44
правки
Изменения
Изменил сравнение
== Сравнение ==
Не существует лучшего метода оценки качества кластеризации. Однако, в рамках исследования<ref>[https://www.sciencedirect.com/science/article/abs/pii/S003132031200338X An extensive comparative study of cluster validity indices]</ref> была предпринята попытка сравнить существующие меры на различных данных. Полученные результаты показали, что на искусственных датасетах наилучшим образом себя проявили индексы <math>Silhouette(Sil)</math>, Davies–Bouldin*(<math>DB^*) </math> и Calinski–Harabasz(CH)<math>Calinski-Harabasz</math>. На реальных датасетах лучше всех показал себя <math>Score -function</math>.
В Таблице 1 приведены оценки сложности мер качества кластеризации (<math>n</math> — число объектов в рассматриваемом наборе данных):
|<math>Davies-Bouldin</math>
|<math>O(nlogn)</math>
|<math>csCS</math>
|<math>O(nlogn)</math>
|-
|<math>Dunn</math>
|<math>O(n^2)</math>
|<math>DB^*</math>
|<math>O(nlogn)</math>
|-
|<math>Sillhouette</math>
|<math>O(n^2)</math>
|<math>symSym</math>
|<math>O(n^2)</math>
|-
|<math>gd31gD31</math>
|<math>O(n^2)</math>
|<math>copCOP</math>
|<math>O(n^2)</math>
|-
|<math>gd41gD41</math>
|<math>O(n^2)</math>
|<math>svSV</math>
|<math>O(nlogn)</math>
|-
|<math>gd51gD51</math>
|<math>O(n^2)</math>
|<math>osOS</math>
|<math>O(n^2logn)</math>
|-
|<math>gd33gD33</math>
|<math>O(n^2)</math>
|<math>s_dbwSDbw</math>
|<math>O(nlogn)</math>
|-
|<math>gd43gD43</math>
|<math>O(n^2)</math>
|<math>c C-index</math>
|<math>O(n^2logn)</math>
|-
|<math>gd53gD53</math>
|<math>O(nlogn)</math>
|
|}
Из всех рассмотренных мер, меры <math>symSym</math>, <math>gd41gD41</math>, <math>osOS</math> и <math>copCOP</math> наиболее полно соответствуют когнитивному представлению асессоров о качестве кластеризации<ref>[https://ieeexplore.ieee.org/abstract/document/7891855 Towards cluster validity index evaluation and selection]</ref>.
== См. также ==