44
правки
Изменения
→Сравнение
== Сравнение ==
Не существует лучшего метода оценки качества кластеризации. Однако, в рамках исследования<ref>[https://www.sciencedirect.com/science/article/abs/pii/S003132031200338X An extensive comparative study of cluster validity indices]</ref> была предпринята попытка сравнить существующие меры на различных данных. Полученные результаты показали, что на искусственных датасетах наилучшим образом себя проявили индексы Silhouette(Sil), Davies–Bouldin*(DB*) и Calinski–Harabasz(CH). На реальных датасетах лучше всех показал себя Score function.
В Таблице 1 приведены оценки сложности мер качества кластеризации (<math>n</math> — число объектов в рассматриваемом наборе данных):
{|class="wikitable" style="margin:auto; clear:both;
|+ Таблица 1 — Оценка сложности для 19 мер качества кластеризации.
|<math>Davies-Bouldin</math>
|<math>O(nlogn)</math>
|<math>cs</math>
|<math>O(nlogn)</math>
|-
|<math>Dunn</math>
|<math>O(n^2)</math>
|<math>DB*</math>
|<math>O(nlogn)</math>
|-
|<math>Calinski-Harabasz</math>
|<math>O(nlogn)</math>
|<math>SF</math>
|<math>O(n)</math>
|-
|<math>Sillhouette</math>
|<math>O(n^2)</math>
|<math>sym</math>
|<math>O(n^2)</math>
|-
|<math>gd31</math>
|<math>O(n^2)</math>
|<math>cop</math>
|<math>O(n^2)</math>
|-
|<math>gd41</math>
|<math>O(n^2)</math>
|<math>sv</math>
|<math>O(nlogn)</math>
|-
|<math>gd51</math>
|<math>O(n^2)</math>
|<math>os</math>
|<math>O(n^2logn)</math>
|-
|<math>gd33</math>
|<math>O(n^2)</math>
|<math>s_dbw</math>
|<math>O(nlogn)</math>
|-
|<math>gd43</math>
|<math>O(n^2)</math>
|<math>c index</math>
|<math>O(n^2logn)</math>
|-
|<math>gd53</math>
|<math>O(nlogn)</math>
|
|
|}
Из всех рассмотренных мер, меры <math>sym</math>, <math>gd41</math>, <math>os</math> и <math>cop</math> наиболее полно соответствуют когнитивному представлению асессоров о качестве кластеризации<ref>[https://ieeexplore.ieee.org/abstract/document/7891855 Towards cluster validity index evaluation and selection]</ref>.
== См. также ==