Оценка качества в задаче кластеризации — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
(Общее описание и разделение на группы)
(нет различий)

Версия 15:28, 8 января 2019

Проблема оценки качества в задаче кластеризации трудноразрешима, как минимум, по двум причинам:

  • Не существует оптимального алгоритма кластеризации. Иными словами, различные алгоритмы (или различные конфигурации одного алгоритма) выдают разные разделения на кластеры, и ни одно из них не является лучшим во всех ситуациях [8].
  • Многие алгоритмы кластеризации не способны определить настоящее количество кластеров в данных. Чаще всего количество кластеров подается на вход алгоритма и подбирается несколькими запусками алгоритма. [1]

Показатели качества кластеризации

Принято выделять три типа показателей качества кластеризации:

  • Внешние показатели основаны на сравнении результата кластеризации с априори известным разделением на классы.
  • Внутренние показатели отображают качество кластеризации только по информации в данных.
  • Сравнительные показатели основаны на оценивании полученного разделения на кластеры относительно результатов работы другого алгоритма.