Оценка качества в задаче кластеризации

Материал из Викиконспекты
Версия от 15:28, 8 января 2019; Linarkou (обсуждение | вклад) (Общее описание и разделение на группы)
(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

Проблема оценки качества в задаче кластеризации трудноразрешима, как минимум, по двум причинам:

  • Не существует оптимального алгоритма кластеризации. Иными словами, различные алгоритмы (или различные конфигурации одного алгоритма) выдают разные разделения на кластеры, и ни одно из них не является лучшим во всех ситуациях [8].
  • Многие алгоритмы кластеризации не способны определить настоящее количество кластеров в данных. Чаще всего количество кластеров подается на вход алгоритма и подбирается несколькими запусками алгоритма. [1]

Показатели качества кластеризации

Принято выделять три типа показателей качества кластеризации:

  • Внешние показатели основаны на сравнении результата кластеризации с априори известным разделением на классы.
  • Внутренние показатели отображают качество кластеризации только по информации в данных.
  • Сравнительные показатели основаны на оценивании полученного разделения на кластеры относительно результатов работы другого алгоритма.