Оценка качества в задаче кластеризации

Материал из Викиконспекты

Версия от 15:28, 8 января 2019; Linarkou (обсуждение | вклад) (Общее описание и разделение на группы)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)

Перейти к: навигация, поиск

Проблема оценки качества в задаче кластеризации трудноразрешима, как минимум, по двум причинам:

Не существует оптимального алгоритма кластеризации. Иными словами, различные алгоритмы (или различные конфигурации одного алгоритма) выдают разные разделения на кластеры, и ни одно из них не является лучшим во всех ситуациях [8].
Многие алгоритмы кластеризации не способны определить настоящее количество кластеров в данных. Чаще всего количество кластеров подается на вход алгоритма и подбирается несколькими запусками алгоритма. [1]

Показатели качества кластеризации

Принято выделять три типа показателей качества кластеризации:

Внешние показатели основаны на сравнении результата кластеризации с априори известным разделением на классы.
Внутренние показатели отображают качество кластеризации только по информации в данных.
Сравнительные показатели основаны на оценивании полученного разделения на кластеры относительно результатов работы другого алгоритма.

Источник — «http://neerc.ifmo.ru/wiki/index.php?title=Оценка_качества_в_задаче_кластеризации&oldid=68195»