Оценка качества в задаче кластеризации
Версия от 15:28, 8 января 2019; Linarkou (обсуждение | вклад) (Общее описание и разделение на группы)
Проблема оценки качества в задаче кластеризации трудноразрешима, как минимум, по двум причинам:
- Не существует оптимального алгоритма кластеризации. Иными словами, различные алгоритмы (или различные конфигурации одного алгоритма) выдают разные разделения на кластеры, и ни одно из них не является лучшим во всех ситуациях [8].
- Многие алгоритмы кластеризации не способны определить настоящее количество кластеров в данных. Чаще всего количество кластеров подается на вход алгоритма и подбирается несколькими запусками алгоритма. [1]
Показатели качества кластеризации
Принято выделять три типа показателей качества кластеризации:
- Внешние показатели основаны на сравнении результата кластеризации с априори известным разделением на классы.
- Внутренние показатели отображают качество кластеризации только по информации в данных.
- Сравнительные показатели основаны на оценивании полученного разделения на кластеры относительно результатов работы другого алгоритма.