Оценка качества в задаче кластеризации
Проблема оценки качества в задаче кластеризации трудноразрешима, как минимум, по двум причинам:
- Не существует оптимального алгоритма кластеризации. Иными словами, различные алгоритмы (или различные конфигурации одного алгоритма) выдают разные разделения на кластеры, и ни одно из них не является лучшим во всех ситуациях [8].
- Многие алгоритмы кластеризации не способны определить настоящее количество кластеров в данных. Чаще всего количество кластеров подается на вход алгоритма и подбирается несколькими запусками алгоритма. [1]
Методы оценки качества кластеризации
Метод (индекс) оценки качества кластеризации (англ. cluster validity index, CVI[осн.статья]) — инструментарий для количественной оценки результатов кластеризации.
Принято выделять три группы методов оценки качества кластеризации:
- Внешние (англ. Internal) метрики основаны на сравнении результата кластеризации с априори известным разделением на классы.
- Внутренние (англ. External) метрики отображают качество кластеризации только по информации в данных.
- Относительные (англ. Relative) метрики основаны на оценивании полученного разделения на кластеры относительно результатов работы другого алгоритма.
Внешние метрики оценки качества
Данные метрики используют дополнительные знания о кластеризуемом множестве: распределение по кластерам, количество кластеров и т.д.
Rand Index
Рассмотрим пары
из элементов кластеризуемого множества . Подсчитаем количество пар, в которых:- Элементы принадлежат одному кластеру и одному классу —
- Элементы принадлежат одному кластеру, но разным классам —
- Элементы принадлежат разным кластерам, но одному классу —
- Элементы принадлежат разным кластерам и разным классам —
Индекс Rand оценивает, насколько много из тех пар элементов, которые находились в одном классе, и тех пар элементов, которые находились в разных классах, сохранили это состояние после кластеризации алгоритмом.
Имеет область определения от 0 до 1, где 1 - полное совпадение кластеров с заданными классами, а 0 - отсутствие совпадений.
Adjusted Rand Index
Дано множество
из элементов, и два разделения на кластеры и , совпадения между и могут быть отражены в таблице сопряженности , где каждое обозначает число объектов, входящих как в , так и в : .Тогда Adjusted Rand Index вычисляется по формуле:
где
— значения из таблицы сопряженности.В отличие от обычного Rand Index, Adjusted Rand Index может принимать отрицательные значения, если .
Jaccard Index
Индекс Жаккара похож на Rand Index, только не учитывает пары элементов находящиеся в разные классах и разных кластерах ( ).
Имеет область определения от 0 до 1, где 1 - полное совпадение кластеров с заданными классами, а 0 - отсутствие совпадений.
Folkes and Mallows Index
Индекс Fowlkes-Mallows используется для определения сходства между двумя кластерами.
Более высокое значение индекса означает большее сходство между кластерами. Этот индекс также хорошо работает на зашумленных данных.