Оценка качества в задаче кластеризации — различия между версиями
Linarkou (обсуждение | вклад) (→Jaccard Index) |
Linarkou (обсуждение | вклад) (→Jaccard Index) |
||
Строка 82: | Строка 82: | ||
==== Jaccard Index ==== | ==== Jaccard Index ==== | ||
− | Индекс Жаккара похож на [[#Rand_Index | + | Индекс Жаккара похож на [[#Rand_Index|Rand Index]], только не учитывает пары элементов находящиеся в разные классах и разных кластерах (<math>FN</math>). |
: <math> | : <math> | ||
Jaccard = \dfrac{TP}{TP+TN+FP} | Jaccard = \dfrac{TP}{TP+TN+FP} |
Версия 00:45, 9 января 2019
Проблема оценки качества в задаче кластеризации трудноразрешима, как минимум, по двум причинам:
- Не существует оптимального алгоритма кластеризации. Иными словами, различные алгоритмы (или различные конфигурации одного алгоритма) выдают разные разделения на кластеры, и ни одно из них не является лучшим во всех ситуациях [8].
- Многие алгоритмы кластеризации не способны определить настоящее количество кластеров в данных. Чаще всего количество кластеров подается на вход алгоритма и подбирается несколькими запусками алгоритма. [1]
Содержание
Методы оценки качества кластеризации
Метод (индекс) оценки качества кластеризации (англ. cluster validity index, CVI[осн.статья]) — инструментарий для количественной оценки результатов кластеризации.
Принято выделять три группы методов оценки качества кластеризации:
- Внешние (англ. Internal) метрики основаны на сравнении результата кластеризации с априори известным разделением на классы.
- Внутренние (англ. External) метрики отображают качество кластеризации только по информации в данных.
- Относительные (англ. Relative) метрики основаны на оценивании полученного разделения на кластеры относительно результатов работы другого алгоритма.
Внешние метрики оценки качества
Данные метрики используют дополнительные знания о кластеризуемом множестве: распределение по кластерам, количество кластеров и т.д.
Rand Index
Рассмотрим пары
из элементов кластеризуемого множества . Подсчитаем количество пар, в которых:- Элементы принадлежат одному кластеру и одному классу —
- Элементы принадлежат одному кластеру, но разным классам —
- Элементы принадлежат разным кластерам, но одному классу —
- Элементы принадлежат разным кластерам и разным классам —
Индекс Rand оценивает, насколько много из тех пар элементов, которые находились в одном классе, и тех пар элементов, которые находились в разных классах, сохранили это состояние после кластеризации алгоритмом.
Имеет область определения от 0 до 1, где 1 - полное совпадение кластеров с заданными классами, а 0 - отсутствие совпадений.
Adjusted Rand Index
Дано множество
из элементов, и два разделения на кластеры и , совпадения между и могут быть отражены в таблице сопряженности , где каждое обозначает число объектов, входящих как в , так и в : .Тогда Adjusted Rand Index вычисляется по формуле:
где
— значения из таблицы сопряженности.В отличие от обычного Rand Index, Adjusted Rand Index может принимать отрицательные значения, если .
Jaccard Index
Индекс Жаккара похож на Rand Index, только не учитывает пары элементов находящиеся в разные классах и разных кластерах ( ).
Имеет область определения от 0 до 1, где 1 - полное совпадение кластеров с заданными классами, а 0 - отсутствие совпадений.
Folkes and Mallows Index
Индекс Fowlkes-Mallows используется для определения сходства между двумя кластерами.
Более высокое значение индекса означает большее сходство между кластерами. Этот индекс также хорошо работает на зашумленных данных.