Оценка качества в задаче кластеризации

Проблема оценки качества в задаче кластеризации трудноразрешима, как минимум, по двум причинам:

Теорема невозможности Клейнберга — не существует оптимального алгоритма кластеризации.
Многие алгоритмы кластеризации не способны определить настоящее количество кластеров в данных. Чаще всего количество кластеров подается на вход алгоритма и подбирается несколькими запусками алгоритма.

Методы оценки качества кластеризации

Метод оценки качества кластеризации — инструментарий для количественной оценки результатов кластеризации.

Принято выделять две группы методов оценки качества кластеризации:

Внешние (англ. Internal) меры основаны на сравнении результата кластеризации с априори известным разделением на классы.
Внутренние (англ. External) меры отображают качество кластеризации только по информации в данных.

Внешние меры оценки качества

Данные меры используют дополнительные знания о кластеризуемом множестве: распределение по кластерам, количество кластеров и т.д.

Обозначения

Дано множество [math]S[/math] из [math]n[/math] элементов, разделение на классы , и полученное разделение на кластеры , совпадения между [math]X[/math] и [math]Y[/math] могут быть отражены в таблице сопряженности [math]\left[n_{ij}\right][/math], где каждое [math]n_{ij}[/math] обозначает число объектов, входящих как в [math]X_i[/math], так и в [math]Y_j[/math] : [math]n_{ij}=|X_i \cap Y_j|[/math].

Пусть .

Также рассмотрим пары [math](x_i, x_j)[/math] из элементов кластеризуемого множества [math]X[/math]. Подсчитаем количество пар, в которых:

Элементы принадлежат одному кластеру и одному классу — [math]TP[/math]
Элементы принадлежат одному кластеру, но разным классам — [math]TN[/math]
Элементы принадлежат разным кластерам, но одному классу — [math]FP[/math]
Элементы принадлежат разным кластерам и разным классам — [math]FN[/math]

Индекс Rand

Индекс Rand оценивает, насколько много из тех пар элементов, которые находились в одном классе, и тех пар элементов, которые находились в разных классах, сохранили это состояние после кластеризации алгоритмом.

Имеет область определения от 0 до 1, где 1 — полное совпадение кластеров с заданными классами, а 0 — отсутствие совпадений.

Индекс Adjusted Rand

где [math]n_{ij}, a_i, b_j[/math] — значения из таблицы сопряженности.

В отличие от обычного индекса Rand, индекс Adjusted Rand может принимать отрицательные значения, если [math]Index \lt Expected Index[/math].

Индекс Jaccard

Индекс Жаккара похож на Индекс Rand, только не учитывает пары элементов находящиеся в разные классах и разных кластерах ([math]FN[/math]).

Имеет область определения от 0 до 1, где 1 — полное совпадение кластеров с заданными классами, а 0 — отсутствие совпадений.

Индекс Фоулкса – Мэллова

Индекс Фоулкса – Мэллова используется для определения сходства между двумя кластерами.

Более высокое значение индекса означает большее сходство между кластерами. Этот индекс также хорошо работает на зашумленных данных.

Hubert Г statistic

Данная мера отражает среднее расстояние между объектами разных кластеров:

где [math]M = n*(n-1)/2[/math], [math]P(i, j)[/math] — матрица близости, а

Можно заметить, что два объекта влияют на [math]Г[/math], только если они находятся в разных кластерах.

Чем больше значение меры — тем лучше.

Phi Index

Классическая мера корреляции между двумя переменными:

Minkowski Score

Goodman-Kruskal Index

Entropy

Энтропия измеряет "чистоту" меток классов:

Стоит отметить, что если все кластера состоят из объектов одного класса, то энтропия равна 0.

Purity

Чистота ставит в соответствие кластеру самый многочисленный в этом кластере класс.

Чистота находится в интервале [0, 1], причём значение = 1 отвечает оптимальной кластеризации.

F-мера

F-мера представляет собой гармоническое среднее между точностью (precision) и полнотой (recall).

Variation of Information

Данная мера измеряет количество информации, потерянной и полученной при переходе из одного кластера в другой.

Внутренние меры оценки качества

Данные меры оценивают качество структуры кластеров опираясь только непосредственно на нее, не используя внешней информации.

Компактность кластеров (Cluster Cohesion)

Идея данного метода в том, что чем ближе друг к другу находятся объекты внутри кластеров, тем лучше разделение.

Таким образом, необходимо минимизировать внутриклассовое расстояние, например, сумму квадратов отклонений:

, где — количество кластеров.

Отделимость кластеров (Cluster Separation)

В данном случае идея противоположная — чем дальше друг от друга находятся объекты разных кластеров, тем лучше.

Поэтому здесь стоит задача максимизации суммы квадратов отклонений:

, где — количество кластеров.

Индекс Данна (Dunn Index)

Индекс Данна имеет множество вариаций, оригинальная версия выглядит следующим образом:

,

где:

— межкластерное расстояние (оценка разделения), ,

CS Index

Был предложен в области сжатия изображений, но может быть успешно адаптирован для любого другого окружения. Он оценивает компактность по диаметру кластера, а отделимость — как дистанцию между ближайшими элементами двух кластеров.

.

Чем меньше значение данного индекса, тем выше качество кластеризации.

Sym-index

.

Здесь — дистанция симметрии для точки [math]x_i[/math] из кластера [math]c_k[/math].

Чем выше данное значение, тем лучше.

Point Symmetry-Distance based indices (SymDB, SymD, Sym33)

Модифицируют оценку компактности для индексов Дэвиса-Боулдина, Данна и gD33 соответственно.

SymDB вычисляется аналогично DB с изменением вычисления [math]S[/math] на:

.

Данная оценка должна уменьшаться для улучшения качества кластеризации.

В SymD переопределена функция [math]\Delta[/math]:

.

в Sym33 аналогично SymD переопределена [math]\Delta[/math]:

.

Последние две оценки должны расти для улучшения качества кластеризации.

Negentropy increment

В отличие от подавляющего большинства других оценок, не основывается на сравнении компактности и разделимости. Определяется следующим образом:

.

Здесь [math]p(c_k) = |c_k| / N[/math], [math]|cov_{c_k}|[/math] - определитель ковариационной матрицы кластера [math]c_k[/math], [math]|cov_X|[/math] - определитель ковариационной матрицы всего датасета.

Данная оценка должна уменьшаться пропорционально росту качества кластеризации.

SV-Index

Одна из самых новых из рассматриваемых в данном разделе оценок. Измеряет разделимость по дистанции между ближайшими точка кластеров, а компактность — по расстоянию от пограничных точек кластера до его центроида.

.

Данная оценка должна увеличиваться.

OS-Index

Отличается от предыдущей оценки усложненным способом вычисления оценки разделимости.

.

Где

.

при , и [math]0[/math] в ином случае.

Функции [math]a[/math] и [math]b[/math] определены следующим образом:

.

Данная оценка, как и предыдущая, должна возрастать.

Сравнение

Не существует лучшего метода оценки качества кластеризации. Однако, в рамках исследования^[1] была предпринята попытка сравнить существующие меры на различных данных. Полученные результаты показали, что на искусственных датасетах наилучшим образом себя проявили индексы Silhouette(Sil), Davies–Bouldin*(DB*) и Calinski–Harabasz(CH). На реальных датасетах лучше всех показал себя Score function.

См. также

Кластеризация
Оценка качества в задачах классификации и регрессии^{[на 28.01.19 не создан]}

Источники информации

Примечания

↑ An extensive comparative study of cluster validity indices

[1] An extensive comparative study of cluster validity indices

[1]