Оценка качества в задаче кластеризации

Проблема оценки качества в задаче кластеризации трудноразрешима, как минимум, по двум причинам:

Теорема невозможности Клейнберга — не существует оптимального алгоритма кластеризации.
Многие алгоритмы кластеризации не способны определить настоящее количество кластеров в данных. Чаще всего количество кластеров подается на вход алгоритма и подбирается несколькими запусками алгоритма.

Методы оценки качества кластеризации

Метод оценки качества кластеризации — инструментарий для количественной оценки результатов кластеризации.

Принято выделять две группы методов оценки качества кластеризации:

Внешние (англ. Internal) метрики основаны на сравнении результата кластеризации с априори известным разделением на классы.
Внутренние (англ. External) метрики отображают качество кластеризации только по информации в данных.

Внешние метрики оценки качества

Данные метрики используют дополнительные знания о кластеризуемом множестве: распределение по кластерам, количество кластеров и т.д.

Обозначения

Дано множество [math]S[/math] из [math]n[/math] элементов, разделение на классы , и полученное разделение на кластеры , совпадения между [math]X[/math] и [math]Y[/math] могут быть отражены в таблице сопряженности [math]\left[n_{ij}\right][/math], где каждое [math]n_{ij}[/math] обозначает число объектов, входящих как в [math]X_i[/math], так и в [math]Y_j[/math] : [math]n_{ij}=|X_i \cap Y_j|[/math].

Пусть .

Также рассмотрим пары [math](x_i, x_j)[/math] из элементов кластеризуемого множества [math]X[/math]. Подсчитаем количество пар, в которых:

Элементы принадлежат одному кластеру и одному классу — [math]TP[/math]
Элементы принадлежат одному кластеру, но разным классам — [math]TN[/math]
Элементы принадлежат разным кластерам, но одному классу — [math]FP[/math]
Элементы принадлежат разным кластерам и разным классам — [math]FN[/math]

Rand Index

Индекс Rand оценивает, насколько много из тех пар элементов, которые находились в одном классе, и тех пар элементов, которые находились в разных классах, сохранили это состояние после кластеризации алгоритмом.

Имеет область определения от 0 до 1, где 1 — полное совпадение кластеров с заданными классами, а 0 — отсутствие совпадений.

Adjusted Rand Index

где [math]n_{ij}, a_i, b_j[/math] — значения из таблицы сопряженности.

В отличие от обычного Rand Index, Adjusted Rand Index может принимать отрицательные значения, если [math]Index \lt Expected Index[/math].

Jaccard Index

Индекс Жаккара похож на Rand Index, только не учитывает пары элементов находящиеся в разные классах и разных кластерах ([math]FN[/math]).

Имеет область определения от 0 до 1, где 1 — полное совпадение кластеров с заданными классами, а 0 — отсутствие совпадений.

Folkes and Mallows Index

Индекс Fowlkes-Mallows используется для определения сходства между двумя кластерами.

Более высокое значение индекса означает большее сходство между кластерами. Этот индекс также хорошо работает на зашумленных данных.

Hubert Г statistic

Данная метрика отражает среднее расстояние между объектами разных кластеров:

где [math]M = n*(n-1)/2[/math], [math]P(i, j)[/math] — матрица близости, а

Можно заметить, что два объекта влияют на [math]Г[/math], только если они находятся в разных кластерах.

Чем больше значение метрики — тем лучше.

Phi Index

Классическая мера корреляции между двумя переменными:

Minkowski Score

Goodman-Kruskal Index

Entropy

Энтропия измеряет "чистоту" меток классов:

Стоит отметить, что если все кластера состоят из объектов одного класса, то энтропия равна 0.

Purity

Чистота ставит в соответствие кластеру самый многочисленный в этом кластере класс.

Чистота находится в интервале [0, 1], причём значение = 1 отвечает оптимальной кластеризации.

F-мера

F-мера представляет собой гармоническое среднее между точностью (precision) и полнотой (recall).

Variation of Information

Данная метрика измеряет количество информации, потерянной и полученной при переходе из одного кластера в другой.

Внутренние метрики оценки качества

Данные метрики оценивают качество структуры кластеров опираясь только непосредственно на нее, не используя внешней информации.

Компактность кластеров (Cluster Cohesion)

Идея данного метода в том, что чем ближе друг к другу находятся объекты внутри кластеров, тем лучше разделение.

Таким образом, необходимо минимизировать внутриклассовое расстояние, например, сумму квадратов отклонений:

, где — количество кластеров.

Отделимость кластеров (Cluster Separation)

В данном случае идея противоположная — чем дальше друг от друга находятся объекты разных кластеров, тем лучше.

Поэтому здесь стоит задача максимизации суммы квадратов отклонений:

, где — количество кластеров.

Индекс Данна (Dunn Index)

Индекс Данна имеет множество вариаций, оригинальная версия выглядит следующим образом:

,

где:

— межкластерное расстояние (оценка разделения), ,

— диаметр кластера (оценка сплоченности), .

Обобщенный Индекс Данна (gD31, gD41, gD51, gD33, gD43, gD53)

Все эти вариации являются комбинациями 3 вариантов вычисления оценки разделения [math]\delta[/math] и оценки компактности [math]\Delta[/math]

Оценки разделения:

,

.

Оценки компактности:

,

.

Индекс S_Dbw

Основан на вычислении Евклидовой нормы

и стандартных отклонений

,

.

Сам индекс определяется формулой:

.

Здесь

,

, если и в ином случае.

Силуэт (Silhouette)

Значение силуэта показывает, насколько объект похож на свой кластер по сравнению с другими кластерами.

Оценка для всей кластерной структуры:

,

где:

— среднее расстояние от до других объектов из кластера (компактность),

— среднее расстояние от до объектов из другого кластера (отделимость).

Можно заметить, что

.

Чем ближе данная оценка к 1, тем лучше.

Есть также упрощенная вариация силуэта: [math]a(x_i, c_k)[/math] и [math]b(x_i, c_k)[/math] вычисляются через центры кластеров.

Calinski–Harabasz index

Компактность основана на расстоянии от точек кластера до их центроидов, а разделимость - на расстоянии от центроид кластеров до глобального центроида.

C-Index

C-Index - нормализованная оценка компактности:

,

где:

,

- сумма минимальных (максимальных) расстояний между парами всех объектов во всем датасете.

Davies–Bouldin Index

Это, возможно, одна из самых используемых мер оценки качества кластеризации.
Она вычисляет компактность как расстояние от объектов кластера до их центроидов, а отделимость - как расстояние между центроидами.

,

где:

Существует еще одна вариация данной метрики, которая была предложена автором вместе с основной версией:

Score function

Индекс, основанный на суммировании. Здесь оценка компактности выражается в дистанции от точек кластера до его центроида, а оценка разделимости — в дистанции от центроидов кластеров до глобального центроида.

,

где:

,

Чем больше данный индекс, тем выше качество.

Gamma Index

где:

— число пар таких, что (1) и принадлежат разным кластерам, и (2) ,

COP Index

В данной метрике компактность вычисляется как расстояние от точек кластера до его центроиды, а разделимость основана на расстоянии до самого отдаленного соседа.

CS Index

Был предложен в области сжатия изображений, но может быть успешно адаптирован для любого другого окружения. Он оценивает компактность по диаметру кластера, а отделимость — как дистанцию между ближайшими элементами двух кластеров.

Чем меньше значение данного индекса, тем выше качество кластеризации.

Sym-index

Здесь — дистанция симметрии для точки [math]x_i[/math] из кластера [math]c_k[/math].

Чем выше данное значение, тем лучше.

Point Symmetry-Distance based indices (SymDB, SymD, Sym33)

Модифицируют оценку компактности для индексов Дэвиса-Боулдина, Данна и gD33 соответственно.

SymDB вычисляется аналогично DB с изменением вычисления [math]S[/math] на:

.

Данная оценка должна уменьшаться для улучшения качества кластеризации.

В SymD переопределена функция [math]\Delta[/math]:

.

в Sym33 аналогично SymD переопределена [math]\Delta[/math]:

.

Последние две оценки должны расти для улучшения качества кластеризации.

Сравнение

Не существует лучшего метода оценки качества кластеризации. Однако, в рамках исследования^[1] была предпринята попытка сравнить существующие метрики на различных данных. Полученные результаты показали, что на искусственных датасетах наилучшим образом себя проявили индексы Silhouette(Sil), Davies–Bouldin*(DB*) и Calinski–Harabasz(CH). На реальных датасетах лучше всех показал себя Score function.

См. также

Кластеризация
Оценка качества в задачах классификации и регрессии^{[на 28.01.19 не создан]}

Источники информации

Примечания

↑ An extensive comparative study of cluster validity indices

[1] An extensive comparative study of cluster validity indices

[1]

Оценка качества в задаче кластеризации

Методы оценки качества кластеризации

Внешние метрики оценки качества

Обозначения

Rand Index

Adjusted Rand Index

Jaccard Index

Folkes and Mallows Index

Hubert Г statistic

Phi Index

Minkowski Score

Goodman-Kruskal Index

Entropy

Purity

F-мера

Variation of Information

Внутренние метрики оценки качества

Компактность кластеров (Cluster Cohesion)

Отделимость кластеров (Cluster Separation)

Индекс Данна (Dunn Index)

Обобщенный Индекс Данна (gD31, gD41, gD51, gD33, gD43, gD53)

Индекс S_Dbw

Силуэт (Silhouette)

Calinski–Harabasz index

C-Index

Davies–Bouldin Index

Score function

Gamma Index

COP Index

CS Index

Sym-index

Point Symmetry-Distance based indices (SymDB, SymD, Sym33)

Сравнение

См. также

Источники информации

Примечания

Навигация

Поиск