<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
		<id>http://neerc.ifmo.ru/wiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=195.19.236.234&amp;*</id>
		<title>Викиконспекты - Вклад участника [ru]</title>
		<link rel="self" type="application/atom+xml" href="http://neerc.ifmo.ru/wiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=195.19.236.234&amp;*"/>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:%D0%92%D0%BA%D0%BB%D0%B0%D0%B4/195.19.236.234"/>
		<updated>2026-04-09T15:32:30Z</updated>
		<subtitle>Вклад участника</subtitle>
		<generator>MediaWiki 1.30.0</generator>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%BA%D0%B0%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%B0_%D0%B2_%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%B5_%D0%BA%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D0%B8&amp;diff=71943</id>
		<title>Оценка качества в задаче кластеризации</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%BA%D0%B0%D1%87%D0%B5%D1%81%D1%82%D0%B2%D0%B0_%D0%B2_%D0%B7%D0%B0%D0%B4%D0%B0%D1%87%D0%B5_%D0%BA%D0%BB%D0%B0%D1%81%D1%82%D0%B5%D1%80%D0%B8%D0%B7%D0%B0%D1%86%D0%B8%D0%B8&amp;diff=71943"/>
				<updated>2019-11-28T16:17:21Z</updated>
		
		<summary type="html">&lt;p&gt;195.19.236.234: /* Источники информации */ исправлена фамилия&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;'''Проблема оценки качества в [[Кластеризация|задаче кластеризации]]''' трудноразрешима, как минимум, по двум причинам:&lt;br /&gt;
* [[Кластеризация#Теорема невозможности Клейнберга|Теорема невозможности Клейнберга]] {{---}} не существует оптимального алгоритма кластеризации.&lt;br /&gt;
* Многие алгоритмы кластеризации не способны определить настоящее количество кластеров в данных. Чаще всего количество кластеров подается на вход алгоритма и подбирается несколькими запусками алгоритма.&lt;br /&gt;
&lt;br /&gt;
== Методы оценки качества кластеризации ==&lt;br /&gt;
'''Метод оценки качества кластеризации''' {{---}} инструментарий для количественной оценки результатов кластеризации.&lt;br /&gt;
&lt;br /&gt;
Принято выделять три группы методов оценки качества кластеризации:&lt;br /&gt;
* '''Внешние''' (англ. ''Internal'') метрики основаны на сравнении результата кластеризации с априори известным разделением на классы. &lt;br /&gt;
* '''Внутренние''' (англ. ''External'') метрики отображают качество кластеризации только по информации в данных. &lt;br /&gt;
&lt;br /&gt;
== Внешние метрики оценки качества ==&lt;br /&gt;
Данные метрики используют дополнительные знания о кластеризуемом множестве: распределение по кластерам, количество кластеров и т.д.&lt;br /&gt;
&lt;br /&gt;
=== Обозначения ===&lt;br /&gt;
Дано множество &amp;lt;math&amp;gt;S&amp;lt;/math&amp;gt; из &amp;lt;math&amp;gt;n&amp;lt;/math&amp;gt; элементов, разделение на классы &amp;lt;math&amp;gt;X = \{ X_1, X_2, \ldots , X_r \}&amp;lt;/math&amp;gt;, и полученное разделение на кластеры &amp;lt;math&amp;gt;Y = \{ Y_1, Y_2, \ldots , Y_s \}&amp;lt;/math&amp;gt;, совпадения между &amp;lt;math&amp;gt;X&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;Y&amp;lt;/math&amp;gt; могут быть отражены в таблице сопряженности &amp;lt;math&amp;gt;\left[n_{ij}\right]&amp;lt;/math&amp;gt;, где каждое &amp;lt;math&amp;gt;n_{ij}&amp;lt;/math&amp;gt; обозначает число объектов, входящих как в &amp;lt;math&amp;gt;X_i&amp;lt;/math&amp;gt;, так и в &amp;lt;math&amp;gt;Y_j&amp;lt;/math&amp;gt; : &amp;lt;math&amp;gt;n_{ij}=|X_i \cap Y_j|&amp;lt;/math&amp;gt;.&lt;br /&gt;
: &amp;lt;math&amp;gt;\begin{array}{c|cccc|c}&lt;br /&gt;
{{} \atop X}\!\diagdown\!^Y &amp;amp;&lt;br /&gt;
Y_1&amp;amp;&lt;br /&gt;
Y_2&amp;amp;&lt;br /&gt;
\ldots&amp;amp;&lt;br /&gt;
Y_s&amp;amp;&lt;br /&gt;
\text{Sums}&lt;br /&gt;
\\&lt;br /&gt;
\hline&lt;br /&gt;
X_1&amp;amp;&lt;br /&gt;
n_{11}&amp;amp;&lt;br /&gt;
n_{12}&amp;amp;&lt;br /&gt;
\ldots&amp;amp;&lt;br /&gt;
n_{1s}&amp;amp;&lt;br /&gt;
a_1&lt;br /&gt;
\\&lt;br /&gt;
X_2&amp;amp;&lt;br /&gt;
n_{21}&amp;amp;&lt;br /&gt;
n_{22}&amp;amp;&lt;br /&gt;
\ldots&amp;amp;&lt;br /&gt;
n_{2s}&amp;amp;&lt;br /&gt;
a_2&lt;br /&gt;
\\&lt;br /&gt;
\vdots&amp;amp;&lt;br /&gt;
\vdots&amp;amp;&lt;br /&gt;
\vdots&amp;amp;&lt;br /&gt;
\ddots&amp;amp;&lt;br /&gt;
\vdots&amp;amp;&lt;br /&gt;
\vdots&lt;br /&gt;
\\&lt;br /&gt;
X_r&amp;amp;&lt;br /&gt;
n_{r1}&amp;amp;&lt;br /&gt;
n_{r2}&amp;amp;&lt;br /&gt;
\ldots&amp;amp;&lt;br /&gt;
n_{rs}&amp;amp;&lt;br /&gt;
a_r&lt;br /&gt;
\\&lt;br /&gt;
\hline&lt;br /&gt;
\text{Sums}&amp;amp;&lt;br /&gt;
b_1&amp;amp;&lt;br /&gt;
b_2&amp;amp;&lt;br /&gt;
\ldots&amp;amp;&lt;br /&gt;
b_s&amp;amp;&lt;br /&gt;
n&lt;br /&gt;
\end{array}&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Пусть &amp;lt;math&amp;gt;p_{ij} = \dfrac{ n_{ij} }{ n }, p_{i} = \dfrac{ a_{i} }{ n }, p_{j} = \dfrac{ b_{j} }{ n } &amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Также рассмотрим пары &amp;lt;math&amp;gt;(x_i, x_j)&amp;lt;/math&amp;gt; из элементов кластеризуемого множества &amp;lt;math&amp;gt;X&amp;lt;/math&amp;gt;. Подсчитаем количество пар, в которых:&lt;br /&gt;
* Элементы принадлежат одному кластеру и одному классу {{---}} &amp;lt;math&amp;gt;TP&amp;lt;/math&amp;gt;&lt;br /&gt;
* Элементы принадлежат одному кластеру, но разным классам {{---}} &amp;lt;math&amp;gt;TN&amp;lt;/math&amp;gt;&lt;br /&gt;
* Элементы принадлежат разным кластерам, но одному классу {{---}} &amp;lt;math&amp;gt;FP&amp;lt;/math&amp;gt;&lt;br /&gt;
* Элементы принадлежат разным кластерам и разным классам {{---}} &amp;lt;math&amp;gt;FN&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Rand Index ===&lt;br /&gt;
Индекс Rand оценивает, насколько много из тех пар элементов, которые находились в одном классе, и тех пар элементов, которые находились в разных классах, сохранили это состояние после кластеризации алгоритмом.&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
Rand = \dfrac{TP+FN}{TP+TN+FP+FN}&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
Имеет область определения от 0 до 1, где 1 {{---}} полное совпадение кластеров с заданными классами, а 0 {{---}} отсутствие совпадений.&lt;br /&gt;
&lt;br /&gt;
=== Adjusted Rand Index ===&lt;br /&gt;
:&amp;lt;math&amp;gt;\overbrace{ARI}^\text{Adjusted Index} = \frac{ \overbrace{\sum_{ij} \binom{n_{ij}}{2}}^\text{Index} - \overbrace{[\sum_i \binom{a_i}{2} \sum_j \binom{b_j}{2}] / \binom{n}{2}}^\text{Expected Index} }{ \underbrace{\frac{1}{2} [\sum_i \binom{a_i}{2} + \sum_j \binom{b_j}{2}]}_\text{Max Index} - \underbrace{[\sum_i \binom{a_i}{2} \sum_j \binom{b_j}{2}] / \binom{n}{2}}_\text{Expected Index} }&amp;lt;/math&amp;gt;&lt;br /&gt;
где &amp;lt;math&amp;gt;n_{ij}, a_i, b_j&amp;lt;/math&amp;gt; {{---}} значения из таблицы сопряженности.&lt;br /&gt;
&lt;br /&gt;
В отличие от обычного [[{{NAMESPACE}}:{{PAGENAME}}#Rand_Index|Rand Index]], Adjusted Rand Index может принимать отрицательные значения, если &amp;lt;math&amp;gt;Index &amp;lt; Expected Index&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
=== Jaccard Index ===&lt;br /&gt;
Индекс Жаккара похож на [[#Rand_Index|Rand Index]], только не учитывает пары элементов находящиеся в разные классах и разных кластерах (&amp;lt;math&amp;gt;FN&amp;lt;/math&amp;gt;).&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
Jaccard = \dfrac{TP}{TP+TN+FP}&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
Имеет область определения от 0 до 1, где 1 {{---}} полное совпадение кластеров с заданными классами, а 0 {{---}} отсутствие совпадений.&lt;br /&gt;
&lt;br /&gt;
=== Folkes and Mallows Index ===&lt;br /&gt;
Индекс Fowlkes-Mallows используется для определения сходства между двумя кластерами.&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
FM = \sqrt{ \dfrac{TP}{TP+TN} \cdot \dfrac{TP}{TP+FP} }&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
Более высокое значение индекса означает большее сходство между кластерами. Этот индекс также хорошо работает на зашумленных данных.&lt;br /&gt;
&lt;br /&gt;
=== Hubert Г statistic ===&lt;br /&gt;
Данная метрика отражает среднее расстояние между объектами разных кластеров:&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
Г = \dfrac{1}{M} \sum \limits_{i=1}^{N-1} \sum \limits_{i=i+1}^{N} P(i, j) \cdot Q(i, j),&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
где &amp;lt;math&amp;gt;M = n*(n-1)/2&amp;lt;/math&amp;gt;, &amp;lt;math&amp;gt;P(i, j)&amp;lt;/math&amp;gt; {{---}} матрица близости, а&lt;br /&gt;
: &amp;lt;math&amp;gt;Q(i, j) = \begin{cases}&lt;br /&gt;
  0, &amp;amp; \mbox{если x(i) и x(j) лежат в одном кластере} \\&lt;br /&gt;
  1,  &amp;amp; \mbox{в другом случае } \\&lt;br /&gt;
\end{cases}&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
Можно заметить, что два объекта влияют на &amp;lt;math&amp;gt;Г&amp;lt;/math&amp;gt;, только если они находятся в разных кластерах.&lt;br /&gt;
&lt;br /&gt;
Чем больше значение метрики {{---}} тем лучше.&lt;br /&gt;
&lt;br /&gt;
=== Phi Index ===&lt;br /&gt;
Классическая мера корреляции между двумя переменными:&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
\Phi = \dfrac{ TP \times FN - TN \times FP }{ (TP + TN)(TP + FP)(FN + FP)(FN + TN) }&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Minkowski Score ===&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
MS = \dfrac{ \sqrt{ \sum_i \binom{a_i}{2} + \sum_j \binom{b_i}{2} - 2\sum_{ij} \binom{ n_{ij} }{ 2 } } }{ \sqrt{ \sum_j \binom{b_i}{2} } }&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Goodman-Kruskal Index ===&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
GK = \sum_i p_i(1 - \max_j \dfrac{ p_{ij} }{ p_i })&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Entropy ===&lt;br /&gt;
Энтропия измеряет &amp;quot;чистоту&amp;quot; меток классов:&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
E = - \sum_i p_i ( \sum_j \dfrac{ p_{ij} }{ p_i } log( \dfrac{ p_{ij} }{ p_i } ) )&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Стоит отметить, что если все кластера состоят из объектов одного класса, то энтропия равна 0.&lt;br /&gt;
&lt;br /&gt;
=== Purity ===&lt;br /&gt;
Чистота ставит в соответствие кластеру самый многочисленный в этом кластере класс. &lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
P = \sum_i p_i ( \max_j \dfrac{ p_{ij} }{ p_i } )&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Чистота находится в интервале [0, 1], причём значение = 1 отвечает оптимальной кластеризации.&lt;br /&gt;
&lt;br /&gt;
=== F-мера ===&lt;br /&gt;
F-мера представляет собой гармоническое среднее между точностью (precision) и полнотой (recall).&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
F = \sum_j p_j \max_i \big\lbrack 2 \dfrac{ p_{ij} }{ p_i } \dfrac{ p_{ij} }{ p_j } \big/ (\dfrac{ p_{ij} }{ p_i } + \dfrac{ p_{ij} }{ p_j }) \big\rbrack&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Variation of Information ===&lt;br /&gt;
Данная метрика измеряет количество информации, потерянной и полученной при переходе из одного кластера в другой.&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
VI = - \sum_i p_i \log p_i - \sum_i p_j log p_j - 2 \sum_i \sum_j p_{ij} \log \dfrac{ p_{ij} }{ p_i p_j }&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Внутренние метрики оценки качества ==&lt;br /&gt;
Данные метрики оценивают качество структуры кластеров опираясь только непосредственно на нее, не используя внешней информации.&lt;br /&gt;
&lt;br /&gt;
=== Компактность кластеров (Cluster Cohesion) ===&lt;br /&gt;
Идея данного метода в том, что чем ближе друг к другу находятся объекты внутри кластеров, тем лучше разделение.&lt;br /&gt;
&lt;br /&gt;
Таким образом, необходимо минимизировать внутриклассовое расстояние, например, сумму квадратов отклонений:&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
WSS = \sum \limits_{j=1}^{M} \sum \limits_{i = 1}^{|C_j|} (x_{ij} - \overline{x_j})^2&lt;br /&gt;
&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;M&amp;lt;/math&amp;gt; {{---}} количество кластеров. &lt;br /&gt;
&lt;br /&gt;
=== Отделимость кластеров (Cluster Separation) ===&lt;br /&gt;
В данном случае идея противоположная {{---}} чем дальше друг от друга находятся объекты разных кластеров, тем лучше. &lt;br /&gt;
&lt;br /&gt;
Поэтому здесь стоит задача максимизации суммы квадратов отклонений:&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
BSS = n \cdot \sum \limits_{j=1}^{M} (\overline{x_{j}} - \overline{x})^2&lt;br /&gt;
&amp;lt;/math&amp;gt;, где &amp;lt;math&amp;gt;M&amp;lt;/math&amp;gt; {{---}} количество кластеров. &lt;br /&gt;
&lt;br /&gt;
=== Индекс Данна (Dunn Index) ===&lt;br /&gt;
Индекс Данна имеет множество вариаций, оригинальная версия выглядит следующим образом:&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
D(C) = \dfrac{ min_{c_k \in C} \{ min_{c_l \in C \setminus c_k} \{ \delta(c_k, c_l) \} \} }{ max_{c_k \in C} \{ \Delta(c_k) \} } &lt;br /&gt;
&amp;lt;/math&amp;gt;,&lt;br /&gt;
где:&lt;br /&gt;
: &amp;lt;math&amp;gt;\delta&amp;lt;/math&amp;gt; {{---}} межкластерное расстояние, &amp;lt;math&amp;gt;\delta(c_k, c_k) = min_{x_i \in c_k, y_j \in c_l} \|x_i - x_j\|&amp;lt;/math&amp;gt;,&lt;br /&gt;
: &amp;lt;math&amp;gt;\Delta(c_k)&amp;lt;/math&amp;gt; {{---}} диаметр кластера, &amp;lt;math&amp;gt;\Delta(c_k) = max_{x_i,x_j \in c_k} \|x_i - x_j\|&amp;lt;/math&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
=== Силуэт (Silhouette) ===&lt;br /&gt;
Значение силуэта показывает, насколько объект похож на свой кластер по сравнению с другими кластерами.&lt;br /&gt;
&lt;br /&gt;
Оценка для всей кластерной структуры:&lt;br /&gt;
: &amp;lt;math&amp;gt; &lt;br /&gt;
Sil(С) = \dfrac{1}{N} \sum_{c_k \in C} \sum_{x_i \in c_k} \dfrac{ b(x_i, c_k) - a(x_i, c_k) }{ max \{ a(x_i, c_k), b(x_i, c_k) \}  }&lt;br /&gt;
&amp;lt;/math&amp;gt;,&lt;br /&gt;
где:&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
a(x_i, c_k) = \dfrac{1}{|c_k|} \sum_{x_j \in c_k} \|x_i - x_j\|&lt;br /&gt;
&amp;lt;/math&amp;gt; {{---}} среднее расстояние от &amp;lt;math&amp;gt;x_i \in c_k&amp;lt;/math&amp;gt; до других объектов из кластера &amp;lt;math&amp;gt;c_k&amp;lt;/math&amp;gt; (компактность),&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
b(x_i, c_k) = min_{c_l \in C \setminus c_k } \{ \dfrac{1}{|c_l|} \sum_{x_j \in c_l} \|x_i - x_j\|&lt;br /&gt;
&amp;lt;/math&amp;gt; {{---}} среднее расстояние от &amp;lt;math&amp;gt;x_i \in c_k&amp;lt;/math&amp;gt; до объектов из другого кластера &amp;lt;math&amp;gt;c_l: k \neq l&amp;lt;/math&amp;gt; (отделимость).&lt;br /&gt;
Можно заметить, что &lt;br /&gt;
: &amp;lt;math&amp;gt; -1 \le Sil(C) \le 1&lt;br /&gt;
&amp;lt;/math&amp;gt;.&lt;br /&gt;
Чем ближе данная оценка к 1, тем лучше.&lt;br /&gt;
&lt;br /&gt;
Есть также упрощенная вариация силуэта: &amp;lt;math&amp;gt;a(x_i, c_k)&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;b(x_i, c_k)&amp;lt;/math&amp;gt; вычисляются через центры кластеров.&lt;br /&gt;
&lt;br /&gt;
=== Calinski–Harabasz index ===&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
CH(C) = \dfrac{ N-K }{ K-1 } \cdot \dfrac{ sum_{c_k \in C} |c_k| \cdot \| \overline{c_k} - \overline{X} \| }{ sum_{c_k \in C} sum_{ x_i \in c_k } \| x_i - \overline{c_k} \| }&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
Компактность основана на расстоянии от точек кластера до их центроидов, а разделимость - на расстоянии от центроид кластеров до глобального центроида.&lt;br /&gt;
&lt;br /&gt;
=== C-Index ===&lt;br /&gt;
C-Index - нормализованная оценка компактности:&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
CI(C) = \dfrac{ S(C) - S_{min}(C) }{ S_{max}(C) - S_{min}(C)}&lt;br /&gt;
&amp;lt;/math&amp;gt;,&lt;br /&gt;
где:&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
S(C) = \sum \limits_{c_k \in C} \sum \limits_{x_i, x_j \in c_k} \| x_i - x_j \|&lt;br /&gt;
&amp;lt;/math&amp;gt;,&lt;br /&gt;
: &amp;lt;math&amp;gt;S_{min}(C) (S_{max}(C))&amp;lt;/math&amp;gt; - сумма &amp;lt;math&amp;gt;\dfrac{ |c_k|\cdot(|c_k| - 1) }{2}&amp;lt;/math&amp;gt; минимальных (максимальных) расстояний между парами всех объектов во всем датасете.&lt;br /&gt;
&lt;br /&gt;
=== Davies–Bouldin Index ===&lt;br /&gt;
Это, возможно, одна из самых используемых мер оценки качества кластеризации.&amp;lt;br/&amp;gt;&lt;br /&gt;
Она вычисляет компактность как расстояние от объектов кластера до их центроидов, а отделимость - как расстояние между центроидами.&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
DB(C) = \dfrac{1}{K} \sum \limits_{c_k \in C} \max \limits_{c_l \in C \setminus c_k} \Big\{ \dfrac{ S(c_k)+S(c_l) }{ \| \overline{c_k} - \overline{c_l} \| } \Big\}&lt;br /&gt;
&amp;lt;/math&amp;gt;,&lt;br /&gt;
где:&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
S(c_k) = \dfrac{ 1 }{ |c_k| } \sum \limits_{x_i \in c_k} \|x_i - \overline{c_k}\|&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Существует еще одна вариация данной метрики, которая была предложена автором вместе с основной версией:&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
DB^*(C) = \dfrac{1}{K} \sum \limits_{c_k \in C} \dfrac&lt;br /&gt;
{ \max \limits_{c_l \in C \setminus c_k} \{ S(c_k)+S(c_l) \} }&lt;br /&gt;
{ \min \limits_{c_l \in C \setminus c_k} \{ \| \overline{c_k} - \overline{c_l} \| \} }&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Score function ===&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
SF(C) = 1 - \dfrac{ 1 }{ e^{e^{bcd(C) + wcd(C)}} }&lt;br /&gt;
&amp;lt;/math&amp;gt;,&lt;br /&gt;
где:&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
bcd(C) = \dfrac{ \sum \limits_{c_k \in C} |c_k| \cdot \|\overline{c_k} - \overline{X}\| }{ N \times K }&lt;br /&gt;
&amp;lt;/math&amp;gt;,&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
wcd(C) = \sum \limits_{c_k \in C} \dfrac{ 1 }{ |c_k| } \sum \limits_{x_i \in c_k} \|x_i - \overline{c_k}\|&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Gamma Index ===&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
G(C) = \dfrac{ \sum_{c_k \in C} \sum_{x_i,x_j \in c_k} |c_k| \cdot dl(x_i, x_j) }{ n_w (\binom{N}{2} - n_w) }&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
где:&lt;br /&gt;
: &amp;lt;math&amp;gt;dl(x_i,x_j)&amp;lt;/math&amp;gt; {{---}} число пар &amp;lt;math&amp;gt;(x_k, x_l) \in X&amp;lt;/math&amp;gt; таких, что (1) &amp;lt;math&amp;gt;x_k&amp;lt;/math&amp;gt; и &amp;lt;math&amp;gt;x_l&amp;lt;/math&amp;gt; принадлежат разным кластерам, и (2) &amp;lt;math&amp;gt;\|x_k - x_l\| &amp;lt; \|x_i - x_j\|&amp;lt;/math&amp;gt;,&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
n_w = \sum_{c_k \in C} \binom{|c_k|}{2}&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== COP Index ===&lt;br /&gt;
В данной метрике компактность вычисляется как расстояние от точек кластера до его центроиды, а разделимость основана на расстоянии до самого отдаленного соседа.&lt;br /&gt;
: &amp;lt;math&amp;gt;&lt;br /&gt;
COP(C) = \dfrac{1}{N} \sum \limits_{c_k \in C} |c_k| \dfrac{ 1/|c_k| \sum_{x_i \in c_k} \| x_i - \overline{c_k} \| }{ \min_{x_i \notin c_k} \max_{x_j \in c_k} \| x_i - x_j\| }&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Сравнение ==&lt;br /&gt;
Не существует лучшего метода оценки качества кластеризации. Однако, в рамках исследования&amp;lt;ref&amp;gt;[https://www.sciencedirect.com/science/article/abs/pii/S003132031200338X An extensive comparative study of cluster validity indices]&amp;lt;/ref&amp;gt; была предпринята попытка сравнить существующие метрики на различных данных. Полученные результаты показали, что на искусственных датасетах наилучшим образом себя проявили индексы Silhouette(Sil), Davies–Bouldin*(DB*) и Calinski–Harabasz(CH). На реальных датасетах лучше всех показал себя Score function.&lt;br /&gt;
&lt;br /&gt;
== См. также ==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Оценка качества в задачах классификации и регрессии]]&amp;lt;sup&amp;gt;[на 28.01.19 не создан]&amp;lt;/sup&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Источники информации ==&lt;br /&gt;
# [https://en.wikipedia.org/wiki/Category:Clustering_criteria Wikipedia {{---}} Category:Clustering criteria]&lt;br /&gt;
# [http://synthesis.ipi.ac.ru/sigmod/seminar/sivogolovko20111124.pdf Сивоголовко Е. В. Методы оценки качества четкой кластеризации]&lt;br /&gt;
# [http://www.cs.kent.edu/~jin/DM08/ClusterValidation.pdf Cluster Validation]&lt;br /&gt;
# [https://link.springer.com/article/10.1023/A:1012801612483 Halkidi, M., Batistakis, Y., Vazirgiannis, M., 2001. On clustering validation techniques. Journal of intelligent information systems, 17(2-3), pp.107-145.]&lt;br /&gt;
# [https://eurekamag.com/pdf/008/008337083.pdf Pal, N.R., Biswas, J., 1997. Cluster validation using graph theoretic concepts. Pattern Recognition, 30(6), pp.847-857.]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&lt;br /&gt;
[[Категория:Машинное обучение]]&lt;br /&gt;
[[Категория:Кластеризация]]&lt;/div&gt;</summary>
		<author><name>195.19.236.234</name></author>	</entry>

	</feed>