Изменения

Кластеризация

5486 байт добавлено, 19:02, 13 декабря 2020

Добавлен псевдокод некоторых алгоритмов кластеризации

* Подбор рекомендаций для пользователя на основе предпочтений других пользователей в данном кластере;

* Определение аномалий путем построения кластеров и выявления неклассифицированных объектов.

== Псевдокод некоторых алгоритмов кластеризации ==

=== Метод K-средних (Алгоритм Ллойда) ===

Алгоритм минимизирует сумму квадратов внутрикластерных расстояний:

На вход алгоритму подаётся выборка <tex>X^m = \{ x_1, \dots, x_m \}</tex> и количество кластеров <tex>K = |Y|</tex>.

На выходе получаем центры кластеров <tex>\mu_a</tex> для кластеров <tex>a \in Y</tex>.

<tex>\mu_a := init(X^m)</tex> # Инициализируем произвольно начальное приближение для центров кластеров <tex>a \in Y</tex>. (Можно наиболее удалённые друг от друга объекты выборки)

<tex>A := [ -1 \: | \: for \: x_i \in X^m ]</tex> # Инициализируем массив отображений из объектов выборки в их кластеры

<tex>changed := True</tex>

<tex>while</tex> <tex>changed</tex>: # Повторяем пока <tex>A_i</tex> изменяются

<tex>changed := False</tex>

<tex>for</tex> <tex>x_i \in X^m</tex>: # Относим каждый <tex>x_i</tex> к ближайшему центру

<tex>if</tex> <tex>A_i \neq A_{i, old}</tex>:

<tex>changed := True</tex>

<tex>for</tex> <tex>a \in Y</tex>: # Вычисляем новые положения центров

<tex>return</tex> <tex>\mu_a, \: A</tex> # Возвращаем центры кластеров и распределение по ним объектов выборки

=== DBSCAN ===

На вход алгоритму подаётся выборка <tex>X^m = \{ x_1, \dots, x_m \}</tex>, параметры <tex>\epsilon</tex> и <tex>m</tex>.

На выходе получаем разбиение на кластеры и шумовые объекты.

Пусть для каждого <tex>x \in X^m</tex> имеем посчитанной его <tex>\epsilon</tex>-окрестность <tex>U_{\epsilon}(x) = \{x' \in X^m \: | \: \rho(x, x') \lt \epsilon\}</tex>

<tex>U := X^m</tex> # Непомеченные объекты

<tex>A := [ -1 \: | \: for \: x_i \in X^m ]</tex> # Инициализируем массив отображений из объектов выборки в их кластеры

<tex>a := 0</tex> # Количество кластеров

<tex>while</tex> <tex>U \neq \varnothing</tex>: # Пока в выборке есть непомеченные объекты

<tex>x := rand(U)</tex> # Берём случайную непомеченную точку

<tex>if</tex> <tex>|U_{\epsilon}(x) < m|</tex>:

<tex>mark[x]</tex> <tex>:=</tex> "<tex>noise</tex>" # Пометим <tex>x</tex> как, возможно, шумовой

<tex>else</tex>:

<tex>K := U_{\epsilon}(x)</tex>

<tex>a := a + 1</tex> # Создадим новый кластер K

<tex>for</tex> <tex>x' \in K</tex>:

<tex>if</tex> <tex>x' \in U</tex> || <tex>mark[x']</tex> <tex>==</tex> "<tex>noise</tex>": # Если <tex>x'</tex> не помечен или помечен как шумовой

<tex>if</tex> <tex>|U_{\epsilon}(x')| \geq m</tex>:

<tex>mark[x'] :=</tex> "<tex>interior</tex>" # Пометим <tex>x'</tex> как внутренний кластера <tex>K</tex>

<tex>K := K \cup U_{\epsilon}(x')</tex> # Добавим вместе с <tex>x'</tex> всю его окрестность

<tex>else</tex>:

<tex>mark[x'] :=</tex> "<tex>frontier</tex>" # Пометим <tex>x'</tex> как граничный кластера <tex>K</tex>

<tex>for</tex> <tex>x_i \in K</tex>:

<tex>U := U \setminus K</tex>

<tex>return</tex> <tex>a, \: A, \: mark</tex> # Возвращаем количество кластеров, распределение по кластерам и метки объектов (внутренние, граничные или шумовые)

== Пример кода ==

Yuri

20

правок

Изменения

Кластеризация

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты