Изменения

Перейти к: навигация, поиск

Эволюционные алгоритмы кластеризации

3388 байт добавлено, 02:58, 8 апреля 2019
Нет описания правки
* индекс кластеризации в качестве '''целевой функции''';
* операции видоизменения разбиений в качестве '''мутаций''';
* операции комбинирования ("скрещивания") разбиений в качестве '''кроссовера''';* и т.д.
= Параметры эволюционного алгоритма =
Из описания выше следует, что эволюционный алгоритм кластеризации задаётся рядом гиперпараметров - таких как инициализация, применяемые мутации, схема самого алгоритма и т.п. Некоторые исследованные элементы конфигурации эволюционного алгоритма кластеризации приведены ниже.
* '''вещественное кодирование''' (''real encoding'') - для каждого кластера $f$-мерной выборки задаётся его ''центроид'' - синтезированный объект, определяемый его координатами в пространстве выборки. Принадлежность объекта к кластеру определяется центроидом, который ближе всего к объекту согласно используемой метрике. Вся особь определяется вещественным вектором размера $k \cdot f$.
* '''бинарное кодирование''' (''binary encoding'') - то же самое, что и вещественное кодирование, но в качестве центроида используется элемент выборки (''прототип''). Таким образом, одна особь может быть представлена вектором из $N$ булевых значений, из которых $k$ истинных определяют прототипы соответствующих $k$ кластеров.
* '''древесное бинарное кодирование''' ('''tree-based binary encoding''') - по выборке строится [[Остовные деревья: определения, лемма о безопасном ребре|минимальное остовное дерево]]; особь кодируется вектором из $N-1$ булевых значений, среди которых $k-1$ истинное соответвует рёбрам остовного дерева, разделяющим кластеры.
== Мутации ==
В качестве мутации можно либо использовать одну из операций, приведённых ниже, либо случайно (н-р, равновероятно) выбирать одну из нескольких таких операций.
=== Разбиения, слияния и переназначения ===
В этом разделе приведён ряд мутаций, предполагающих целочисленное кодирование особи.
Общим свойством этих операций является необходимость выбрать один, два или более кластеров, над которыми операции производятся. Делать это можно либо '''случайно''' (''unguided''), либо '''выборочно''' (''guided'') на основе той или иной характеристики кластера (''interestingness'') - например, расстояний объектов до центроида, плотности объектов в кластере и т.п.
* '''разбиение кластера''' (''split-gene'') - выбранный кластер делится вдоль $N-1$-мерной поверхности (н-р, гиперплоскости; для двухмерного случая это прямая) на два новых. Гиперплоскость можно задать:
** случайно на основе выпуклой оболочки кластера;
** случайно по направлению, а по положению - выборочно на основе индуцированной функции распределения (или гистограммы) положения объектов кластера вдоль оси, перпендикулярной гиперплоскости;
** детерминированно как медиану между центроидом кластера и самой отдалённым от центроида объектом.
* '''слияние двух кластеров''' (''merge-gene'') - выбранные два кластера объединяются в один.
* '''удаление кластера''' - все объекты выбранного кластера переназначаются в другие кластеры на основе расстояния до них.
* '''переназначение элементов кластера''' (''remove-and-reclassify'') - небольшой набор объектов выбранного кластера переназначается в другие кластеры. Набор объектов и целевой кластер можно задать случайно или выборочно на основе расстояний до соседних кластеров.
Следует заметить, что если алгоритм использует хотя бы одну операцию разбиения, то должна быть включена в рассмотрение какая-нибудь операция слияния, и наоборот. Иначе количество кластеров либо уменьшится до двух, либо возрастёт до $N$.
75
правок

Навигация