Изменения

Метод опорных векторов (SVM)

1045 байт убрано, 01:59, 29 ноября 2020

Пример на языке R

~~{{в разработке}}~~ '''Метод опорных векторов''' (англ. ''support vector machine'', ''SVM'') — один из наиболее популярных методов обучения, который применяется для решения задач классификации и регрессии. Основная идея метода заключается в построении гиперплоскости, разделяющей объекты выборки ~~наиболее~~ оптимальным способом. Алгоритм работает в предположении, что чем больше расстояние (зазор) между разделяющей гиперплоскостью и объектами разделяемых классов, тем меньше будет средняя ошибка классификатора.

== Метод опорных векторов в задаче классификации ==

Это также задача квадратичного программирования. Решение задачи лежит в пересечении $\ell$-мерного куба с ребром $C$ и гиперплоскости $\langle \lambda, y \rangle = 0$, что является выпуклым многогранником размерности $\ell-1$. В этом многограннике нужно найти минимум выпуклого квадратичного функционала. Следовательно, данная задача имеет единственное решение.

Существуют различные методы поиска решения: можно воспользоваться универсальным солвером задачи квадратичного программирования ([[https://www.ibm.com/analytics/cplex-optimizer CPLEX]], [[http://www.gurobi.com/ Gurobi]]), либо алгоритмом, учитывающим специфические особенности SVM ([[https://www.microsoft.com/en-us/research/publication/sequential-minimal-optimization-a-fast-algorithm-for-training-support-vector-machines/ SMO]], [[http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.10.9956 INCAS]]).

После того, как мы получили вектор коэффициентов $\vec{\lambda}$, можем выразить решение прямой задачи через решение двойственной:

$\begin{cases}

\vec{w} = \sum\limits_{i=1}^\ell \lambda_i y_i \vec{x}_i \\

b = \langle \vec{w}, \vec{x}_i \rangle - y_i, \quad \~~text{для любого}\;~~ forall i: \lambda_i > 0, M_i = 1

\end{cases}$

=== Нелинейное обобщение, kernel trick ===

Существует ещё один подход к решению проблемы линейной разделимости, известный как трюк с ~~ядом~~ ядром (kernel trick). Если выборка объектов с признаковым описанием из $X = \mathbb{R}^n$ не является линейно разделимой, мы можем предположить, что существует некоторое пространство $H$, вероятно, большей размерности, при переходе в которое выборка станет линейно разделимой. Пространство $H$ здесь называют спрямляющим, а функцию перехода $\psi : X \to H$ — спрямляющим отображением. Построение SVM в таком случае происходит так же, как и раньше, но в качестве векторов признаковых описаний используются векторы $\psi(\vec{x})$, а не $\vec{x}$. Соответственно, скалярное произведение $\langle \vec{x}_1, \vec{x}_2 \rangle$ в пространстве $X$ везде заменяется скалярным произведением $\langle \psi(\vec{x}_1), \psi(\vec{x}_2) \rangle$ в пространстве $H$. Отсюда следует, что пространство $H$ должно быть гильбертовым, так как в нём должно быть определено скалярное произведение.

Обратим внимание на то, что постановка задачи и алгоритм классификации не используют в явном виде признаковое описание и оперируют только скалярными произведениями признаков объектов. Это даёт возможность заменить скалярное произведение в пространстве $X$ на ~~скалярное произведение в $H$:~~ ~~{{Определение~~[[Ядра|~~definition='''Ядро''' (англ. ''kernel'')~~ ядро]] — ~~функция $K: X \times X \to \mathbb{R}$~~функцию, ~~которая является~~ являющуюся скалярным произведением в некотором ~~спрямляющем пространстве: $K(\vec{x}_1, \vec{x}_2) = \langle \psi(\vec{x}_1), \psi(\vec{x}_2) \rangle$ при некотором $\psi : X \to H$, где~~ $H$ ~~— пространство со скалярным произведением~~.}} ~~Более того,~~ При этом можно вообще не строить спрямляющее пространство ~~$H$~~ в явном виде, и вместо подбора $\psi$ подбирать непосредственно ядро.

Постановка задачи с применением ядер приобретает вид:

$a(x) = sign \left(\sum\limits_{i=1}^\ell \lambda_i y_i \color{brown}{K(\vec{x}_i, \vec{x})} - b\right)$

Теперь осталось рассмотреть вопрос выбора ядра для задачи. Теорема Мерсера определяет условия, при которых функция может являться ядром:== Преимущества и недостатки SVM ==

~~{{Теорема|id=kernel|author=Мерсер|statement=Функция $K(\vec{x}_1, \vec{x}_2)$ является ядром тогда~~ Преимущества SVM перед методом стохастического градиента и ~~только тогда, когда выполнены условия~~нейронными сетями: ~~ ~~$\begin{cases}K(\vec{x}_1, \vec{x}_2) = K(\vec{x}_2, \vec{x}_1) & \text{(симметричность)} \\[1ex] \forall g: X \to \mathbb{R} \quad \int\limits_X \int\limits_X K(\vec{x}_1, \vec{x}_2) g(\vec{x}_1) g(\vec{x}_2) d \vec{x}_1 d \vec{x}_2 \geq 0 & \text{(неотрицательная определенность)}\end{cases}$}}

Проверка неотрицательной определённости является довольно трудоёмкой, поэтому на практике теорема явно не используется* Задача выпуклого квадратичного программирования хорошо изучена и имеет единственное решение. ~~Проблема выбора лучшего ядра на сегодняшний день остаётся открытой~~* Метод опорных векторов эквивалентен двухслойной нейронной сети, ~~лучшие из известных на данный момент решений основываются~~ где число нейронов на генетических алгоритмах<ref>[https://www.researchgate.net/publication/221080223_An_Evolutionary_Approach_to_Automatic_Kernel_Construction T.Howley, M.G.Madden — An Evolutionary Approach to Automatic Kernel Construction]</ref>). Обычно в практических реализациях ограничиваются перебором нескольких функций, про которые известно, что они являются ядрами, и выбирают среди них лучшую при помощи кросс-валидациискрытом слое определяется автоматически как число опорных векторов. ~~Кроме того~~* Принцип оптимальной разделяющей гиперплоскости приводит к максимизации ширины разделяющей полосы, ~~существуют правила порождения ядер~~а следовательно, ~~которые также применяются для расширения пространства перебираемых функций~~к более уверенной классификации.

Недостатки классического SVM:

~~Конструктивные~~ * Неустойчивость к шуму: выбросы в исходных данных становятся опорными объектами-нарушителями и напрямую влияют на построение разделяющей гиперплоскости.* Не описаны общие методы ~~синтеза~~ построения ядер:и спрямляющих пространств, наиболее подходящих для конкретной задачи.* Нет отбора признаков.* Необходимо подбирать константу $C$ при помощи кросс-валидации.

~~# $K(\vec{x}_1, \vec{x}_2)~~ = ~~\langle \vec{x}_1, \vec{x}_2 \rangle \quad$ (скалярное произведение)# $K(\vec{x}_1, \vec{x}_2)~~ = ~~\alpha \quad$ (константа $\alpha \in \mathbb{R}_+$)# $K(\vec{x}_1, \vec{x}_2)~~ Модификации = ~~K_1(\vec{x}_1, \vec{x}_2) + K_2(\vec{x}_1, \vec{x}_2) \quad$ (сумма ядер)# $K(\vec{x}_1, \vec{x}_2)~~ = ~~K_1(\vec{x}_1, \vec{x}_2) * K_2(\vec{x}_1, \vec{x}_2) \quad$ (произведение ядер)# $K(\vec{x}_1, \vec{x}_2) = \psi(\vec{x}_1) * \psi(\vec{x}_2) \quad$ (произведение функций $\psi : X \to \mathbb{R}$)# $K(\vec{x}_1, \vec{x}_2) = K_1(\phi(\vec{x}_1), \phi(\vec{x}_2)) \quad$ (композиция ядра и функции $\phi : X \to X$)~~# $K(\vec{x}_1, \vec{x}_2) = \int\limits_X s(\vec{x}_1, \vec{z}) s(\vec{x}_2, \vec{z}) d \vec{z} \quad$ ($s : X \times X \to \mathbb{R}$ — симметричная интегрируемая функция)# $K(\vec{x}_1, \vec{x}_2) = f(K_1(\vec{x}_1, \vec{x}_2)) \quad$ ($f: \mathbb{R} \to \mathbb{R}$ представима в виде сходящегося степенного ряда с неотрицательными коэффициентами)

Существуют различные дополнения и модификации метода опорных векторов, направленные на устранение описанных недостатков:

~~Существует несколько "стандартных" ядер, которые соответствуют известным алгоритмам классификации~~* [http: * $K//jmlr.csail.mit.edu/papers/v1/tipping01a.html Метод релевантных векторов (~~\vec{x}_1~~Relevance Vector Machine, ~~\vec{x}_2~~RVM) = ]* [https://papers.nips.cc/paper/2450-1-norm-support-vector-machines.pdf 1-norm SVM (~~\langle \vec{x}_1, \vec{x}_2 \rangle + c~~LASSO SVM)~~^d, \quad c, d \in \mathbb{R}$ — полиномиальное ядро~~]* $K[http://www3.stat.sinica.edu.tw/statistica/oldpdf/A16n214.pdf Doubly Regularized SVM (~~\vec{x}_1, \vec{x}_2~~ElasticNet SVM) ~~= \sigma~~]* [https://arxiv.org/abs/1901.09643v1 Support Features Machine (~~\langle \vec{x}_1, \vec{x}_2 \rangle)$ — нейросеть с заданной функцией активации $\sigma(z)$ (не при всех $\sigma$ является ядром~~SFM)]* ~~$K(\vec{x}_1, \vec{x}_2) = \exp(-\beta \lVert \vec{x}_1 - \vec{x}_2 \rVert^2)$ — сеть радиальных базисных функций~~ [http://www.robots.ox.ac.uk/~minhhoai/papers/SVMFeatureWeight_PR.pdf Relevance Features Machine (~~англ. ''RBF''~~RFM) ~~== Преимущества и недостатки SVM ==~~ ~~Преимущества SVM перед методом стохастического градиента и нейронными сетями:~~]

* Задача выпуклого квадратичного программирования хорошо изучена и имеет единственное решение==Примеры кода==* Метод опорных векторов эквивалентен двухслойной нейронной сети, где число нейронов ===Пример на ~~скрытом слое определяется автоматически как число опорных векторов~~языке Java===* Принцип оптимальной разделяющей гиперплоскости приводит к максимизации ширины разделяющей полосы, а следовательноПример классификации с применением <code>smile.classification.SVM</code><ref>[https://haifengl.github.io/smile/api/java/smile/classification/SVM.html/ Smile, ~~к более уверенной классификации~~SVM]</ref>

~~Недостатки классического SVM~~<code>Maven</code> зависимость: <dependency> <groupId>com.github.haifengl</groupId> <artifactId>smile-core</artifactId> <version>1.5.2</version> </dependency>

* Неустойчивость к шуму: выбросы в исходных данных становятся опорными объектами-нарушителями и напрямую влияют на построение разделяющей гиперплоскости '''import''' smile.classification.SVM;* Не описаны общие методы построения ядер и спрямляющих пространств, наиболее подходящих для конкретной задачи '''import''' smile.data.NominalAttribute;* Нет отбора признаков '''import''' smile.data.parser.DelimitedTextParser;* Необходимо подбирать константу $C$ при помощи кросс-валидации '''import''' smile.math.kernel.GaussianKernel; '''import''' java.util.Arrays;

// read train & test dataset '''var''' parser = ~~Модификации~~ new DelimitedTextParser(); parser.setResponseIndex(new NominalAttribute("class"), 0); '''var''' train =parser.parse("USPS Train", this.getClass().getResourceAsStream("/smile/data/usps/zip.train")); '''var''' test =parser.parse("USPS Test", this.getClass().getResourceAsStream("/smile/data/usps/zip.test")); '''var''' classes = Arrays.stream(test.labels()).max().orElse(0) + 1; // build SVM classifier '''var''' svm = new SVM<>(new GaussianKernel(8.0), 5.0, classes, SVM.Multiclass.ONE_VS_ONE); svm.learn(train.x(), train.labels()); svm.finish(); // calculate test error rate '''var''' error = 0; for (int i = 0; i < test.x().length; i++) { if (svm.predict(test.x()[i]) != test.labels()[i]) { error++; } } System.out.format("USPS error rate = %.2f%%\n", 100.0 * error / test.x().length);

~~Существуют различные дополнения и модификации метода опорных векторов, направленные~~ === Пример на ~~устранение описанных недостатков:~~языке R ==={{Main|Примеры кода на R}}

* [[Метод релевантных векторов # importing package and its' dependencies library(caret) #reading data data <- read.csv(~~Relevance Vector Machine~~"input.csv", sep = ', ~~RVM~~', header = FALSE)]]* [[1 # splitting data into train and test sets index <-~~norm SVM~~ createDataPartition(~~LASSO SVM~~y = data$target, p = 0.8, list = FALSE) training <- data[index,] testing <- data[-index,]* [[Doubly Regularized SVM # evaluating model fit <- train(~~ElasticNet SVM)]]~~target ~ x + y + z, data = train_flats, method = "svmRadial",* [[Support Features Machine trControl = trainControl(~~SFM~~method = "repeatedcv", number = 10, repeats = 3)]]) # printing parameters* [[Relevance Features Machine print(~~RFM~~fit)]]

== См. также ==

* [[Общие понятия]]

* [[Ядра]]

* [[Обзор библиотек для машинного обучения на Python]]

* [[Общие понятия]]

== Примечания ==

Mervap

286

правок

Изменения

Метод опорных векторов (SVM)

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты