Изменения

Метод опорных векторов (SVM)

1578 байт убрано, 13:06, 12 декабря 2019

нет такого понятия "наиболее оптимальный". Оптимальный - это и так самый лучший.

~~{{в разработке}}~~ '''Метод опорных векторов''' (англ. ''support vector machine'', ''SVM'') — один из наиболее популярных методов обучения, который применяется для решения задач классификации и регрессии. Основная идея метода заключается в построении гиперплоскости, разделяющей объекты выборки ~~наиболее~~ оптимальным способом. Алгоритм работает в предположении, что чем больше расстояние (зазор) между разделяющей гиперплоскостью и объектами разделяемых классов, тем меньше будет средняя ошибка классификатора.

== Метод опорных векторов в задаче классификации ==

Это также задача квадратичного программирования. Решение задачи лежит в пересечении $\ell$-мерного куба с ребром $C$ и гиперплоскости $\langle \lambda, y \rangle = 0$, что является выпуклым многогранником размерности $\ell-1$. В этом многограннике нужно найти минимум выпуклого квадратичного функционала. Следовательно, данная задача имеет единственное решение.

Существуют различные методы поиска решения: можно воспользоваться универсальным солвером задачи квадратичного программирования ([[https://www.ibm.com/analytics/cplex-optimizer CPLEX]], [[http://www.gurobi.com/ Gurobi]]), либо алгоритмом, учитывающим специфические особенности SVM ([[https://www.microsoft.com/en-us/research/publication/sequential-minimal-optimization-a-fast-algorithm-for-training-support-vector-machines/ SMO]], [[http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.10.9956 INCAS]]).

После того, как мы получили вектор коэффициентов $\vec{\lambda}$, можем выразить решение прямой задачи через решение двойственной:

$\begin{cases}

\vec{w} = \sum\limits_{i=1}^\ell \lambda_i y_i \vec{x}_i \\

b = \langle \vec{w}, \vec{x}_i \rangle - y_i, \quad \~~text{для любого}\;~~ forall i: \lambda_i > 0, M_i = 1

\end{cases}$

=== Нелинейное обобщение, kernel trick ===

Существует ещё один подход к решению проблемы линейной разделимости, известный как трюк с ~~ядом~~ ядром (kernel trick). Если выборка объектов с признаковым описанием из $X = \mathbb{R}^n$ не является линейно разделимой, мы можем предположить, что существует некоторое пространство $H$, вероятно, большей размерности, при переходе в которое выборка станет линейно разделимой. Пространство $H$ здесь называют спрямляющим, а функцию перехода $\psi : X \to H$ — спрямляющим отображением. Построение SVM в таком случае происходит так же, как и раньше, но в качестве векторов признаковых описаний используются векторы $\psi(\vec{x})$, а не $\vec{x}$. Соответственно, скалярное произведение $\langle \vec{x}_1, \vec{x}_2 \rangle$ в пространстве $X$ везде заменяется скалярным произведением $\langle \psi(\vec{x}_1), \psi(\vec{x}_2) \rangle$ в пространстве $H$. Отсюда следует, что пространство $H$ должно быть гильбертовым, так как в нём должно быть определено скалярное произведение.

Обратим внимание на то, что постановка задачи и алгоритм классификации не используют в явном виде признаковое описание и оперируют только скалярными произведениями признаков объектов. Это даёт возможность заменить скалярное произведение в пространстве $X$ на ~~скалярное произведение~~ [[Ядра|ядро]] — функцию, являющуюся скалярным произведением в некотором $H$:. При этом можно вообще не строить спрямляющее пространство в явном виде, и вместо подбора $\psi$ подбирать непосредственно ядро.

~~{{Определение|definition='''Ядро''' (англ. ''kernel'') — функция $K~~Постановка задачи с применением ядер приобретает вид: X \times X \to \mathbb{R}$, которая является скалярным произведением в некотором спрямляющем пространстве: $K(\vec{x}_1, \vec{x}_2) = \langle \psi(\vec{x}_1), \psi(\vec{x}_2) \rangle$ при некотором $\psi : X \to H$, где $H$ — пространство со скалярным произведением.}}

~~Более того, можно вообще не строить спрямляющее пространство $H$ в явном виде, и вместо подбора~~ $\psi$ подбирать непосредственно ядро. Теорема Мерсера определяет условия, при которых функция может являться ядром:begin{cases}-\mathscr{L}(\lambda) = -\sum\limits_{~~Теорема|id~~i=~~kernel|author=Мерсер|statement=Функция $K(~~1}^\ell \lambda_i + \~~vec~~frac{x1}~~_1, \vec~~{x2}~~_2)$ является ядром тогда и только тогда, когда выполнены условия: ~~$\~~begin~~sum\limits_{~~cases~~i=1}K(^\ell \sum\~~vec~~limits_{xj=1}~~_1,~~ ^\ell \lambda_i \lambda_j y_i y_j \~~vec~~color{xbrown}~~_2) =~~ {K(\vec{x}_2_i, \vec{x}~~_1) & \text{(симметричность~~_j)} \to \~~[1ex]~~ min\~~forall g: X~~ limits_\to lambda \~~mathbb{R}~~ \~~quad~~ 0 \~~int~~leq \~~limits_X~~ lambda_i \~~int~~leq C, \~~limits_X K(~~quad i = 1, \~~vec{x}_1~~ldots, \~~vec{x}_2) g(~~ell \\~~vec{x}_1) g(~~\~~vec{x}_2) d~~ sum\~~vec~~limits_{xi=1}~~_1 d~~ ^\~~vec{x}_2~~ ell \~~geq~~ lambda_i y_i = 0 ~~& \text{(неотрицательная определенность)}~~\end{cases}$}}

Проверка неотрицательной определённости является довольно трудоёмкой, поэтому на практике теорема явно не используется. Проблема выбора лучшего ядра на сегодняшний день остаётся открытой, лучшие из известных на данный момент решений основываются на генетических алгоритмах<ref>[https://www.researchgate.net/publication/221080223_An_Evolutionary_Approach_to_Automatic_Kernel_Construction T.Howley, M.G.Madden — An Evolutionary Approach to Automatic Kernel Construction]</ref>). Обычно в практических реализациях ограничиваются перебором нескольких функций, про которые известно, что они являются ядрами, и выбирают среди них лучшую при помощи кросс-валидации. Кроме того, существуют правила порождения ядер, которые также применяются для расширения пространства перебираемых функций. ~~Конструктивные методы синтеза ядер:~~ ~~# $K(\vec{x}_1, \vec{x}_2) = \langle \vec{x}_1, \vec{x}_2 \rangle \quad$ (скалярное произведение)# $K(\vec{x}_1, \vec{x}_2) = \alpha \quad$ (константа $\alpha \in \mathbb{R}_+$)# $K(\vec{x}_1, \vec{x}_2) = K_1(\vec{x}_1, \vec{x}_2) + K_2(\vec{x}_1, \vec{x}_2) \quad$ (сумма ядер)# $K(\vec{x}_1, \vec{x}_2) = K_1(\vec{x}_1, \vec{x}_2) * K_2(\vec{x}_1, \vec{x}_2) \quad$ (произведение ядер)# $K(\vec{x}_1, \vec{x}_2) = \psi(\vec{x}_1) * \psi(\vec{x}_2) \quad$ (произведение функций $\psi : X \to \mathbb{R}$)# $K(\vec{x}_1, \vec{x}_2) = K_1(\phi(\vec{x}_1), \phi(\vec{x}_2)) \quad~~$ a(~~композиция ядра и функции $\phi : X \to X$)# $K(\vec{~~x~~}_1, \vec{x}_2~~) = sign \~~int\limits_X s~~left(\~~vec{x}_1,~~ sum\~~vec~~limits_{~~z}) s(\vec{x}_2, \vec{z}) d \vec{z} \quad$ ($s : X \times X \to \mathbb{R}$ — симметричная интегрируемая функция)# $K(\vec{x}_1, \vec{x}_2)~~ i= ~~f(K_1(\vec{x~~1}_1, \vec{x}_2)) \quad$ ($f: \mathbb{R} \to \mathbb{R}$ представима в виде сходящегося степенного ряда с неотрицательными коэффициентами) ~~Существует несколько "стандартных" ядер, которые соответствуют известным алгоритмам классификации:~~ * $K(\vec{x}_1, \vec{x}_2) = (\langle \vec{x}_1, \vec{x}_2 \rangle + c)^~~d, \quad c, d \in \mathbb{R}$ — полиномиальное ядро~~* $K(\vec{x}_1, \~~vec{x}_2) =~~ ell \~~sigma(~~lambda_i y_i \~~langle \vec~~color{xbrown}~~_1, \vec~~{~~x}_2 \rangle)$ — нейросеть с заданной функцией активации $\sigma(z)$ (не при всех $\sigma$ является ядром)~~* $K(\vec{x}_1_i, \vec{x}_2) ~~= \exp(-\beta \lVert \vec{x~~}_1 - b\~~vec{x}_2 \rVert^2~~right)$ ~~— сеть радиальных базисных функций (англ. ''RBF'')~~

== Преимущества и недостатки SVM ==

Преимущества SVM перед методом стохастического градиента и нейронными сетями:

* Задача выпуклого квадратичного программирования хорошо изучена и имеет единственное решение.* Метод опорных векторов эквивалентен двухслойной нейронной сети, где число нейронов на скрытом слое определяется автоматически как число опорных векторов.* Принцип оптимальной разделяющей гиперплоскости приводит к максимизации ширины разделяющей полосы, а следовательно, к более уверенной классификации.

Недостатки классического SVM:

* Неустойчивость к шуму: выбросы в исходных данных становятся опорными объектами-нарушителями и напрямую влияют на построение разделяющей гиперплоскости.* Не описаны общие методы построения ядер и спрямляющих пространств, наиболее подходящих для конкретной задачи.* Нет отбора признаков.* Необходимо подбирать константу $C$ при помощи кросс-валидации.

== Модификации ==

Существуют различные дополнения и модификации метода опорных векторов, направленные на устранение описанных недостатков:

* [[http://jmlr.csail.mit.edu/papers/v1/tipping01a.html Метод релевантных векторов (Relevance Vector Machine, RVM)]]* [[https://papers.nips.cc/paper/2450-1-norm-support-vector-machines.pdf 1-norm SVM (LASSO SVM)]]* [[http://www3.stat.sinica.edu.tw/statistica/oldpdf/A16n214.pdf Doubly Regularized SVM (ElasticNet SVM)]]* [[https://arxiv.org/abs/1901.09643v1 Support Features Machine (SFM)]]* [[http://www.robots.ox.ac.uk/~minhhoai/papers/SVMFeatureWeight_PR.pdf Relevance Features Machine (RFM)] ==Примеры кода=====Пример на языке Java===Пример классификации с применением <code>smile.classification.SVM</code><ref>[https://haifengl.github.io/smile/api/java/smile/classification/SVM.html/ Smile, SVM]</ref> <code>Maven</code> зависимость: <dependency> <groupId>com.github.haifengl</groupId> <artifactId>smile-core</artifactId> <version>1.5.2</version> </dependency> '''import''' smile.classification.SVM; '''import''' smile.data.NominalAttribute; '''import''' smile.data.parser.DelimitedTextParser; '''import''' smile.math.kernel.GaussianKernel; '''import''' java.util.Arrays; // read train & test dataset '''var''' parser = new DelimitedTextParser(); parser.setResponseIndex(new NominalAttribute("class"), 0); '''var''' train = parser.parse("USPS Train", this.getClass().getResourceAsStream("/smile/data/usps/zip.train")); '''var''' test = parser.parse("USPS Test", this.getClass().getResourceAsStream("/smile/data/usps/zip.test")); '''var''' classes = Arrays.stream(test.labels()).max().orElse(0) + 1; // build SVM classifier '''var''' svm = new SVM<>(new GaussianKernel(8.0), 5.0, classes, SVM.Multiclass.ONE_VS_ONE); svm.learn(train.x(), train.labels()); svm.finish(); // calculate test error rate '''var''' error = 0; for (int i = 0; i < test.x().length; i++) { if (svm.predict(test.x()[i]) != test.labels()[i]) { error++; } } System.out.format("USPS error rate = %.2f%%\n", 100.0 * error / test.x().length);

== См. также ==

* [[Общие понятия]]

* [[Ядра]]

* [[Обзор библиотек для машинного обучения на Python]]

* [[Общие понятия]]

== Примечания ==

== Источники информации ==

* [http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%B0_%D0%BE%D0%BF%D0%BE%D1%80%D0%BD%D1%8B%D1%85_%D0%B2%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BE%D0%B2 machinelearning.ru ~~{{---}}~~ — Машина опорных векторов]* [https://www.youtube.com/watch?v=Adi67_94_gc&list=PLJOzdkh8T5kp99tGTEFjH_b9zqEQiiBtC&index=5 Лекция "Линейные методы классификации: метод опорных векторов"] ~~{{---}}~~ — К.В. Воронцов, курс "Машинное обучение" 2014* [https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%BE%D0%BF%D0%BE%D1%80%D0%BD%D1%8B%D1%85_%D0%B2%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BE%D0%B2 Wikipedia ~~{{---}}~~ — Метод опорных векторов]* Alexey Nefedov ~~{{---}}~~ — [https://svmtutorial.online/ Support Vector Machines: A Simple Tutorial]* John Platt ~~{{---}}~~ — [https://www.microsoft.com/en-us/research/publication/sequential-minimal-optimization-a-fast-algorithm-for-training-support-vector-machines/ Sequential Minimal Optimization: A Fast Algorithm for Training Support Vector Machines]* Shai Fine, Katya Scheinberg — [http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.10.9956 INCAS: An Incremental Active Set Method for SVM]

[[Категория: Машинное обучение]]

[[Категория: Классификация]]

[[Категория: Регрессия]]

Анонимный участник

46.159.23.23

Изменения

Метод опорных векторов (SVM)

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты