Изменения

Вариационный автокодировщик

1661 байт добавлено, 02:10, 28 января 2019

Нет описания правки

'''Вариационный автокодировщик''' (англ. ''Variational Autoencoder'', ''VAE'') {{---}} это [[автокодировщик]] <sup>[на 27.01.19 не создан]</sup> (a.k.a. генеративная модель, которая учится отображать объекты в заданное скрытое пространство (и обратно)) основанный на вариационном выводе.

== Описание ==

'''~~Генеративное~~ Порождающее моделирование''' (англ. ''Generative modelling'') {{---}} область машинного обучения, имеющая дело с распределением <math>P(X)</math>, определенном на датасете <math>X </math> из пространства (возможно многомерного) <math>\Chi</math>. Так, например, популярные задачи генерации картинок имеют дело с огромным количеством измерений (пикселей).

Также как и в обыкновенных кодировщиках у нас имеется скрытое вероятностное пространство <math>Z </math> соответствующее случайной величине <math>(z, P(z))</math> (распределенной как-нибудь фиксированно, здесь <math>~N(0, 1)</math>). И мы хотим иметь декодер <math>f(z, \theta) \colon Z \times \Theta \to \Chi </math>. При этом мы хотим найти такие <math>\theta</math>, чтобы после разыгрывания ~~z по P(z) мы получили <<что-то похожее>> на элементы X.~~ ~~Вообще, мы хотим, чтобы для любого <math>x \in X</math> мы хотим считать~~ <math>~~P(x) = \int P(x|z; \theta)P(~~z~~)dz~~</math> здесь мы заменили <math>f(x, \theta)</math> на <math>P(x|z; \theta)</math>, чтобы явно сделать зависимость между x и z и после этого применить формулу полной вероятности. Обычно по <math>P(x|z~~; \theta~~)</math> ~~около нуля почти для всех пар (x, z). Основная идея в том, что~~ мы ~~хотим теперь генерировать z, который бы давали~~ получили "что-то около x и только их суммировать в P(x). Для этого нам требуется ввести еще одно распределение Q(z|X), которое будет получать x и говорить распределение похожее" на z которое наиболее вероятно будет генерировать нам такой x. Теперь нам нужно как-то сделать похожими распределения элементы <math>~~E_{z~Q}P(~~X~~|z)~~</math> ~~и P(X)~~. ~~Рассмотрим следующую дивергенцию Кульбака-Лейблера~~

Вообще, мы хотим, чтобы для любого <math>~~D[Q~~x \in X</math> мы хотим считать <math>P(x) = \int P(x|z; \theta)P(z)dz</math> здесь мы заменили <math>f(x, \theta)</math> на <math>P(x|z; \theta)</math>, чтобы явно сделать зависимость между <math>x</math> и <math>z</math> и после этого применить формулу полной вероятности. Обычно <math>P(x|z; \theta)</math> около нуля почти для всех пар <math>(x, z)</math>. Основная идея в том, что мы хотим теперь генерировать <math>z</math>, который бы давали что-то около x и только их суммировать в <math>P(x)</math>. Для этого нам требуется ввести еще одно распределение <math>Q(z|X)~~] =~~ </math>, которое будет получать x и говорить распределение на <math>z</math> которое наиболее вероятно будет генерировать нам такой <math>x</math>. Теперь нам нужно как-то сделать похожими распределения <math>E_{~~z∼Q~~z~Q} ~~[log Q~~P(X|z|X) ~~− log~~ </math> и <math>P(z|X)]</math>.

~~Распишем~~ Рассмотрим следующую дивергенцию Кульбака-Лейблера.:<math>D[Q(z)||P(z|X) ~~как P~~] = E_{z∼Q} [log Q(z|X|z) * − log P(z|X) ]</ ~~P(X):~~math>

Распишем <math>P(z|X)</math> как <math>P(X|z) * P(z) / P(X)</math>.:<math>D[Q(z)||P(z|X)] = E_{z∼Q} [log Q(z) − log P(X|z) - log P(z)] + log P(X)</math>

Что эквивалентно:

:<math>logP(x) - D[Q(z)||P(z|X)] = E_{z∼Q}[log P(X|z)] - D[Q(z)||P(z)]</math>

Рассмотрим эту штуку для <math>Q(z|X)</math>, тогда::<math>logP(x) - D[Q(z|X)||P(z|X)] = E_{z∼Q}[log P(X|z)] - D[Q(z|X)||P(z)]</math>

Посмотрим, на это равенство. Правую часть мы можем оптимизировать градиентным спуском (пусть пока и не совсем понятно как).

В левой же части первое слагаемое -- то, что мы хотим максимизировать. В то же время <math>D [Q(z|X)||P(z|X)]</math> мы хотим минимизировать. Если у нас <math>Q(z|X) </math> -- достаточно сильная модель, то в какой-то модель она будет хорошо матчить <math>P(z|X)</math>, а значит их дивергенция Кульбака -Лейблера будет почти 0. А значит на это слагаемое можно забить. И стараться максимизировать правую часть. В качестве бонуса мы еще получили более "поддатливую" <math>P(z|X)</math>, вместо нее можно смотреть на <math>Q(z|X)</math>.

Теперь разберемся как оптимизировать правую часть. Сначала нужно определиться с моделью для <math>Q(z|X)</math> ~~обычно~~ . Обычно ее берут равной <math>N(z|\mu(X, \theta), \sigma(X, \theta))</math>. Где <math>\mu</math> и <math>\sigma</math> какие-то детерминированные функции на X с обучаемыми параметрами <math>\theta</math>, которые мы впредь будем опускать ~~(ага~~). Ага, нейронки)).

Нетрудно проверить, что для дивергенция Кульбака-Лейблера двух нормальных распределений ~~с параметрами~~ имеет следующий вид.:<math>D_{KLK}[N(\mu_1, \Sigma_0)||N(\mu_1, \Sigma_0)]</math>, KLD есть <math>\frac{1}{2} (tr(\Sigma_1^{-1}\Sigma_0) + (\mu_1 - \mu_0)^T\Sigma_1^{-1}(\mu_1 - \mu_0) - k + log(\frac{det\Sigma_1}{det\Sigma_0})) </math>.

Это значит, что :<math>D[Q(z|X)||P(z)] = D[N(\mu(X), \Sigma(X))||N(0, I)] = \frac12 (tr(\Sigma(X)) + \mu(X)^T\mu(X) - k - log(det\Sigma(X)))</math>. Теперь здесь можно считать градиенты, для ~~BackProp-a~~BackPropagation. С первым слагаемым в правой части, все немного сложнее. <math>E_{z∼Q}[log P(X|z)] </math> мы можем считать методом ~~монте~~Монте-~~карло~~Карло(МК), но тогда такая штука (из-за того, что переменные спрятаны в распределении, из которого мы генерируем себе выборку, для МК) не является гладкой, относительно ихних, а значит непонятно , как проталкивать через это градиент. Для того, чтобы все-таки можно было протолкнуть градиент, применяется так называемый reparametrization trick, который базируется на простой формуле <math>N(\Sigma(X), \mu(X)) = \mu(X) + \Sigma^{\frac12}(X) * N(0, I) </math>. <math>E_{z∼Q}[log P(X|z)] = E_{\epsilon~N(0, I)}[log P(X = f(\mu(X) + \Sigma^{\frac12}(X) * \epsilon), \theta)]</math>. В такой форме мы уже можем использовать BackPropagation для переменных из функций <math>\Sigma</math> и <math>\mu</math>.

:<math>E_{z∼Q}[log P(X|z)] = E_{\epsilon~N(0, I)}[log P(X = f(\mu(X) + \Sigma^{\frac12}(X) * \epsilon), \theta)]</math>. В такой форме мы уже можем использовать BackPropagation для переменных из функций <math>\Sigma</math> и <math>\mu</math>. Следующая картинка лучше поможет осознать структуру VAE и, в частности, зачем нужен (и как работает) reparametrization trick. На левой части диаграмма без использования reparameterization trick. На правой части диаграмма с использованием reparameterization trick. [[Файл:VAE.PNG]] взято из https://arxiv.org/pdf/1606.05908.pdf

== Пример реализации ==

* Каскадное обучение глубоких сетей (хотя сейчас применяется все реже, в связи с появлением новых методов инициализации весов)

* Уменьшение шума в данных

* Уменьшение размерности данных (иногда работает лучше, чем [[метод главных компонент]]<sup>[на 27.01.19 не создан]</sup>)

Благодаря тому, что пользователь сам устанавливает нужное распределение скрытого вектора, вариационный кодировщик хорошо подходит для генерации новых объектов (например, картинок). Для этого достаточно разыграть скрытый вектор согласно его распределению и скормить ее в декодер. Получится объект из того же распределения, что и датасет.

== См. также ==

*[[:Автокодировщик|Автокодировщик]]

*[[:Generative Adversarial Nets (GAN)|Порождающие состязательные сети]]

== Примечания ==

*[https://habr.com/ru/post/429276/ Вариационные автокодировщики: теория и рабочий код]

*[https://jaan.io/what-is-variational-autoencoder-vae-tutorial/ Tutorial - What is a variational autoencoder?]

*[https://towardsdatascience.com/intuitively-understanding-variational-autoencoders-1bfe67eb5daf Intuitively Understanding Variational Autoencoders]

== Источники информации ==

*[https://arxiv.org/abs/1606.05908 Tutorial on Variational Autoencoders]

*Datalore презентация Дениса Степанова

[[Категория: Машинное обучение]]

[[Категория: Порождающие модели]]

Aleksei.latyshev

9

правок

Изменения

Вариационный автокодировщик

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты