Изменения

Порождающие модели

1460 байт добавлено, 23:41, 17 февраля 2020

→‎Таксономия порождающих моделей

<math>\theta^* = \underset{\theta}{\operatorname{argmax}} \log \displaystyle \prod_i p_{model}(x_i;\theta) = \underset{\theta}{\operatorname{argmax}} \displaystyle \sum_i \log p_{model}(x_i;\theta) </math>

Важен и другой взгляд на то же самое: максимизация правдоподобия эквивалентна минимизации расстояния Кульбака-Лейблера<ref>[https://ru.wikipedia.org/wiki /Расстояние_Кульбака_—_Лейблера Расстояние Кульбака-Лейблера]</ref> между распределением <tex>р</tex>, которое получается из нашей модели, и распределением <tex>\hat{p}_{data}</tex> — эмпирическим распределением данных. Это эмпирическое распределение попросту полностью сосредоточено в точках из набора данных и равномерно распределено по ним, так что:

<tex>KL(\hat{p}_{data}(x), p(x; \theta)) = \int \hat{p}_{data}(x) \log p(x; \theta) = \displaystyle \sum_i \hat{p}_{data}(x_i) \log p(x_i; \theta)</tex>

===Таксономия порождающих моделей===

[[Файл:Tax2.jpg|500px|thumb|right]]

Генеративные модели различаются как раз тем, как именно они строят распределение <tex>p(x; \theta)</tex>. Можно строить это распределение ''явно'', делая вероятностные предположения, которые обычно сводятся к тому, что общее распределение <tex>p(x; \theta)</tex> выражается в виде произведения тех или иных ~~«маленьких»~~ распределений.

~~Два основных подхода:~~Как правило, модели, где плотность известна явно, делают какие-то дополнительные предположения на структуру этих распределений. Например, [[Байесовские сети|байесовские сети]] строят распределение из условных распределений <math>\mathrm P(X_1, \ldots, X_n) = \prod_{i=1}^n \mathrm P(X_i \mid \operatorname{parents}(X_i)).</math> * ЯвныйМожно даже и вовсе никаких предположений не делать: ~~определить~~ любое распределение всегда раскладывается как <tex>p_p(x) = \displaystyle \prod_{i} p(x_i \mid x_1, {{...}}, x_{~~model~~i-1})</tex>(Простая факторизующаяся плотность). Так представляется модель в FVBN(fully visible belief networks)<ref>[https://mitpress.mit.edu/books/graphical-models-machine-learning-and-digital-communication Frey B. Graphical Models for Machine Learning and Digital Communication, ~~описывающее объекты и генерировать данные из него~~* НеявныйCambridge, MA: ~~получить некоторое распределение~~MIT Press, 1998.]</ref>, идея которых состоит в том, ~~оценить его близость~~ что с одномерными распределениями мы уж как-нибудь разберемся - в ранних работах их представляли классическими моделями. А сейчас мы можем их промоделировать последовательно [[Глубокое обучение|глубокими сетями]], получится модель, которая сможет последовательно породить <tex>p_х</tex> компонент за компонентом, каждый раз для порождения <tex>x_i</tex> опираясь на уже порожденные <tex>x_1, {{...}}, x_{~~model~~i-1})</tex> ~~через дивергенцию Кульбака-Лейблера~~.

== Глубокие порождающие модели на основе нейронных сетей ==

PaulKh

76

правок

Изменения

Порождающие модели

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты