Порождающие модели — различия между версиями
PaulKh (обсуждение | вклад) (→Вычисление плотности распределения) |
PaulKh (обсуждение | вклад) (→Потеря порядка) |
||
Строка 21: | Строка 21: | ||
<math>\theta^* = \underset{\theta}{\operatorname{argmax}} \log \displaystyle \prod_i p_{model}(x_i;\theta) = \underset{\theta}{\operatorname{argmax}} \displaystyle \sum_i \log p_{model}(x_i;\theta) </math> | <math>\theta^* = \underset{\theta}{\operatorname{argmax}} \log \displaystyle \prod_i p_{model}(x_i;\theta) = \underset{\theta}{\operatorname{argmax}} \displaystyle \sum_i \log p_{model}(x_i;\theta) </math> | ||
+ | Важен и другой взгляд на то же самое: максимизация правдоподобия эквивалентна минимизации расстояния Кульбака-Лейблера<ref>[https://ru.wikipedia.org/wiki Расстояние_Кульбака_—_Лейблера Расстояние Кульбака-Лейблера]</ref> между распределением <tex>р</tex>, которое получается из нашей модели, и распределением <tex>\hat{p}_{data}</tex> — эмпирическим распределением данных. Это эмпирическое распределение попросту полностью сосредоточено в точках из набора данных и равномерно распределено по ним, так что: | ||
+ | <tex>KL(\hat{p}_{data}(x), p(x; \theta)) = \int \hat{p}_{data}(x) \log p(x; \theta) = \displaystyle \sum_i \hat{p}_{data}(x_i) \log p(x_i; \theta)</tex> | ||
+ | |||
+ | и минимизация этого выражения эквивалентна максимизации того, что выше. | ||
+ | |||
+ | ===Таксономия порождающих моделей=== | ||
+ | Генеративные модели различаются как раз тем, как именно они строят распределение <tex>p(x; \theta)</tex>. Можно строить это распределение ''явно'', делая вероятностные предположения, которые обычно сводятся к тому, что общее распределение <tex>p(x; \theta)</tex> выражается в виде произведения тех или иных «маленьких» распределений. | ||
Два основных подхода: | Два основных подхода: | ||
* Явный: определить распределение <tex>p_{model}</tex>, описывающее объекты и генерировать данные из него | * Явный: определить распределение <tex>p_{model}</tex>, описывающее объекты и генерировать данные из него | ||
− | * Неявный: получить некоторое распределение, оценить его близость с <tex>p_{model}</tex> через дивергенцию Кульбака-Лейблера | + | * Неявный: получить некоторое распределение, оценить его близость с <tex>p_{model}</tex> через дивергенцию Кульбака-Лейблера |
== Глубокие порождающие модели на основе нейронных сетей == | == Глубокие порождающие модели на основе нейронных сетей == |
Версия 22:48, 17 февраля 2020
Порождающие модели (англ. generative model) — это класс моделей, которые обучают совместное распределение[1] данных ; отсюда легко получить условное распределение , но совместное даёт больше информации и его можно использовать, например, для генерации новых фотографий животных, которые выглядят как настоящие животные.
С другой стороны, дискриминативная модель (англ. discriminative model)[2] обучает только условное распределение и может, например, отличить собаку от кошки.
Содержание
Классификация задачи
Можно использовать некоторые эмпирические правила для генерации новых объектов, не используя машинного обучения.
Требуется чтобы новые объекты были правдоподобными в своей области. Новое изображение человека должно быть правдоподобным, как изображение, но также человек на нём должен быть правдоподобным как человек.
Мы хотим научиться создавать правдоподобный объект относительно некоторой скрытой структуры исходных объектов. Давайте изучим распределение по ним, а затем просто будем сэмплировать новый объект из этого распределения. Значит эта задача относится к классу задач обучения без учителя.
Вычисление плотности распределения
С математической точки зрения основная цель порождающей модели обычно состоит в максимизации функции правдоподобия: для набора данных максимизировать
по параметрам модели , т.е. найтиПотеря порядка
Чтобы избежать арифметического переполнения снизу[3] зачастую пользуются свойством логарифма произведения . Благодаря моннотоности логарифма, его применение к обоим частям выражения не изменит параметры, при которых достигается максимум. При этом, логарифм от числа близкого к нулю будет числом отрицательным, но в абсолютном значении существенно большим чем исходное число, что делает логарифмические значения вероятностей более удобными для анализа. Что в нашем случае с вероятности очень уместно. Поэтому, мы переписываем нашу формулу с использованием логарифма.
Важен и другой взгляд на то же самое: максимизация правдоподобия эквивалентна минимизации расстояния Кульбака-Лейблера[4] между распределением , которое получается из нашей модели, и распределением — эмпирическим распределением данных. Это эмпирическое распределение попросту полностью сосредоточено в точках из набора данных и равномерно распределено по ним, так что:
и минимизация этого выражения эквивалентна максимизации того, что выше.
Таксономия порождающих моделей
Генеративные модели различаются как раз тем, как именно они строят распределение
. Можно строить это распределение явно, делая вероятностные предположения, которые обычно сводятся к тому, что общее распределение выражается в виде произведения тех или иных «маленьких» распределений.Два основных подхода:
- Явный: определить распределение , описывающее объекты и генерировать данные из него
- Неявный: получить некоторое распределение, оценить его близость с через дивергенцию Кульбака-Лейблера