81
правка
Изменения
м
→MirrorGAN: Fixed the issues #45 & #52
Если изображение, сгенерированное с помощью T2I (text-to-image), семантически соответствует заданному описанию, его текстовое описание, созданное посредством I2T (image-to-text) должно семантически совпадать с заданным.
Чтобы обучать модель сквозным методом, будем использовать две состязательные [[Функция потерь и эмпирический риск | функции потерь]]: состязательная # Состязательная потеря в реалистичности и состязательная : <tex>\mathcal{L}_{G_i}^{VR} = -\frac{1}{2} \mathbb{E}_{I_i \sim p_{I_i}} [\log(D_i(I_i))]</tex>.# Состязательная потеря в семантическом постоянстве: <tex>\mathcal{L}_{G_i}^{SC} = -\frac{1}{2} \mathbb{E}_{I_i \sim p_{I_i}} [\log(D_i(I_i, s))]</tex>.Где <tex>I_i</tex> -- сгенерированное на этапе <tex>i</tex> изображение, взятое из распределения <tex>p_{I_i}</tex>. Вдобавок, для эффективного использования двойного регулирования T2I и I2T, применим текстово-семантическую реконструированную функцию потерь, основанную на перекрёстной энтропии: <tex>\mathcal{L}_{stream} = -\displaystyle\sum_{t = 0}^{L - 1} \log(p_t(T_t))</tex>.
<div class="oo-ui-panelLayout-scrollable" style="display: block; vertical-align:middle; height: auto; width: auto;">[[Файл:MirrorGAN.png|thumb|center|x350px|Рисунок 21.<ref name="MirrorGAN"/> Архитектура MirrorGAN.]]</div>
Обучая <tex>G_i</tex>, градиенты из <tex>L_{stream}</tex> обратно распространяются (англ. ''backpropagated'') через STREAM в <tex>G_i</tex>, веса сетей которых остаются фиксированными. Финальная целевая функция генератора выглядит так:
<tex>\mathcal{L}_G = \displaystyle\sum_{i = 0}^{m - 1}{\mathcal{L}_{G_i}^{VR} + \mathcal{L}_{G_i}^{SC} + \lambda \mathcal{L}_{stream}}</tex>,
где <tex>\lambda</tex> {{---}} вес потери для обработки важности состязательной потери (англ. ''adversarial loss'') и потери текстово-семантической реконструкции (англ. ''text-semantic reconstruction loss''). Для наилучшего качества генерации можно поставить коэффициент <tex>\lambda := 20</tex>.
Показатель Inception Score<ref name="inception"/> был использован для измерения как объективности, так и разнообразия сгенерированных изображений. [https://en.wikipedia.org/wiki/Evaluation_measures_(information_retrieval)#R-Precision R-precision] был использован для вычисления визуально-семантической схожести между сгенерированными изображениями и их соответствующими текстовыми описаниями.