30
правок
Изменения
Нет описания правки
'''Дипфейк''' (''англ. Deepfake'') {{---}} результат работы ряда алгоритмов для синтеза изображений человеческого лица или голоса. Алгоритмы, применяемые для решения данной задачи основаны на Порождающе-состязательных сетях. Современные алгоритмы позволяют генерировать не только лицо человека, но и его голос. C таким примером можно ознакомится по ссылке [https://www.youtube.com/watch?v=2svOtXaD3gg Home Stallone DeepFake]
[[Файл:Deep_fake_title_crop.png|thumb|400px|Рисунок 1. Примеры дипфейков #1 <ref name=orig>[https://arxiv.org/pdf/1908.05932.pdf]</ref>]]
$\displaystyle Loss(G_s) = Loss_{CE} + \lambda_{reenact}Loss_{pixel}(S_t, S_{t} {r}).$
$\displaystyle Loss_{CE} = -\sum_{i=1}^{C} t_i \log(f(s)_i), t\ -\ GroundTruth\ labels$ $\displaystyle Loss_{perc}(x, y) = \sum_{i = 1}^{n} \frac{1}{C_i H_i W_i} || F_i(x) - F_i(y) ||_1., C_i, H_i, W_i - число каналов и размер изображения$
$\displaystyle Loss_{pixel}(x, y) = || x - y ||_1 .$
Где $G_r$ {{---}} генератор переноса геометрии, $G_s$ {{---}} генератор сегментации лица.
[[Файл:Deep_fake_more_results.png|thumb|400px|Рисунок 2. Примеры дипфейков #2<ref name=orig>[https://arxiv.org/pdf/1908.05932.pdf]</ref>]]]
== Перенос сгенерированного лица ==
Где $p_t$ 2D ключевая точка лица $F_t$.
[[Файл:Deep_fake_view.png|right|thumb|450px|Рисунок 3. Карта переноса точек<ref name=orig>[https://arxiv.org/pdf/1908.05932.pdf]</ref>]]]
== Вписывание лица ==
== Данные для обучения и процесс обучения ==
[[Файл:Deep_fake_pipeline.png|thumb|right|450px|Рисунок 4. Общая схема алгоритма<ref name=orig>[https://arxiv.org/pdf/1908.05932.pdf]</ref>]]]
В качестве обучающего множества можно использовать множество дата сетов с размеченными лицами, одним из таких служит IJB-C <ref name=ijbc>[https://noblis.org/wp-content/uploads/2018/03/icb2018.pdf IJB-C]</ref>. На нем обучается генератор $G_r$. Данный дата сет состоит из более чем $11$ тысяч видео, $5500$ из которых высокого качества. При обучении кадры из $I_s$ и $I_t$ берутся из двух случайных видео. Так же для начального шага нам был необходим perceptual loss<ref name=perceptual>[https://arxiv.org/abs/1603.08155 Perceptual Losses for Real-Time Style Transfer and Super-Resolution]</ref>, он может быть получен, обучив VGG-19<ref name=vgg>[https://arxiv.org/abs/1409.1556 Very Deep Convolutional Networks for Large-Scale Image Recognition]</ref> модель или взяв готовую обученную на ImageNet<ref name=imagenet>[http://www.image-net.org/ ImageNet]</ref> или VGGFace2<ref name=vggface2>[https://arxiv.org/abs/1710.08092 VGGFace2: A dataset for recognising faces across pose and age]</ref>, второй дата сет предпочтительный, поскольку для его обучения используются только лица.