Изменения

Мета-обучение

17 байт добавлено, 01:49, 8 апреля 2019

Нет описания правки

\begin{aligned}

\theta = \arg\max_\theta \color{red}{E_\mathbb{E}_{T\~~subset~~sim \mathcal{T}}}[\mathbb{E} E__{\color{red}{S^\sim T ~~\subset\mathcal{D}~~, }B^T \~~subset~~color{red}{\~~mathcal{D~~sim T}} [\sum_{(x, y)\in B^T} P_\theta(y \vert \mathbf{x}, y\color{red}{, S^T})] ~~\color{red}{~~]}

\end{aligned}

Красным цветом выделена разница между обучением с учителем и подходом мета-обучения.

Таким образом, можно скзаать, что алгоритм обучения сам характеризуют задачу.

<h3> ~~1NN~~ Relative landmarks</h3>~~Elite 1-nearest neighbor~~ Первая мера для вычисления "похожести" задач вычисляла попарно разницу в производительности, так же называемую "relative landmarks" $~~P(\theta_~~RL_{~~1NN~~a,b,j}= P_{a,t_j} - P_{b,j})$ ~~<ref>Bernhard Pfahringer, Hilan Bensusan, and Christophe G. Giraud-Carrier. Meta-learning by landmarking various learning algorithms.In~~ между двумя конфигурациями $\~~emph~~theta_{~~17th International Conference on Machine Learning (ICML)~~a}~~, pages 743 -- 750, 2000.</ref> [[Метрический классификатор~~ $ и ~~метод ближайших соседей|kNN]] c~~ $~~k = 1~~\theta_{b}$ на конкретной задаче $t_{j}$.~~Помогает установить, является ли задача релевантной, если похожи их атрибуты~~.

<h3> Линейный дискриминант </h3>

Наивный Байесовский лендмарк $P(\theta_{NB},t_{j})$ <ref>Daren Ler, Irena Koprinska, and Sanjay Chawla. Utilizing regression-based landmarkers within a meta-learning framework for algorithm selection. \emph{Technical Report 569. University of Sydney}, pages 44--51, 2005.</ref> {{---}} вероятностный классификатор, основанный на [[формула байеса | теореме Байеса]. Называется наивным потому что предполагается, что все атрибуты независимы друг от друга.

Elite 1-nearest neighbor $P(\theta_{1NN},t_{j})$ <ref>Bernhard Pfahringer, Hilan Bensusan, and Christophe G. Giraud-Carrier. Meta-learning by landmarking various learning algorithms.In \emph{17th International Conference on Machine Learning (ICML)}, pages 743 -- 750, 2000.</ref> [[Метрический классификатор и метод ближайших соседей|kNN]] c $k = 1$.

Помогает установить, является ли задача релевантной, если похожи их атрибуты.

<h2>Основанные на оптимизации</h2>

# сдвигаем веса модели к новым параметрам.

$\text{SGD}(\mathcal{L}_{\tau_i}, \theta, k)$ выполняет стохастический градиентный спуск на $k$ шагов ~~на лоссе~~ c функцией потерь $\mathcal{L}_{\tau_i}$, начиная с параметра $\theta$ и возвращает конечный вектор параметров. Градиент reptile определяется как $(\theta - W)/\alpha$, где $\alpha$ {{---}} размер шага, используемый функцией $SGD$.

<font color=green>// Алгоритм REPTILE</font>

Если мы хотим предоставить рекомендации для конкретной задачи $t_{new}$, нам нужна дополнительная информация о том, насколько $t_{new}$ похожа на предыдущие задачи $t_j$. Первый способ {{---}} посчитать число рекомендованных конфигураций для $t_new$, yielding новый эвиденс $\mathbf{P}_{new}$. Если позже мы будем наблюдать, что вычисления $P_{i,new}$ соответствуют $P_{i, j}$, то $t_{j}$ и $t_{new}$ могут быть очень похожими. Мы можем применить это знания для обучения meta-learner'a который предсказывает множество рекомендуемых конфигураций $\Theta^{*}_{new}$ for $t_{new}$.

Более того, можно пойти дальше и добавить $\Theta^{*}_{new}$ в $P_new$ и перейти к следующей итерации и выяснять какие еще задачи схожи друг с другом.

~~<h3>Relative landmarks</h3>~~

Первая мера для вычисления "похожести" задач вычисляла попарно разницу в производительности, так же называемую "relative landmarks" $RL_{a,b,j} = P_{a,j} - P_{b,j}$ между двумя конфигурациями $\theta_{a}$ и $\theta_{b}$ на конкретной задаче $t_{j}$.

<h3>Суррогатные модели</h3>

Tsebrovskiy

16

правок

Изменения

Мета-обучение

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты