Изменения

Перейти к: навигация, поиск

Мета-обучение

17 байт добавлено, 01:49, 8 апреля 2019
Нет описания правки
\begin{aligned}
\theta = \arg\max_\theta \color{red}{E_\mathbb{E}_{T\subsetsim \mathcal{T}}}[\mathbb{E} E__{\color{red}{S^\sim T \subset\mathcal{D}, }B^T \subsetcolor{red}{\mathcal{Dsim T}} [\sum_{(x, y)\in B^T} P_\theta(y \vert \mathbf{x}, y\color{red}{, S^T})] \color{red}{]}
\end{aligned}
Красным цветом выделена разница между обучением с учителем и подходом мета-обучения.
Таким образом, можно скзаать, что алгоритм обучения сам характеризуют задачу.
<h3> 1NN Relative landmarks</h3>Elite 1-nearest neighbor Первая мера для вычисления "похожести" задач вычисляла попарно разницу в производительности, так же называемую "relative landmarks" $P(\theta_RL_{1NNa,b,j}= P_{a,t_j} - P_{b,j})$ <ref>Bernhard Pfahringer, Hilan Bensusan, and Christophe G. Giraud-Carrier. Meta-learning by landmarking various learning algorithms.In между двумя конфигурациями $\emphtheta_{17th International Conference on Machine Learning (ICML)a}, pages 743 -- 750, 2000.</ref> [[Метрический классификатор $ и метод ближайших соседей|kNN]] c $k = 1\theta_{b}$ на конкретной задаче $t_{j}$.Помогает установить, является ли задача релевантной, если похожи их атрибуты.
<h3> Линейный дискриминант </h3>
Наивный Байесовский лендмарк $P(\theta_{NB},t_{j})$ <ref>Daren Ler, Irena Koprinska, and Sanjay Chawla. Utilizing regression-based landmarkers within a meta-learning framework for algorithm selection. \emph{Technical Report 569. University of Sydney}, pages 44--51, 2005.</ref> {{---}} вероятностный классификатор, основанный на [[формула байеса | теореме Байеса]. Называется наивным потому что предполагается, что все атрибуты независимы друг от друга.
 
<h3> 1NN </h3>
Elite 1-nearest neighbor $P(\theta_{1NN},t_{j})$ <ref>Bernhard Pfahringer, Hilan Bensusan, and Christophe G. Giraud-Carrier. Meta-learning by landmarking various learning algorithms.In \emph{17th International Conference on Machine Learning (ICML)}, pages 743 -- 750, 2000.</ref> [[Метрический классификатор и метод ближайших соседей|kNN]] c $k = 1$.
Помогает установить, является ли задача релевантной, если похожи их атрибуты.
<h2>Основанные на оптимизации</h2>
# сдвигаем веса модели к новым параметрам.
$\text{SGD}(\mathcal{L}_{\tau_i}, \theta, k)$ выполняет стохастический градиентный спуск на $k$ шагов на лоссе c функцией потерь $\mathcal{L}_{\tau_i}$, начиная с параметра $\theta$ и возвращает конечный вектор параметров. Градиент reptile определяется как $(\theta - W)/\alpha$, где $\alpha$ {{---}} размер шага, используемый функцией $SGD$.
<font color=green>// Алгоритм REPTILE</font>
Если мы хотим предоставить рекомендации для конкретной задачи $t_{new}$, нам нужна дополнительная информация о том, насколько $t_{new}$ похожа на предыдущие задачи $t_j$. Первый способ {{---}} посчитать число рекомендованных конфигураций для $t_new$, yielding новый эвиденс $\mathbf{P}_{new}$. Если позже мы будем наблюдать, что вычисления $P_{i,new}$ соответствуют $P_{i, j}$, то $t_{j}$ и $t_{new}$ могут быть очень похожими. Мы можем применить это знания для обучения meta-learner'a который предсказывает множество рекомендуемых конфигураций $\Theta^{*}_{new}$ for $t_{new}$.
Более того, можно пойти дальше и добавить $\Theta^{*}_{new}$ в $P_new$ и перейти к следующей итерации и выяснять какие еще задачи схожи друг с другом.
 
<h3>Relative landmarks</h3>
Первая мера для вычисления "похожести" задач вычисляла попарно разницу в производительности, так же называемую "relative landmarks" $RL_{a,b,j} = P_{a,j} - P_{b,j}$ между двумя конфигурациями $\theta_{a}$ и $\theta_{b}$ на конкретной задаче $t_{j}$.
<h3>Суррогатные модели</h3>
16
правок

Навигация