Изменения

Перейти к: навигация, поиск

Мета-обучение

5 байт добавлено, 01:06, 8 апреля 2019
Нет описания правки
Общая идея такая: для каждого набора данных $d \in \mathcal{D}$ вычисляется вектор мета-признаков, которые описывают свойства этого набора данных. Ими могут быть: число категориальных или численных признаков объеков в $d$, число возможных меток, размер $d$ и многие другие<ref>[https://www.fruct.org/publications/ainl-fruct/files/Fil.pdf Datasets meta-feature description for recommending feature selection algorithm]</ref>. Каждый алгоритм запускается на всех наборах данных из $\mathcal{D}$. После этого вычисляется эмпирический риск, на основе которого формируются метки классов. Затем мета-классификатор обучается на полученных результатах. В качестве описания набора данных выступает вектор мета-признаков, а в качестве метки — алгоритм, оказавшийся самым эффективным с точки зрения заранее выбранной меры качества.
Кажддый датасет $d \in \mathcal{D}$ содержит пары признаков и меток, $\{(\mathbf{x}_i, y_i)\}$, каждая метка принадлежит известному множеству меток $\mathcal{LT}$.
Датасет $d$ делится на две части: $d=\langle S, B\rangle$, обучающую $S$ и тестовую $B$ выборки. Часто принимается k-shot N-class задача {{---}} обучающая выборка содержит $k$ размеченных примеров для каждого из $N$ классов.
Скажем, наш классификатор $f_\theta$ с параметром $\theta$ показывает вероятность принадлежности точки из данных к классу $y$ при векторе признакопризнаков, $P_\theta(y|x)$.
В пристрелочной (few-shot) классификации цель {{---}} уменьшить ошибку предсказания на неразмеченных данных. Чтобы его ускорить, сделаем следующее:
# возьмем подмножество меток, $LT\subset\mathcal{LT}$# возьмем обучающее множесто $S^L⊂DT⊂D$ и обучающую выборку $B^L⊂DT⊂D$. Оба содержат только данные с метками из подмножества с пункта 1: $L, y \in L, \forall (x, y) \in S^LT, B^LT$# Множество $S^LT$ подается на вход модели# Конечная оптимизация использует множество $B^LT$, чтобы посчитать функцию потерь и обновить параметры модели через обратное распространение, так же, как это делается в обучении с учителем.
\begin{aligned}
\theta = \arg\max_\theta \color{red}{E_{LT\subset\mathcal{LT}}[} E_{\color{red}{S^L T \subset\mathcal{D}, }B^L T \subset\mathcal{D}} [\sum_{(x, y)\in B^LT} P_\theta(x, y\color{red}{, S^LT})] \color{red}{]}
\end{aligned}
Красным цветом выделена разница между обучением с учителем и подходом мета-обучения.
<h2> Лэндмарки </h2>
Лэндмарки {{---}} подход это один из подходов для описания задач мета-обучения. В отличие от предшетсвенников, использовавших только статистические и околостатистические метрики, лендмаркистараютсястараются определить расположение конкретной задачи мета-обучения в пространстве всех задач обучения, измеряя производительность некоторых простых и эффективных алгоритмов.
Таким образом, можно скзаать, что алгоритм обучения сам характеризуют задачу.
<h3> 1NN </h3>
Elite 1-nearest neighbor $P(\theta_{1NN},t_{j})$ <ref>Bernhard Pfahringer, Hilan Bensusan, and Christophe G. Giraud-Carrier. Meta-learning by landmarking various learning algorithms.In \emph{17th International Conference on Machine Learning (ICML)}, pages 743 -- 750, 2000.</ref> Лэндмарк, очевидно, считает [[Метрический классификатор и метод ближайших соседей|kNN]] c $k = 1 ближайшего соседа$. Помогает установить, является ли задача релевантной, если похожи их атрибуты.
<h3> Линейный дискриминант </h3>
| Landmarker(Tree) || $P(\theta_{Tree},t_{j})$ || Data separability || Stump,RandomTree
|-
| Landmarker(Lin) || $P(\theta_{Lin},t_{j})$ || Linear separability || Lin.DisciminantDiscriminant
|-
| Landmarker(NB) || $P(\theta_{NB},t_{j})$ || Feature independence || <ref>Daren Ler, Irena Koprinska, and Sanjay Chawla. Utilizing regression-based landmarkers within a meta-learning framework for algorithm selection. \emph{Technical Report 569. University of Sydney}, pages 44--51, 2005.</ref>
16
правок

Навигация