Изменения

Мета-обучение

8063 байта добавлено, 00:36, 23 марта 2020

Нет описания правки

<b>Мета-обучение</b> (англ. Meta-learning) {{--- }} подход, ~~повзоляющий~~ позволяющий определять ~~оптимальный~~ наиболее подходящий алгоритм (иногда, вместе с параметрами к нему) для конкретной задачииз портфолио алгоритмов. Основная идея мета-обучения {{-- ~~свети~~ -}} свести задачу выбора алгоритма к задаче [[Общие понятия#Классификация задач машинного обучения|обучения с учителем]]: задачи описываются мета-~~фичами~~признаками. Мета-~~фича~~ признак описывает свойство задачи {{--- ~~напмример~~}} например, разрежен ли датасет или нет, число категориальных или численных признаков объектов в датасете, число возможных меток, размер датасета и многое другое.

От хорошей модели ожидается ~~хорошая~~ высокая адаптируемость ~~или генерализуемость новых задач~~ к новым задачам и ~~окружений~~окружениям, ~~с которыми модель не сталкивалась во время обучения~~на небольшом количестве примеров.

~~Такими задачами являются:~~* Классификатор, тренированный на изображениях собак и велосипедов, после некоторых показанных ему кошек, смог определить, есть ли на новой картинке кошка* Игровой бот, способный быстро обучиться новой игре* Робот, выполняющий задачу на пригорке во время теста даже если он тренировался на ровной поверхности<h2>Обзор</h2>

~~Ограничения- No free lunch teorem [Wolpert and Macready, 1996; Giraud-Carrier and Provost, 2005]~~ ~~<h2>Simple view</h2>~~ ~~Хорошая модель мета-обучения~~ Модель должна быть обучена на множестве задач и оптимизирована для лучшей производительности на нескольких задачах,включая такие, с которыми модель не сталкивалась ранее. Каждой задаче соответствует ~~датасет~~ множество наборов данных $\mathcal{D}$, ~~содержащий~~ каждый из которых содержит и векторы ~~фичей~~ признаков и ~~правильную~~ разметку.

Оптимальные параметры модели:

\end{aligned}

Очень похоже на обычную задачу машинного обучения, только один датасет принимается за один ~~сэмпл~~ образец данных.

~~Few~~Ограничения {{--~~shot классификатор конкретизация мета~~-~~обучения в области обучения с учителем. Датасет $\mathcal{D~~}~~$ делится на две части: $\mathcal{D~~}~~=\langle S~~Теорема о том, что бесплатного завтрака не бывает(англ. No Free Lunch Theorem, ~~B\rangle$~~сокр. NFL) theorem<ref>[https://www.researchgate.net/publication/221997149_No_Free_Lunch_Theorems_for_Search Wolpert and Macready,~~train set $S$ и test set $B$~~1996]</ref><ref>[https://www.researchgate. ~~Часто принимается k~~net/publication/228671734_Toward_a_justification_of_meta-~~shot N~~learning_Is_the_no_free_lunch_theorem_a_show-~~class задача~~ stopper Giraud- ~~train set содержит $k$ размеченных примеров для каждого из $N$ классов~~Carrier and Provost, 2005]</ref> , доказанная в 1996 году.~~Датасет $\mathcal~~{~~D}$ содержит пары фичей и меток, $\mathcal~~{D} Теорема|about = No free Lunch Theorem|statement = \{Пусть <tex>P(~~\mathbf~~d_{xm}_i^{y}| f, ~~y_i~~m, a)\</tex> {{---}~~$ и каждая метка принадлежит известному множеству меток $\mathcal{L~~}условная вероятность получения частного решения $~~. Скажем, наш классификатор $f_θ~~d_m$ ~~с параметром~~ после $θm$ ~~показывает вероятность принадлежности точки из данных к классу~~ итераций работы алгоритма $ya$ при ~~векторе фичей~~ целевой функции $xf$, . Для любой пары алгоритмов $~~Pθ(y|x)~~a_1$~~Оптимальные параметры должны максимизировать вероятность верных меток среди нескольких training sets~~ и $~~B⊂\mathcal{D}~~a_2$имеет место равенство:

<tex>

\\

\begin{aligned}

\~~theta^* &=~~ sum_{~~\arg\max~~f}_P(d_{~~\theta~~m} ~~\mathbb~~^{~~E}_{(\mathbf{x~~y}| f, m, ya_1)= \~~in \mathcal~~sum_{Df}~~}[P_\theta~~P(~~y \vert \mathbf~~d_{xm}~~)] &\\\theta~~^* &= {~~\arg\max}_{\theta} \mathbb{E}_{B\subset \mathcal{D}}[\sum_{(\mathbf{x~~y}| f, m, ya_2)~~\in B}P_\theta(y \vert \mathbf{x})] & \scriptstyle{\text{; trained with mini-batches.}}~~

\end{aligned}

</tex>

}}

Иными словами, если встречается задача, которая не похожа на то, что решалось ранее, то мы не сможем сразу придумать для него эффективное решение.

~~В few~~Общая идея мета-обучения: для каждого набора данных $d \in \mathcal{D}$ вычисляется вектор мета-признаков, которые описывают свойства этого набора данных. Ими могут быть: число категориальных или численных признаков объектов в $d$, число возможных меток, размер $d$ и многие другие<ref>[https://www.fruct.org/publications/ainl-fruct/files/Fil.pdf Datasets meta-feature description for recommending feature selection algorithm]</ref>. Подробнее о конкретных метапризнаках смотреть [[Мета-~~shot классификации цель~~ обучение#Определение множества конфигураций|ниже]] Каждый алгоритм запускается на всех наборах данных из $\mathcal{D}$. После этого вычисляется эмпирический риск, на основе которого формируются метки классов. Затем мета- ~~уменьшить ошибку предсказания~~ классификатор обучается на ~~неразмеченных~~ полученных результатах. В качестве описания набора данных выступает вектор мета-признаков, а в качестве метки — алгоритм, оказавшийся самым эффективным с ~~данным train set для "быстрого обучения"~~точки зрения заранее выбранной меры качества. ~~Чтобы ускорить процесс обучения, сделаем следующее:# возьмем подмножество~~ Каждый датасет $d \in \mathcal{D}$ содержит пары признаков и меток, $L\~~subset~~{(x_i, y_i)\}$, каждая метка принадлежит известному множеству меток $\mathcal{LT}$.~~# возьмем train set~~ Датасет $d$ делится на две части: $d=\langle S, B\rangle$, обучающую $S~~^L⊂D~~$ и ~~train batch~~ тестовую $B~~^L⊂D~~$выборки. ~~Оба содержат только данные~~ Часто принимается k-shot N-class задача {{---}} обучающая выборка содержит $k$ размеченных примеров для каждого из $N$ классов.Скажем, наш классификатор $f_\theta$ с ~~метками~~ параметром $\theta$ показывает вероятность принадлежности точки из ~~подмножества с пункта 1~~данных к классу $y$ при векторе признаков, $P_\theta(y|x)$.Оптимальные параметры должны максимизировать вероятность получения верных меток среди нескольких обучающих выборок $B⊂\mathcal{D}$:

\begin{aligned}

L\theta^* &= {\arg\max}_{\theta} \mathbb{E}_{(\mathbf{x}, y )\in L, \~~forall~~ mathcal{D}}[P_\theta(y \vert \mathbf{x})] & \\\theta^* &= {\arg\max}_{\theta} \mathbb{E}_{B\subset \mathcal{D}}[\sum_{(\mathbf{x}, y) \in ~~S^L,~~ B^L}P_\theta(y \vert \mathbf{x})] & \\

\end{aligned}

В пристрелочной (few-shot) классификации цель {{---}} уменьшить ошибку предсказания на неразмеченных данных. Чтобы его ускорить, сделаем следующее:# Возьмем подмножество меток, $T\subset\mathcal{T}$# Возьмем обучающее множество $S^T⊂D$ и обучающую выборку $B^T⊂D$. Оба содержат только данные с метками из подмножества с пункта 1: $L, y \in L, \forall (x, y) \in S^T, B^T$# Множество $S^LT$ подается на вход модели.# Конечная оптимизация использует множество $B^LT$ , чтобы посчитать ~~loss~~ функцию потерь и обновить параметры модели через обратное распространение, так же, как это делается в обучении с учителем. Можно представить каждую пару сэмплированного датасета $(S^L,B^L)$ как одну точку. Модель обучается таким образом, чтобыона могла обобщиться до других датасетов.~~Красным выделен дифф между обучением с учителем и мета-обучением~~.

\begin{aligned}

\theta = \arg\max_\theta \color{red}{E_\mathbb{E}_{LT \~~subset~~sim \mathcal{LT}}}[\mathbb{E} E__{\color{red}{S~~^L \subset~~\~~mathcal{D}~~sim T, }B^L \~~subset~~color{red}{\~~mathcal{D~~sim T}} [\sum_{(x, y)\in B^L} P_\theta(y \vert \mathbf{x~~, y~~} \color{red}{, S^L})] ~~\color{red}{~~]}

\end{aligned}

Красным цветом выделена разница между обучением с учителем и подходом мета-обучения.

Идея в некоторой степени аналогична использованию предварительно обученной модели в классификации изображений (ImageNet) или в ~~языковом моделировании~~ [[обработка естественного языка | NLP]] (большие текстовые корпуса), когда доступен только ограниченный набор образцов данных для конкретной задачи. ~~Мета-обучение идет еще на один шаг вперед, вместо того~~Модель обучается таким образом, чтобы ~~подстраивать ее под одну задачу,~~ она ~~оптимизирует модель, чтобы она была хороша для многих задач~~могла обобщиться до других датасетов. ~~<h2>Основанные на оптимизации</h2>~~

~~Модели глубокого~~ <h2>Оптимизации методов Мета-обучения (deep learning) обучаются через обратное распространение градиентов. Тем не менее, оптимизация, основанная на градиентах не разрабатывалась для работы с небольшим количеством обучающих семплов, и не сходится за малое число оптимизационных шагов. Подход в мета-обучении, основанный на оптимизации как раз про это.</h2>

<h3>LSTM-meta-learner</h3>

{{main|Долгая краткосрочная память}}Оптимизационный ~~алгоитм~~ алгоритм может быть явно смоделирован. ~~Ravi~~ Рави и Ларошель <ref>[https://openreview.net/pdf?id=rJY0-Kcll Ravie & Larochelle (, Optimization as a model for a few-shot learning, 2017) ]</ref> это и сделали и назвали его "meta-learner". Цель meta-learner'а {{- --}} эффективно обновлять свои параметры ~~learner'a~~ используя ~~небольшой train set~~ небольшую обучающую выборку так, чтобы learner мог быстро адаптироваться к новым задачам.

Пусть модель ученика будет $~~M_θ~~M_\theta$, параметризованной $θ\theta$, и meta-learner как $~~R_Θ~~R_\theta$ с параметром $θ\theta$, и функция потерь $\mathcal{L}$.

Обновление параметров learner'a во время $t$ ~~c learning rate~~ со скоростью обучения $\alpha_t$ (шаг градиентного спуска):

\begin{aligned}

\end{aligned}

$c_t$ {{- --}} параметры сети $\theta_t$, $\tilde{c}_t = -\nabla_{\theta_{t-1}}\mathcal{L}_t$ при $f_t$ = 1.

$f_t$ = 1, $\tilde{c}_t = -\nabla_{\theta_{t-1}}\mathcal{L}_t$ - не оптимальные значения, их изменение может оказаться полезным, если вы попали в неудачный локальный минимум.

\begin{aligned}

f_t &= \sigma(\mathbf{W}_f \cdot [\nabla_{\theta_{t-1}}\mathcal{L}_t, \mathcal{L}_t, \theta_{t-1}, f_{t-1}] + \mathbf{b}_f) & ~~\scriptstyle{\text{; как сильно мы забываем старые значения параметров.}}~~\\i_t &= \sigma(\mathbf{W}_i \cdot [\nabla_{\theta_{t-1}}\mathcal{L}_t, \mathcal{L}_t, \theta_{t-1}, i_{t-1}] + \mathbf{b}_i) & ~~\scriptstyle{\text{; соответствует рейту обучения на шаге t.}}~~\\\tilde{\theta}_t &= -\nabla_{\theta_{t-1}}\mathcal{L}_t &\\\theta_t &= f_t \odot \theta_{t-1} + i_t \odot \tilde{\theta}_t &\\

\end{aligned}

~~я ничего не понял.~~$f_t$ {{---}} как сильно мы забываем старые значения параметров на шаге $t$, $i_t$ {{---}} рейт обучения на шаге $t$.

<h3>REPTILE</h3>

Reptile {{- --}} относительно простой алгоритм мета-обучения, похожий на MAML, например, тем, что оба используют мета-оптимизацию через ~~градиентый~~ градиентный спуск и оба не чувствительны к модели.

# ~~сэмплируем задачу~~Случайным образом разбиваем задачук на подмножества

# тренируемся на ней несколькими шагами градиентного спуска

# сдвигаем веса модели к новым параметрам.

$\text{SGD}(\mathcal{L}_{\tau_i}, \theta, k)$ выполняет стохастический градиентный спуск на $k$ шагов ~~на лоссе~~ c функцией потерь $\mathcal{L}_{\tau_i}$, начиная с параметра $\theta$ и возвращает конечный вектор параметров. Градиент reptile определяется как $(\theta - W)/\alpha$, где $\alpha$ {{--- }} размер шага, используемый функцией $SGD$.

<font color=green>// ~~Algorithm~~ Алгоритм REPTILE~~, batched version~~</font>

Initialize $\theta$

'''for''' $iteration = 1, 2,...$ '''do'''

<h2>Определение множества конфигураций</h2>

Предшествующие ~~выисления~~ вычисления могут быть также использованы для изучения пространства более успешных конфигураций $\theta^{\star}$. Более подходящие под задачу конфигурации могут серьезно ускорить поиск оптимальных моделей, это важно при ограниченных вычислительных ~~рессурсах~~ресурсах.

Альтернативный подход сперва узнать оптимальные ~~гипермараметры~~гиперпараметры, а потом через приращение производительности определить важность каждого из гиперпараметров. Это и было сделано в ~~лабе~~ лаборатории OpenML, где провели около 500 000 экспериментов на 6 алгоритмах и , использовав при этом 38 датасетах. Стандартные значения изучались вместе для всех гиперпараметров алгоритма посредством обучения суррогатных моделей ~~для этого алгоритма~~ на большом числе задач. После того, как уже проверены многие ~~варинаты~~ варианты конфигураций, выбирается такая, которая минимизирует ~~???~~ средний риск для всех задач, и становится стандартной.Далее определяется важность каждого из гиперпараметров. Чем больше меняется приращение производительности, тем более важный гиперпараметр мы изменяем.

Если мы хотим предоставить рекомендации для конкретной задачи $t_{new}$, нам нужна дополнительная информация о том, насколько $t_{new}$ похожа на предыдущие задачи $t_j$. Первый способ {{--- }} посчитать число рекомендованных конфигураций для $~~t_new~~t_{new}$, ~~yielding новый эвиденс~~ получая новое докозательство $\mathbf{P}_{new}$. Если позже мы будем наблюдать, что вычисления $P_{i,new}$ соответствуют $P_{i, j}$, то $t_{j}$ и $t_{new}$ могут быть очень похожими. Мы можем применить это знания для обучения meta-learner'a который ~~предскаывает~~ предсказывает множество рекомендуемых конфигураций $\Theta^{*}_{new}$ for $t_{new}$.Более того, можно пойти дальше и добавить $\Theta^{*}_{new}$ в $~~P_new~~P_{new$ и перейти к следующей итерации и выяснять какие еще задачи схожи друг с другом. ~~<h3>Relative landmarks</h3>~~Первая мера для вычисления "похожести" задач вычисляла попарно разницу в производительности, так же называемую "relative landmarks" $RL_{a,b,j} = P_{a,j} - P_{b,j}$ между двумя конфигурациями $\theta_{a}$ и $\theta_{b}$ на конкретной задаче $t_{j}$.

<h3>Суррогатные модели</h3>

Более гибкий способ передать информацию {{- --}} построить суррогатную модель $s_{j}(\theta_{i}) = P_{i,j}$ для всех предшествующих задач $t_{j}$, обученную с использованием всех доступных $\mathbf{P}$. Можно определить "похожесть" задач в терминах ошибок между $s_{j}(\theta_{i})$ и $P_{i,new}$: если суррогатная модель для $t_{j}$ может генерировать точные предсказания для $t_{new}$, тогда такие задачи весьма похожи. Обычно это делается в комбинации с Байесовской оптимизацией для определения следующей $\theta_{i}$.

Так же можно обучать суррогатные ~~модли~~ модели на Гауссовских процессах (GP) для каждой предыдущей задачи и еще одну для $t_{new}$ и объединить их во взвешенную и нормализованную сумму, с медианой $\mu$ определенной как ~~взвшенная~~ взвешаннаясумма $\mu_{j}$ полученных из задач $t_{j}$. Веса $\mu_{j}$ считаются ~~через~~ методом Надарая-Ватсона<ref>[http://www.maths.manchester.ac.uk/~peterf/MATH38011/NPR%20N-W%20Estimator.pdf Nadaraya-Watson ~~kernel-weighted average~~estimator]</ref>, где каждая задача представлена вектором относительных ориентиров (англ. relative landmarks и ) илиядром Епанечникова<ref>[https://epubs.siam.org/doi/10.1137/1114019 V. A. Epanechnikov ~~quadratic kernel~~ , Non-Parametric Estimation of a Multivariate Probability Density]</ref>, используется для определения похожести между векторами ~~relative landmarks~~ относительных ориентиров для $t_{j}$ и $t_{new}$. Чем больше $t_{j}$ похожа на $t_{new}$, тем больше получится вес $s_{j}$, увеличивающий влияние суррогатной модели для $t_{j}$.

Суррогатные модели обучаются только на $P_{i, new}$, а следующий $\theta_{i}$ ~~поулчается~~ получается путем нахождения средневзвешенного expected improvement $P_{i, new}$ и предсказанных улучшений на всех предшествующих $P_{i, j}$.Веса предшествующих задач могут быть переопределены через точность суррогатной модели или через ~~relative landmarks~~относительных ориентиров.

Вес ожидаемого улучшения (expected improvement) постепенно возрастает с каждой итерацией (с увеличением собранного эвиденса $P_{i, new}$).

<h3>Обучение на свойствах задачи (learning on task properties)</h3>

Каждая задача $t_{j} \in T$ может быть описана вектором $m(t_j) = (m_{j,1}, ...,m_{j,K})$ из $K$ мета-~~фичей~~ признаков $m_{j, k} \in M$ ,где $M$ {{- --}} множество мета-~~фичей~~признаков. Можно определить меру "похожести" задач, основанную, например, на Евклидовом расстоянии между $m(t_i)$ и $m(t_j)$, тогда можно будет использовать информацию из наиболее похожей задачи на новую задачу $t_{new}$. Более того, используя предшествующие вычисления $\textbf{P}$ можно обучить meta-learner'a $L$ предсказывать производительность $P_{i, new}$ конфигураций $\theta_{i}$ на новых задачах $t_{new}$.

$L: \Theta \times M \rightarrow \textbf{P}$

В таблице ниже представлен обзор наиболее используемых мета-~~фичей~~признаков.

{| class="wikitable"

|+ ~~Meta~~мета-~~feature~~|-~~! '''Name''' !! '''Formula''' !! '''Rationale''' !! '''Variants'''~~признаки

|-

~~| colspan="4" align="center" |~~ ! '''~~simple~~Название''' !! '''Формула''' !! '''Объяснение''' !! '''Варианты'''

|-

| ~~Nr instances~~ colspan="4" align="center" |~~| $n$ || Speed, Scalability \citep{Michie1994} || $p/n$, $log(n)$, log(n/p)~~'''простые'''

|-

| ~~Nr features~~ instances || $pn$ || ~~Curse of dimensionality \citep{Michie1994}~~ Speed, Scalability<ref>[https://www1.maths.leeds.ac.uk~charlesstatlogwhole.pdf Donald Michie, David J. Spiegelhalter, Charles C. Taylor, and John Campbell. Machine Learning, Neural and Statistical Classification, 1994]</ref> || $p/n$, $log(pn)$, ~~% categorical~~log(n/p)

|-

| ~~Nr classes~~ features || $cp$ || ~~Complexity, imbalance \citep{Michie1994}~~ Curse of dimensionality || ~~ratio min/maj class~~$log(p)$, % categorical

|-

| ~~Nr missing values~~ classes || $mc$ || ~~Imputation effects \citep{kalousis02}~~ Complexity, imbalance || ~~% missing~~ratio min/maj class

|-

| ~~Nr outliers~~ Percent of missing values || $om$ || ~~Data noisiness \citep{Rousseeuw2011}~~ Imputation effects <ref>A. Kalousis. Algorithm Selection via Meta-Learning. PhD thesis, University of Geneva, Department of Computer Science, 2002</ref> || ~~$o/n$~~% missing

|-

| ~~colspan="4" align="center"~~ outliers | ~~'''statistical'''~~| $o$ || Data noisiness <ref>Peter J. Rousseeuw and Mia Hubert. Robust statistics for outlier detection. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2011.</ref> || $o/n$

|-

| ~~Skewness~~ colspan="4" align="center" |~~| $\frac{E(X-\mu_{X})^{3}}{\sigma_{X}^{3}}$ || Feature normality \citep{Michie1994} || min,max,$\mu$,$\sigma$,$q_{1},q_{3}$~~'''статистические'''

|-

| ~~Kurtosis~~ Skewness || $\frac{E(X-\mu_{X})^{43}}{\sigma_{X}^{43}}$ || Feature normality ~~\citep{Michie1994}~~ || min,max,$\mu$,$\sigma$,$q_{1},q_{3}$

|-

| ~~Correlation~~ Kurtosis || $\~~rho_~~frac{X_E(X-\mu_{1X})^{4}}{\sigma_{X}X_^{24}}$ || Feature ~~interdependence \citep{Michie1994}~~ normality || min,max,$\mu$,$\sigma$,$~~\rho_~~q_{1},q_{XY3}$

|-

| ~~Covariance~~ Correlation || $~~cov_~~\rho_{X_{1}X_{2}}$ || Feature interdependence ~~\citep{Michie1994}~~ || min,max,$\mu$,$\sigma$,$~~cov_~~\rho_{XY}$

|-

| ~~Concentration~~ Covariance || $~~\tau_~~cov_{X_{1}X_{2}}$ || Feature interdependence ~~\citep{Kalousis2001a}~~ || min,max,$\mu$,$\sigma$,$~~\tau_~~cov_{XY}$

|-

| ~~Sparsity~~ Concentration || ~~sparsity(X) || Degree of discreteness~~ $\~~citep~~tau_{~~Salama2013~~X_{1} X_{2}}$ || Feature interdependence <ref>Alexandros Kalousis and Melanie Hilario. Model selection via meta-learning: a comparative study.Intl Journ. on Artificial Intelligence Tools, 2001.</ref> || min,max,$\mu$,$\sigma$,$\tau_{XY}$

|-

| ~~Gravity~~ Sparsity || ~~gravity~~sparsity(X) || ~~Inter~~Degree of discreteness <ref>Mostafa A. Salama, Aboul~Ella Hassanien, and Kenneth Revett. Employment of neural network and rough set in meta-~~class dispersion \citep{Ali2006}~~ learning, 2013.</ref> ||min,max,$\mu$,$\sigma$

|-

| ~~ANOVA p-value~~ Gravity || ~~$p_{val_{\texttt{~~gravity(X~~}_{1}X_{2}}}$~~ ) || ~~Feature redundancy \citep{kalousis02}~~ Inter-class dispersion <ref>Shawkat Ali and Kate~A. Smith-Miles. On learning algorithm selection for classification. Applied Soft Computing, 2006.</ref> || ~~$p_{val_{XY}}$\citep{soares+04}~~

|-

| ~~Coeff. of variation~~ ANOVA p-value || $~~\frac~~p_{val_{\~~sigma_~~texttt{YX}_{1}X_{~~\mu_{Y~~2}}}$ || ~~Variation in target \citep~~Feature redundancy || $p_{val_{~~soares+04~~XY} ||}$

|-

| ~~PCA $\rho_{\lambda_{1}}$~~ Coeff. of variation || $~~\sqrt{~~\frac{\~~lambda_~~sigma_{1Y}}{1+\~~lambda_~~mu_{1}Y}}$ || ~~Variance~~ Variation in ~~first PC \citep{Michie1994}~~ target <ref>C. Soares, P. Brazdil, and P. Kuba. A meta-learning method to select the kernel width in support vector regression, 2004.</ref> || ~~$\frac{\lambda_{1}}{\sum_{i} \lambda_{i}}$\citep{Michie1994}~~

|-

| PCA ~~skewness~~ $\rho_{\lambda_{1}}$ || $\sqrt{\frac{\lambda_{1}}{1+\lambda_{1}}}$ || ~~Skewness of~~ Variance in first PC || $\~~citep~~frac{~~feurer2014using~~\lambda_{1}} ~~|| PCA kurtosis~~{\sum_{i} \lambda_{i}}$

|-

| PCA ~~95\%~~ skewness || ~~$\frac{dim_{95\% var}}{p}$~~ || ~~Intrinsic dimensionality \citep{bardenet2013collaborative}~~ Skewness of first PC ||PCA kurtosis

|-

| ~~Class probability~~ PCA 95\% || $P(\~~texttt~~frac{Cdim_{95\% var}}~~)$ || Class distribution \citep~~{~~Michie1994~~p} $ || ~~min~~Intrinsic dimensionality <ref>R ́emi Bardenet,~~max~~M ́aty ́as Brendel,~~$\mu$~~Bal ́azs K ́egl, and Michele Sebag. Collaborative hyperparameter tuning. In Proceedings of ICML 2013, pages 199–207,~~$\sigma$~~2013</ref> ||

|-

| ~~colspan="4" align="center"~~ Class probability | ~~'''informational-theoretic'''~~| $P(\texttt{C})$ || Class distribution || min,max,$\mu$,$\sigma$

|-

| ~~Class entropy || $H(\texttt{C})$ || Class imbalance \citep{Michie1994} |~~colspan="4" align="center" |'''информационно-теоретические'''

|-

| ~~Norm.~~ Class entropy || $~~\frac{~~H(\texttt{XC})~~}{log_{2}n}~~$ || ~~Feature informativeness \citep{Castiello2005}~~ Class imbalance || ~~min,max,$\mu$,$\sigma$~~

|-

| ~~Mutual inform~~Norm. entropy || $~~MI(~~\~~texttt~~frac{~~C},~~H(\texttt{X})}{log_{2}n}$ || Feature ~~importance \citep~~informativeness <ref>Ciro Castiello, Giovanna Castellano, and Anna~Maria Fanelli. Meta-data: {~~Michie1994~~C} haracterization of input features for meta-learning, pages 457 -- 468, 2005.</ref> || min,max,$\mu$,$\sigma$

|-

| ~~Uncertainty coeff~~Mutual inform. || $~~\frac{~~MI(\texttt{C},\texttt{X})~~}{H(\texttt{C})}~~$ || Feature importance ~~\citep{Agresti:2002p7509}~~ || min,max,$\mu$,$\sigma$

|-

| ~~Equiv~~Uncertainty coeff. ~~nr. feats~~ || $\frac{HMI(\texttt{C},\texttt{X})}{H(\~~overline~~texttt{~~MI(~~C,X})}}$ || ~~Intrinsic dimensionality \citep{Michie1994}~~ <ref>Feature importance A. Agresti. Categorical Data Analysis. Wiley Interscience, 2002.</ref> ||min,max,$\mu$,$\sigma$

|-

| ~~Noise-signal ratio~~ Equiv. nr. feats || $\frac~~{\overline~~{H~~(X)}-\overline{MI~~(C,X)}}{\overline{MI(C,X)}}$ || ~~Noisiness of data \citep{Michie1994}~~ Intrinsic dimensionality ||

|-

| ~~colspan="4" align="center"~~ Noise-signal ratio || $\frac{\overline{H(X)}-\overline{MI(C,X)}}{\overline{MI(C,X)}}$ || Noisiness of data || ~~'''complexity'''~~

|-

| ~~Fisher~~colspan="4" align="center" | '''сложностные'''~~s discrimin. || $\frac{(\mu_{c1}-\mu_{c2})^{2}}{\sigma_{c1}^{2}-\sigma_{c2}^{2}}$ || Separability classes $c_{1},c_{2}$ \citep{Ho:2002} || See \citet{}{Ho:2002}~~

|-

| ~~Volume of overlap~~ Fisher's discrimin. || ~~|| Class distribution overlap~~ $\frac{(\mu_{c1}-\mu_{c2})^{2}}{\sigma_{c1}^{2}-\~~citep~~sigma_{~~Ho:2002~~c2} ^{2}}$ || ~~See \citet~~Separability classes $c_{1},c_{~~Ho:2002~~2}$ ||

|-

| ~~Concept variation~~ Volume of overlap || || ~~Task complexity \citep{Vilalta:2002p5805}~~ Class distribution overlap <ref>Tin Kam Ho and Mitra Basu. Complexity measures of supervised classification problems. Pattern Analysis and Machine Intellig, 2002.</ref> || ~~See \citet{Vilalta:1999p5745}~~

|-

| ~~Data consistency~~ Concept variation || || ~~Data quality \citep{Kopf:2002p5864}~~ Task complexity <ref>R. Vilalta. Understanding accuracy performance through concept characterization and algorithm analysis. ICML Workshop on Recent Advances in Meta-Learning and Future Work, 1999.</ref> || ~~See \citet{Kopf:2002p5864}~~

|-

| ~~colspan="4" align="center"~~ Data consistency | ~~'''model~~| || Data quality <ref>C K\ddot{o}pf and I Iglezakis. Combination of task description strategies and case base properties for meta-~~based'''~~learning, 2002.</ref> ||

|-

| Nr colspan="4" align="center" | '''основанные на модели'''|- | # nodes, leaves || <tex>|\eta|,|\psi|</tex> || Concept complexity ~~\citep{~~<ref>Y Peng~~:2002p705}~~ , P Flach, C Soares, and P Brazdil. Improved dataset characterisation for meta-learning, 2002.</ref> || Tree depth

|-

| Branch length || || Concept complexity ~~\citep{Peng:2002p705}~~ || min,max,$\mu$,$\sigma$

|-

| Nodes per feature || <tex>|\eta_{X}|</tex> || Feature importance ~~\citep{Peng:2002p705}~~ || min,max,$\mu$,$\sigma$

|-

| Leaves per class || <tex>\frac{|\psi_{c}|}{|\psi|}</tex> || Class complexity <ref>Andray Filchenkov and Arseniy Pendryak. Dataset metafeature description for recommending feature selection. In \~~citep~~emph{~~Filchenkov2015~~ISMW FRUCT} , pages 11--18, 2015.</ref> || min,max,$\mu$,$\sigma$

|-

| Leaves agreement || <tex>\frac{n_{\psi_{i}}}{n}</tex> || Class separability <ref>Bernhard Pfahringer, Hilan Bensusan, and Christophe G. Giraud-Carrier. Meta-learning by landmarking various learning algorithms.In \~~citep~~emph{~~Bensusan2000}~~ 17th International Conference on Machine Learning (ICML), 2000.</ref> || min,max,$\mu$,$\sigma$

|-

| Information gain || || Feature importance ~~\citep{Bensusan2000}~~ || min,max,$\mu$,$\sigma$, gini

|-

| colspan="4" align="center" | '''ориентиры (landmarks)'''

|-

| Landmarker(1NN) || $P(\theta_{1NN},t_{j})$ || Data sparsity <ref>Bernhard Pfahringer, Hilan Bensusan, and Christophe G. Giraud-Carrier. Meta-learning by landmarking various learning algorithms.In \~~citep~~emph{~~Pfahringer:2000p553~~17th International Conference on Machine Learning (ICML)} , pages 743 -- 750, 2000.</ref> || ~~See \citet{Pfahringer:2000p553}~~

|-

| Landmarker(Tree) || $P(\theta_{Tree},t_{j})$ || Data separability ~~\citep{Pfahringer:2000p553}~~ || Stump,RandomTree

|-

| Landmarker(Lin) || $P(\theta_{Lin},t_{j})$ || Linear separability ~~\citep{Pfahringer:2000p553}~~ || Lin.~~Disciminant~~Discriminant

|-

| Landmarker(NB) || $P(\theta_{NB},t_{j})$ || Feature independence ~~\citep{Pfahringer:2000p553}~~ || ~~See~~ <ref>Daren Ler, Irena Koprinska, and Sanjay Chawla. Utilizing regression-based landmarkers within a meta-learning framework for algorithm selection. \~~citet~~emph{~~Ler:2005p1680~~Technical Report 569. University of Sydney}, pages 44--51, 2005.</ref>

|-

| Relative LM || $P_{a,j} - P_{b,j}$ || Probing performance <ref>J F\~~citep~~ddot{~~Furnkranz:2001p1278~~u} rnkranz and J Petrak. An evaluation of landmarking variants. \emph{ECML/PKDD 2001 Workshop on Integrating Aspects of Data Mining, Decision Support and Meta-Learning}, pages 57--68, 2001.</ref> ||

|-

| Subsample LM || $P(\theta_{i},t_{j},s_{t})$ || Probing performance ~~\citep{~~<ref>Taciana AF Gomes, Ricardo BC Prudencio, Carlos Soares~~:2001p708}~~ , Andre LD Rossi and Andre Carvalho. Combining meta-learning and search techniques to select parameters for support vector machines, 2012.</ref> ||

|-

|}

Непрерывные ~~фичи~~ признаки $X$ и таргет $Y$ имеют медиану $\mu_{X}$, ~~stdev~~ стандартное отклонение $\sigma_{X}$~~, variance~~ и дисперсию $\sigma^{2}_{X}$. Категориальные ~~фичи~~ признаки $\texttt{X}$ и класс $\texttt{C}$ имеют категориальные значения $\pi_{i}$, условные вероятности $\pi_{i|j}$, совместные вероятности $\pi_{i,j}$, предельные вероятности $\pi_{i+}=\sum_{j}\pi_{ij}$, и энтропию $H(\texttt{X})=-\sum_{i}\pi_{i+}log_{2}(\pi_{i+})$. Многие мета-признаки вычисляются по одиночным признакам или их комбинации, и должны быть агрегированы через min, max, $\mu$, $\sigma$, квартили или гистограммы. Во время вычисления похожести задач важно нормализовать все мета-признаки, использовать отбор признаков <ref>L Todorovski and S Dzeroski. Experiments in meta-level learning with ILP. Lecture Notes in Computer Science, 1704:98–106, 1999.</ref> или использовать [[уменьшение размерности | уменьшение размерности]] (например, principal component analisys {{---}} [[Метод главных компонент (PCA)| PCA]]). <h2> Ориентиры (англ. landmarks) </h2>Ориентиры {{---}} один из подходов для описания задач мета-обучения. В отличие от предшественников, использовавших только статистические метрики, ориентиры стараютсяопределить расположение конкретной задачи мета-обучения в пространстве всех задач обучения, измеряя производительность некоторых простых и эффективных алгоритмов.Таким образом, можно сказать, что алгоритм обучения сам характеризуют задачу. <h3> Относительные ориентиры </h3>Первая мера для вычисления "похожести" задач вычисляла попарно разницу в производительности, так же называемую "relative landmarks" $RL_{a,b,j} = P_{a,j} - P_{b,j}$ между двумя конфигурациями $\theta_{a}$ и $\theta_{b}$ на конкретной задаче $t_{j}$. <h3> Линейный дискриминант </h3> Линейный дискриминант (англ. linear discriminant) $P(\theta_{Lin},t_{j})$ можно понимать как группировка и разделение категорий соответствующих конкретным признакам. Линейный дискриминантобычно ищет линейную комбинацию признаков, которая лучше всего разделит классы. Результат {{---}} линия, плоскость или гиперплоскость, зависит от числа комбинированных признаков. <h3> Наивный Байесовский лэндмарк </h3> Наивный Байесовский лэндмарк $P(\theta_{NB},t_{j})$ <ref>Daren Ler, Irena Koprinska, and Sanjay Chawla. Utilizing regression-based landmarkers within a meta-learning framework for algorithm selection. \emph{Technical Report 569. University of Sydney}, pages 44--51, 2005.</ref> {{---}} вероятностный классификатор, основанный на [[Формула Байеса | теореме Байеса]]. Называется наивным потому что предполагается, что все атрибуты независимы друг от друга. <h3> 1NN </h3>Elite 1-nearest neighbor $P(\theta_{1NN},t_{j})$ <ref>Bernhard Pfahringer, Hilan Bensusan, and Christophe G. Giraud-Carrier. Meta-learning by landmarking various learning algorithms.In \emph{17th International Conference on Machine Learning (ICML)}, pages 743 -- 750, 2000.</ref> [[Метрический классификатор и метод ближайших соседей|kNN]] c $k = 1$.Elite {{---}} вариация основного метода, но в этом случае на вход kNN подается предварительно отобранное множество самых информативных примеров (у них минимлаьнаяразница приращения информации (information gain).Помогает установить, является ли задача релевантной, если похожи их атрибуты.

Многие мета-фичи вычисляются по одиночным фичам или комбинации фичей, и должны быть агрегированы через min,max,$\mu$,$\sigma$,quartiles или гистограммами [kalousis]

Во время вычисления похожести задач важно нормализовывать все мета-фичи [bardnet], использовать feature selection [todorovski] или использовать dimensionality reduction (PCA, например).== Примечания ==<references/>

~~<h2>Примечания<~~== См. Также ==#[[Модель алгоритма и ее выбор|Модель алгоритма и ее выбор]]== Источники информации ==* https:/~~h2>~~/lilianweng.github.io/lil-log/2018/11/30/meta-learning.html#define-the-meta-learning-problem* https://arxiv.org/pdf/1810.03548.pdf* https://www.ml4aad.org/wp-content/uploads/2018/09/chapter2-metalearning.pdf* https://openreview.net/pdf?id=rJY0-Kcll* https://www1.maths.leeds.ac.uk/~charles/statlog/whole.pdf* https://www.fruct.org/publications/ainl-fruct/files/Fil.pdf

~~https~~[[Категория:~~//lilianweng.github.io/lil-log/2018/11/30/meta-learning.html#define-the-meta-learning-problemhttps://arxiv.org/pdf/1810.03548.pdfhttps://www.ml4aad.org/wp-content/uploads/2018/09/chapter2-metalearning.pdfhttps://openreview.net/pdf?id=rJY0-Kcllhttps://www.fruct.org/publications/ainl-fruct/files/Fil.pdfAlexandros Kalousis and Melanie Hilario. Model selection via meta-learning: a comparativestudy.Intl Journ. on Artificial Intelligence Tools, 10(4):525–554, 2001.R ́emi Bardenet, M ́aty ́as Brendel, Bal ́azs K ́egl, and Michele Sebag. Collaborative hyperparameter tuning. In Proceedings of ICML 2013, pages 199–207, 2013L Todorovski and S Dzeroski. Experiments in meta-level learning with ILP.Lecture Notes in Computer Science, 1704:98–106, 1999.~~Машинное обучение]]

PruStephan

16

правок

Изменения

Мета-обучение

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты