Изменения

Перейти к: навигация, поиск

Мета-обучение

8063 байта добавлено, 00:36, 23 марта 2020
Нет описания правки
<b>Мета-обучение</b> (англ. Meta-learning) {{--- }} подход, повзоляющий позволяющий определять оптимальный наиболее подходящий алгоритм (иногда, вместе с параметрами к нему) для конкретной задачииз портфолио алгоритмов. Основная идея мета-обучения {{-- свети -}} свести задачу выбора алгоритма к задаче [[Общие понятия#Классификация задач машинного обучения|обучения с учителем]]: задачи описываются мета-фичамипризнаками. Мета-фича признак описывает свойство задачи {{--- напмример}} например, разрежен ли датасет или нет, число категориальных или численных признаков объектов в датасете, число возможных меток, размер датасета и многое другое.
От хорошей модели ожидается хорошая высокая адаптируемость или генерализуемость новых задач к новым задачам и окруженийокружениям, с которыми модель не сталкивалась во время обученияна небольшом количестве примеров.
Такими задачами являются:* Классификатор, тренированный на изображениях собак и велосипедов, после некоторых показанных ему кошек, смог определить, есть ли на новой картинке кошка* Игровой бот, способный быстро обучиться новой игре* Робот, выполняющий задачу на пригорке во время теста даже если он тренировался на ровной поверхности<h2>Обзор</h2>
Ограничения- No free lunch teorem [Wolpert and Macready, 1996; Giraud-Carrier and Provost, 2005] <h2>Simple view</h2> Хорошая модель мета-обучения Модель должна быть обучена на множестве задач и оптимизирована для лучшей производительности на нескольких задачах,включая такие, с которыми модель не сталкивалась ранее. Каждой задаче соответствует датасет множество наборов данных $\mathcal{D}$, содержащий каждый из которых содержит и векторы фичей признаков и правильную разметку.
Оптимальные параметры модели:
\end{aligned}
Очень похоже на обычную задачу машинного обучения, только один датасет принимается за один сэмпл образец данных.
FewОграничения {{--shot классификатор конкретизация мета-обучения в области обучения с учителем. Датасет $\mathcal{D}$ делится на две части: $\mathcal{D}=\langle SТеорема о том, что бесплатного завтрака не бывает(англ. No Free Lunch Theorem, B\rangle$сокр. NFL) theorem<ref>[https://www.researchgate.net/publication/221997149_No_Free_Lunch_Theorems_for_Search Wolpert and Macready,train set $S$ и test set $B$1996]</ref><ref>[https://www.researchgate. Часто принимается knet/publication/228671734_Toward_a_justification_of_meta-shot Nlearning_Is_the_no_free_lunch_theorem_a_show-class задача stopper Giraud- train set содержит $k$ размеченных примеров для каждого из $N$ классовCarrier and Provost, 2005]</ref> , доказанная в 1996 году.Датасет $\mathcal{D}$ содержит пары фичей и меток, $\mathcal{D} Теорема|about = No free Lunch Theorem|statement = \{Пусть <tex>P(\mathbfd_{xm}_i^{y}| f, y_im, a)\</tex> {{---}$ и каждая метка принадлежит известному множеству меток $\mathcal{L}условная вероятность получения частного решения $. Скажем, наш классификатор $f_θd_m$ с параметром после $θm$ показывает вероятность принадлежности точки из данных к классу итераций работы алгоритма $ya$ при векторе фичей целевой функции $xf$, . Для любой пары алгоритмов $Pθ(y|x)a_1$Оптимальные параметры должны максимизировать вероятность верных меток среди нескольких training sets и $B⊂\mathcal{D}a_2$имеет место равенство:
<tex>
\\
\begin{aligned}
\theta^* &= sum_{\arg\maxf}_P(d_{\thetam} \mathbb^{E}_{(\mathbf{xy}| f, m, ya_1)= \in \mathcalsum_{Df}}[P_\thetaP(y \vert \mathbfd_{xm})] &\\\theta^* &= {\arg\max}_{\theta} \mathbb{E}_{B\subset \mathcal{D}}[\sum_{(\mathbf{xy}| f, m, ya_2)\in B}P_\theta(y \vert \mathbf{x})] & \scriptstyle{\text{; trained with mini-batches.}}
\end{aligned}
</tex>
}}
Иными словами, если встречается задача, которая не похожа на то, что решалось ранее, то мы не сможем сразу придумать для него эффективное решение.
В fewОбщая идея мета-обучения: для каждого набора данных $d \in \mathcal{D}$ вычисляется вектор мета-признаков, которые описывают свойства этого набора данных. Ими могут быть: число категориальных или численных признаков объектов в $d$, число возможных меток, размер $d$ и многие другие<ref>[https://www.fruct.org/publications/ainl-fruct/files/Fil.pdf Datasets meta-feature description for recommending feature selection algorithm]</ref>. Подробнее о конкретных метапризнаках смотреть [[Мета-shot классификации цель обучение#Определение множества конфигураций|ниже]] Каждый алгоритм запускается на всех наборах данных из $\mathcal{D}$. После этого вычисляется эмпирический риск, на основе которого формируются метки классов. Затем мета- уменьшить ошибку предсказания классификатор обучается на неразмеченных полученных результатах. В качестве описания набора данных выступает вектор мета-признаков, а в качестве метки — алгоритм, оказавшийся самым эффективным с данным train set для "быстрого обучения"точки зрения заранее выбранной меры качества. Чтобы ускорить процесс обучения, сделаем следующее:# возьмем подмножество Каждый датасет $d \in \mathcal{D}$ содержит пары признаков и меток, $L\subset{(x_i, y_i)\}$, каждая метка принадлежит известному множеству меток $\mathcal{LT}$.# возьмем train set Датасет $d$ делится на две части: $d=\langle S, B\rangle$, обучающую $S^L⊂D$ и train batch тестовую $B^L⊂D$выборки. Оба содержат только данные Часто принимается k-shot N-class задача {{---}} обучающая выборка содержит $k$ размеченных примеров для каждого из $N$ классов.Скажем, наш классификатор $f_\theta$ с метками параметром $\theta$ показывает вероятность принадлежности точки из подмножества с пункта 1данных к классу $y$ при векторе признаков, $P_\theta(y|x)$.Оптимальные параметры должны максимизировать вероятность получения верных меток среди нескольких обучающих выборок $B⊂\mathcal{D}$:
\begin{aligned}
L\theta^* &= {\arg\max}_{\theta} \mathbb{E}_{(\mathbf{x}, y )\in L, \forall mathcal{D}}[P_\theta(y \vert \mathbf{x})] & \\\theta^* &= {\arg\max}_{\theta} \mathbb{E}_{B\subset \mathcal{D}}[\sum_{(\mathbf{x}, y) \in S^L, B^L}P_\theta(y \vert \mathbf{x})] & \\
\end{aligned}
В пристрелочной (few-shot) классификации цель {{---}} уменьшить ошибку предсказания на неразмеченных данных. Чтобы его ускорить, сделаем следующее:# Возьмем подмножество меток, $T\subset\mathcal{T}$# Возьмем обучающее множество $S^T⊂D$ и обучающую выборку $B^T⊂D$. Оба содержат только данные с метками из подмножества с пункта 1: $L, y \in L, \forall (x, y) \in S^T, B^T$# Множество $S^LT$ подается на вход модели.# Конечная оптимизация использует множество $B^LT$ , чтобы посчитать loss функцию потерь и обновить параметры модели через обратное распространение, так же, как это делается в обучении с учителем. Можно представить каждую пару сэмплированного датасета $(S^L,B^L)$ как одну точку. Модель обучается таким образом, чтобыона могла обобщиться до других датасетов.Красным выделен дифф между обучением с учителем и мета-обучением.
\begin{aligned}
\theta = \arg\max_\theta \color{red}{E_\mathbb{E}_{LT \subsetsim \mathcal{LT}}}[\mathbb{E} E__{\color{red}{S^L \subset\mathcal{D}sim T, }B^L \subsetcolor{red}{\mathcal{Dsim T}} [\sum_{(x, y)\in B^L} P_\theta(y \vert \mathbf{x, y} \color{red}{, S^L})] \color{red}{]}
\end{aligned}
Красным цветом выделена разница между обучением с учителем и подходом мета-обучения.
Идея в некоторой степени аналогична использованию предварительно обученной модели в классификации изображений (ImageNet) или в языковом моделировании [[обработка естественного языка | NLP]] (большие текстовые корпуса), когда доступен только ограниченный набор образцов данных для конкретной задачи. Мета-обучение идет еще на один шаг вперед, вместо тогоМодель обучается таким образом, чтобы подстраивать ее под одну задачу, она оптимизирует модель, чтобы она была хороша для многих задачмогла обобщиться до других датасетов<h2>Основанные на оптимизации</h2>
Модели глубокого <h2>Оптимизации методов Мета-обучения (deep learning) обучаются через обратное распространение градиентов. Тем не менее, оптимизация, основанная на градиентах не разрабатывалась для работы с небольшим количеством обучающих семплов, и не сходится за малое число оптимизационных шагов. Подход в мета-обучении, основанный на оптимизации как раз про это.</h2>
<h3>LSTM-meta-learner</h3>
{{main|Долгая краткосрочная память}}Оптимизационный алгоитм алгоритм может быть явно смоделирован. Ravi Рави и Ларошель <ref>[https://openreview.net/pdf?id=rJY0-Kcll Ravie & Larochelle (, Optimization as a model for a few-shot learning, 2017) ]</ref> это и сделали и назвали его "meta-learner". Цель meta-learner'а {{- --}} эффективно обновлять свои параметры learner'a используя небольшой train set небольшую обучающую выборку так, чтобы learner мог быстро адаптироваться к новым задачам.
Пусть модель ученика будет $M_θM_\theta$, параметризованной $θ\theta$, и meta-learner как $R_ΘR_\theta$ с параметром $θ\theta$, и функция потерь $\mathcal{L}$.
Обновление параметров learner'a во время $t$ c learning rate со скоростью обучения $\alpha_t$ (шаг градиентного спуска):
\begin{aligned}
\end{aligned}
$c_t$ {{- --}} параметры сети $\theta_t$, $\tilde{c}_t = -\nabla_{\theta_{t-1}}\mathcal{L}_t$ при $f_t$ = 1.
$f_t$ = 1, $\tilde{c}_t = -\nabla_{\theta_{t-1}}\mathcal{L}_t$ - не оптимальные значения, их изменение может оказаться полезным, если вы попали в неудачный локальный минимум.
\begin{aligned}
f_t &= \sigma(\mathbf{W}_f \cdot [\nabla_{\theta_{t-1}}\mathcal{L}_t, \mathcal{L}_t, \theta_{t-1}, f_{t-1}] + \mathbf{b}_f) & \scriptstyle{\text{; как сильно мы забываем старые значения параметров.}}\\i_t &= \sigma(\mathbf{W}_i \cdot [\nabla_{\theta_{t-1}}\mathcal{L}_t, \mathcal{L}_t, \theta_{t-1}, i_{t-1}] + \mathbf{b}_i) & \scriptstyle{\text{; соответствует рейту обучения на шаге t.}}\\\tilde{\theta}_t &= -\nabla_{\theta_{t-1}}\mathcal{L}_t &\\\theta_t &= f_t \odot \theta_{t-1} + i_t \odot \tilde{\theta}_t &\\
\end{aligned}
 я ничего не понял.$f_t$ {{---}} как сильно мы забываем старые значения параметров на шаге $t$, $i_t$ {{---}} рейт обучения на шаге $t$.
<h3>REPTILE</h3>
Reptile {{- --}} относительно простой алгоритм мета-обучения, похожий на MAML, например, тем, что оба используют мета-оптимизацию через градиентый градиентный спуск и оба не чувствительны к модели.
# сэмплируем задачуСлучайным образом разбиваем задачук на подмножества
# тренируемся на ней несколькими шагами градиентного спуска
# сдвигаем веса модели к новым параметрам.
$\text{SGD}(\mathcal{L}_{\tau_i}, \theta, k)$ выполняет стохастический градиентный спуск на $k$ шагов на лоссе c функцией потерь $\mathcal{L}_{\tau_i}$, начиная с параметра $\theta$ и возвращает конечный вектор параметров. Градиент reptile определяется как $(\theta - W)/\alpha$, где $\alpha$ {{--- }} размер шага, используемый функцией $SGD$.
<font color=green>// Algorithm Алгоритм REPTILE, batched version</font>
Initialize $\theta$
'''for''' $iteration = 1, 2,...$ '''do'''
<h2>Определение множества конфигураций</h2>
Предшествующие выисления вычисления могут быть также использованы для изучения пространства более успешных конфигураций $\theta^{\star}$. Более подходящие под задачу конфигурации могут серьезно ускорить поиск оптимальных моделей, это важно при ограниченных вычислительных рессурсахресурсах.
Альтернативный подход сперва узнать оптимальные гипермараметрыгиперпараметры, а потом через приращение производительности определить важность каждого из гиперпараметров. Это и было сделано в лабе лаборатории OpenML, где провели около 500 000 экспериментов на 6 алгоритмах и , использовав при этом 38 датасетах. Стандартные значения изучались вместе для всех гиперпараметров алгоритма посредством обучения суррогатных моделей для этого алгоритма на большом числе задач. После того, как уже проверены многие варинаты варианты конфигураций, выбирается такая, которая минимизирует ??? средний риск для всех задач, и становится стандартной.Далее определяется важность каждого из гиперпараметров. Чем больше меняется приращение производительности, тем более важный гиперпараметр мы изменяем.
Если мы хотим предоставить рекомендации для конкретной задачи $t_{new}$, нам нужна дополнительная информация о том, насколько $t_{new}$ похожа на предыдущие задачи $t_j$. Первый способ {{--- }} посчитать число рекомендованных конфигураций для $t_newt_{new}$, yielding новый эвиденс получая новое докозательство $\mathbf{P}_{new}$. Если позже мы будем наблюдать, что вычисления $P_{i,new}$ соответствуют $P_{i, j}$, то $t_{j}$ и $t_{new}$ могут быть очень похожими. Мы можем применить это знания для обучения meta-learner'a который предскаывает предсказывает множество рекомендуемых конфигураций $\Theta^{*}_{new}$ for $t_{new}$.Более того, можно пойти дальше и добавить $\Theta^{*}_{new}$ в $P_newP_{new$ и перейти к следующей итерации и выяснять какие еще задачи схожи друг с другом. <h3>Relative landmarks</h3>Первая мера для вычисления "похожести" задач вычисляла попарно разницу в производительности, так же называемую "relative landmarks" $RL_{a,b,j} = P_{a,j} - P_{b,j}$ между двумя конфигурациями $\theta_{a}$ и $\theta_{b}$ на конкретной задаче $t_{j}$.
<h3>Суррогатные модели</h3>
Более гибкий способ передать информацию {{- --}} построить суррогатную модель $s_{j}(\theta_{i}) = P_{i,j}$ для всех предшествующих задач $t_{j}$, обученную с использованием всех доступных $\mathbf{P}$. Можно определить "похожесть" задач в терминах ошибок между $s_{j}(\theta_{i})$ и $P_{i,new}$: если суррогатная модель для $t_{j}$ может генерировать точные предсказания для $t_{new}$, тогда такие задачи весьма похожи. Обычно это делается в комбинации с Байесовской оптимизацией для определения следующей $\theta_{i}$.
Так же можно обучать суррогатные модли модели на Гауссовских процессах (GP) для каждой предыдущей задачи и еще одну для $t_{new}$ и объединить их во взвешенную и нормализованную сумму, с медианой $\mu$ определенной как взвшенная взвешаннаясумма $\mu_{j}$ полученных из задач $t_{j}$. Веса $\mu_{j}$ считаются через методом Надарая-Ватсона<ref>[http://www.maths.manchester.ac.uk/~peterf/MATH38011/NPR%20N-W%20Estimator.pdf Nadaraya-Watson kernel-weighted averageestimator]</ref>, где каждая задача представлена вектором относительных ориентиров (англ. relative landmarks и ) илиядром Епанечникова<ref>[https://epubs.siam.org/doi/10.1137/1114019 V. A. Epanechnikov quadratic kernel , Non-Parametric Estimation of a Multivariate Probability Density]</ref>, используется для определения похожести между векторами relative landmarks относительных ориентиров для $t_{j}$ и $t_{new}$. Чем больше $t_{j}$ похожа на $t_{new}$, тем больше получится вес $s_{j}$, увеличивающий влияние суррогатной модели для $t_{j}$.
Суррогатные модели обучаются только на $P_{i, new}$, а следующий $\theta_{i}$ поулчается получается путем нахождения средневзвешенного expected improvement $P_{i, new}$ и предсказанных улучшений на всех предшествующих $P_{i, j}$.Веса предшествующих задач могут быть переопределены через точность суррогатной модели или через relative landmarksотносительных ориентиров.
Вес ожидаемого улучшения (expected improvement) постепенно возрастает с каждой итерацией (с увеличением собранного эвиденса $P_{i, new}$).
<h3>Обучение на свойствах задачи (learning on task properties)</h3>
Каждая задача $t_{j} \in T$ может быть описана вектором $m(t_j) = (m_{j,1}, ...,m_{j,K})$ из $K$ мета-фичей признаков $m_{j, k} \in M$ ,где $M$ {{- --}} множество мета-фичейпризнаков. Можно определить меру "похожести" задач, основанную, например, на Евклидовом расстоянии между $m(t_i)$ и $m(t_j)$, тогда можно будет использовать информацию из наиболее похожей задачи на новую задачу $t_{new}$. Более того, используя предшествующие вычисления $\textbf{P}$ можно обучить meta-learner'a $L$ предсказывать производительность $P_{i, new}$ конфигураций $\theta_{i}$ на новых задачах $t_{new}$.
$L: \Theta \times M \rightarrow \textbf{P}$
В таблице ниже представлен обзор наиболее используемых мета-фичейпризнаков.
{| class="wikitable"
|+ Metaмета-feature|-! '''Name''' !! '''Formula''' !! '''Rationale''' !! '''Variants'''признаки
|-
| colspan="4" align="center" | ! '''simpleНазвание''' !! '''Формула''' !! '''Объяснение''' !! '''Варианты'''
|-
| Nr instances colspan="4" align="center" || $n$ || Speed, Scalability \citep{Michie1994} || $p/n$, $log(n)$, log(n/p)'''простые'''
|-
| Nr features instances || $pn$ || Curse of dimensionality \citep{Michie1994} Speed, Scalability<ref>[https://www1.maths.leeds.ac.uk~charlesstatlogwhole.pdf Donald Michie, David J. Spiegelhalter, Charles C. Taylor, and John Campbell. Machine Learning, Neural and Statistical Classification, 1994]</ref> || $p/n$, $log(pn)$, % categoricallog(n/p)
|-
| Nr classes features || $cp$ || Complexity, imbalance \citep{Michie1994} Curse of dimensionality || ratio min/maj class$log(p)$, % categorical
|-
| Nr missing values classes || $mc$ || Imputation effects \citep{kalousis02} Complexity, imbalance || % missingratio min/maj class
|-
| Nr outliers Percent of missing values || $om$ || Data noisiness \citep{Rousseeuw2011} Imputation effects <ref>A. Kalousis. Algorithm Selection via Meta-Learning. PhD thesis, University of Geneva, Department of Computer Science, 2002</ref> || $o/n$% missing
|-
| colspan="4" align="center" outliers | '''statistical'''| $o$ || Data noisiness <ref>Peter J. Rousseeuw and Mia Hubert. Robust statistics for outlier detection. Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 2011.</ref> || $o/n$
|-
| Skewness colspan="4" align="center" || $\frac{E(X-\mu_{X})^{3}}{\sigma_{X}^{3}}$ || Feature normality \citep{Michie1994} || min,max,$\mu$,$\sigma$,$q_{1},q_{3}$'''статистические'''
|-
| Kurtosis Skewness || $\frac{E(X-\mu_{X})^{43}}{\sigma_{X}^{43}}$ || Feature normality \citep{Michie1994} || min,max,$\mu$,$\sigma$,$q_{1},q_{3}$
|-
| Correlation Kurtosis || $\rho_frac{X_E(X-\mu_{1X})^{4}}{\sigma_{X}X_^{24}}$ || Feature interdependence \citep{Michie1994} normality || min,max,$\mu$,$\sigma$,$\rho_q_{1},q_{XY3}$
|-
| Covariance Correlation || $cov_\rho_{X_{1}X_{2}}$ || Feature interdependence \citep{Michie1994} || min,max,$\mu$,$\sigma$,$cov_\rho_{XY}$
|-
| Concentration Covariance || $\tau_cov_{X_{1}X_{2}}$ || Feature interdependence \citep{Kalousis2001a} || min,max,$\mu$,$\sigma$,$\tau_cov_{XY}$
|-
| Sparsity Concentration || sparsity(X) || Degree of discreteness $\citeptau_{Salama2013X_{1} X_{2}}$ || Feature interdependence <ref>Alexandros Kalousis and Melanie Hilario. Model selection via meta-learning: a comparative study.Intl Journ. on Artificial Intelligence Tools, 2001.</ref> || min,max,$\mu$,$\sigma$,$\tau_{XY}$
|-
| Gravity Sparsity || gravitysparsity(X) || InterDegree of discreteness <ref>Mostafa A. Salama, Aboul~Ella Hassanien, and Kenneth Revett. Employment of neural network and rough set in meta-class dispersion \citep{Ali2006} learning, 2013.</ref> ||min,max,$\mu$,$\sigma$
|-
| ANOVA p-value Gravity || $p_{val_{\texttt{gravity(X}_{1}X_{2}}}$ ) || Feature redundancy \citep{kalousis02} Inter-class dispersion <ref>Shawkat Ali and Kate~A. Smith-Miles. On learning algorithm selection for classification. Applied Soft Computing, 2006.</ref> || $p_{val_{XY}}$\citep{soares+04}
|-
| Coeff. of variation ANOVA p-value || $\fracp_{val_{\sigma_texttt{YX}_{1}X_{\mu_{Y2}}}$ || Variation in target \citepFeature redundancy || $p_{val_{soares+04XY} ||}$
|-
| PCA $\rho_{\lambda_{1}}$ Coeff. of variation || $\sqrt{\frac{\lambda_sigma_{1Y}}{1+\lambda_mu_{1}Y}}$ || Variance Variation in first PC \citep{Michie1994} target <ref>C. Soares, P. Brazdil, and P. Kuba. A meta-learning method to select the kernel width in support vector regression, 2004.</ref> || $\frac{\lambda_{1}}{\sum_{i} \lambda_{i}}$\citep{Michie1994}
|-
| PCA skewness $\rho_{\lambda_{1}}$ || $\sqrt{\frac{\lambda_{1}}{1+\lambda_{1}}}$ || Skewness of Variance in first PC || $\citepfrac{feurer2014using\lambda_{1}} || PCA kurtosis{\sum_{i} \lambda_{i}}$
|-
| PCA 95\% skewness || $\frac{dim_{95\% var}}{p}$ || Intrinsic dimensionality \citep{bardenet2013collaborative} Skewness of first PC ||PCA kurtosis
|-
| Class probability PCA 95\% || $P(\textttfrac{Cdim_{95\% var}})$ || Class distribution \citep{Michie1994p} $ || minIntrinsic dimensionality <ref>R ́emi Bardenet,maxM ́aty ́as Brendel,$\mu$Bal ́azs K ́egl, and Michele Sebag. Collaborative hyperparameter tuning. In Proceedings of ICML 2013, pages 199–207,$\sigma$2013</ref> ||
|-
| colspan="4" align="center" Class probability | '''informational-theoretic'''| $P(\texttt{C})$ || Class distribution || min,max,$\mu$,$\sigma$
|-
| Class entropy || $H(\texttt{C})$ || Class imbalance \citep{Michie1994} |colspan="4" align="center" |'''информационно-теоретические'''
|-
| Norm. Class entropy || $\frac{H(\texttt{XC})}{log_{2}n}$ || Feature informativeness \citep{Castiello2005} Class imbalance || min,max,$\mu$,$\sigma$
|-
| Mutual informNorm. entropy || $MI(\textttfrac{C},H(\texttt{X})}{log_{2}n}$ || Feature importance \citepinformativeness <ref>Ciro Castiello, Giovanna Castellano, and Anna~Maria Fanelli. Meta-data: {Michie1994C} haracterization of input features for meta-learning, pages 457 -- 468, 2005.</ref> || min,max,$\mu$,$\sigma$
|-
| Uncertainty coeffMutual inform. || $\frac{MI(\texttt{C},\texttt{X})}{H(\texttt{C})}$ || Feature importance \citep{Agresti:2002p7509} || min,max,$\mu$,$\sigma$
|-
| EquivUncertainty coeff. nr. feats || $\frac{HMI(\texttt{C},\texttt{X})}{H(\overlinetexttt{MI(C,X})}}$ || Intrinsic dimensionality \citep{Michie1994} <ref>Feature importance A. Agresti. Categorical Data Analysis. Wiley Interscience, 2002.</ref> ||min,max,$\mu$,$\sigma$
|-
| Noise-signal ratio Equiv. nr. feats || $\frac{\overline{H(X)}-\overline{MI(C,X)}}{\overline{MI(C,X)}}$ || Noisiness of data \citep{Michie1994} Intrinsic dimensionality ||
|-
| colspan="4" align="center" Noise-signal ratio || $\frac{\overline{H(X)}-\overline{MI(C,X)}}{\overline{MI(C,X)}}$ || Noisiness of data || '''complexity'''
|-
| Fishercolspan="4" align="center" | '''сложностные'''s discrimin. || $\frac{(\mu_{c1}-\mu_{c2})^{2}}{\sigma_{c1}^{2}-\sigma_{c2}^{2}}$ || Separability classes $c_{1},c_{2}$ \citep{Ho:2002} || See \citet{}{Ho:2002}
|-
| Volume of overlap Fisher's discrimin. || || Class distribution overlap $\frac{(\mu_{c1}-\mu_{c2})^{2}}{\sigma_{c1}^{2}-\citepsigma_{Ho:2002c2} ^{2}}$ || See \citetSeparability classes $c_{1},c_{Ho:20022}$ ||
|-
| Concept variation Volume of overlap || || Task complexity \citep{Vilalta:2002p5805} Class distribution overlap <ref>Tin Kam Ho and Mitra Basu. Complexity measures of supervised classification problems. Pattern Analysis and Machine Intellig, 2002.</ref> || See \citet{Vilalta:1999p5745}
|-
| Data consistency Concept variation || || Data quality \citep{Kopf:2002p5864} Task complexity <ref>R. Vilalta. Understanding accuracy performance through concept characterization and algorithm analysis. ICML Workshop on Recent Advances in Meta-Learning and Future Work, 1999.</ref> || See \citet{Kopf:2002p5864}
|-
| colspan="4" align="center" Data consistency | '''model| || Data quality <ref>C K\ddot{o}pf and I Iglezakis. Combination of task description strategies and case base properties for meta-based'''learning, 2002.</ref> ||
|-
| Nr colspan="4" align="center" | '''основанные на модели'''|- | # nodes, leaves || <tex>|\eta|,|\psi|</tex> || Concept complexity \citep{<ref>Y Peng:2002p705} , P Flach, C Soares, and P Brazdil. Improved dataset characterisation for meta-learning, 2002.</ref> || Tree depth
|-
| Branch length || || Concept complexity \citep{Peng:2002p705} || min,max,$\mu$,$\sigma$
|-
| Nodes per feature || <tex>|\eta_{X}|</tex> || Feature importance \citep{Peng:2002p705} || min,max,$\mu$,$\sigma$
|-
| Leaves per class || <tex>\frac{|\psi_{c}|}{|\psi|}</tex> || Class complexity <ref>Andray Filchenkov and Arseniy Pendryak. Dataset metafeature description for recommending feature selection. In \citepemph{Filchenkov2015ISMW FRUCT} , pages 11--18, 2015.</ref> || min,max,$\mu$,$\sigma$
|-
| Leaves agreement || <tex>\frac{n_{\psi_{i}}}{n}</tex> || Class separability <ref>Bernhard Pfahringer, Hilan Bensusan, and Christophe G. Giraud-Carrier. Meta-learning by landmarking various learning algorithms.In \citepemph{Bensusan2000} 17th International Conference on Machine Learning (ICML), 2000.</ref> || min,max,$\mu$,$\sigma$
|-
| Information gain || || Feature importance \citep{Bensusan2000} || min,max,$\mu$,$\sigma$, gini
|-
| colspan="4" align="center" | '''ориентиры (landmarks)'''
|-
| Landmarker(1NN) || $P(\theta_{1NN},t_{j})$ || Data sparsity <ref>Bernhard Pfahringer, Hilan Bensusan, and Christophe G. Giraud-Carrier. Meta-learning by landmarking various learning algorithms.In \citepemph{Pfahringer:2000p55317th International Conference on Machine Learning (ICML)} , pages 743 -- 750, 2000.</ref> || See \citet{Pfahringer:2000p553}
|-
| Landmarker(Tree) || $P(\theta_{Tree},t_{j})$ || Data separability \citep{Pfahringer:2000p553} || Stump,RandomTree
|-
| Landmarker(Lin) || $P(\theta_{Lin},t_{j})$ || Linear separability \citep{Pfahringer:2000p553} || Lin.DisciminantDiscriminant
|-
| Landmarker(NB) || $P(\theta_{NB},t_{j})$ || Feature independence \citep{Pfahringer:2000p553} || See <ref>Daren Ler, Irena Koprinska, and Sanjay Chawla. Utilizing regression-based landmarkers within a meta-learning framework for algorithm selection. \citetemph{Ler:2005p1680Technical Report 569. University of Sydney}, pages 44--51, 2005.</ref>
|-
| Relative LM || $P_{a,j} - P_{b,j}$ || Probing performance <ref>J F\citepddot{Furnkranz:2001p1278u} rnkranz and J Petrak. An evaluation of landmarking variants. \emph{ECML/PKDD 2001 Workshop on Integrating Aspects of Data Mining, Decision Support and Meta-Learning}, pages 57--68, 2001.</ref> ||
|-
| Subsample LM || $P(\theta_{i},t_{j},s_{t})$ || Probing performance \citep{<ref>Taciana AF Gomes, Ricardo BC Prudencio, Carlos Soares:2001p708} , Andre LD Rossi and Andre Carvalho. Combining meta-learning and search techniques to select parameters for support vector machines, 2012.</ref> ||
|-
|}
Непрерывные фичи признаки $X$ и таргет $Y$ имеют медиану $\mu_{X}$, stdev стандартное отклонение $\sigma_{X}$, variance и дисперсию $\sigma^{2}_{X}$. Категориальные фичи признаки $\texttt{X}$ и класс $\texttt{C}$ имеют категориальные значения $\pi_{i}$, условные вероятности $\pi_{i|j}$, совместные вероятности $\pi_{i,j}$, предельные вероятности $\pi_{i+}=\sum_{j}\pi_{ij}$, и энтропию $H(\texttt{X})=-\sum_{i}\pi_{i+}log_{2}(\pi_{i+})$. Многие мета-признаки вычисляются по одиночным признакам или их комбинации, и должны быть агрегированы через min, max, $\mu$, $\sigma$, квартили или гистограммы. Во время вычисления похожести задач важно нормализовать все мета-признаки, использовать отбор признаков <ref>L Todorovski and S Dzeroski. Experiments in meta-level learning with ILP. Lecture Notes in Computer Science, 1704:98–106, 1999.</ref> или использовать [[уменьшение размерности | уменьшение размерности]] (например, principal component analisys {{---}} [[Метод главных компонент (PCA)| PCA]]). <h2> Ориентиры (англ. landmarks) </h2>Ориентиры {{---}} один из подходов для описания задач мета-обучения. В отличие от предшественников, использовавших только статистические метрики, ориентиры стараютсяопределить расположение конкретной задачи мета-обучения в пространстве всех задач обучения, измеряя производительность некоторых простых и эффективных алгоритмов.Таким образом, можно сказать, что алгоритм обучения сам характеризуют задачу. <h3> Относительные ориентиры </h3>Первая мера для вычисления "похожести" задач вычисляла попарно разницу в производительности, так же называемую "relative landmarks" $RL_{a,b,j} = P_{a,j} - P_{b,j}$ между двумя конфигурациями $\theta_{a}$ и $\theta_{b}$ на конкретной задаче $t_{j}$. <h3> Линейный дискриминант </h3> Линейный дискриминант (англ. linear discriminant) $P(\theta_{Lin},t_{j})$ можно понимать как группировка и разделение категорий соответствующих конкретным признакам. Линейный дискриминантобычно ищет линейную комбинацию признаков, которая лучше всего разделит классы. Результат {{---}} линия, плоскость или гиперплоскость, зависит от числа комбинированных признаков. <h3> Наивный Байесовский лэндмарк </h3> Наивный Байесовский лэндмарк $P(\theta_{NB},t_{j})$ <ref>Daren Ler, Irena Koprinska, and Sanjay Chawla. Utilizing regression-based landmarkers within a meta-learning framework for algorithm selection. \emph{Technical Report 569. University of Sydney}, pages 44--51, 2005.</ref> {{---}} вероятностный классификатор, основанный на [[Формула Байеса | теореме Байеса]]. Называется наивным потому что предполагается, что все атрибуты независимы друг от друга. <h3> 1NN </h3>Elite 1-nearest neighbor $P(\theta_{1NN},t_{j})$ <ref>Bernhard Pfahringer, Hilan Bensusan, and Christophe G. Giraud-Carrier. Meta-learning by landmarking various learning algorithms.In \emph{17th International Conference on Machine Learning (ICML)}, pages 743 -- 750, 2000.</ref> [[Метрический классификатор и метод ближайших соседей|kNN]] c $k = 1$.Elite {{---}} вариация основного метода, но в этом случае на вход kNN подается предварительно отобранное множество самых информативных примеров (у них минимлаьнаяразница приращения информации (information gain).Помогает установить, является ли задача релевантной, если похожи их атрибуты.
Многие мета-фичи вычисляются по одиночным фичам или комбинации фичей, и должны быть агрегированы через min,max,$\mu$,$\sigma$,quartiles или гистограммами [kalousis]
Во время вычисления похожести задач важно нормализовывать все мета-фичи [bardnet], использовать feature selection [todorovski] или использовать dimensionality reduction (PCA, например).== Примечания ==<references/>
<h2>Примечания<== См. Также ==#[[Модель алгоритма и ее выбор|Модель алгоритма и ее выбор]]== Источники информации ==* https:/h2>/lilianweng.github.io/lil-log/2018/11/30/meta-learning.html#define-the-meta-learning-problem* https://arxiv.org/pdf/1810.03548.pdf* https://www.ml4aad.org/wp-content/uploads/2018/09/chapter2-metalearning.pdf* https://openreview.net/pdf?id=rJY0-Kcll* https://www1.maths.leeds.ac.uk/~charles/statlog/whole.pdf* https://www.fruct.org/publications/ainl-fruct/files/Fil.pdf
https[[Категория://lilianweng.github.io/lil-log/2018/11/30/meta-learning.html#define-the-meta-learning-problemhttps://arxiv.org/pdf/1810.03548.pdfhttps://www.ml4aad.org/wp-content/uploads/2018/09/chapter2-metalearning.pdfhttps://openreview.net/pdf?id=rJY0-Kcllhttps://www.fruct.org/publications/ainl-fruct/files/Fil.pdfAlexandros Kalousis and Melanie Hilario. Model selection via meta-learning: a comparativestudy.Intl Journ. on Artificial Intelligence Tools, 10(4):525–554, 2001.R ́emi Bardenet, M ́aty ́as Brendel, Bal ́azs K ́egl, and Michele Sebag. Collaborative hyperparameter tuning. In Proceedings of ICML 2013, pages 199–207, 2013L Todorovski and S Dzeroski. Experiments in meta-level learning with ILP.Lecture Notes in Computer Science, 1704:98–106, 1999.Машинное обучение]]
16
правок

Навигация