Изменения

Перейти к: навигация, поиск

Выброс

1482 байта добавлено, 04:25, 25 января 2019
Алгоритмы борьбы с выбросами
* Локально взвешенное сглаживание(англ. ''LOcally WEighted Scatter plot Smoothing'', ''LOWESS'')<ref>[http://www.aliquote.org/cours/2012_biomed/biblio/Cleveland1979.pdf Локально взвешенное сглаживание]</ref>. Данная методика была предложена Кливлендом(Cleveland) в 1979 году для моделирования и сглаживания двумерных данных <math>X^m={(x_i, y_i)}_{i=1}^m</math>. Эта техника предоставляет общий и гибкий подход для приближения двумерных данных. Локально-линейная модель может быть записана в виде: <math>y_t=\alpha_t+\beta_t x_t + \varepsilon_t</math>. Эта модель может быть расширена на случай локально-квадратичной зависимости и на модель с бо‘льшим числом независимых переменных. Параметры <math>\alpha_t</math> и <math>\beta_t</math> локально линейной модели оцениваются с помощью локально взвешенной регрессии, которая присваивает объекту тем больший вес, чем более близок он к объекту t. Степень сглаживания определяется параметром сглаживания <math>f</math>, который выбирает пользователь. Параметр <math>f</math> указывает, какая доля (fraction) данных используется в процедуре. Если <math>f = 0.5</math>, то только половина данных используется для оценки и влияет на результат, и тогда мы получим умеренное сглаживание. С другой стороны, если <math>f = 0.8</math>, то используются восемьдесят процентов данных, и сглаживание намного сильнее. Во всех случаях веса данных тем больше, чем они ближе к объекту <math>t</math>.
====Постановка задачи====
Пусть задано пространство объектов X и множество возможных ответов <math>Y = \mathbb{R}</math>. Существует неизвестная зависимость <math>y^*:X \rightarrow Y</math>, значения которой известны только на объектах обучающией выборки <math>X^l = (x_i\ ,\ y_i)^l_{i=1},\ y_i = y^*(x_i)</math>. Требуется построить алгоритм <math>a:\ X\rightarrow Y</math>, аппроксимирующий неизвестную зависимость <math>y^*</math>. Предполагается, что на множестве X задана метрика <math>\rho(x,x')</math>. <br>
Также стоит определить следующее. Для вычисления <math>a(x) = \alpha</math> при <math>\forall x \in X</math>, воспользуемся методом наименьших квадратов:
Пусть задано пространство объектов X и множество возможных ответов <math>Y Q(\alpha;X^l) = \sum_{i=1}^l \omega_i(x)(\alpha-y_i)^2 \rightarrow \underset{\alpha \in \mathbb{R}}{min}</math>, где <math>\omega_i</math> - это вес i-ого объекта. Веса \omega_i разумно задать так, чтобы они убывали по мере увеличения расстояния <math>\rho(x,x_i)</math>. Существует неизвестная зависимость Для этого можно ввести невозрастающую, гладкую, ограниченную функцию <math>y^*K:X [0, \infty) \rightarrow Y[0, \infty)</math>, значения которой известны только на объектах обучающией выборки называемую ядром, и представить <math>X^l \omega_i</math> в следующем виде :<math>\omega_i(x) = K\left(x_i\ frac{\rho(x,\ y_ix_i)^l_}{i=1h},\ y_i = y^*(x_iright )</math>, где h — ширина окна. Требуется построить алгоритм Приравняв нулю производную <math>a:\ Xfrac{\partial Q}{\partial \rightarrow Yalpha} = 0</math>, аппроксимирующий неизвестную зависимость и, выразив <math>y^*\alpha</math>. Предполагается, что на множестве X задана метрика получаем формулу Надарая-Ватсона :<math>a_h(x;X^l) = \frac{\sum_{i=1}^{l} y_i\omega_i(x)}{\sum_{i=1}^{l} \omega_i(x)} = \frac{\sum_{i=1}^{l} y_iK\left(\frac{\rho(x,x_i)}{h} \right )}{\sum_{i=1}^{l} K\left(\frac{\rho(x',x_i)}{h} \right )}</math> ====Псевдокод====
ВХОД: <math>X^\ell</math> - обучающая выборка;
ВЫХОД: коэффиценты <math>\gamma_i, i = 1,...,\ell</math>;
115
правок

Навигация