Изменения

Метрический классификатор и метод ближайших соседей

1796 байт добавлено, 13:06, 15 января 2019

Нет описания правки

== Использование ядер сглаживания ==

При использовании ленейной функции в качестве <tex>w(i, u)</tex> возможно совпадение суммарного веса для нескольких классов. Это приводит к неоднозначности ответа при классификации. Чтобы такого не происходило используют функцию ~~ядра.~~ ~~'''Функция ядра (ядро сглаживания)''' {{---}} неотрицательная монотонно невозрастающая функция на~~ [[Ядра]]<~~tex~~sup>[~~0,+\infty)~~на 15.01.18 не создан]</~~tex~~sup>.

Будем обозначать функцию ядра <tex>K(r)</tex>

Tricube: <tex>{\displaystyle K(r)={\frac {70}{81}}(1-{\left|r\right|}^{3})^{3}}</tex>

=== ~~Варианты метода ближайших соседей, использующие функцию ядра~~ Метод парзеновского окна ===

<tex>w(i,u) = K\biggl(\frac{\rho(u,x_{i; u})}{h}\biggr)</tex> {{---}} метод парзеновского окна фиксированной ширины <tex>h</tex>;

<tex>w(i,u) = K\biggl(\frac{\rho(u,x_{i; u})}{\rho(u,x_{k+1; u})}\biggr)</tex> {{---}} метод парзеновского окна переменной ширины;

Сравним два этих метода. Сперва запишем классификаторы, полученные при использовании этих методов, в явном виде: Фиксированной ширины: <tex>wa_h = a(u, X^m, \boldsymbol{h}, K) = \mathrm{arg}\max_{y\in Y} \sum_{i=1}^m \bigl[ x_{i; u}=y \bigr] K\biggl(\frac{\rho(u,x_{i; u})}{h}\biggr)</tex> Переменной ширины: <tex>a_k = a(u, X^m, \boldsymbol{k}, K) = \mathrm{arg}\max_{y\in Y} \sum_{i=1}^m \bigl[ x_{i; u}=y \bigr] K\biggl(\frac{\rho(u,x_{i; u})}{h\rho(u,x_{ik+1; u})}\biggr))</tex> <tex>a_h</tex> не будет учитывать соседей на расстояние больше чем h, а всех остальных учтет в соответствии с функций ядра <tex>K</tex>. <tex>a_k</tex> является аналогом метода k ближайших соседей (т.к. для всех <tex>k+i</tex> {{-ых соседей функция <tex>K</tex> вернет 0), но при этом чем ближе <tex>k-i</tex>-~~}} метод потенциальных функций~~ый сосед, тем больший вклад в ~~котором ширина окна~~ сторону своего класса он даст. Часто используют окно переменной ширины т.е. классификатор <tex>a_k</tex>, по следующим причинам: 1) Удобнее оптимизировать целочисленный параметр <tex>k</tex>, чем вещественный параметр <tex>h~~(x_i~~</tex> по некоторой сетке. 2)Существует большое количество задач, где точки разбросаны не равномерно. В них могут существовать области, где достаточно брать небольшую <tex>h</tex> ~~зависит не от классифицируемого объекта~~и области, ~~а от обучающего объекта~~ где в окно ширины <tex>h</tex> попадает только одна точка. Тогда для классификатора <tex>~~x_i~~a_h</tex>будут существовать области в которых не будет ни одного объекта (кроме того, который нужно классифицировать). Для таких областей не понятно как классифицировать объекты.

== Использование различных метрик расстояния ==

Kirant

17

правок

Изменения

Метрический классификатор и метод ближайших соседей

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты