Обучение с частичным привлечением учителя — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
м
(Предположения)
Строка 20: Строка 20:
 
'''Найти''' <br />
 
'''Найти''' <br />
 
* Найти решающую функцию $a: X → Y$, где при нахождении функции подразумевается применение как $(X_l, Y_l)$, так и $X_u$.
 
* Найти решающую функцию $a: X → Y$, где при нахождении функции подразумевается применение как $(X_l, Y_l)$, так и $X_u$.
 +
 +
== Предположения, используемые SSL ==
 +
 +
Как и обучение с учителем, SSL также использует некоторые предположения на этапе распределения неразмеченных данных. Без них не представляется возможным обобщение алгоритма, решающего задачу лишь на одном конечном тестовом множестве данных, на потенциально бесконечное множество последующих тестовых наборов данных.
 +
 +
=== Предположение плавности (Smoothness Assumption) ===
 +
 +
'''Smoothness Assumption''' {{---}} ''две точки $x_1$, $x_2$ в области высокой плотности, лежащие близко друг от друга, с большей вероятностью имеют одинаковые метки $y_1$, $y_2$.''
 +
 +
Более того, исходя из транзитивности, если две точки связаны между собой точками из области высокой плотности (например, принадлежат одному кластеру), то они также, вероятно, размечены одинаково. С другой стороны, предположение даёт преимущество для разграничения в регионах с низкой плотностью, там где меньше близко разположенных точек, но больше вероятность принадлежности к разным классам.
 +
 +
=== Предположение кластеризованности (Cluster Assumption) ===
 +
 +
Допустим, что данные каждого из класса образуют кластеры. Тогда неразмеченные данные могут быть полезны в более точном нахождении границ кластеров, если использовать алгоритм кластеризации и использовать размеченные данные для присвоения меток кластерам.
 +
 +
'''Cluster Assumption''' {{---}} ''две точки $x_1$, $x_2$ из одного кластера с большей вероятностью имеют одинаковые метки $y_1$, $y_2$.''
 +
 +
Предположение обосновывается на явном существовании классов: если существует плотный континуум объектов, маловероятно, что он будет разделён на разные классы. Следует отметить, что предположение не подразумевает формирования одного компактного кластера одним классом, но и не рассматривает два объекта разных классов в одном кластере.
 +
 +
=== Предположение избыточности (Manifold Assumption) ===
 +
 +
'''Manifold Assumption''' {{---}} ''избыточность данных высокой размерности способствует понижению размерности.''
 +
 +
Это предположение применимо, когда измерения данных избыточны, то есть генерируются определенным процессом, имеющим только несколько степеней свободы. В этом случае неразмеченные данные позволяют изучить генерирующий процесс и за счёт этого снизить размерность, что упрощает, например, привязку предположения плавности.
  
 
== Подходы к решению задачи ==
 
== Подходы к решению задачи ==
Строка 36: Строка 60:
 
# [https://ru.wikipedia.org/wiki/%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D1%87%D0%B0%D1%81%D1%82%D0%B8%D1%87%D0%BD%D1%8B%D0%BC_%D0%BF%D1%80%D0%B8%D0%B2%D0%BB%D0%B5%D1%87%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC_%D1%83%D1%87%D0%B8%D1%82%D0%B5%D0%BB%D1%8F Википедия {{---}} Обучение с частичным привлечением учителя]
 
# [https://ru.wikipedia.org/wiki/%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D1%87%D0%B0%D1%81%D1%82%D0%B8%D1%87%D0%BD%D1%8B%D0%BC_%D0%BF%D1%80%D0%B8%D0%B2%D0%BB%D0%B5%D1%87%D0%B5%D0%BD%D0%B8%D0%B5%D0%BC_%D1%83%D1%87%D0%B8%D1%82%D0%B5%D0%BB%D1%8F Википедия {{---}} Обучение с частичным привлечением учителя]
 
# [http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf Semi-SuperVised Learning Tutorial]
 
# [http://pages.cs.wisc.edu/~jerryzhu/pub/sslicml07.pdf Semi-SuperVised Learning Tutorial]
 +
# [https://www.molgen.mpg.de/3659531/MITPress--SemiSupervised-Learning.pdf MIT Press {{---}} Semi-Supervised Learning]
  
 
[[Категория:Машинное обучение]]
 
[[Категория:Машинное обучение]]
 
[[Категория:Обучение с частичным привлечением учителя]]
 
[[Категория:Обучение с частичным привлечением учителя]]

Версия 23:11, 24 февраля 2019

Понятие машинного обучения в искусственном интеллекте

Определение:
Обучение с частичным привлечением учителя (англ. semi-supervised learning) — разновидность обучения с учителем, которое также использует неразмеченные данные для тренировки — обычно небольшое количество размеченных данных и большое количество неразмеченных данных.

Основная идея

Обучение с частичным привлечением учителя занимает промежуточное положение между обучением с учителем и без учителя. Когда получение достаточного количества размеченных данных затруднено (например, когда при разметке данных используются дорогостоящие устройства или специально обученные люди), помимо размеченных данных можно также задействовать и неразмеченные данные для построения более эффективных моделей, по-сравнению с моделями, построенными с полным участием учителя или без него вовсе.

Постановка задачи обучения

Дано

  • Множество данных $X = \{x_1, x_2, ... , x_m\}$ и множество меток $Y = \{y_1, y_2, ... , y_m\}$
  • Размеченные данные вида $(X_l, Y_l) = \{(x_{1:l}, y_{1:l})\}$
  • Множество неразмеченных данных $X_u = \{x_{l+1:n}\}$, используемых в обучении
  • Как правило, $l \ll n$
  • Множество неразмеченных данных $X_{test} = \{x_{n+1:m}\}$, не используемых в обучении (тестовая выборка)

Найти

  • Найти решающую функцию $a: X → Y$, где при нахождении функции подразумевается применение как $(X_l, Y_l)$, так и $X_u$.

Предположения, используемые SSL

Как и обучение с учителем, SSL также использует некоторые предположения на этапе распределения неразмеченных данных. Без них не представляется возможным обобщение алгоритма, решающего задачу лишь на одном конечном тестовом множестве данных, на потенциально бесконечное множество последующих тестовых наборов данных.

Предположение плавности (Smoothness Assumption)

Smoothness Assumptionдве точки $x_1$, $x_2$ в области высокой плотности, лежащие близко друг от друга, с большей вероятностью имеют одинаковые метки $y_1$, $y_2$.

Более того, исходя из транзитивности, если две точки связаны между собой точками из области высокой плотности (например, принадлежат одному кластеру), то они также, вероятно, размечены одинаково. С другой стороны, предположение даёт преимущество для разграничения в регионах с низкой плотностью, там где меньше близко разположенных точек, но больше вероятность принадлежности к разным классам.

Предположение кластеризованности (Cluster Assumption)

Допустим, что данные каждого из класса образуют кластеры. Тогда неразмеченные данные могут быть полезны в более точном нахождении границ кластеров, если использовать алгоритм кластеризации и использовать размеченные данные для присвоения меток кластерам.

Cluster Assumptionдве точки $x_1$, $x_2$ из одного кластера с большей вероятностью имеют одинаковые метки $y_1$, $y_2$.

Предположение обосновывается на явном существовании классов: если существует плотный континуум объектов, маловероятно, что он будет разделён на разные классы. Следует отметить, что предположение не подразумевает формирования одного компактного кластера одним классом, но и не рассматривает два объекта разных классов в одном кластере.

Предположение избыточности (Manifold Assumption)

Manifold Assumptionизбыточность данных высокой размерности способствует понижению размерности.

Это предположение применимо, когда измерения данных избыточны, то есть генерируются определенным процессом, имеющим только несколько степеней свободы. В этом случае неразмеченные данные позволяют изучить генерирующий процесс и за счёт этого снизить размерность, что упрощает, например, привязку предположения плавности.

Подходы к решению задачи

Самообучение

Генеративные модели

Полуавтоматические SVM

Алгоритмы на основе графов

Multiview Learning

Применение

См. также

Источники информации

  1. Википедия — Обучение с частичным привлечением учителя
  2. Semi-SuperVised Learning Tutorial
  3. MIT Press — Semi-Supervised Learning