Изменения

Перейти к: навигация, поиск

Общие понятия

113 байт добавлено, 19:42, 5 сентября 2019
м
Лишний пробел
'''Дано''' <br />
${x_1, . . . , x_l} ⊂ X$ {{---}} обучающая выбока выборка (англ. ''training sample set'') <br />
$y_i = \hat y(x_i), i = 1, . . . , l $ {{---}} известные метки классов <br />
'''Найти''' <br />
Найти $ a ∶ X → Y $ {{---}} алгоритм, решающую функцию (англ. '''decision function'''), приближающую $y$ на всём множестве $X$.
=== Признаки ===
Компьютер всегда имеет дело с признаковым описанием объектов. ''Например:,'' пациента можно описать признаками: имя, возраст, номер полиса, жалобы, давление, температура, результаты анализов. <br />
$f_j∶ X → D_j,j = 1, ... , n$ {{---}} признаки (англ. '''features''', or ''attributes'').
Типы признаков:
* бинарный (''binary''): $D_j = \{0, 1\}$;* номинальный, или категориальный (''categorical): $D_j$ конечно;* упорядоченный (''ordinal''): $D_j$ конечно и упорядоченно;* числовой (''numerical''): $D_j = \mathbb{R}$. т.е. объект представляется как набор признаков $(f_1(x),... ,f_n(x))$. Данные обычно представляются в виде матрицы объектов-признаков
т.е объект представляется как набор признаков $(f_1(x),... ,f_n(x))$. Данные обычно представляются в виде матрицы объектов-признаков <br />
<tex>
F = ||f_j(x_i)||_{[l \times n]} =
=== Типы задач ===
'''Задачи классификации''' (англ. ''classification''):
* $Y = \{−1, +1\}$ — классификация на 2 класса;* $Y = \{1, . . . , M\}$ — на $M$ непересекающихся классов;
* $Y = \{0, 1\}^M$— на $M$ классов, которые могут пересекаться.
''Примеры:'' распознавание текста по рукописному вводу, определение того, находится на фотографии человек или кот.<br/>
'''Задачи восстановления регрессии''' (англ. ''regression''):
{{main|Восстановление регрессии|l1=Восстановление регрессии<sup>[на 28.01.2019 не создан]</sup>}}
* $Y = \mathbb{R}$ или $Y = \mathbb{R}^m$.
''Примеры:'' предсказание стоимости акции через полгода, предсказание прибыли магазина в следующем месяце, предсказание качества вина на слепом тестировании.<br/>
'''Задачи ранжирования''' (англ. ''ranking''):
* $Y$ {{---}} конечное упорядоченное множество.
''Пример:'' выдача поискового запроса.<br/>
'''Задачи уменьшения размерности''' (англ. ''dimensionality reduction'') <br/>
==== Обучение с учителем (англ. ''Supervised learning'' <ref> [http://www.machinelearning.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D1%81_%D1%83%D1%87%D0%B8%D1%82%D0%B5%D0%BB%D0%B5%D0%BC Обучение с учителем]</ref>) ====
Метки классов $y_i$ доступны все сразу (известны ответы для поставленной задачи).<br/>
''Задачи , которые могут решаться этим способом:'' классификация, регрессия.
==== Обучение без учителя (англ. ''Unsupervised learning'') ====
Изучает широкий класс задач обработки данных, в которых известны только описания множества объектов (обучающей выборки), и требуется обнаружить внутренние взаимосвязи, зависимости, закономерности, существующие между объектами.Т.е . тренировочные данные доступны все сразу, но ответы для поставленной задачи неизвестны. <br/> ''Задачи, которые могут решаться этим способом:'' кластеризация, нахождение ассоциативных правил, выдача рекомендаций (например , реклама), уменьшение размености размерности датасета.
==== Обучение с частичным привлечением учителя (англ. ''Semi-supervised learning''<ref>[http://www.machinelearning.ru/wiki/index.php?title=%D0%A7%D0%B0%D1%81%D1%82%D0%B8%D1%87%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5 Semi-supervised learning]</ref>) ====
{{main|Обучение с частичным привлечением учителя}}
Занимает промежуточное положение между обучением с учителем и без учителя. Каждый прецедент представляет собой пару «объект, ответ», но ответы известны только на части прецедентов (Размечено мало, либо малоинформативная часть).<br/>
''Примером частичного обучения может послужить сообучение:'' два или более обучаемых алгоритма используют один и тот же набор данных, но каждый при обучении использует различные — в идеале некоррелирующие — наборы признаков объектов.
Окружение обычно формулируется как марковский процесс принятия решений (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием. Вероятности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.
При обучении с подкреплением, в отличии отличие от обучения с учителем,не предоставляются верные пары "входные данные-ответ", а принятие суб оптимальных субоптимальных решений (дающих локальный экстремум) не ограничивается явно. Обучение с подкреплением пытается найти компромисс между исследованием неизученных областей и применением имеющихся знаний.
==== Активное обучение (англ. ''Active learning'') ====
* '''Предсказание месторождений полезных ископаемых''' <br/>
''Признаками'' являются данные геологической разведки.
* ''Бинарные признаки:'' наличие/отсутствие тех или иных пород на территории района. ;
* ''Числовые признаки:'' физико-химические свойства пород можно описать количественной характеристикой.
''Обучающая выборка'' состоит из двух классов:* районы известных месторождений ; * похожие районоврайоны, в которых интересующее ископаемое обнаружено не было.
При поиске редких полезных ископаемых количество объектов может оказаться намного меньше, чем количество признаков. В этой ситуации плохо работают классические статистические методы. Задача решается путём поиска закономерностей в имеющемся массиве данных. В процессе решения выделяются короткие наборы признаков, обладающие наибольшей ''информативностью'' — способностью наилучшим образом разделять классы (''"синдромы"'' месторождений).
Эта задача решается банками при выдаче кредитов. Объектами в данном случае являются физические или юридические лица, претендующие на получение кредита.
В случае физических лиц признаковое описание состоит из :* анкеты, которую заполняет сам заёмщик;* дополнительной информации, которую банк собирает о нём из собственных источников.
Можно выделить следующие ''признаки'':
* ''Бинарные признаки:'' пол, наличие телефона. ; * ''Номинальные признаки:'' место проживания, профессия, работодатель. ; * ''Порядковые признаки:'' образование, занимаемая должность. ;
* ''Числовые признаки:''сумма кредита, возраст, стаж работы, доход семьи, размер задолженностей в других банках.
В роли ''объектов'' выступают пациенты. Признаки характеризуют результаты обследований, симптомы заболевания и применявшиеся методы лечения.
* ''Бинарные признаки'': пол, наличие головной боли, слабости. ; * ''Порядковый признак'': тяжесть состояния (удовлетворительное, средней тяжести, тяжёлое, крайне тяжёлое).;
* ''Числовые признаки:''возраст, пульс, артериальное давление, содержание гемоглобина в крови, доза препарата.
== Открытые наборы данных для обучения ==
{{main|Известные наборы данных|l1=Известные наборы данных<sup>[на 28.01.2019 не создан]</sup>}}
==== Компьютерное зрение ====
* [https://pjreddie.com/projects/mnist-in-csv/ MNIST]: один из самых востребованных наборов для проверки работоспособности. Есть датасеты 25x25, отцентрованные, рукописные чёрно-былые цифры.;* [https://www.cs.toronto.edu/~kriz/cifar.html CIFAR10 & CIFAR100]: цветные изображения 32x32. Сегодня используется нечасто, но может быть хорошим вариантов для проверки работоспособности.;
* [http://image-net.org/ ImageNet]: датасет изображений для проверки новых алгоритмов.
== Источники информации ==
#*[https://en.wikipedia.org/wiki/Machine_learning Машинное обучение] Wikipedia {{---}} WikiMachine learning]#*[http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%28%D0%BA%D1%83%D1%80%D1%81_%D0%BB%D0%B5%D0%BA%D1%86%D0%B8%D0%B9%2C_%D0%9A.%D0%92.%D0%92%D0%BE%D1%80%D0%BE%D0%BD%D1%86%D0%BE%D0%B2%29 Курс лекций по машинному обучению] machinelearning.ru {{---}} Воронцов Машинное обучение (курс лекций, К.В.Воронцов)]#*[https://newtonew.com/tech/machine-learning-novice Статья "Машинное обучение для чайников"]#*[https://golos.io/ru--programmirovanie/@randall/kak-ii-nauchit-vsemu-luchshie-otkrytye-nabory-dannykh-dlya-obucheniya Статья "Лучшие наборы данных для обучения"]
[[Категория: Машинное обучение]]
24
правки

Навигация