Изменения

Перейти к: навигация, поиск

Общие понятия

2990 байт добавлено, 15:52, 21 марта 2020
Нет описания правки
=== Типы задач ===
'''Задачи классификацииКлассификация''' (англ. ''classification''):<br/>
* $Y = \{−1, +1\}$ — классификация на 2 класса;
* $Y = \{1, . . . , M\}$ — на $M$ непересекающихся классов;
* $Y = \{0, 1\}^M$— на $M$ классов, которые могут пересекаться.<br/> ''Цель'': научиться определять, к какому классу принадлежит объект. <br/>''Примеры:'' : распознавание текста по рукописному вводу, ; определение того, находится на фотографии человек или кот; определение, является ли письмо спамом.<br/>''Методы'Задачи восстановления ': [[Метрический классификатор и метод ближайших соседей|метод ближайших соседей]], [[Дерево решений и случайный лес|дерево решений]], [[Логистическая регрессия|логистическая регрессия]], [[Метод опорных векторов (SVM)|метод опорных векторов]], [[Байесовская классификация|байесовский классификатор]], [[Сверточные нейронные сети|cверточные нейронные сети]]. '''Восстановление регрессии''' (англ. ''regression''):{{main|Восстановление регрессии|l1=Восстановление регрессии<sup>[на 28.01.2019 не создан]<br/sup>}}* $Y = \mathbb{R}$ или $Y = \mathbb{R}^m$.<br/> ''Цель'': получать прогноз на основе выборки объектов. <br/>''Примеры:'' : предсказание стоимости акции через полгода, ; предсказание прибыли магазина в следующем месяце, ; предсказание качества вина на слепом тестировании.<br/>''Методы'': [[Линейная регрессия|линейная регрессия]], [[Дерево решений и случайный лес|дерево решений]], [[Метод опорных векторов (SVM)|метод опорных векторов]]. '''Задачи ранжированияРанжирование''' (англ. ''ranking''):<br/>{{main|Ранжирование}}* $Y$ {{---}} конечное упорядоченное множество.<br/> ''ПримерЦель'':научиться по множеству объектов получать множество рейтингов, упорядоченное согласно заданному отношению порядка. <br/>''Примеры'' : выдача поискового запроса; подбор интересных новостей для пользователя.<br/>''Методы'': [[Ранжирование#Поточечный подход|поточечный подход]], [[Ранжирование#Попарный подход|попарный подход]], [[Ранжирование#Списочный подход|списочный подход]]. '''Кластеризация''' (англ. ''clustering'')<br/>{{main|Кластеризация}}''Цель'': разбить множество объектов на подмножества ('''кластеры''') таким образом, чтобы объекты из одного кластера были более похожи друг на друга, чем на объекты из других кластеров по какому-либо критерию. <br/>''Примеры'': разбиение клиентов сотового оператора по платёжеспособности; разбиение космических объектов на похожие (галактики, планеты, звезды). <br/>''Методы'': [[Иерархическая кластеризация|иерархическая кластеризация]], [[Эволюционные алгоритмы кластеризации|эволюционные алгоритмы кластеризации]], [[EM-алгоритм]]. ---- === Вспомогательные типы задач === '''Задачи уменьшения Уменьшение размерности''' (англ. ''dimensionality reduction'') <br/>
{{main|Уменьшение размерности}}
Научиться ''Цель'': научиться описывать данные не $N$ признаками, а меньшим числом для повышения точности модели или последующей визуализации. В качестве примера помимо необходимости для визуализации можно привести сжатие данных. <br/>''Примеры'Задачи кластеризации''' (англ: визуализация в двумерном или трехмерном пространстве; сжатие данных. ''cluster analysis'')<br/>{{main|Кластеризация}}Разбиение данных множества объектов на подмножества ('''кластеры'Методы'': [[Вариации регрессии#Гребневая регрессия (ридж-регрессия) таким образом|гребневая регрессия]], чтобы объекты из одного кластера были более похожи друг на друга, чем на объекты из других кластеров по какому[[Вариации регрессии#Лассо-регрессия|лассо-либо критерию. <br/>''Примеры:'' разбиение клиентов сотового оператора по платёжеспособностирегрессия]], разбиение космических объектов на похожие [[Метод главных компонент (галактикиPCA)|метод главных компонент]], планеты, звезды и так далее)[[Стохастическое вложение соседей с t-распределением|стохастическое вложение соседей с t-распределением]]. <br/> '''Задачи выявления Выявление аномалий''' (англ. ''anomaly detection'')<br/>
{{main|Выброс}}
На основании признаков ''Цель'': научиться различать отличать выявлять аномалиив данных. Кажется, что Отличительная особенность задачи от задачи классификации эта задача ничем не отличается. Но особенность выявления аномалий состоит в том, что {{---}} примеров аномалий для тренировки модели у нас либо очень мало, либо нет совсем, ; поэтому мы не можем решать такую задачу как задачу классификациидля ее решения необходимы специальные методы. <br/>''Пример:Примеры'' : определение мошеннических транзакций по банковской карте; обнаружение событий, предвещающих землетрясение. <br/>''Методы'': [[Выброс#Методы обнаружения выбросов|экстремальный анализ данных, аппроксимирующий метод, проецирующие методы]].
== Классификация задач машинного обучения ==
Изучает широкий класс задач обработки данных, в которых известны только описания множества объектов (обучающей выборки), и требуется обнаружить внутренние взаимосвязи, зависимости, закономерности, существующие между объектами. Т.е. тренировочные данные доступны все сразу, но ответы для поставленной задачи неизвестны.
''Задачи, которые могут решаться этим способом:'' кластеризация, нахождение ассоциативных правил, выдача рекомендаций (например, реклама), уменьшение размерности датасета, [[Обработка естественного языка|обработка естественного языка]].
==== Обучение с частичным привлечением учителя (англ. ''Semi-supervised learning''<ref>[http://www.machinelearning.ru/wiki/index.php?title=%D0%A7%D0%B0%D1%81%D1%82%D0%B8%D1%87%D0%BD%D0%BE%D0%B5_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5 Semi-supervised learning]</ref>) ====
Частный случай обучения с учителем, сигналы подкрепления (правильности ответа) выдаются не учителем, а некоторой средой, с которой взаимодействует программа. Размеченность данных зависит от среды.
Окружение обычно формулируется как [http://en.wikipedia.org/wiki/Markov_decision_process марковский процесс принятия решений ] (МППР) с конечным множеством состояний, и в этом смысле алгоритмы обучения с подкреплением тесно связаны с динамическим программированием. Вероятности выигрышей и перехода состояний в МППР обычно являются величинами случайными, но стационарными в рамках задачи.
При обучении с подкреплением, в отличие от обучения с учителем, не предоставляются верные пары "входные данные-ответ", а принятие субоптимальных решений (дающих локальный экстремум) не ограничивается явно. Обучение с подкреплением пытается найти компромисс между исследованием неизученных областей и применением имеющихся знаний(англ. ''exploration vs exploitation tradeoff'').
==== Активное обучение (англ. ''Active learning'') ====
==== Обучение в реальном времени (англ. ''Online learning'') ====
{{main|Обучение в реальном времени}}
Может быть как обучением с учителем, так и без учителя. Специфика в том, что тренировочные данные поступают последовательно. Требуется немедленно принимать решение по каждому прецеденту и одновременно доучивать модель зависимости с учётом новых прецедентов. Здесь существенную роль играет фактор времени.
* ''Бинарные признаки'': пол, наличие головной боли, слабости;
* ''Порядковый признак'': тяжесть состояния (удовлетворительное, средней тяжести, тяжёлое, крайне тяжёлое);
* ''Числовые признаки :''возраст, пульс, артериальное давление, содержание гемоглобина в крови, доза препарата.
Признаковое описание пациента является, по сути дела, формализованной историей болезни.
== Открытые наборы данных для обучения ==
{{main|Известные наборы данных|l1=Известные наборы данных<sup>[на 28.01.2019 не создан]</sup>}}
==== Компьютерное зрение ====
* [https://pjreddie.com/projects/mnist-in-csv/ MNIST]: один из самых востребованных наборов для проверки работоспособности. Есть датасеты 25x25, отцентрованные, рукописные чёрно-былые цифры;
Анонимный участник

Навигация