Глубокое обучение — различия между версиями
(Закончить раздел с историей) |
|||
Строка 6: | Строка 6: | ||
Термин «глубокое обучение» появился в научном сообществе машинного обучения в 1986 году в работе израильско-американского ученой Рины Дехтер «Learning While Searching in Constraint-Satisfaction-Problems»<ref>[https://www.researchgate.net/publication/221605378_Learning_While_Searching_in_Constraint-Satisfaction-Problems Learning While Searching in Constraint-Satisfaction-Problems]</ref>. Стоит отметить, что первый общий рабочий алгоритм для глубоких многослойных перцептронов прямого распространения был опубликован в книге советских учёных Алексея Григорьевича Ивахненко и Валентина Григорьевича Лапы «Кибернетические предсказывающие устройства». | Термин «глубокое обучение» появился в научном сообществе машинного обучения в 1986 году в работе израильско-американского ученой Рины Дехтер «Learning While Searching in Constraint-Satisfaction-Problems»<ref>[https://www.researchgate.net/publication/221605378_Learning_While_Searching_in_Constraint-Satisfaction-Problems Learning While Searching in Constraint-Satisfaction-Problems]</ref>. Стоит отметить, что первый общий рабочий алгоритм для глубоких многослойных перцептронов прямого распространения был опубликован в книге советских учёных Алексея Григорьевича Ивахненко и Валентина Григорьевича Лапы «Кибернетические предсказывающие устройства». | ||
− | Многие архитектуры глубокого обучения появились с искусственной нейронной сети Neocognitron<ref>[https://en.wikipedia.org/wiki/Neocognitron Neocognitron, Wikipedia]</ref>, представленной в | + | Многие архитектуры глубокого обучения появились с искусственной нейронной сети Neocognitron<ref>[https://en.wikipedia.org/wiki/Neocognitron Neocognitron, Wikipedia]</ref>, представленной в 1980 году Кунихикой Фукусимой. Особенное влияние данная сеть оказала на архитектуры, использующиеся для компьютерного зрения. В 1989 году Яну Лекуну удалось использовать алгоритм обратного распространения ошибки для обучения глубоких нейросетей для решения задачи распознавания рукописных ZIP-кодов<ref>[https://www.ics.uci.edu/~welling/teaching/273ASpring09/lecun-89e.pdf Backpropagation Applied to Handwritten Zip Code Recognition]</ref>. Хотя алгоритм работал, на его обучение потребовалось 3 дня, что существенно ограничевало применимость данного метода. Из-за низкой скоростя обучения нейронные сети в 1990-х годах уступили место методу опорных векторов. |
+ | Популярность глубокое обучение приобрело в середине 2000-х годов. Этому способстовали несколько факторов: | ||
+ | * появились более мощные компьютеры, способные обучать большие нейронные сети; | ||
+ | * появились новые датасеты, достаточные по объёму, чтобы обучение больших сетей имело смысл; | ||
+ | * произошли существенные продвижения в теории искусственных нейронных сетей. В появихшихся статьях авторы показали, что можно эффективно предобучать многослойную нейронную сеть, если обучать каждый слой отдельно при помощи ограниченной машины Больцмана, а затем дообучать при помощи метода обратного распространения ошибки; | ||
+ | * технология привлекли внимание крупных медиа, — первым из мировых СМИ об этом написал The New York Times. | ||
== Определение == | == Определение == |
Версия 20:41, 4 декабря 2018
Глубокое обучение (англ. deep learning) — совокупность широкого семейства методов машинного обучения, основанных на обучении представлениям, а не специализированным алгоритмам под конкретные задачи. Глубокое обучение может быть с учителем, с частичным привлечением учителя, без учителя и с подкреплением. Несмотря на то, что данный раздел машинного обучения появился еще в 1980х, до недавнего времени его применение было сильно ограничено из-за недостака вычислительных мощностей существовавших компьютеров. Ситуация изменилась только в середине 2000х.
На создание моделей глубокого обучения оказали влияние некоторые процессы и паттерны, происходящие в биологических нейронных системах. Несмотря на это, данные модели имеют множество различий от биологического мозга (и в структуре и в функциях), что делает невозможным использование теорем и доказательств, применяющихся нейробиологии.
Содержание
История
Термин «глубокое обучение» появился в научном сообществе машинного обучения в 1986 году в работе израильско-американского ученой Рины Дехтер «Learning While Searching in Constraint-Satisfaction-Problems»[1]. Стоит отметить, что первый общий рабочий алгоритм для глубоких многослойных перцептронов прямого распространения был опубликован в книге советских учёных Алексея Григорьевича Ивахненко и Валентина Григорьевича Лапы «Кибернетические предсказывающие устройства».
Многие архитектуры глубокого обучения появились с искусственной нейронной сети Neocognitron[2], представленной в 1980 году Кунихикой Фукусимой. Особенное влияние данная сеть оказала на архитектуры, использующиеся для компьютерного зрения. В 1989 году Яну Лекуну удалось использовать алгоритм обратного распространения ошибки для обучения глубоких нейросетей для решения задачи распознавания рукописных ZIP-кодов[3]. Хотя алгоритм работал, на его обучение потребовалось 3 дня, что существенно ограничевало применимость данного метода. Из-за низкой скоростя обучения нейронные сети в 1990-х годах уступили место методу опорных векторов.
Популярность глубокое обучение приобрело в середине 2000-х годов. Этому способстовали несколько факторов:
- появились более мощные компьютеры, способные обучать большие нейронные сети;
- появились новые датасеты, достаточные по объёму, чтобы обучение больших сетей имело смысл;
- произошли существенные продвижения в теории искусственных нейронных сетей. В появихшихся статьях авторы показали, что можно эффективно предобучать многослойную нейронную сеть, если обучать каждый слой отдельно при помощи ограниченной машины Больцмана, а затем дообучать при помощи метода обратного распространения ошибки;
- технология привлекли внимание крупных медиа, — первым из мировых СМИ об этом написал The New York Times.
Определение
...
Разделы
...
Задачи
...
Sigmoid function
...
Rectified Linear Units (ReLU)
...
См. также
...