Изменения

Нейронные сети, перцептрон

845 байт добавлено, 23:33, 30 января 2019

Нет описания правки

'''Искусственная нейронная сеть (ИНС)''' (англ. ''Artificial neural network (ANN)'') {{---}} ~~это~~ упрощенная модель биологической нейронной сети, представляющая собой совокупность искусственных нейронов, взаимодействующих между собой.

[[File:Нейронная_сеть.png|700px|thumb|[https://neuralnet.info/chapter/%D0%B2%D0%B2%D0%B5%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5/#%D0%92-%D1%86%D0%B5%D0%BB%D0%BE%D0%BC-%D0%BE%D0%B1-%D0%98%D0%9D%D0%A1 Упрощение биологической нейронной сети]]]

Основные принципы работы нейронных сетей были описаны еще в 1943 году Уорреном Мак-Каллоком и Уолтером Питтсом<ref>[https://en.wikipedia.org/wiki/Artificial_neuron Artificial neuron, Wikipedia]</ref>. В 1957 году нейрофизиолог Фрэнк Розенблатт разработал первую нейронную сеть<ref>[https://en.wikipedia.org/wiki/Perceptron Perceptron, Wikipedia]</ref>, а в 2010 году большие объемы данных для обучения открыли возможность использовать нейронные сети для машинного обучения.

==Структура нейронной сети==

[[File:Искусственный_нейрон_схема.png|700px|thumb|[https://neuralnet.info/chapter/%D0%BE%D1%81%D0%BD%D0%BE%D0%B2%D1%8B-%D0%B8%D0%BD%D1%81/#%D0%98%D1%81%D0%BA%D1%83%D1%81%D1%81%D1%82%D0%B2%D0%B5%D0%BD%D0%BD%D1%8B%D0%B9-%D0%BD%D0%B5%D0%B9%D1%80%D0%BE%D0%BD Схема искусственного нейрона]]]

Хорошим примером биологической нейронной сети является человеческий мозг. Наш мозг {{---}} сложнейшая биологическая нейронная сеть, которая принимает информацию от органов чувств и каким-то образом ее обрабатывает (узнавание лиц, возникновение ощущений и т.д.). Мозг же, в свою очередь, состоит из нейронов, взаимодействующих между собой.

===Однослойные нейронные сети===

[[File:~~Однослойная_нейронная_сеть~~Single-layer-neural-net-scheme.png|~~400px~~500px|thumb|[https://studfiles.net/preview/3170620/page:3/ Схема однослойной нейронной сети]]]

'''Однослойная нейронная сеть''' (англ. ''Single-layer neural network'') {{---}} сеть, в которой сигналы от входного слоя сразу подаются на выходной слой, который и преобразует сигнал и сразу же выдает ответ.

Как видно из схемы однослойной нейронной сети, представленной справа, сигналы <tex>x_1, x_2, \ldots x_n</tex> поступают на входной слой (который не считается за слой нейронной сети), а затем сигналы распределяются на выходной слой обычных нейронов. На каждом ребре от нейрона входного слоя к нейрону выходного слоя написано число {{---}} вес соответствующей связи.

===Многослойные нейронные сети===

[[File:~~Многослойная нейронная сеть~~Multi-layer-neural-net-scheme.png|~~400px~~500px|thumb|[https://wiki.loginom.ru/articles/multilayer-neural-net.html Схема многослойной нейронной сети]]]

'''Многослойная нейронная сеть''' (англ. ''Multilayer neural network'') {{---}} нейронная сеть, состоящая из входного, выходного и расположенного(ых) между ними одного (нескольких) скрытых слоев нейронов.

Помимо входного и выходного слоев эти нейронные сети содержат промежуточные, ''скрытые слои''. Такие сети обладают гораздо большими возможностями, чем однослойные нейронные сети, однако методы обучения нейронов скрытого слоя были разработаны относительно недавно.

Работу скрытых слоев нейронов можно сравнить с работой большого завода. Продукт (выходной сигнал) на заводе собирается по стадиямна станках. После каждого станка получается какой-то промежуточный результат. Скрытые слои тоже преобразуют входные сигналы в некоторые промежуточные результаты.

===Сети с обратными связями===

[[File:Сети_с_обратными_связями.png|400px|thumb|[https://neuralnet.info/chapter/%D0%BE%D1%81%D0%BD%D0%BE%D0%B2%D1%8B-%D0%B8%D0%BD%D1%81/#%D0%A1%D0%B5%D1%82%D0%B8-%D1%81-%D0%BE%D0%B1%D1%80%D0%B0%D1%82%D0%BD%D1%8B%D0%BC%D0%B8-%D1%81%D0%B2%D1%8F%D0%B7%D1%8F%D0%BC%D0%B8 Схема сети с обратными связями]]]

'''[[Рекуррентные нейронные сети|Сети с обратными связями]]''' (англ. ''Recurrent neural network'') {{---}} искусственные нейронные сети, в которых выход нейрона может вновь подаваться на его вход. В более общем случае это означает возможность распространения сигнала от выходов к входам.

В сетях прямого распространения выход сети определяется входным сигналом и весовыми коэффициентами при искусственных нейронах. В сетях с обратными связями выходы нейронов могут возвращаться на входы. Это означает, что выход какого-нибудь нейрона определяется не только его весами и входным сигналом, но еще и предыдущими выходами (так как они снова вернулись на входы).

Возможность сигналов циркулировать в сети открывает новые, удивительные возможности нейронных сетей. С помощью таких сетей можно создавать нейросети, восстанавливающие или дополняющие сигналы. Другими словами такие нейросети имеют свойства кратковременной памяти (как у человека).

==Обучение нейронной сети==

'''Обучение нейронной сети''' ~~(англ. ''Neural net training'')~~ {{---}} поиск такого набора весовых коэффициентов, при котором входной сигнал после прохода по сети преобразуется в нужный нам выходной.

~~Такой подход к термину «обучение~~ Это определение «обучения нейронной сети» соответствует и биологическим нейросетям. Наш мозг состоит из огромного количества связанных друг с другом нейросетей~~. Каждая~~ , каждая из ~~них~~ которых в отдельности состоит из нейронов одного типа (с одинаковой функцией активации). ~~Мы обучаемся~~ Наш мозг обучается благодаря изменению синапсов {{---}} элементов, которые усиливают/или ослабляют входной сигнал.

Если обучать сеть, используя только один входной сигнал, то сеть просто «запомнит правильный ответ»~~. Со стороны будет казаться~~, ~~что она очень быстро «обучилась». И~~ а как только мы подадим немного измененный сигнал, ~~ожидая увидеть правильный ответ,~~ вместо правильного ответа получим бессмыслицу. Мы ждем от сети способности ''обобщать'' какие-то ~~сеть выдаст бессмыслицу~~признаки и решать задачу на различных входных данных. Именно с этой целью и создаются ''обучающие выборки''.

В самом деле, зачем нам сеть, определяющая лицо только на одном фото. Мы ждем от сети способности ''обобщать'' какие-то признаки и узнавать лица и на других фотографиях тоже. Именно с этой целью и создаются ''обучающие выборки''. '''Обучающая выборка''' ~~(англ. ''Training set'')~~ {{---}} конечный набор входных сигналов (иногда вместе с правильными выходными сигналами), по которым происходит обучение сети.

После обучения сети, то есть когда сеть выдает корректные результаты для всех входных сигналов из обучающей выборки, ее можно использовать на практике. Однако прежде чем сразу использовать нейронную сеть, обычно производят оценку качества ее работы на так называемой ''тестовой выборке''.

'''Тестовая выборка''' ~~(англ. ''Testing set'')~~ {{---}} конечный набор входных сигналов (иногда вместе с правильными выходными сигналами), по которым происходит оценка качества работы сети.

Само обучение нейронной сети можно разделить на два подхода: [[Обучение с учителем|обучение с учителем]][на 1628.01.19 не создан] и [[Обучение без учителя|обучение без учителя]][на 1628.01.19 не создан]. В первом случае веса меняются так, чтобы ответы сети минимально отличались от уже готовых правильных ответов, а во втором случае сеть самостоятельно классифицирует входные сигналы.

==Перцептрон==

[[File:Перцептрон.png|350px|thumb|[https://neuralnet.info/chapter/%D0%BF%D0%B5%D1%80%D1%81%D0%B5%D0%BF%D1%82%D1%80%D0%BE%D0%BD%D1%8B/#%D0%9F%D0%B5%D1%80%D1%81%D0%B5%D0%BF%D1%82%D1%80%D0%BE%D0%BD Схема перцептрона]]]

'''Перцептрон''' (англ. ''Perceptron'') {{---}} простейший вид нейронных сетей. В основе лежит математическая модель восприятия информации мозгом, состоящая из сенсоров, ассоциативных и реагирующих элементов.

Принцип работы перцептрона следующий:

# Первыми в работу включаются S-элементы. Они могут находиться либо в состоянии покоя (сигнал равен ''0''), либо в состоянии возбуждения (сигнал равен ''1'').;# Далее сигналы от S-элементов передаются A-элементам по так называемым S-A связям. Эти связи могут иметь веса, равные только ''-1'', ''0'' или ''1''.;# Затем сигналы от сенсорных элементов, прошедших по S-A связям , попадают в A-элементы, которые еще называют ассоциативными элементами;#* ~~Стоит заметить, что одному~~ Одному A-элементу может соответствовать несколько S-элементов;

#* Если сигналы, поступившие на A-элемент, в совокупности превышают некоторый его порог <tex>\theta</tex>, то этот A-элемент возбуждается и выдает сигнал, равный ''1'';

#* В противном случае (сигнал от S-элементов не превысил порога A-элемента), генерируется нулевой сигнал.;# Далее сигналы, которые произвели возбужденные A-элементы, направляются к сумматору (R-элемент), действие которого нам уже известно. Однако, чтобы добраться до R-элемента, они проходят по A-R связям, у которых тоже есть веса~~. Однако, здесь они~~ (которые уже могут принимать любые значения (, в отличие от S-A связей).;

# R-элемент складывает друг с другом взвешенные сигналы от A-элементов, а затем

#* если превышен определенный порог, генерирует выходной сигнал, равный ''1'';

===Классификация перцептронов===

[[File:Однслойный_перцептрон.png|300px|thumb|[https://neuralnet.info/chapter/%D0%BF%D0%B5%D1%80%D1%81%D0%B5%D0%BF%D1%82%D1%80%D0%BE%D0%BD%D1%8B/#%D0%9E%D0%B4%D0%BD%D0%BE%D1%81%D0%BB%D0%BE%D0%B9%D0%BD%D1%8B%D0%B9-%D0%BF%D0%B5%D1%80%D1%81%D0%B5%D0%BF%D1%82%D1%80%D0%BE%D0%BD Схема однослойного перцептрона]]]

'''Перцептрон с одним скрытым слоем''' ('''элементарный перцептрон''', англ. ''elementary perceptron'') {{---}} перцептрон, у которого имеется только по одному слою S, A и R элементов.

'''Многослойный перцептрон по Розенблатту''' (англ. ''Rosenblatt multilayer perceptron'') {{---}} перцептрон, который содержит более 1 слоя А-элементов.

'''Многослойный ~~перцепртрон~~ перцептрон по Румельхарту''' (англ. ''Rumelhart multilater perceptron'') {{---}} частный случай многослойного персептрона по Розенблатту, с двумя особенностями:

* S-A связи могут иметь произвольные веса и обучаться наравне с A-R связями;

* Обучение производится по специальному алгоритму, который называется обучением по методу обратного распространения ошибки.

Задача обучения перцептрона {{---}} подобрать такие <tex>w_0, w_1, w_2, \ldots, w_n</tex>, чтобы <tex>sign(\sigma(w_0 + w_1 \cdot x_1 + w_2 \cdot x_2 + \ldots + w_n \cdot x_n))</tex> как можно чаще совпадал с <tex>y(x)</tex> {{---}} значением в обучающей выборке (здесь <tex>\sigma</tex> {{---}} функция активации). Для удобства, чтобы не тащить за собой свободный член <tex>w_0</tex>, добавим в вектор $x$ лишнюю «виртуальную размерность» и будем считать, что <tex>x = (1, x_1, x_2, \ldots, x_n)</tex>. Тогда <tex>w_0 + w_1 \cdot x_1 + w_2 \cdot x_2 + \ldots + w_n \cdot x_n</tex> можно заменить на <tex>w^T \cdot x</tex>.

Чтобы обучать эту функцию, сначала надо выбрать функцию ошибки, которую потом можно оптимизировать [[Стохастический градиентный спуск|градиентным спуском]]~~[на 16.01.19 не создан]~~. Число неверно классифицированных примеров не подходит на эту кандидатуру, потому что эта функция кусочно-гладкая, с массой разрывов: она будет принимать только целые значения и резко меняться при переходе от одного числа неверно классифицированных примеров к другому. Поэтому использовать будем другую функцию, так называемый ''критерий перцептрона'': <tex>E_P(w) = -\sum_{x \in M} y(x)(\sigma(w^T \cdot x))</tex>, где <tex>M</tex> {{---}} множество примеров, которые перцептрон с весами <tex>w</tex> классифицирует неправильно.

Иначе говоря, мы минимизируем суммарное отклонение наших ответов от правильных, но только в неправильную сторону; верный ответ ничего не вносит в функцию ошибки. Умножение на <tex>y(x)</tex> здесь нужно для того, чтобы знак произведения всегда получался отрицательным: если правильный ответ ''−1'', значит, перцептрон выдал положительное число (иначе бы ответ был верным), и наоборот. В результате у нас получилась кусочно-линейная функция, дифференцируемая почти везде, а этого вполне достаточно.

===Применение===

* Решение задач классификации, если объекты классификации обладают свойством линейной разделимости;* Прогнозирование и распознавание образов;* Управление агентами<ref>[https://ru.wikipedia.org/wiki/%D0%9F%D0%B5%D1%80%D1%86%D0%B5%D0%BF%D1%82%D1%80%D0%BE%D0%BD#%D0%9F%D1%80%D0%B8%D0%BC%D0%B5%D0%BD%D0%B5%D0%BD%D0%B8%D0%B5_%D0%BF%D0%B5%D1%80%D1%86%D0%B5%D0%BF%D1%82%D1%80%D0%BE%D0%BD%D0%BE%D0%B2 Применения перцептрона, Wikipedia]</ref>.

===Пример использования с помощью scikit-learn<ref>[https://scikit-learn.org Библиотека scikit-learn для Python]</ref>===

Будем классифицировать с помощью перцептрона датасет ~~iris~~MNIST<ref>[https://en.wikipedia.org/wiki/~~Iris_flower_data_set~~ MNIST_database Датасет ~~iris~~MNIST]</ref>.

# Load required libraries

import numpy as np

# Load the ~~iris~~ mnist dataset ~~iris~~ mnist = datasets.~~load_iris~~load_digits()

# Create our X and y data

n_samples = len(mnist.images) X = ~~iris~~mnist.images.~~data~~reshape((n_samples, -1)) y = ~~iris~~mnist.target

# Split the data into 70% training data and 30% test data

ppn = Perceptron(n_iter=40, eta0=0.1, random_state=0)

# Create a multilayer perceptron object

mppn = MLPClassifier(solver='lbfgs', alpha=1e-5, hidden_layer_sizes=(5256, 2512, 128), random_state=1)

# Train the perceptrons

# View the accuracies of the model, which is: 1 - (observations predicted wrong / total observations)

print('~~Accuracy~~Single-layer perceptron accuracy: %.2f4f' % accuracy_score(y_test, y_pred)) print('~~Accuracy~~Multilayer perceptron accuracy: %.2f4f' % accuracy_score(y_test, multi_y_pred)) Вывод: Single-layer perceptron accuracy: 0.9574 Multilayer perceptron accuracy: 0.9759

===Пример использования с помощью tensorflow<ref>[https://www.tensorflow.org/ Библиотека tensorflow для Python]</ref>===

Будем классифицировать цифры из того же датасета MNIST~~<ref>[https://en.wikipedia.org/wiki/MNIST_database Датасет MNIST]</ref>~~.

# Load required libraries

train_step = tf.train.GradientDescentOptimizer(0.5).minimize(cross_entropy)

init = tf.~~initialize_global_variables~~initialize_all_variables()

sess = tf.Session()

sess.run(init)

accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))

print("Accuracy: %s" % sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels}))

[[File:Tensorflow-mnist-failures.png|400px|thumb|Правильные метки {{---}} 5, 4, 9, 7. Результат классификации {{---}} 6, 6, 4, 4.]]

Вывод:

Accuracy: 0.9164

На рисунке справа показаны четыре типичных изображения, на которых классификаторы ошибаются. Согласитесь, случаи действительно тяжелые.

==См. также==

*[[:Сверточные нейронные сети|Сверточные нейронные сети]]

*[[:Рекуррентные нейронные сети|Рекуррентные нейронные сети]]

*[[:Рекурсивные нейронные сети|Рекурсивные нейронные сети]][на 28.01.19 не создан]

==Примечания==

[[Категория: Машинное обучение]]

[[Категория: Нейронные сети]]

Dariyakovleva

77

правок

Изменения

Нейронные сети, перцептрон

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты