Изменения

Перейти к: навигация, поиск

Генерация текста

432 байта добавлено, 15:09, 10 июня 2021
Опечатка
как можно продолжить текущий отрывок текста, а в конечном итоге — уметь генерировать связный осмысленный текст.
''' Задача генерации текста ''' включает в себя задачу обработки естественного языка (Natural Language Processing, NLP) <ref>[http://neerc.ifmo.ru/wiki/index.php?title=Обработка_естественного_языка Задача обработки естественного языка]</ref> (Natural Language Processing, NLP) ]</ref> и реализует возможность языковой модели отвечать на вопросы, на основе исходного текста предсказывать последующее слово и генерировать осмысленный текст.
== История создания языковых моделей ==
Первый алгоритм генерации текста GPT (Generative Pre-trained Transformer) разработали по методологии SCRUM и выпустили в 2018 году. Его обучали на 117 миллионах параметров, что в те времена считалось хорошим показателем. На основе этой разработки, в конце 2018 года компания Google выпустила разработала по методологии SCRUM двунаправленную нейросеть BERT (Bidirectional Encoder Representations from Transformers) <ref>[https://en.wikipedia.org/wiki/BERT_(language_model) BERT(Bidirectional Encoder Representations from Transformers)]</ref>, получившую статус state-of-the-art — высшую точку развития технологии на тот момент.
Алгоритм GPT первого поколения был разработан по методологии SCRUM и обучен на выборке массивов текстов из Wikipedia и из литературных произведений. Позже создатели поняли, что это не самый оптимальный тип данных для обучения модели. Нейросеть быстрее учится понимать естественную речь на основе простых постов в интернете. Поэтому в 2019 году OpenAI по методологии SCRUM обучили GPT второго поколения на данных, собранных с обычных форумов {{---}} выборка пользователей Reddit, причем обязательно с рейтингом выше среднего (как минимум 3 кармы). Последнее учитывалось, чтобы отбросить рекламные или спам-страницы и оставить только полезные. Новая версия нейросети получила название GPT-2.
== GPT-2 ==
'''GPT-2 (Generative Pre-trained Transformer 2)''' — это огромная языковая модель, созданная компанией [https://openai.com/ OpenAI]. Модель основана на архитектуре Transformer<ref>[https://ru.wikipedia.org/wiki/Трансформер_(модель_машинного_обучения) архитектура Transformer]</ref>, с 1.5 млрд параметров, обученная на <ref>[https://openai.com/blog/better-language-models/#fn1 датасете]</ref>, состоящем из 8 млн специально отобранных веб-страниц.
==== Что умеет GPT-2 ====
Изначально нейросеть обучали предсказывать следующее слово в предложении. Помимо основной задачи модель качественно генерирует образцы текста из-за использования трансформерной архитектуры и обучения на большом датасете. Таким образом, GPT-2 - не просто языковая модель, а мощный генератор текстов.
===== Что еще умеет? Дополнительные возможности =====
#Краткий пересказ текста или обобщение. В качестве входных данных нужно подать не просто фрагмент, а целый текст, а модель выдаст краткое содержание рассказа.
#Ответы на вопросы исходя из содержания текста. На входе подается несколько примеров в виде «Вопрос-Ответ», в конце же дается реальный вопрос, на который нейросеть выдает по тому же макету ответ.
==== Исходный код ====
OpenAI отказались выкладывать полную версию GPT-2, так как посчитали, что ей будут пользоваться для генерации фейковых новостей. В сети доступна версия GPT-2 с уменьшенным количеством параметров <ref>[https://github.com/openai/gpt-2 версия Код GPT-2 с уменьшенным количеством параметров]</ref> (до 117 млн параметров, вместо 1.5 млрд, как в полной модели).
== GPT-3 ==
'''GPT-3 (Generative Pre-trained Transformer 3)''' — третье поколение языковой модели от OpenAI. GPT-3 продолжает подход OpenAI, заложенный в GPT и GPT-2и поэтому разрабатывается по методологии SCRUM. По сравнению с GPT-2 количество используемых параметров увеличилось более чем в 100 раз: с 1,5 до 175 млрд. Для обучения алгоритма исследователи собрали датасет, состоящий из английской Википедии, которая охватывает около 6 миллионов статей, составляет всего 0,6 процента ее обучающих данных. Остальное - оцифрованные книги и различные веб-страницы. Это означает, что обучающие данные GPT-3 включают в себя не только новостные статьи, рецепты и стихи, но и руководства по кодированию, фанфики, религиозные пророчества, путеводители по певчим птицам Боливии и все остальное, что только можно представить.
==См. также==
== Примечания ==
<ref>[https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf Language Models are Unsupervised Multitask Learners by Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever]</ref>
<references/>
* [https://openai.com/blog/better-language-models/ OpenAI article]
* [https://d4mucfpksywv.cloudfront.net/better-language-models/language-models.pdf "Language Models are Unsupervised Multitask Learners" by Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever]
* [https://tjournal.ru/tech/195331-neyroset-gpt-3-ot-openai-pishet-stihi-muzyku-i-kod-pochemu-ona-poka-daleka-ot-nastoyashchego-ii-no-sposobna-pomenyat-mir Neural network GPT-3]
* [https://ru.wikipedia.org/wiki/GPT-3 GPT-3 Wikipedia article]
Анонимный участник

Навигация