8
правок
Изменения
Нет описания правки
[[Файл:BERT_input-repr.png|450px|thumb|right|Рис.1, представление входных данных модели]]
При подаче текста на вход сети сначала выполняется его токенизация. Токенами служат слова, доступные в словаре, или их составные части {{---}} если слово отсутствует в словаре, оно разбивается на части, которые в словаре присутствуют. (см. рис. 1)
Словарь является составляющей модели {{---}} так, в BERT-Base <ref>[https://github.com/google-research/bert Github — Google Research — BERT]</ref> используется словарь около 30,000 слов.
В самой нейронной сети токены кодируются своими [[Векторное_представление_слов | векторными представлениями]] (англ. ''embeddings''), а именно, соединяются представления самого токена (предобученные), номера его предложения, а также позиции токена внутри своего предложения. Входные данные поступают на вход и обрабатываются сетью параллельно, а не последовательно, но информация о взаимном расположении слов в исходном предложении сохраняется, будучи включённой в позиционную часть эмбеддинга соответствующего токена.
== Возможности ==
В отличие от прежних классических языковых моделей, BERT обучает контексто-зависимые представления. Например,word2vec<ref>[https://encode.wikipediagoogle.orgcom/archive/wikip/Word2vec word2vec word2vec] </ref> генерирует единственный эмбеддинг для одного слова, даже если слово многозначное и его смысл зависит от контекста. Использование BERT же позволяет учитывать окружающий контекст предложения, и генерировать различные эмбеддинги в таких случаях.
== См. также ==
# [[Векторное_представление_слов | Векторное представление слов]]
# [[Обработка_естественного_языка | Обработка естественного языка]]
# [[Автокодировщик]]
== Примечания ==
<references/>
== Источники информации ==
# [https://arxiv.org/abs/1810.04805 BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding] {{---}} Оригинальная статья
# [https://en.wikipedia.org/wiki/BERT_(language_model) BERT (language model)] {{---}} статья в англоязычной Википедии