Редактирование: Векторное представление слов

Перейти к: навигация, поиск

Внимание! Вы не авторизовались на сайте. Ваш IP-адрес будет публично видимым, если вы будете вносить любые правки. Если вы войдёте или создадите учётную запись, правки вместо этого будут связаны с вашим именем пользователя, а также у вас появятся другие преимущества.

Правка может быть отменена. Пожалуйста, просмотрите сравнение версий, чтобы убедиться, что это именно те изменения, которые вас интересуют, и нажмите «Записать страницу», чтобы изменения вступили в силу.
Текущая версия Ваш текст
Строка 2: Строка 2:
  
 
== One-hot encoding ==
 
== One-hot encoding ==
[[Файл:One-hot-encoding.png|thumb|right|250px|[https://www.shanelynn.ie/get-busy-with-word-embeddings-introduction/ Источник]]]  
+
[[Файл:One-hot-encoding.png|thumb|right|250px]]  
 
Пусть число различных слов равно <math>K</math>. Сопоставим слову с номером <math>i</math> вектор длины <math>K</math>, в котором <math>i</math>-тая координата равна единице, а все остальные {{---}} нулям. Недостатком one-hot encoding является то, что по векторным представлениям нельзя судить о схожести смысла слов. Также вектора имеют очень большой размер, из-за чего их неэффективно хранить в памяти.
 
Пусть число различных слов равно <math>K</math>. Сопоставим слову с номером <math>i</math> вектор длины <math>K</math>, в котором <math>i</math>-тая координата равна единице, а все остальные {{---}} нулям. Недостатком one-hot encoding является то, что по векторным представлениям нельзя судить о схожести смысла слов. Также вектора имеют очень большой размер, из-за чего их неэффективно хранить в памяти.
  
Строка 27: Строка 27:
 
{|align="center"
 
{|align="center"
 
  |-valign="top"
 
  |-valign="top"
  |[[Файл:skip-gram.png|270px|thumb|[http://www.claudiobellei.com/2018/01/06/backprop-word2vec/ Схема сети для модели Skip-gram]]]
+
  |[[Файл:skip-gram.png|270px|thumb|Схема сети для модели Skip-gram]]
  |[[Файл:cbow.png|260px|thumb|[http://www.claudiobellei.com/2018/01/06/backprop-word2vec/ Схема сети для модели CBOW]]]
+
  |[[Файл:cbow.png|260px|thumb|Схема сети для модели CBOW]]
  |[[Файл:Words-space.png|thumb|right|500px|Полученные векторы-слова отражают различные грамматические и семантические [https://towardsdatascience.com/word-embedding-with-word2vec-and-fasttext-a209c1d3e12c концепции].<br>
+
  |[[Файл:Words-space.png|thumb|right|500px|Полученные векторы-слова отражают различные грамматические и семантические концепции.<br>
 
<math>W_{king} + (W_{woman} - W_{man}) = W_{queen}</math><br>
 
<math>W_{king} + (W_{woman} - W_{man}) = W_{queen}</math><br>
 
<math>W_{walked} - W_{walking} = W_{swam} - W_{swimming}</math>]]
 
<math>W_{walked} - W_{walking} = W_{swam} - W_{swimming}</math>]]

Пожалуйста, учтите, что любой ваш вклад в проект «Викиконспекты» может быть отредактирован или удалён другими участниками. Если вы не хотите, чтобы кто-либо изменял ваши тексты, не помещайте их сюда.
Вы также подтверждаете, что являетесь автором вносимых дополнений, или скопировали их из источника, допускающего свободное распространение и изменение своего содержимого (см. Викиконспекты:Авторские права). НЕ РАЗМЕЩАЙТЕ БЕЗ РАЗРЕШЕНИЯ ОХРАНЯЕМЫЕ АВТОРСКИМ ПРАВОМ МАТЕРИАЛЫ!

Чтобы изменить эту страницу, пожалуйста, ответьте на приведённый ниже вопрос (подробнее):

Отменить | Справка по редактированию (в новом окне)

Шаблон, используемый на этой странице: