Изменения

Перейти к: навигация, поиск

Обработка естественного языка

1072 байта добавлено, 01:45, 14 января 2021
Частеречная разметка
Частеречная разметка (POS-тэгирование) используется в NLP для определения части речи и грамматических характеристик слов в тексте с приписыванием им соответствующих тегов. Модель необходима, когда значение слова зависит от контекста. Например, в предложениях "Каменный замок" и "Железный замок" слово "замок" используется в разных значениях. POS-тэгирование позволяет сопоставить слову в тексте специальный тэг на основе его значения и контекста.
Алгоритмы частеречной разметки делятся на две группы несколько групп:* Стохастический метод. Такой метод имеет два похожих друг на друга подхода. Первый подход использует для выбора тэга частоту встречаемости конкретного слова с конкретным тэгом. То есть, если определенное слово встречается в тренировочном наборе чаще всего с тэгом "существительное", то скорее всего и сейчас оно будет иметь такой тэг. Второй вариант использует n- основанные граммы - анализируя входную последовательность, алгоритм высчитывает вероятность, что в данном контексте будет определенный тэг. В конце просчета вероятностей выбирается тэг, который имеет наибольшую вероятность.* Основанные на правилах и вероятностные. Первый метод Метод основан на заранее известных правилах. Алгоритм состоит из двух стадий. Сначала расставляются потенциальные тэги всем словам на основе словаря или по какому-либо другому принципу. Далее, если у какого-нибудь слова оказалось несколько тэгов, правильный тэг выбирается на основе рукописных правил. Правил должно быть много, чтобы решить все возникшие неопределенности и учесть все случаи. Например, правило: слова длиной меньше трех символов являются частицами , местоимениями или предлогами. Второй же метод может использовать скрытые марковские модели. Также часто используется модель Условных случайных полей (англ. Conditional Random Fields, CRF). Рассмотрим последнюю модель подробнееОднако такое правило не учитывает некоторые короткие слова из других частей речи.  CRF по своей сути относится к дискриминативным вероятностным методам, в отличие от генеративных методов, таких как, например, наивный байесовский классификатор. Главная разница между ними в том, что дискриминативная модель пытается построить условное распределение, в то время как генеративная строит совместное* С использованием [[Скрытые Марковские модели|скрытой марковской модели]].
== Библиотеки для NLP ==
101
правка

Навигация