Изменения

Перейти к: навигация, поиск

Обработка естественного языка

2210 байт добавлено, 01:15, 14 января 2021
Основные подходы
Использование N-грамм применяется в задаче выявления плагиата. Текст разбивается на несколько фрагментов, представленных N-граммами. Сравнение N-грамм друг с другом позволяет определить степень сходства документов. Аналогичным способом можно решать задачу исправления орфографических ошибок, подбирая слова кандидаты для замены.
 
=== Частеречная разметка ===
Частеречная разметка (POS-тэгирование) используется в NLP для определения части речи и грамматических характеристик слов в тексте с приписыванием им соответствующих тегов. Модель необходима, когда значение слова зависит от контекста. Например, в предложениях "Каменный замок" и "Железный замок" слово "замок" используется в разных значениях. POS-тэгирование позволяет сопоставить слову в тексте специальный тэг на основе его значения и контекста.
 
Алгоритмы частеречной разметки делятся на две группы - основанные на правилах и вероятностные. Первый метод основан на заранее известных правилах. Например, правило: слова длиной меньше трех символов являются частицами или предлогами. Второй же метод может использовать скрытые марковские модели. Также часто используется модель Условных случайных полей (англ. Conditional Random Fields, CRF). Рассмотрим последнюю модель подробнее.
 
CRF по своей сути относится к дискриминативным вероятностным методам, в отличие от генеративных методов, таких как, например, наивный байесовский классификатор. Главная разница между ними в том, что дискриминативная модель пытается построить условное распределение, в то время как генеративная строит совместное.
== Библиотеки для NLP ==
101
правка

Навигация