Изменения

Перейти к: навигация, поиск

Обработка естественного языка

1543 байта добавлено, 13:23, 23 января 2019
Основные подходы
Эти два подхода применяются во многих задачах, например, извлечение синонимов из текста, автоматическом построении онтологий и реализованы во многих работающих системах, например, NELL<ref>[http://rtw.ml.cmu.edu/rtw/ NELL]</ref> и Snowball<ref>[http://www.mathcs.emory.edu/~eugene/papers/dl00.pdf Snowball]</ref>.
 
=== Использование N-грамм ===
{{Определение
|definition=
'''N-грамма''' {{---}} последовательность из n элементов.
}}
В NLP N-граммы используются для построения вроятностных моделей, задач схожести текстов, категоризации текста и языка.
 
Построив N-граммную модель можно определить вероятность употребления заданной фразы в тексте. N-граммная модель рассчитывает вероятность последнего слова N-граммы, если известны все предыдущие, при это полагается, что вероятность появление каждого слова зависит только от предыдущих слов.
 
Использование N-грамм применяется в задаче выявления плагиата. Текст разбивается на несколько фрагментов, представленных N-граммами. Сравнение N-грамм друг с другом позволяет определить степень сходства документов. Аналогичным способом можно решать задачу исправления орфографических ошибок, подбирая слова кандидаты для замены.
== Библиотеки для NLP ==
Анонимный участник

Навигация