Изменения

Перейти к: навигация, поиск

Обработка естественного языка

90 байт добавлено, 02:40, 14 января 2021
Частеречная разметка
* ''С использованием [[Скрытые Марковские модели|скрытой марковской модели]]''. Пусть в нашей Марковской модели ''тэги'' будут '''скрытыми состояниями''', которые производят '''наблюдаемое событие''' - ''слова''. С математической точки зрения, мы хотим найти такую ''последовательность тэгов (C)'', которая будет максимизировать условную вероятность <tex>P(C|W)</tex>, где <tex>C = C_1, C_2, \dots C_T</tex> и <tex>W = W_1, W_2, \dots W_T</tex>. Воспользовавшись формулой Байеса получим, что максимизировать необходимо следующее выражение: <tex>p(C_1, C_2, \dots C_T) \cdot p(W_1, W_2, \dots W_T | C_1, C_2, \dots C_T)</tex>.
Благодаря частому использованию POS-тэгирования на практике, существует много встроенных библиотек с готовыми реализациями. Например, NLTK<ref>[https://www.nltk.org/ NLTK]</ref>, scikit-learn<ref>[https://scikit-learn.org scikit-learn]</ref>, Freeling<ref>[http://nlp.lsi.upc.edu/freeling/node/1 Freeling]</ref>, TurboParser<ref>[http://www.cs.cmu.edu/~ark/TurboParser/ TurboParser]</ref> и другие. Примеры использования некоторых библиотек:* nltkNLTK:
import nltk
from nltk.tokenize import word_tokenize
101
правка

Навигация