Изменения

Перейти к: навигация, поиск

Классификация текстов и анализ тональности

2139 байт добавлено, 02:49, 9 апреля 2019
+ постановка задачи
* Анализа отзывов о товарах и услугах
* Определение языка вражды<ref>[https://ru.wikipedia.org/wiki/%D0%AF%D0%B7%D1%8B%D0%BA_%D0%B2%D1%80%D0%B0%D0%B6%D0%B4%D1%8B Язык Вражды]</ref>
В общем случае, задача анализа тональности текста эквивалентна задаче классификации текста, где категориями текстов могут быть тональные оценки.
Примеры тональных оценок:
* позитивня
* негативня
* нейтральная
Под «нейтральной» подразумевается, что текст не содержит эмоциональной окраски.
 
== Классификация текстов методами машинного обучения ==
=== Постановка задачи ===
Имеется множество категорий (классов, меток) <math>\mathfrak{C}=\{c_1,...,c_{\left|\mathfrak{C}\right|}\}</math>.
 
Имеется множество документов <math>\mathfrak{D}= \{ d_1, ... , d_{ \left| \mathfrak{D} \right| } \}</math>.
 
Неизвестная целевая функция <math>\Phi\colon \mathfrak{C} \times \mathfrak{D} \rightarrow \{ 0, 1 \}</math>.
 
Необходимо построить классификатор <math> \Phi^\prime </math>, максимально близкий к <math>\Phi</math>.
 
Имеется некоторая начальная коллекция размеченных документов <math>\mathfrak{R} \subset \mathfrak{C} \times \mathfrak{D}</math>, для которых известны значения <math>\Phi</math>. Обычно её делят на «обучающую» и «проверочную» части. Первая используется для обучения классификатора, вторая — для независимой проверки качества его работы.
 
Классификатор может выдавать точный ответ <math>\Phi^\prime\colon \mathfrak{C} \times \mathfrak{D} \rightarrow \{ 0, 1 \}</math> или степень подобия <math>\Phi^\prime\colon \mathfrak{C} \times \mathfrak{D} \rightarrow [ 0, 1 ]</math>.
 
=== Этапы подготовки ===
54
правки

Навигация