Изменения

Перейти к: навигация, поиск

Извлечение эмоций

15 621 байт добавлено, 24 март
Создание конспекта
<b>Извлечение эмоций</b>(англ. Emotion Analysis) {{---}} эффективное обучение человеческим эмоциям, которое пытается идентифицировать настоящие эмоции из контекста и проанализировать их согласно предопределенным классовым моделям эмоций. Часто вместе с эмоциями извлекается настрой (англ. Sentiment analysis) для определения отношения человека к той или иной теме. Источником данных могут служить речь, текст, видео или изображение человека. Данные методы можно применить практически ко всем аспектам нашей жизни, например, слежение за состоянием ментального здоровья или улучшение взаимодействия человека и компьютера.

Множество усилий сейчас направлено на создание алгоритмов извлечения эмоций из текста, так как, хотя это является достаточно трудоемкой задачей по сравнению с остальными, но многие люди предпочитают делиться своим мнением и отношениям к событиям или явлениям в виде текстовых сообщений: статусов, постов, комментариев, что позволяет охватывать больше данных.

<h2>Какие бывают эмоции</h2>

Изучение эмоций начиналось как ответвления философии и психологии. В дальнейшем благодаря Дарвину появился биологический аспект.Спустя более ста лет эмоциями занялась нейропсихология.

<h3>Эмоциональные модели</h3>

Эмоциональная модель {{---}} структурированная форма или способ определения множества человеческих эмоций согласно некоторым баллам, рангам или измерениям. Бывают категориальными или пространственными. Категориальная модель (англ. categorical) {{---}} определяет список категорий эмоций, которые отделены друг от друга. Пространственная модель (англ. Dimensional) {{---}} определяет некоторое количество измерений с несколькими параметрами и идентифицирует эмоцию по ее измерениям.

С помощью категориальной модели можно определить такие эмоции, как злость, грусть, страх, отвращение, тревога, удивление, наслаждение, любовь. С помощью пространственной - те же, что и категориальной, а так же восхищение, агрессивность, раздражительность, скука, доверие, принятие, предвкушение, предчувствие, благоговение, опасение, встревоженность, напряженность, сонливость, радость, раскаяние, надежда, страдание.

<h3>Эмоции и текст</h3>

Эмоциональные модели используются для обработки речи или видео/картинок. Извлечение эмоций из текста, как уже было замечено, является более трудной задачей, а потому требует других подходов. Эта задача является очень популярной в мире, многие ученые создают свои решения. Эти решения позволяют распознавать такие эмоции, как: злость, счастье, грусть, страх, насилие, забывчивость, вина, обвинение, радость, надежда, безнадежность, любовь, гордость, благодорность, наслаждение, удивление, волнение, ожидание, ненависть, скорбь, отвращение, спокойствие, вдохновение, ностальгия, одиночество, страсть, влюбленность, проникновенность, расслабленность, тоска, безэмоциональная передача информации, приказной тон текста.

<h2>Подходы к извлечению эмоций из текста</h2>

Извлечение эмоций является частью аффективных (эмоциональных) вычислений. Среди которых выделяют несколько подходов.

<b>Подход, основанный на ключевых словах</b> (англ. keyword-based method). Наиболее интуитивный и сильный подход. Идея заключается в нахождении шаблонов близких к эмоциональным ключевым словам и сопоставлении их.

<b>Подход, основанный на лексике</b> (англ. lexicon-based method). Классифицирует текст используя надлежащую лексику (основанную на знание уровня текста относительно эмоций) для входных данных.

<b>Машинное обучение</b> (англ. Machine learning method). Используются обучение как с учителем, так и без, в котором создается модель для тренировки классификатора на части данных и на оставшихся проверяется.

<b>Смешанный подход</b> (англ. Hybrid method). Комбинирует два или три метода для достижения наилучшего выигрыша среди множества алгоритма и наивысшего уровня точности.

<h2>Пример: извлечение эмоций из твитов<ref>Emotion and Sentiment Analysis from Twitter Text
Sailunaz, Kashfia, 2018, https://prism.ucalgary.ca/bitstream/handle/1880/107533/ucalgary_2018_sailunaz_kashfia.pdf;jsessionid=92537BF3ACE14E77D0D02CB537FA8B74?sequence=1</ref></h2>

При извлечении эмоций из твитов уделялось внимание полу написавшего человека и его местоположению.

Процесс извлечения эмоций состоит из нескольких последовательных шагов: предобработка, маркирование частями речи, эмоциональный словарь, распознавание эмоциональных униграм и их классификация.

<h3>Предобработка текстов</h3>

Коллекция твитов содержит некоторое количество шума (лишние и пропущеные символы, буквы, ошибки правописания). В ходе предобработки происходит удаление ненужной информации, например URL, смайлики, множественное повторение знаков, символ # в хэштегах. Потом данные проверяются на избыточность. В конце получается фильтрованные данные без смайлков, хэштегов, ненужных повторений символов и неразборчивых слов.

<h3>POS маркировка</h3>

Происходит маркировка каждого слова частью речи, к которой он относится. Было использовано 36 частей речи, например: опеределительное слово, личное местоимение, иностранное слово и т.д.

<h3>Эмоциональный словарь</h3>

Существующие системы распознавания эмоций используют различные эмоциональные модели соответсвенно их требованиям. Наиболее используемые: Экмана (Ekman)<ref>P Ekman. An Argument for Basic Emotions. Cognition and emotion, 6(3-4):169–200,
1992.</ref>, Джонсон-лайрд и Оатли (Johnson-laird and Oatley)<ref>Keith Oatley, and Philip N. Johnson-Laird. Towards a Cognitive Theory of Emotions.
Cognition and Emotion, 1(1):29{50, 1987.</ref>, Циркумплекс (circumplex)<ref>James A. Russell. A Circumplex Model of Affect. Journal of Personality and Social
Psychology, 39(6):1161{1178, 1980.</ref>. Главным ограничением этих моделей является их фокусировка только на нескольких базовых эмоциях. Самая широко используемая модель Циркумплекс работает с 28 эмоциями. Существует также модель, называемая "Колесо эмоций Плутчика"<ref>Robert Plutchik. Emotion: A Psychoevolutionary Synthesis. Harper and Row, 1980.</ref>, она распознает 32 эмоции: принятие, восхищение, агрессивность, изумление, злость, раздражение, предвкушение, опасение, трепет, скука, презрение, неодобрение, отвращение, рассеянность, восторг, страх, горе, интерес, наслаждение, ненависть, любовь, оптимизм, задумчивость, ярость, раскаяниие, грусть, спокойствие, подчинение, удивление, ужас, доверие, настороженность.

Также следует заметить, что существют твиты, не несущие никаких эмоций. Некоторые предстваляют собой насмешки, запросы, советы или сарказм. Другие могут содержать слова из разных языков, или просто случайный набор слов. Все подобный твиты классифицировались как ''Другие''.

Эмоциональный словарь был построен на базе перечисленных 32 эмоций. Синонимы для каждого эмоционального слова подбирались из нескольких онлайн словарей английского. После добавления слов из словарей, также добавлялись распространенные в твитах синонимы из словарей, основанных исключительно на твитах. В конце добавляются распростаненные акронимы, найденные в различных источниках. После всех этих действий словарь содержит более 20 синонимов для каждой эмоции.

<h3>Выбор униграм и аннотация данных</h3>

Вначале удаляются все ненужные части речи (предлоги, артикли и т.д.) и концетрируются на оставшихся для аннотации каждого твита эмоцией. Для твитов с несколькими эмоциями определяются основные, и аннотации ставятся соответственно.

<h3>Эмоциональная классификация</h3>

Обычно для эмоциональной классификации используются [[Метрический_классификатор_и_метод_ближайших_соседей|метод ближайших соседей]], [[Байесовская_классификация#Наивный байесовский классификатор|наивный байесовский классификатор]] и [[Дерево_решений_и_случайный_лес#Дерево решений|дерево решений]]. В большинстве случаев наивный байесовский классификатор давал наиболее точные результаты, и именно поэтому он был использован в данной работе.

\begin{aligned}
L = \arg\max_{k\in\{1,...,K\}}p(C_k)\prod_{i=1}^{n}p(x_i|C_k)
\end{aligned}

Где $C_k$ {{---}} эмоциональный класс и $k$ изменяется соответсвенно от 1 до 32, $x_i$ {{---}} униграма, используемая для определения эмоций.

70% аннотированных данных используется как обучающая подвыборка, остальные 30% как проверочная.

<h3>Результаты</h3>

Вся работа была выполнена на языке R, с использованием различных пакетов.

Данные для работы были собраны 26 октября 2015 года, из них почти 30% были удалены, так как являлись рекламными объявлениями. Для оставшихся в качестве местоположения хранилась страна вместо города, и время в формате чч:мм.

В резултате классификации было выяснено, что наиблоее распространенными эмоциями являлись восхищение, наслождение, оптимизм и другие.

<h2>Смотри также</h2>

*[[Общие понятия#Типы задач|Классификация]]
*[[Классификация текстов и анализ тональности#Задачи анализа тональности текста|Задачи анализа тональности текста]]

<h2>Примечания</h2>
<references/>

<h2>источники информации</h2>

* https://prism.ucalgary.ca/bitstream/handle/1880/107533/ucalgary_2018_sailunaz_kashfia.pdf;jsessionid=92537BF3ACE14E77D0D02CB537FA8B74?sequence=1
* https://www.kdnuggets.com/2019/10/sentiment-emotion-analysis-beginners-types-challenges.html
* https://www.researchgate.net/publication/319362855_Emotion_analysis_A_survey
Анонимный участник

Навигация