Извлечение эмоций

Материал из Викиконспекты
Перейти к: навигация, поиск

Извлечение эмоций (англ. Emotion Analysis) — это исследование человеческих эмоций, которое пытается идентифицировать правильные эмоции из контекста и проанализировать их согласно предопределенным классовым моделям эмоций. Часто вместе с эмоциями извлекается настрой (англ. Sentiment analysis) для определения отношения человека к той или иной теме. Источником данных могут служить речь, текст, видео или изображение человека. Данные методы можно применить ко многим аспектам нашей жизни, например, оценивание отзывов людей о товарах или услугах для улучшения бизнес-стратегий или отслеживании реакции на события с целью анализа настроя общества и его отношения.

Множество усилий сейчас направлено на создание алгоритмов извлечения эмоций из текста, так как, хотя это является достаточно трудоемкой задачей по сравнению с остальными, но многие люди предпочитают делиться своим мнением и отношениям к событиям или явлениям в виде текстовых сообщений: статусов, постов, комментариев, что позволяет охватывать больше данных.

Какие бывают эмоции

Изначально изучение эмоций являлось ответвление философии и психологии. Однако в 1872 году Чарльз Дарвин заявил, что эмоции и их выражение также связаны с биологическими причинами: похожие виды в одинаковых обстоятельствах реагируют похоже, демонстрируя одни и те же эмоции. И лишь спустя более ста лет в 1984 эмоции были определены как механизм мозга, являющийся следствием функциональных свойств нервной системы.

Эмоциональные модели

Эмоциональная модель — структурированная форма или способ определения множества человеческих эмоций согласно некоторым баллам, рангам или измерениям. Бывают категориальными или пространственными. Категориальная модель (англ. categorical) — определяет список категорий эмоций, которые отделены друг от друга. Пространственная модель (англ. Dimensional) — определяет некоторое количество измерений с несколькими параметрами и идентифицирует эмоцию по значениям этих измерений.

Модель Эмоции Подход Структура
Экмана (Ekman)[1] Гнев, отвращение, страх, удовольствие, грусть, удивление Категориальная -
Шавера (Shaver)[2] Гнев, страх, удовольствие, любовь, грусть, удивление Категориальная Дерево
Оатли (Oatley)[3] Гнев, тревога, отвращение, счастье, грусть Категориальная -
Плутчика (Plutchik) [4] Принятие, восхищение, агрессия, изумление, гнев, досада, ожидание, тревога, трепет, скука, презрение, отвращение, восторг, страх, горе, интерес, удовольствие, любовь, оптимизм, покорность, злость, раскаяние, грусть, безмятежность, удивление, ужас, доверие, возбуждение, разочарование, радость, печаль, неудовольствие Пространственная Колесо
Циркумплекс (Circumplex) [5] Испуганный, встревоженный, сердитый, раздраженный, возбужденный, удивленный, расслабленный, скучающий, спокойный, довольнй, радостный, удовлетворенный, подавленный, огорченный, поникший, взволнованный, разочарованный, унылый, счастливый, несчастный, ублаготворенный, умиротваренный, грустный, польщенный, безмятежный, сонный, напряженный, усталый Пространственная Валентность, возбуждение
Ортони, Клор, Коллинс (OCC)[6] Восхищение, гнев, признательность, разочарование, неприязнь, страх, подтвержденные опасения, злорадство, радость за что-либо, надежда, симпатия, жалость, гордость, извинения за что-либо, облегчение, раскаяние, упрек, возмущение, самокопание, досада Пространственная Дерево
Ловхейма (Lovheim) [7] Гнев/ярость, презрение/отвращение, огорчение/страдание, наслаждение/удовольствие, страх/ужас, интерес/волнение, стыд/унижение, удивление/испуг Пространственная Куб

Эмоции и текст

Эмоциональные модели используются для обработки речи или видео/картинок. Извлечение эмоций из текста, как уже было замечено, является более трудной задачей, а потому требует других подходов. Эта задача является очень популярной в мире, многие ученые создают свои решения.

Подходы к извлечению эмоций из текста

Извлечение эмоций является частью аффективных (эмоциональных) вычислений. Среди которых выделяют несколько подходов.

Подход, основанный на ключевых словах (англ. keyword-based method). Наиболее интуитивный и сильный подход. Идея заключается в нахождении шаблонов близких к эмоциональным ключевым словам и сопоставлении их.

Подход, основанный на лексике (англ. lexicon-based method). Классифицирует текст используя имеющийся лексикон (база знаний текстов, помеченных в соответствии с эмоциями) для входных данных.

Машинное обучение (англ. Machine learning method). Для распознавания эмоций используются обучение как с учителем, так и без, в которых модель направлена на обучение и тестирование классификатора, при этом данные делятся на обучающую и проверочную выборки.

Смешанный подход (англ. Hybrid method). Комбинирует два или три метода для достижения наилучшего выигрыша среди множества алгоритмов и наивысшего уровня точности.

Описание некоторых работ по извлечению эмоций

Авторы Тип Подход Метод Эмоции Особенности Недостатки
Ядоллахи и другие (Yadollahi et al., 2017)[8] Исследование - Существующие методы распознавания эмоций Основные теории эмоций Существующие словарь, множества данных для анализа, методы анализа для Твиттера, анализ для английского и других языков; хорошо структурированные исследование и классификация эмоциональных данных -
Бинали и другие (Binali et al., 2010)[9] Исследование и предложение подхода Комбинация методов, основанных на ключевых словах и обучении Методы, основанные на ключевых словах и обучении Основные теории эмоций Описание вычислительных подходов для распознования эмоций в тексте; улучшение распознования эмоций благодаря комбинированию семантической и синтаксической информации -
Каналес и другие (Canales et al., 2014)[10] Исследование - Методы, основанные на лексике и машинном обучении Основные теории эмоций Подборка существующих работ, основанных на лексике или машинном обучении как с учителем, так и без; сравнение подходов, основанных на лексике и машинном обучении, и ограничений существующих систем Предложено новое направление в глубоком анализе, но не объяснено в деталях
Чопаде и другие (Chopade at al., 2015)[11] Исследование - Комбинация методов, основанных на ключевых словах (поиск ключевых слов), лексике (лексическое сходство) и машинном обучении Основыные теории эмоций Применение тестовых способов распознавания эмоций; ограничение существующих подходов; техники нормализации текстов -
Трипати и другие (Tripathi et al., 2016)[12] Исследование - Обнаружение ключевых слов, лексическое сходство, статистическая обработка естественного языка Базовые эмоции, их свойства представления и моделей Эмоциональный потенциал текста, определение и генерация множества данных и словарей, список существующих работ по определению эмоций в тексте, приложение для эмоциональногоо анализа, возможные будующие направления -
Као и другие (Kao et al., 2009)[13] Исследование и предложение подхода Метод логического обоснования Комбинация методов, основанных на ключевых словах и машинном обучении 22 эмоции из модели OCC Формально определена задача распознавания эмоций, существующие подходы и их недостатки, возможные решения; новый подход с семантическим анализом и методом логического обоснования Предложенный метод не был реализован
Шивхаре и другие (Shivhare et al., 2012)[14] Исследование и предложение подхода Алгоритм детектора эмоций, основанный на эмоциональной онтологии Комбинация методов, основанных на ключевых словах (поиск ключевых слов), лексике (лексическое сходство) и машинном обучении - Обсуждение разлиных техник детекции эмоций, их недостатков; разработка нового алгоритма, основанного на онтологии Предложенный метод не был реализован
Гупта и другие (Gupta et al., 2017)[15] Новый подход Модель глубого обучения, основанная на LSTM Машинное обучение (метод опорных векторов, дерево решений, наивный байесовский классификатор Злой, счастливый, грустный, другие Сочетание смысловых и эмоциональных вложений; опережение большинства базовых подходов машинного обучени Невозможность учитывания контекста
Десмет и другие (Desmet et al., 2013)[16] Новый подход Обработка естественного языка и анализ настроения Метод опорных векторов Насилие, гнев, обвинение, страх, прощение, вина, счастье, оптимизм, безнадежность, сообщение инофрмации, инструкции, любовь, гордость, скорбь, благодарность Использование машинного обучения для распознавания эмоций в записках самоубийц; использование семантических и лексических элементов таких как "мешок слов", маркирование частями речи и триграм Недостаточно данных; невозможно определить редкие эмоции; не содержит отрицаний
Дини и другие (Dini et al., 2016)[17] Новый подход Символьный подход и машинное обучение Методы, основанные на лексике и машнном обучении Гнев, отвращение, страх, удовольствие, грусть, удивление Создание эмоционального корпуса твитов для классификации (англ. ETCC) и для релевантности (англ. ETCR); использование слов, лемм, именованных словосочетаний, зависимостей между частями речи как признаков Проверка качества нуждается в двух новых корпусах
Мохаммад и другие (Mohammad et al., 2017)[18] Новый подход Лучшее худшее масштабирование (англ. Best Worst Scaling) Регрессия Гнев, страх, удовольствие, грусть Определение интенсивности эмоций; создание 4 множеств данных, содержащих твиты; показана корреляция между парами эмоций; использована n-грамы слова, символьные n-грамы, вложения слов и влияние лексики на эмоции Точность не проверена
Сумма и другие (Summa et al., 2016)[19] Новый подход Междисциплинарный подход Обучение с частичным привлечением учителя на основе графов, обработка естественного языка Гнев, счастье, отвращение, страх, грусть, удивление, остутствие эмоций Комбинация лингвистической, временной (о времени) и территориальной информации; вычисление сходства между двумя вершинами Точность не высока; выбор парметров случаен
Сен и другие (Sen et al., 2017)[20] Новый подход Совместно обучаемая модель для эмоций и настроения Машинное обучение (метод опорных векторов, сверточные нейронные сети) Эмоции: гнев, удовольствие, волнение, счастье, надежда, любовь, грусть; настроение: позитивное, негативное, нейтральное, остутствие настроения Использование настроения как дополнительного входа для распознования эмоций в тексте; использование многозадачной нейронной сети для встраиваемого обучения -
Джейн и другие (Jain et al., 2017)[21] Исследование и предложение подхода Машинное обучение (метод опорных веторов, наивный байесовский классификатор) Интеллектуалная обработка текста Основные теории эмоций, модель Экмана (для фреймворка) Обобщение различных существующих методов распознавания эмоций; детальное исследование прогнозирования выбора твита; комбинирование признаков, основанных на корпусе твитов и связанных с эмоциями, для распознавания эмоций в многоязыковых текстах Предложенный фреймворк фокусируется только на темах, связанных с политикой, здоровьем или спортом
Канг и другие (Kang et al., 2017)[22] Новый подход Байесовская модель Байесовский метод принятия решения Гнев, тревога, ожидание, ненависть, удовольствие, любовь, скорбь, удивление Работа с контекстной информацией для получения скрытого смыслового аспекта; предсказание эмоции для слова и документа; применяются две байесовские модели: DWET и HDWET; DWET превзошел все базовые методы Байесовские модели никогда не сойдутся, если смысловой аспект увеличиться слишком сильно; работает только с китайским языком

Чаще всего под основной эмоциональной теорией понимают теори Экмана, которой соответствует модели Экмана.

Пример: извлечение эмоций из твитов

В работе Саилуназа и Кашифиа[23], посвященной извлечению эмоций и настроения из твитов, в третьей главе подробно рассмотрены все шаги алгоритма извлечения эмоций.

Процесс извлечение эмоций из твитов приминительно к полу и местоположению человека, написавшего пост, состоит из нескольких последовательных шагов. Перед использованием твитов для распознования эмоций их следует предобработать. После этого нужна маркировка частями речи для выбора слов, на которых нужно фокусироваться в дальнейшем. Эмоциональный словарь требуется в соответствие с выбором выбором эмоционального класса модели. После распознования эмоциональных униграм, их следует классифицировать соответствующими эмоциональными классами.

Предобработка текстов

Множество твитов содержит некоторое количество шума (лишние и пропущеные символы или буквы, ошибки правописания). В ходе предобработки происходит удаление ненужной информации, например URL, смайликов, множественного повторения знаков, символа # в хэштегах. Потом данные проверяются на избыточность. В конце получается фильтрованные данные без смайлков, хэштегов, ненужных повторений символов и неразборчивых слов.

POS маркировка

Происходит маркировка каждого слова частью речи, к которой оно относится. Было использовано 36 частей речи: координирующий союз, количественное числительное, опеределяющее слово, there, указывающее на существование чего-либо (конструкция there + to be), иностранное слово, предлог или подчиняющий союз, прилагательное, прилагательное в сравнительной степени, прилагательное в превосходной степени, маркер элемента списка, модальный глагол, существвительное - в единственном числе или неисчисляемое, существительное - во множественном числе, имя собственное - в единственном числе, имя собственное - во множественном числе, предопределитель (слово, иногда использующееся перед определяющим словом для передачи дополнительной информации о существительном в словосочетании, например слово all в all these children), притяжательное окончание (например 's в the class's hours), личное местоимение, притяжательное метоимение, наречие, наречие в сравнительной степени, наречие в превосходной степени, частица, условное обозначение, частица to, междометие, глагол - в базовой форме, глагол - прошедшее время, глагол - герундий или причастие настоящего времени, глагол - причастие прошедшего времени, глагол - настоящее время не 3 лица единственного числа, глагол - настоящее время 3 лицо единственное число, определяющее слово, начинающееся с wh, местоимение, начинающееся с wh, притяжательное местоимение, начинающееся с wh, наречие, начинающееся с wh и другое. Слова твита маркируются, и каждое слово хранится в одном из 37 классов.

Эмоциональный словарь

Существующие системы распознавания эмоций используют различные эмоциональные модели соответсвенно их требованиям. Наиболее используемые: Экмана (Ekman), Джонсона-Лайрда и Оатли (Johnson-laird and Oatley), Циркумплекс (circumplex). Главным недостатком этих моделей является их фокусировка только на нескольких базовых эмоциях. Самая широко используемая модель - Циркумплекс - работает с 28 эмоциями. Существует также модель, называемая "Колесо эмоций Плутчика", она распознает 32 эмоции.

Интересно заметить, что существуют твиты, не выражающие каких-то конкретных эмоций; они лишь излагают факты или задают вопросы. Некоторые твиты представляют собой насмешки, запросы, советы, предложения или сарказм. Некоторые написаны на нескольких языках, а другие и вовсе не несут никакого смысла, являся лишь набором случайных слов. Такие твиты классифицируются как Другие.

Эмоциональный словарь был построен на базе перечисленных 32 эмоций. Синонимы для каждого эмоционального слова были подобраны как из обычных онлайн словарей английского, так и из словарей основанных именно на твитах. Также были добавлены распростаненные акронимы, найденные в различных источниках. После всех этих действий словарь содержит более 20 синонимов для каждой эмоции.

Выбор униграм и аннотация данных

После построения эмоционального словаря данные аннотируются эмоциями. Для выбора эмоциональных униграм все ненужные части речи удаляются из множества (например, артикли, предлоги и т.п.) и концетрирутся на оставшихся словах для аннотирования каждого твита верной эмоцией. Используются существительные, прилагательные и наречия. Если в твитах встречается несколько эмоций, то рассматривается основная эмоция и твит аннотируется в соответствии с ней. Модель, используемая в данной работе, не применялась ранее, поэтому не существовало автоматических систем для аннотации. Следовательно, аннотация данных была произведена вручную.

Эмоциональная классификация

Последним шагом распознования эмоций была классификация, использующая эмоциональный словарь. Обычно для эмоциональной классификации используются метод ближайших соседей, наивный байесовский классификатор и дерево решений. В большинстве случаев наивный байесовский классификатор давал наиболее точные результаты, и именно поэтому он был использован в данной работе.

\begin{aligned} p(C_k|x_1,...x_n) = \frac{p(C_k)}{p(x)}\prod_{i=1}^{n}p(x_i|C_k) \end{aligned}

\begin{aligned} L = \arg\max_{k\in\{1,...,K\}}p(C_k)\prod_{i=1}^{n}p(x_i|C_k) \end{aligned}

Формулы выще представляют наивный байесовский классификатор. Где $C_k$ — эмоциональный класс и $k$ изменяется соответсвенно от 1 до 32, $x_i$ — униграма, используемая для определения эмоций. При этом 70% аннотированных данных используется как обучающая подвыборка, остальные 30% как проверочная.

Результаты

Эмоциональная сеть[24]

Каждый шаг метода был выполнен на языке R, с использованием различных пакетов для сетей, графов, матриц, обработки естественного языка, слов, частей речи и синонимов. Несколько матриц и кадров данных были использованы для промежуточных вычислений.

Данные для работы были собраны 26 октября 2015 года, из них почти 30% были удалены, так как являлись рекламными объявлениями. После сбора дополнительной информации каждый экземпляр содержал в себе идентификатор пользователя, текст твита, пол пользователя, местоположение пользователя (страна) и время в формате чч:мм.

Твиты были классифицированы на 32 эмоциональных класса с их соответствующими идентификатором, полом, местоположением и временем. После этого была произведена классификация пользователей согласно их параметрам и их анализ на основе их эмоций.

На рисунке показана сеть эмоций для всех 32 видов. Сеть может быть поделена на кластеры вершин, основанных на различных эмоциях, и вершин, представляющих пользователей. Люди, демонстрирующие одинаковые эмоции, соединяются друг с другом и образут один кластер.

Некоторые эмоции были использованы чаще других, и в этом причина разного размера кластеров. На рисунке ясно видно преобладание твитов, представляющих восхищение, удовольствие, оптимизм, другие. Несколько других заметных эмоций: грусть, отвращение, любовь, неудовольствие. Остальные эмоции не очень заметны, хотя и встречаются.

Если разделить всех пользователей по половой пренадлежности, то можно заметить, что женщины преобладают среди пользователей, использующих такие положительные эмоции как ожидание, удовольствие, любовь, задумчивость, безмятежность, также они преобладают в среде использующих такие негативные эмоции как скука, отвращение, неудовльствие, страх, горе, разочарование, раскаяние и покорность. С другой стророны мужчины чаще женщин используют такие положительные эмоции как принятие, изумление, трепет и доверие, и негативные: агрессия, гнев, возбуждение, грусть и настороженность. Остальные эмоции используются мужчинами и женщинами одинаково часто. Следует также заметить, что тревогу выражали только женщины.

Если разделить твиты по времени написания на утренние и дневные (до 12:00 и после), то видна следующая статистика: отвращение, ужас и любовь больше использовались днем; принятие, восхищение, изумление, ожидание, восторг, интерес, радость, оптимизм, печаль, безмятежность, агрессия, досада, скука, презрение, неудовольствие, раскаяние, грусть и покорность чаще использовались утром; тревога, возбуждение, доверие и настороженность выражались людьми только по утрам.

Смотри также

Примечания

  1. P Ekman. An Argument for Basic Emotions. Cognition and emotion, 6(3-4):169–200, 1992.
  2. Phillip Shaver, Judith Schwartz, Donald Kirson, and Cary O’connor. Emotion Knowledge: Further Exploration of a Prototype Approach. Journal of Personality and Social Psychology, 52(6):1061-1086, 1987.
  3. Keith Oatley, and Philip N. Johnson-Laird. Towards a Cognitive Theory of Emotions. Cognition and Emotion, 1(1):29-50, 1987.
  4. Robert Plutchik. Emotion: A Psychoevolutionary Synthesis. Harper and Row, 1980.
  5. James A. Russell. A Circumplex Model of Affect. Journal of Personality and Social Psychology, 39(6):1161-1178, 1980.
  6. Gerald L. Clore Andrew Ortony and Allan Collins. The Cognitive Structure of Emotions. Cambridge University Press, 1988.
  7. Hugo Lovheim. A New Three-Dimensional Model for Emotions and Monoamine Neurotransmitters. Medical Hypotheses, 78(2):341-348, 2012.
  8. Ali Yadollahi, Ameneh Gholipour Shahraki, and Osmar R. Zaiane. Current State of Text Sentiment Analysis from Opinion to Emotion Mining. ACM Computing Surveys (CSUR), 50(2):25:1-25:33, 2017.
  9. Haji Binali, Chen Wu, and Vidyasagar Potdar. Computational Approaches for Emotion Detection in Text. Digital Ecosystems and Technologies (DEST), 2010 4th IEEE International Conference on, pages 172-177, 2010.
  10. Lea Canales, and Patricio Martinez-Barco. Emotion Detection from Text: A Survey. Processing in the 5th Information Systems Research Working Days (JISIC 2014), pages 37-43, 2014.
  11. Chetan R. Chopade. Text Based Emotion Recognition: A Survey. International Journal of Science and Research (IJSR), 4(6):409-414, 2015.
  12. Vaibhav Tripathi, Aditya Joshi, and Pushpak Bhattacharyya. Emotion Analysis from Text: A Survey. http://www.cfilt.iitb.ac.in/resources/surveys/emotion-analysissurvey-2016-vaibhav.pdf.
  13. Edward Chao-Chun Kao, Chun-Chieh Liu, Ting-Hao Yang, Chang-Tai Hsieh, and Von-Wun Soo. Towards Text-Based Emotion Detection a Survey and Possible Improvements. Information Management and Engineering, 2009. ICIME’09. International Conference on, IEEE, pages 70-74, 2009.
  14. Shiv Naresh Shivhare, and Saritha Khethawat. Emotion Detection from Text. 2012.
  15. Umang Gupta, Ankush Chatterjee, Radhakrishnan Srikanth, and Puneet Agrawal. A Sentiment-and-Semantics-Based Approach for Emotion Detection in Textual Conversations. Neu-IR: Workshop on Neural Information Retrieval, SIGIR 2017, ACM, arXiv preprint arXiv:1707.06996., 2017.
  16. Bart Desmet, and VeRonique Hoste. Emotion Detection in Suicide Notes. Expert Systems with Applications, 40(16):6351-6358, 2013.
  17. Luca Dini, and Andre Bittar. Emotion Analysis on Twitter: The Hidden Challenge. Language Resources and Evaluation Conference (LREC), 2016.
  18. Saif M. Mohammad, and Felipe Bravo-Marquez. Emotion Intensities in Tweets. Proceedings of the Sixth Joint Conference on Lexical and Computational Semantics (*Sem), 2017.
  19. Anja Summa, Bernd Resch, Geoinformatics-Z. GIS, and Michael Strube. Microblog Emotion Classification by Computing Similarity in Text, Time, and Space. Proceedings of the Workshop on Computational Modeling of People’s Opinions, Personality, and Emotions in Social Media, pages 153-162, 2016.
  20. Anirban Sen, Manjira Sinha, Sandya Mannarswamy, and Shourya Roy. Multi-Task Representation Learning for Enhanced Emotion Categorization in Short Text. PacificAsia Conference on Knowledge Discovery and Data Mining, Springer, Cham, pages 324-336, 2017.
  21. Vinay Kumar Jain, Shishir Kumar, and Steven Lawrence Fernandes. Extraction of Emotions from Multilingual Text using Intelligent Text Processing and Computational Linguistics. Journal of Computational Science, 2017.
  22. Xin Kang, Fuji Ren, and Yunong Wu. Exploring Latent Semantic Information for Textual Emotion Recognition in Blog Articles. IEEE/CAA Journal of Automatica Sinica, 2017.
  23. Emotion and Sentiment Analysis from Twitter Text Sailunaz, Kashfia, 2018, https://prism.ucalgary.ca/bitstream/handle/1880/107533/ucalgary_2018_sailunaz_kashfia.pdf;jsessionid=92537BF3ACE14E77D0D02CB537FA8B74?sequence=1
  24. https://prism.ucalgary.ca/bitstream/handle/1880/107533/ucalgary_2018_sailunaz_kashfia.pdf;jsessionid=92537BF3ACE14E77D0D02CB537FA8B74?sequence=1

Источники информации