Анализ социальных сетей — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
м (rollbackEdits.php mass rollback)
 
(не показано 46 промежуточных версий 4 участников)
Строка 1: Строка 1:
 
Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей.  
 
Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей.  
 
Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.
 
Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.
 +
==Задачи анализа социальных сетей==
 +
Анализ социальных сетей представляет из себя ряд отдельных задач, выполняющихся поэтапно.
 +
* Задача сбора данных.
 +
**Анкетных данных.
 +
**Адресов.
 +
**Интересов.
 +
* Задача анализа достоверности данных.
 +
* Задача индексации данных.
 +
* Задача классификации данных.
 +
* Задача предсказания поведения пользователей.
  
Информация в социальных сетях имеет некоторые отличия в силу своей специфики от просто информации, полученной из баз данных, с которой обычно работают системы анализа и машинного обучения.
+
==Общая информация==
 +
Информация в социальных сетях отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]], своей спецификой.
 
Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.
 
Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.
 
В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.
 
В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.
Таким образом вопрос достоверности данных, получаемых для дальнейшего анализа становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.
+
Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа, становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.
 
Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.
 
Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.
Люди иногда являются пользователями сразу нескольких соцсетей. Соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более информацию о нем.
+
Люди иногда являются пользователями сразу нескольких соцсетей, соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.
 
Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.
 
Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.
 
Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.
 
Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.
 
 
 
 
 +
==Сбор данных==
 
Первым этапом работы с соцсетями является собственно сбор данных.
 
Первым этапом работы с соцсетями является собственно сбор данных.
 
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.
 
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.
 
Прежде всего это  личные данные:  
 
Прежде всего это  личные данные:  
-фамилия, имя, отчество;
+
* Фамилия, имя, отчество.
- контактные данные;
+
* Контактные данные.
- анкетные данные.
+
* Анкетные данные.
Следует отметить, что для хозяев соцсетей есть дополнительные возможности для получения информации о пользователе такие как:
+
Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:
- IP-адреса;
+
* IP-адреса.
- геолокация;
+
* Геолокация.
- характеристика устройства и т.д., недоступные для внешних аналитиков.
+
* Характеристика устройства.
 
Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан.  
 
Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан.  
 
Анализируются:
 
Анализируются:
- группы, в которых пользователь участвует,
+
* Группы, в которых пользователь участвует.
- их тематика;
+
* Их тематика.
- активность пользователя в них, его сообщения;
+
* Активность пользователя в них, его сообщения.
- комментарии к чужим сообщениям.
+
* Комментарии к чужим сообщениям.
 
Немаловажное значение имеют данные с собственных страниц пользователя:
 
Немаловажное значение имеют данные с собственных страниц пользователя:
- подписчики этих страниц;
+
* Подписчики этих страниц.
- тематика страницы;
+
* Тематика страницы.
- размещаемый на них контент;
+
* Размещаемый на них контент.
- фотографии и собственные видео;
+
* Фотографии и собственные видеозаписи.
- комментарии пользователя и подписчиков.
+
* Комментарии пользователя и подписчиков.
 
Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.
 
Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.
  
 
+
==Обработка данных==
После парсинга идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.
+
После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.
 
Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.
 
Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.
 
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.
 
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.
 
Это такие как:
 
Это такие как:
- IP {{---}} адреса пользователя;
+
* IP-адреса пользователя.
- геолокация и временной пояс пользователя;
+
* Геолокация и временной пояс пользователя.
- время оставляемых им сообщений;
+
* Время оставляемых им сообщений.
  
Могут быть использованы существующие базы персональных данных реальных людей:
+
Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.
- базы паспортов;
+
В свете появления новых технологий [[Сиамская нейронная сеть |поиска людей по их изображениям]], перспективным является анализ достоверности фотографии, представленной пользователем.
- фотографий;
+
Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.
- прописок;
 
- автовладельцев;
 
- налоговых;
 
- имущественных.
 
В свете появления новых технологий поиска людей по их изображениям, перспективным является анализ достоверности фотографии, представленной пользователем.
 
Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видео аккаунта. Также осуществляется поиск по фото- и видео, выложенных в аккаунтах друзей. Поиск точной копии фото в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.
 
 
 
 
Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.
 
Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.
 
Достоверность этой информации тем выше, чем дольше существует активность в этой группе.  
 
Достоверность этой информации тем выше, чем дольше существует активность в этой группе.  
 
Во внимание берутся:
 
Во внимание берутся:
- посты;
+
* посты;
- комментарии;  
+
* комментарии;  
- лайки;  
+
* лайки;  
- дизлайки;  
+
* дизлайки;  
- анализируются ссылки на группу в тематических контентах;  
+
* анализируются ссылки на группу в тематических контентах;  
- интересы других пользователей этих групп.
+
* интересы других пользователей этих групп;
 
Таким образом формируется список интересов анализируемого пользователя.
 
Таким образом формируется список интересов анализируемого пользователя.
 
Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.
 
Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.
Данным получившим подтверждение из независимых источников присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.
+
Данным, получившим подтверждение из независимых источников, присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.
 
Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.   Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.
 
Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.   Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.
  
 
Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.
 
Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.
 
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим "пещерным" маркетингом.  
 
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим "пещерным" маркетингом.  
Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу и т.д. Это может несколько увеличить эффективность взаимодействия с пользователем.
+
Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу. Это может несколько увеличить эффективность взаимодействия с пользователем.
 +
<br>Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности.
 +
Фундаментальную теорию такого анализа можно почерпнуть из смежных наук, таких как классическая и современная психология.
 +
На житейском уровне мы привыкли разделять характеры людей по дихотомии:
 +
* Рефлексивные {{---}} это меланхолики и флегматики.
 +
* Активные {{---}} это холерики и сангвиники.
 +
 
 +
==Большая пятерка==
 +
 
 +
Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition {{---}} предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт.
 +
В ней используют показатели:
 +
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F Экстраверсии (противоположность {{---}} интроверсия)].
 +
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность).
 +
* Добросовестности - сознательности (противоположность - несознательность).
 +
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность).
 +
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).
 +
 
 +
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, [https://www.researchgate.net/profile/William_Ickes/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables/links/00b7d5201204a3465c000000/Big-Five-predictors-of-behavior-and-perceptions-in-initial-dyadic-interactions-Personality-similarity-helps-extraverts-and-introverts-but-hurts-disagreeables.pdf Cuperman and Ickes (2009)] изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру.
 +
<br>Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно исходя из нужд конкретных задач.
 +
 
 +
==Связь показателей Большой пятерки с характеристиками из социальных сетей==
 +
 
 +
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:
 +
 
 +
'''Высокая экстраверсия'''<br>
 +
Характеристики:
 +
*Цветовые предпочтения фотографий (горячие оттенки).
 +
*Большое количество групп, в которые человек вступает.
 +
*Большое количество фотографий, размещенное на странице.
 +
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».
 +
*Большое количество друзей.
 +
*Большое количество записей на стене сделанных пользователем,
 +
*Большое количество записей на стене сделанных другими пользователями.
 +
*Большое количество портретов.
 +
*Большое количество фото пользователя с другими людьми.
 +
*Большое количество аватаров.
 +
*Большое количество лайков на фото.
 +
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).
 +
*Использование в качестве основного канала переписки мессенджера ФБ.
 +
*Большое количество обновления статуса.
 +
*Много оставленных комментариев у других пользователей.
 +
*Большое количество других людей на фотографиях.
 +
*Превалирование среди друзей лиц противоположного пола.
 +
*Большое количество понравившихся страниц на ФБ.
 +
*Указанные контакты (тел, почта, адрес).
 +
*Большое количество юмористического контента и видео.
 +
*Большое количество отмеченных мест и геолокаций.
 +
*Большое количество поздравлений с праздниками.
 +
*Портрет/Селфи – превалирует селфи.
 +
*Большое количество фотографий вне дома.
 +
*Активная лицевая экспрессия на фото, особенно на аватаре.
 +
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.
 +
*Большое количествр подарков в ВК.
 +
 
 +
Лингвистика постов:
 +
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее.
 +
* Положительные конструкции предложений, без частицы «не».
 +
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен).
 +
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее».
 +
* Положительные формулировки и номинализации (решение, задача, умение).
 +
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить).
 +
 
 +
 
 +
'''Низкая экстраверсия'''<br>
 +
Характеристики:
 +
*Абстрактные аватары.
 +
*Игра в онлайн игры в соцсети.
 +
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).
 +
*Малое количество групп, в которые пользователь вступил.
 +
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).
 +
*Закрытый профиль и/или крайне мало заполненный профиль.
 +
*Малое количество друзей и явные признаки фэйковости аккаунта.
 +
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).
 +
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.
 +
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.
 +
*Редкое использование соцсети (малое количество логинов).
 +
*Отсутствие комментариев на страницах друзей и интересных групп.
 +
*Редкая переписка с использованием мессенджеров соцсетей.
 +
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.
 +
*Друзья преимущественно своего пола.
 +
*Неуказанные контакты и невозможность отправить сообщение на страницу. Превалирующее количество технического контента в аккаунте.
 +
*Пользователь не поздравляет никого с Днем Рождения в соцсети и сам мало получает таких поздравлений.
 +
*Такое же относительно праздников.
 +
*Неотмеченные геолокации и отсутствие чек-инов.
 +
*Большое количество фотографий в помещении, отсутствие людей на фото.
 +
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.
 +
*Фотографии исключительно постановочные и отредактированные.
 +
*Нет экспрессивных фотографий.
 +
 
 +
В лингвистике часто используются:
 +
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан).
 +
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно».
 +
* Проблемные формулировки и номинализации (проблема, сложность, затруднение).
 +
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать).
 +
* Частые ссылки на негативный опыт и прошлое время.
 +
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.
 +
 
 +
 
 +
 
 +
'''Высокая доброжелательность''' <br>
 +
Характеристики:
 +
*Большое число друзей.
 +
*На фотографиях большое количество менее статусных людей, дети, животные, растения.
 +
*Присутствие темы благотворительности и помощи.
 +
*Преимущественно пастельные тона на фотографиях.
 +
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.
 +
*Отсутствие обсуждения политики и политического контента и лайкание его.
 +
*Раскрытая информация о семье и родственниках.
 +
 +
Особенности лингвистики постов:
 +
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»).
 +
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»).
 +
* Подчеркнутое использование уменьшительно-ласкательных форм.
 +
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать.
 +
* Избегание использования повелительного наклонения и требований.
 +
 
 +
 
 +
 
 +
'''Низкая доброжелательность''' <br>
 +
Характеристики:
 +
*Небольшое число друзей.
 +
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие.
 +
*Большое количество политического контента.
 +
*Горячие тона фотографий.
 +
*Фотографии связанные со спортом и конкуренцией.
 +
*Большое количество сведений, связанных с употреблением крепкого алкоголя.
 +
*Большое количество мата и бранных слов.
 +
 
 +
Особенности лингвистики постов:
 +
* Ссылки на себя как на источник размышлений и принятия решений.
 +
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»).
 +
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»).
 +
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим.
 +
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить.
 +
* Не стесняется использовать повелительное наклонение и прямые требования.
 +
 
 +
 
 +
'''Высокая добросовестность''' <br>
 +
Характеристики:
 +
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.
 +
*Минимальное время, проведенное в соцсети.
 +
*Указанные контакты и сведения о себе.
 +
*Полностью указанный образовательный и трудовой путь.
 +
*Редкая смена статуса соцсети либо его стабильное отсутствие.
 +
*Гарантированное отсутствие сведений об онлайн-играх.
 +
*Большое количество геотегов и чек-иннов.
 +
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.
 +
*Большое количество фотографий из семейного контекста (с семьей, с детьми).
 +
 
 +
Особенности лингвистики личного постинга:
 +
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан).
 +
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»).
 +
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и так далее) и последовательности (в начале, потом, в конце).
 +
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то).
 +
 
 +
 
 +
 
 +
'''Низкая добросовестность'''<br>
 +
Характеристики:
 +
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,
 +
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).
 +
*Полностью скрытый профиль и отсутствие личных сведений пользователя.
 +
*Большое количество агрессивного и юмористического контента.
 +
*Большое количество проведенного времени в онлайн играх.
 +
*Преимущественно короткие сообщение в ленте.
 +
*Большое количество мата и бранных слов.
 +
 +
 
 +
 
 +
'''Высокий нейротизм''' <br>
 +
Характеристики:
 +
*Высокая частота использования стены для коммуникаций.
 +
*Большое количество портретов,
 +
*Большое количество фотографий пользователя с другими людьми.
 +
*Фотографии преимущественно черно-белой гаммы.
 +
*Частая смена аватаров.
 +
*Высокое число лайков на портрет.
 +
*Большое число друзей.
 +
*Большое количество мата и бранных слов.
 +
*Частая смена статуса.
 +
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.
 +
 
 +
 
 +
 
 +
'''Низкий нейротизм''' <br>
 +
Характеристики:
 +
*Минимальное время, проведенное в соцсетях.
 +
*Небольшое количество логинов.
 +
*Полное отсутствие в той или иной соцсети.
 +
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.
 +
*Баланс между статусными и нестатусными фотографиями.
 +
*Заполненность, но немногословность профиля.
 +
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.
 +
*Минимальное время, проведенное в соцсети.
 +
*Указанные контакты и сведения о себе.
 +
*Полностью указанный образовательный и трудовой путь.
 +
*Редкая смена статуса соцсети либо его стабильное отсутствие.
 +
*Гарантированное отсутствие сведений об онлайн-играх.
 +
*Большое количество геотегов и чек-иннов.
 +
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.
 +
*Большое количество фотографий из семейного контекста (с семьей, с детьми).
 +
 
 +
 
 +
'''Высокая открытость опыту'''<br>
 +
Характеристики:
 +
*Большое число друзей.
 +
*Большое количество записей на стене сделанных пользователем.
 +
*Большое количество фото пользователя с другими людьми.
 +
*Использование широкого спектра функций социальных сетей.
 +
*Частая игра в онлайн игры.
 +
*Высокое разнообразие контекстов на фотографиях и в постах.
 +
*Большое количество групп и интересов.
 +
*Большое количество отправленных комментариев.
 +
 
 +
 
 +
 
 +
'''Низкая открытость опыту'''<br>
 +
Характеристики: 
 +
*Закрытый профиль.
 +
*Малое количество друзей.
 +
*Эпизодическое ведение страницы.
 +
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.
 +
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе
 +
 
 +
==Музыка и характер<ref>Филатов, А. В. Заметки профайлера / А. В. Филатов. -Москва: Издательские решения, 2019. -522.</ref>==
 +
 
 +
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя.
 +
<br>Например, считается: <br>'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения.
 +
<br>У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.
 +
<br>'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности.
 +
<br>'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.
 +
<br>'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение.
 +
<br>'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона.
 +
<br> Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.
 +
 
 +
==Психотипы==
 +
 
 +
Психотипология оперирует конкретными психотипами, такими как:
 +
* Истероидный психотип.
 +
* Эпилептоидный психотип.
 +
* Паранойяльный  психотип.
 +
* Эмотивный  психотип.
 +
* Шизоидный психотип.
 +
* Гипертимный психотип.
 +
* Депрессивно-печальный психотип.
 +
* Тревожно-мнительный психотип.
 +
 
 +
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==
  
Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности.
+
Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены.  
Фундаментальную теорию такого анализа можно почерпнуть из смежных наук таких как классическая и современная психология.
+
Задача эта вполне решаема с помощью современных методов машинного обучения. [[Обработка естественного языка | Компьютерный анализ текстов]], поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.
На житейском уровне мы привыкли разделять характеры людей по дихотомии:
+
Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того, какой области это касается, будь то коммерческие предложения, политология, социальные опросы или социальные исследования.
- рефлексивные - это меланхолики и флегматики;
 
- активные {{---}} это холерики и сангвиники .
 
Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от {{lang-en|disposition}} — предрасположенность) модель [[личность|личности]] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт (диспозиций):
 
* [[экстраверсия|экстраверсию]],
 
* [[доброжелательность]] (дружелюбие, способность прийти к согласию),
 
* [[добросовестность]] (сознательность),
 
* [[нейротизм]] (противоположный полюс - эмоциональная стабильность)
 
* [[открытость опыту]] (интеллект).
 
Психотипология оперирует конкретными психотипами. Такие, как
 
- истероидный психотип;
 
- эпилептоидный психотип;
 
- паранойяльный  психотип;
 
- эмотивный  психотип;
 
- шизоидный психотип;
 
- гипертимный психотип;
 
-депрессивно - печальный психотип;
 
- тревожно- мнительный психотип.
 
Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи соц. сетей с достаточной степенью достоверности могут быть к ним причислены.  
 
Задача эта вполне решаема с помощью современных методов машинного обучения. Компьютерный анализ текстов, поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.
 
Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того какой области это касается будь-то коммерческие предложения, политология, социальные опросы или социальные исследования.
 
  
Эти технологии вполне современны и активно используются в данный момент.
+
Эти технологии вполне современны и активно используются в данный момент <ref>[http://farseev.azurewebsites.net/papers/ACMMM18Demo.pdf Social Multimedia Influencer Discovery Marketplace]</ref> <ref>[http://213.226.126.9/fc/2015/fc27/fc2715-2.pdf Прогнозирование кредитоспособности клиентов на основе методов машинного обучения]</ref> <ref>[https://target.my.com/pro/technologies/psychotypes Психотипы для таргетирования рекламы]</ref>.
Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: нейролингвистического программирования может дать более существенные и эффективные результаты.
+
Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5 нейролингвистического программирования] может дать более существенные и эффективные результаты.
 
Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа.  
 
Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа.  
 
Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.
 
Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.
 
Особенностями вышеперечисленных методик является:
 
Особенностями вышеперечисленных методик является:
-  заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей;
+
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей.
- автоматический сбор данных с целью назначения пользователю тех или иных характеристик;
+
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик.
- прогнозирование и оптимизация реакции пользователя на наш с ним контакт.
+
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.
 
 
 
Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.
 
Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.
В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: -покупатели, купившие наш уникальный товар,  
+
В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение.
-избиратели, поддержавшие наше общественное движение, и т.д.
+
Методом машинного обучения возможен анализ активности, характерной для этих людей в социальных сетях, и выявление кластеров параметров, характерных этой совокупности людей.
Методом машинного обучения возможен анализ активности характерной для этих людей в социальных сетях и выявление кластеров параметров, характерных этой совокупности людей.
+
При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером, нуждаются в проверке и в подтверждении.
При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, так, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером нуждаются в проверке и в подтверждении.
+
 
+
==Примеры использования данных социальных сетей==
 +
 
 +
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:
 +
*Проявление заинтересованности в предлагаемой продукции.
 +
*Соответствующая платежеспособность.
 +
*Положительное реагирование на рекламные предложения.
 +
 
 +
==Оценка надёжности и платёжеспособности кандидатов на получение кредитов==
 +
 
 +
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.
 +
 
 +
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (наличие телефонного номера), другие {{---}} к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).
 +
 
 +
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».
 +
 
 +
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.
 +
 
 +
==См. Также==
 +
* [[Кластеризация]]
 +
* [[Уменьшение размерности]]
 +
* [[Рекомендательные системы]]
 +
== Примечания ==
 +
<references/>
  
 +
==Источники Информации==
 +
*[https://somin.ai/ somin.ai]
 +
*Филатов, А. В. Заметки профайлера / А. В. Филатов. -Москва: Издательские решения, 2019. -522.
 +
*[https://www.researchgate.net/profile/William_Ickes/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables/links/00b7d5201204a3465c000000/Big-Five-predictors-of-behavior-and-perceptions-in-initial-dyadic-interactions-Personality-similarity-helps-extraverts-and-introverts-but-hurts-disagreeables.pdf Cuperman R., Ickes W. Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts “disagreeables” //Journal of personality and social psychology. – 2009. – Т. 97. – №. 4. – С. 667.]
 
[[Категория: Машинное обучение]]
 
[[Категория: Машинное обучение]]
 +
[[Категория: Анализ социальных сетей]]

Текущая версия на 19:38, 4 сентября 2022

Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.

Задачи анализа социальных сетей

Анализ социальных сетей представляет из себя ряд отдельных задач, выполняющихся поэтапно.

  • Задача сбора данных.
    • Анкетных данных.
    • Адресов.
    • Интересов.
  • Задача анализа достоверности данных.
  • Задача индексации данных.
  • Задача классификации данных.
  • Задача предсказания поведения пользователей.

Общая информация

Информация в социальных сетях отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и машинного обучения, своей спецификой. Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми. В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека. Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа, становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности. Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения. Люди иногда являются пользователями сразу нескольких соцсетей, соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем. Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем. Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.

Сбор данных

Первым этапом работы с соцсетями является собственно сбор данных. Первое — парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями. Прежде всего это личные данные:

  • Фамилия, имя, отчество.
  • Контактные данные.
  • Анкетные данные.

Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:

  • IP-адреса.
  • Геолокация.
  • Характеристика устройства.

Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. Анализируются:

  • Группы, в которых пользователь участвует.
  • Их тематика.
  • Активность пользователя в них, его сообщения.
  • Комментарии к чужим сообщениям.

Немаловажное значение имеют данные с собственных страниц пользователя:

  • Подписчики этих страниц.
  • Тематика страницы.
  • Размещаемый на них контент.
  • Фотографии и собственные видеозаписи.
  • Комментарии пользователя и подписчиков.

Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.

Обработка данных

После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их в вид, удобный для дальнейшей обработки и анализа. Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека. Верификация этих данных происходит путем сравнения анкетных данных, оставленных этим пользователем, с информацией из разных независимых источников. Это такие как:

  • IP-адреса пользователя.
  • Геолокация и временной пояс пользователя.
  • Время оставляемых им сообщений.

Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных. В свете появления новых технологий поиска людей по их изображениям, перспективным является анализ достоверности фотографии, представленной пользователем. Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.

Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики. Достоверность этой информации тем выше, чем дольше существует активность в этой группе. Во внимание берутся:

  • посты;
  • комментарии;
  • лайки;
  • дизлайки;
  • анализируются ссылки на группу в тематических контентах;
  • интересы других пользователей этих групп;

Таким образом формируется список интересов анализируемого пользователя. Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой. Данным, получившим подтверждение из независимых источников, присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось. Данные, замеченные в фальсификации, получают негативный коэффициент достоверности. Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.

Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений. Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим "пещерным" маркетингом. Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу. Это может несколько увеличить эффективность взаимодействия с пользователем.
Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. Фундаментальную теорию такого анализа можно почерпнуть из смежных наук, таких как классическая и современная психология. На житейском уровне мы привыкли разделять характеры людей по дихотомии:

  • Рефлексивные — это меланхолики и флегматики.
  • Активные — это холерики и сангвиники.

Большая пятерка

Академическая психология использует Большую пятёрку — диспозициональная (от англ. disposition — предрасположенность) модель личности человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. В ней используют показатели:

  • Экстраверсии (противоположность — интроверсия).
  • Доброжелательности - дружелюбия, способности прийти к согласию (противоположность - конфликтность).
  • Добросовестности - сознательности (противоположность - несознательность).
  • Нейротизма (противоположный полюс — эмоциональная стабильность).
  • Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).

Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, Cuperman and Ickes (2009) изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру.
Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно исходя из нужд конкретных задач.

Связь показателей Большой пятерки с характеристиками из социальных сетей

Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:

Высокая экстраверсия
Характеристики:

  • Цветовые предпочтения фотографий (горячие оттенки).
  • Большое количество групп, в которые человек вступает.
  • Большое количество фотографий, размещенное на странице.
  • Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».
  • Большое количество друзей.
  • Большое количество записей на стене сделанных пользователем,
  • Большое количество записей на стене сделанных другими пользователями.
  • Большое количество портретов.
  • Большое количество фото пользователя с другими людьми.
  • Большое количество аватаров.
  • Большое количество лайков на фото.
  • Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).
  • Использование в качестве основного канала переписки мессенджера ФБ.
  • Большое количество обновления статуса.
  • Много оставленных комментариев у других пользователей.
  • Большое количество других людей на фотографиях.
  • Превалирование среди друзей лиц противоположного пола.
  • Большое количество понравившихся страниц на ФБ.
  • Указанные контакты (тел, почта, адрес).
  • Большое количество юмористического контента и видео.
  • Большое количество отмеченных мест и геолокаций.
  • Большое количество поздравлений с праздниками.
  • Портрет/Селфи – превалирует селфи.
  • Большое количество фотографий вне дома.
  • Активная лицевая экспрессия на фото, особенно на аватаре.
  • Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.
  • Большое количествр подарков в ВК.

Лингвистика постов:

  • Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее.
  • Положительные конструкции предложений, без частицы «не».
  • Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен).
  • Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее».
  • Положительные формулировки и номинализации (решение, задача, умение).
  • Глаголы с положительной окраской (получить, решить, создать, добавить, изучить).


Низкая экстраверсия
Характеристики:

  • Абстрактные аватары.
  • Игра в онлайн игры в соцсети.
  • Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).
  • Малое количество групп, в которые пользователь вступил.
  • Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).
  • Закрытый профиль и/или крайне мало заполненный профиль.
  • Малое количество друзей и явные признаки фэйковости аккаунта.
  • Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).
  • Отсутствие записей других пользователей на стене, закрытая к комментариям стена.
  • Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.
  • Редкое использование соцсети (малое количество логинов).
  • Отсутствие комментариев на страницах друзей и интересных групп.
  • Редкая переписка с использованием мессенджеров соцсетей.
  • Долгий ответ на сообщения, отсутствие инициативы в сообщениях.
  • Друзья преимущественно своего пола.
  • Неуказанные контакты и невозможность отправить сообщение на страницу. Превалирующее количество технического контента в аккаунте.
  • Пользователь не поздравляет никого с Днем Рождения в соцсети и сам мало получает таких поздравлений.
  • Такое же относительно праздников.
  • Неотмеченные геолокации и отсутствие чек-инов.
  • Большое количество фотографий в помещении, отсутствие людей на фото.
  • Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.
  • Фотографии исключительно постановочные и отредактированные.
  • Нет экспрессивных фотографий.

В лингвистике часто используются:

  • Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан).
  • Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно».
  • Проблемные формулировки и номинализации (проблема, сложность, затруднение).
  • Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать).
  • Частые ссылки на негативный опыт и прошлое время.
  • Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.


Высокая доброжелательность
Характеристики:

  • Большое число друзей.
  • На фотографиях большое количество менее статусных людей, дети, животные, растения.
  • Присутствие темы благотворительности и помощи.
  • Преимущественно пастельные тона на фотографиях.
  • Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.
  • Отсутствие обсуждения политики и политического контента и лайкание его.
  • Раскрытая информация о семье и родственниках.

Особенности лингвистики постов:

  • Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»).
  • Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»).
  • Подчеркнутое использование уменьшительно-ласкательных форм.
  • Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать.
  • Избегание использования повелительного наклонения и требований.


Низкая доброжелательность
Характеристики:

  • Небольшое число друзей.
  • Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие.
  • Большое количество политического контента.
  • Горячие тона фотографий.
  • Фотографии связанные со спортом и конкуренцией.
  • Большое количество сведений, связанных с употреблением крепкого алкоголя.
  • Большое количество мата и бранных слов.

Особенности лингвистики постов:

  • Ссылки на себя как на источник размышлений и принятия решений.
  • Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»).
  • Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»).
  • Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим.
  • Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить.
  • Не стесняется использовать повелительное наклонение и прямые требования.


Высокая добросовестность
Характеристики:

  • Минимальное количество загруженных фотографий в сеть, число лайков на портрет.
  • Минимальное время, проведенное в соцсети.
  • Указанные контакты и сведения о себе.
  • Полностью указанный образовательный и трудовой путь.
  • Редкая смена статуса соцсети либо его стабильное отсутствие.
  • Гарантированное отсутствие сведений об онлайн-играх.
  • Большое количество геотегов и чек-иннов.
  • Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.
  • Большое количество фотографий из семейного контекста (с семьей, с детьми).

Особенности лингвистики личного постинга:

  • Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан).
  • Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»).
  • Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и так далее) и последовательности (в начале, потом, в конце).
  • Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то).


Низкая добросовестность
Характеристики:

  • Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,
  • Очевидно фэйковая информация в профиле (например – возраст 120 лет).
  • Полностью скрытый профиль и отсутствие личных сведений пользователя.
  • Большое количество агрессивного и юмористического контента.
  • Большое количество проведенного времени в онлайн играх.
  • Преимущественно короткие сообщение в ленте.
  • Большое количество мата и бранных слов.


Высокий нейротизм
Характеристики:

  • Высокая частота использования стены для коммуникаций.
  • Большое количество портретов,
  • Большое количество фотографий пользователя с другими людьми.
  • Фотографии преимущественно черно-белой гаммы.
  • Частая смена аватаров.
  • Высокое число лайков на портрет.
  • Большое число друзей.
  • Большое количество мата и бранных слов.
  • Частая смена статуса.
  • Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.


Низкий нейротизм
Характеристики:

  • Минимальное время, проведенное в соцсетях.
  • Небольшое количество логинов.
  • Полное отсутствие в той или иной соцсети.
  • Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.
  • Баланс между статусными и нестатусными фотографиями.
  • Заполненность, но немногословность профиля.
  • Минимальное количество загруженных фотографий в сеть, число лайков на портрет.
  • Минимальное время, проведенное в соцсети.
  • Указанные контакты и сведения о себе.
  • Полностью указанный образовательный и трудовой путь.
  • Редкая смена статуса соцсети либо его стабильное отсутствие.
  • Гарантированное отсутствие сведений об онлайн-играх.
  • Большое количество геотегов и чек-иннов.
  • Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.
  • Большое количество фотографий из семейного контекста (с семьей, с детьми).


Высокая открытость опыту
Характеристики:

  • Большое число друзей.
  • Большое количество записей на стене сделанных пользователем.
  • Большое количество фото пользователя с другими людьми.
  • Использование широкого спектра функций социальных сетей.
  • Частая игра в онлайн игры.
  • Высокое разнообразие контекстов на фотографиях и в постах.
  • Большое количество групп и интересов.
  • Большое количество отправленных комментариев.


Низкая открытость опыту
Характеристики:

  • Закрытый профиль.
  • Малое количество друзей.
  • Эпизодическое ведение страницы.
  • Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.
  • Отсутствие фотографий, лайков и дополнительных сведений о пользователе

Музыка и характер[1]

Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя.
Например, считается:
экстраверты в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения.
У интровертов это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.
«Доброжелательные» люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности.
«Добросовестность» незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.
Нейротизм, или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение.
Открытость опыту значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона.
Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.

Психотипы

Психотипология оперирует конкретными психотипами, такими как:

  • Истероидный психотип.
  • Эпилептоидный психотип.
  • Паранойяльный психотип.
  • Эмотивный психотип.
  • Шизоидный психотип.
  • Гипертимный психотип.
  • Депрессивно-печальный психотип.
  • Тревожно-мнительный психотип.

Предсказание поведения пользователя и оптимизация взаимодействия с ним

Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. Задача эта вполне решаема с помощью современных методов машинного обучения. Компьютерный анализ текстов, поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации. Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того, какой области это касается, будь то коммерческие предложения, политология, социальные опросы или социальные исследования.

Эти технологии вполне современны и активно используются в данный момент [2] [3] [4]. Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: нейролингвистического программирования может дать более существенные и эффективные результаты. Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию. Особенностями вышеперечисленных методик является:

  • Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей.
  • Автоматический сбор данных с целью назначения пользователю тех или иных характеристик.
  • Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.

Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий. В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение. Методом машинного обучения возможен анализ активности, характерной для этих людей в социальных сетях, и выявление кластеров параметров, характерных этой совокупности людей. При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером, нуждаются в проверке и в подтверждении.

Примеры использования данных социальных сетей

Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:

  • Проявление заинтересованности в предлагаемой продукции.
  • Соответствующая платежеспособность.
  • Положительное реагирование на рекламные предложения.

Оценка надёжности и платёжеспособности кандидатов на получение кредитов

С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.

Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (наличие телефонного номера), другие — к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).

Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».

Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.

См. Также

Примечания

Источники Информации