Анализ социальных сетей — различия между версиями

Материал из Викиконспекты
Перейти к: навигация, поиск
Строка 37: Строка 37:
 
Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.
 
Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.
  
 
+
==Обработка_данных==
 
После парсинга идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.
 
После парсинга идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.
 
Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.
 
Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.

Версия 23:53, 20 декабря 2020

Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.

Информация в социальных сетях имеет некоторые отличия в силу своей специфики от просто информации, полученной из баз данных, с которой обычно работают системы анализа и машинного обучения. Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми. В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека. Таким образом вопрос достоверности данных, получаемых для дальнейшего анализа становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности. Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения. Люди иногда являются пользователями сразу нескольких соцсетей. Соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более информацию о нем. Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем. Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.


Первым этапом работы с соцсетями является собственно сбор данных. Первое — парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями. Прежде всего это личные данные:

  • фамилия, имя, отчество;
  • контактные данные;
  • анкетные данные.

Следует отметить, что для хозяев соцсетей есть дополнительные возможности для получения информации о пользователе такие как:

  • IP-адреса;
  • геолокация;
  • характеристика устройства и т.д., недоступные для внешних аналитиков.

Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. Анализируются:

  • группы, в которых пользователь участвует,
  • их тематика;
  • активность пользователя в них, его сообщения;
  • комментарии к чужим сообщениям.

Немаловажное значение имеют данные с собственных страниц пользователя:

  • подписчики этих страниц;
  • тематика страницы;
  • размещаемый на них контент;
  • фотографии и собственные видео;
  • комментарии пользователя и подписчиков.

Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.

Обработка_данных

После парсинга идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их в вид, удобный для дальнейшей обработки и анализа. Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека. Верификация этих данных происходит путем сравнения анкетных данных, оставленных этим пользователем, с информацией из разных независимых источников. Это такие как:

  • IP - адреса пользователя;
  • геолокация и временной пояс пользователя;
  • время оставляемых им сообщений;

Могут быть использованы существующие базы персональных данных реальных людей:базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных. В свете появления новых технологий поиска людей по их изображениям, перспективным является анализ достоверности фотографии, представленной пользователем. Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видео аккаунта. Также осуществляется поиск по фото- и видео, выложенных в аккаунтах друзей. Поиск точной копии фото в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.

Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики. Достоверность этой информации тем выше, чем дольше существует активность в этой группе. Во внимание берутся:

  • посты;
  • комментарии;
  • лайки;
  • дизлайки;
  • анализируются ссылки на группу в тематических контентах;
  • интересы других пользователей этих групп.

Таким образом формируется список интересов анализируемого пользователя. Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой. Данным получившим подтверждение из независимых источников присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось. Данные, замеченные в фальсификации, получают негативный коэффициент достоверности. Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.

Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений. Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим "пещерным" маркетингом. Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу и т.д. Это может несколько увеличить эффективность взаимодействия с пользователем.

Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. Фундаментальную теорию такого анализа можно почерпнуть из смежных наук таких как классическая и современная психология. На житейском уровне мы привыкли разделять характеры людей по дихотомии:

  • рефлексивные — это меланхолики и флегматики;
  • активные — это холерики и сангвиники .

Академическая психология использует Большую пятёрку — диспозициональная (от англ. disposition — предрасположенность) модель личности человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт (диспозиций):

Психотипология оперирует конкретными психотипами. Такие, как

  • истероидный психотип;
  • эпилептоидный психотип;
  • паранойяльный психотип;
  • эмотивный психотип;
  • шизоидный психотип;
  • гипертимный психотип;
  • депрессивно - печальный психотип;
  • тревожно - мнительный психотип.

Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи соц. сетей с достаточной степенью достоверности могут быть к ним причислены. Задача эта вполне решаема с помощью современных методов машинного обучения. Компьютерный анализ текстов, поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации. Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того какой области это касается будь-то коммерческие предложения, политология, социальные опросы или социальные исследования.

Эти технологии вполне современны и активно используются в данный момент. Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: нейролингвистического программирования может дать более существенные и эффективные результаты. Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию. Особенностями вышеперечисленных методик является:

  • Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей;
  • Автоматический сбор данных с целью назначения пользователю тех или иных характеристик;
  • Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.

Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий. В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение, и т.д. Методом машинного обучения возможен анализ активности характерной для этих людей в социальных сетях и выявление кластеров параметров, характерных этой совокупности людей. При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, так, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером нуждаются в проверке и в подтверждении.