<?xml version="1.0"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
		<id>http://neerc.ifmo.ru/wiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=MaximOsadchiy</id>
		<title>Викиконспекты - Вклад участника [ru]</title>
		<link rel="self" type="application/atom+xml" href="http://neerc.ifmo.ru/wiki/api.php?action=feedcontributions&amp;feedformat=atom&amp;user=MaximOsadchiy"/>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:%D0%92%D0%BA%D0%BB%D0%B0%D0%B4/MaximOsadchiy"/>
		<updated>2026-06-11T17:50:31Z</updated>
		<subtitle>Вклад участника</subtitle>
		<generator>MediaWiki 1.30.0</generator>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77196</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77196"/>
				<updated>2021-01-09T21:51:59Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
Анализ социальных сетей представляет из себя ряд отдельных задач, выполняющихся поэтапно.&lt;br /&gt;
* Задача сбора данных.&lt;br /&gt;
**Анкетных данных.&lt;br /&gt;
**Адресов.&lt;br /&gt;
**Интересов.&lt;br /&gt;
* Задача анализа достоверности данных.&lt;br /&gt;
* Задача индексации данных.&lt;br /&gt;
* Задача классификации данных.&lt;br /&gt;
* Задача предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]], своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа, становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей, соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий [[Сиамская нейронная сеть |поиска людей по их изображениям]], перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп;&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным, получившим подтверждение из независимых источников, присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук, таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition {{---}} предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F Экстраверсии (противоположность {{---}} интроверсия)].&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, [https://www.researchgate.net/profile/William_Ickes/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables/links/00b7d5201204a3465c000000/Big-Five-predictors-of-behavior-and-perceptions-in-initial-dyadic-interactions-Personality-similarity-helps-extraverts-and-introverts-but-hurts-disagreeables.pdf Cuperman and Ickes (2009)] изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно исходя из нужд конкретных задач. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий вне дома.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее». &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с Днем Рождения в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-инов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и так далее) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование широкого спектра функций социальных сетей.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер&amp;lt;ref&amp;gt;Заметки профайлера&amp;lt;/ref&amp;gt;==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. [[Обработка естественного языка | Компьютерный анализ текстов]], поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того, какой области это касается, будь то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент &amp;lt;ref&amp;gt;[http://farseev.azurewebsites.net/papers/ACMMM18Demo.pdf Social Multimedia Influencer Discovery Marketplace]&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;[http://213.226.126.9/fc/2015/fc27/fc2715-2.pdf Прогнозирование кредитоспособности клиентов на основе методов машинного обучения]&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;[https://target.my.com/pro/technologies/psychotypes Психотипы для таргетирования рекламы]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5 нейролингвистического программирования] может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей.&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик.&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности, характерной для этих людей в социальных сетях, и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером, нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
&lt;br /&gt;
==Оценка надёжности и платёжеспособности кандидатов на получение кредитов==&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (наличие телефонного номера), другие {{---}} к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
*[https://somin.ai/ somin.ai]&lt;br /&gt;
*Алексей Филатов. Заметки профайлера&lt;br /&gt;
*[https://www.researchgate.net/profile/William_Ickes/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables/links/00b7d5201204a3465c000000/Big-Five-predictors-of-behavior-and-perceptions-in-initial-dyadic-interactions-Personality-similarity-helps-extraverts-and-introverts-but-hurts-disagreeables.pdf Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts &amp;quot;disagreeables&amp;quot;]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Анализ социальных сетей]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77195</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77195"/>
				<updated>2021-01-09T21:51:35Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
Анализ социальных сетей представляет из себя ряд отдельных задач, выполняющихся поэтапно.&lt;br /&gt;
* Задача сбора данных.&lt;br /&gt;
**Анкетных данных.&lt;br /&gt;
**Адресов.&lt;br /&gt;
**Интересов.&lt;br /&gt;
* Задача анализа достоверности данных.&lt;br /&gt;
* Задача индексации данных.&lt;br /&gt;
* Задача классификации данных.&lt;br /&gt;
* Задача предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]], своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа, становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей, соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий [[Сиамская нейронная сеть |поиска людей по их изображениям]], перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп;&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным, получившим подтверждение из независимых источников, присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук, таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition {{---}} предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F Экстраверсии (противоположность {{---}} интроверсия)].&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, [https://www.researchgate.net/profile/William_Ickes/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables/links/00b7d5201204a3465c000000/Big-Five-predictors-of-behavior-and-perceptions-in-initial-dyadic-interactions-Personality-similarity-helps-extraverts-and-introverts-but-hurts-disagreeables.pdf Cuperman and Ickes (2009)] изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно исходя из нужд конкретных задач. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий вне дома.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее». &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с Днем Рождения в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-инов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и так далее) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование широкого спектра функций социальных сетей.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер&amp;lt;ref&amp;gt;Заметки профайлера&amp;lt;/ref&amp;gt;==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. [[Обработка естественного языка | Компьютерный анализ текстов]], поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того, какой области это касается, будь то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент &amp;lt;ref&amp;gt;[http://farseev.azurewebsites.net/papers/ACMMM18Demo.pdf Social Multimedia Influencer Discovery Marketplace]&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;[http://213.226.126.9/fc/2015/fc27/fc2715-2.pdf Прогнозирование кредитоспособности клиентов на основе методов машинного обучения]&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;[https://target.my.com/pro/technologies/psychotypes Психотипы для таргетирования рекламы]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5 нейролингвистического программирования] может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей.&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик.&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности, характерной для этих людей в социальных сетях, и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером, нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
&lt;br /&gt;
==Оценка надёжности и платёжеспособности кандидатов на получение кредитов==&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (наличие телефонного номера), другие {{---}} к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
*[https://somin.ai/ somin.ai]&lt;br /&gt;
*Алексей Филатов. Заметки профайлера&lt;br /&gt;
*&lt;br /&gt;
[https://www.researchgate.net/profile/William_Ickes/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables/links/00b7d5201204a3465c000000/Big-Five-predictors-of-behavior-and-perceptions-in-initial-dyadic-interactions-Personality-similarity-helps-extraverts-and-introverts-but-hurts-disagreeables.pdf Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts &amp;quot;disagreeables&amp;quot;]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Анализ социальных сетей]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77194</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77194"/>
				<updated>2021-01-09T21:51:03Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
Анализ социальных сетей представляет из себя ряд отдельных задач, выполняющихся поэтапно.&lt;br /&gt;
* Задача сбора данных.&lt;br /&gt;
**Анкетных данных.&lt;br /&gt;
**Адресов.&lt;br /&gt;
**Интересов.&lt;br /&gt;
* Задача анализа достоверности данных.&lt;br /&gt;
* Задача индексации данных.&lt;br /&gt;
* Задача классификации данных.&lt;br /&gt;
* Задача предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]], своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа, становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей, соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий [[Сиамская нейронная сеть |поиска людей по их изображениям]], перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп;&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным, получившим подтверждение из независимых источников, присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук, таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition {{---}} предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F Экстраверсии (противоположность {{---}} интроверсия)].&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, [https://www.researchgate.net/profile/William_Ickes/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables/links/00b7d5201204a3465c000000/Big-Five-predictors-of-behavior-and-perceptions-in-initial-dyadic-interactions-Personality-similarity-helps-extraverts-and-introverts-but-hurts-disagreeables.pdf Cuperman and Ickes (2009)] изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно исходя из нужд конкретных задач. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий вне дома.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее». &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с Днем Рождения в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-инов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и так далее) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование широкого спектра функций социальных сетей.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер&amp;lt;ref&amp;gt;Заметки профайлера&amp;lt;/ref&amp;gt;==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. [[Обработка естественного языка | Компьютерный анализ текстов]], поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того, какой области это касается, будь то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент &amp;lt;ref&amp;gt;[http://farseev.azurewebsites.net/papers/ACMMM18Demo.pdf Social Multimedia Influencer Discovery Marketplace]&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;[http://213.226.126.9/fc/2015/fc27/fc2715-2.pdf Прогнозирование кредитоспособности клиентов на основе методов машинного обучения]&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;[https://target.my.com/pro/technologies/psychotypes Психотипы для таргетирования рекламы]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5 нейролингвистического программирования] может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей.&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик.&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности, характерной для этих людей в социальных сетях, и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером, нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
&lt;br /&gt;
==Оценка надёжности и платёжеспособности кандидатов на получение кредитов==&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (наличие телефонного номера), другие {{---}} к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
*[https://somin.ai/ somin.ai]&lt;br /&gt;
*Алексей Филатов. Заметки профайлера&lt;br /&gt;
*&lt;br /&gt;
[https://www.researchgate.net/profile/William_Ickes/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables/links/00b7d5201204a3465c000000/Big-Five-predictors-of-behavior-and-perceptions-in-initial-dyadic-interactions-Personality-similarity-helps-extraverts-and-introverts-but-hurts-disagreeables.pdf &lt;br /&gt;
Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts &amp;quot;disagreeables&amp;quot;]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Анализ социальных сетей]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77189</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77189"/>
				<updated>2021-01-09T21:32:25Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
Анализ социальных сетей представляет из себя ряд отдельных задач, выполняющихся поэтапно.&lt;br /&gt;
* Задача сбора данных.&lt;br /&gt;
**Анкетных данных.&lt;br /&gt;
**Адресов.&lt;br /&gt;
**Интересов.&lt;br /&gt;
* Задача анализа достоверности данных.&lt;br /&gt;
* Задача индексации данных.&lt;br /&gt;
* Задача классификации данных.&lt;br /&gt;
* Задача предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]], своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа, становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей, соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий [[Сиамская нейронная сеть |поиска людей по их изображениям]], перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп;&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным, получившим подтверждение из независимых источников, присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук, таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition {{---}} предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F Экстраверсии (противоположность {{---}} интроверсия)].&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, [https://www.researchgate.net/profile/William_Ickes/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables/links/00b7d5201204a3465c000000/Big-Five-predictors-of-behavior-and-perceptions-in-initial-dyadic-interactions-Personality-similarity-helps-extraverts-and-introverts-but-hurts-disagreeables.pdf Cuperman and Ickes (2009)] изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно исходя из нужд конкретных задач. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий вне дома.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее». &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с Днем Рождения в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-инов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и так далее) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование широкого спектра функций социальных сетей.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер&amp;lt;ref&amp;gt;Заметки профайлера&amp;lt;/ref&amp;gt;==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. [[Обработка естественного языка | Компьютерный анализ текстов]], поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того, какой области это касается, будь то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент &amp;lt;ref&amp;gt;[http://farseev.azurewebsites.net/papers/ACMMM18Demo.pdf Social Multimedia Influencer Discovery Marketplace]&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;[http://213.226.126.9/fc/2015/fc27/fc2715-2.pdf Прогнозирование кредитоспособности клиентов на основе методов машинного обучения]&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;[https://target.my.com/pro/technologies/psychotypes Психотипы для таргетирования рекламы]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5 нейролингвистического программирования] может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей.&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик.&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности, характерной для этих людей в социальных сетях, и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером, нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
&lt;br /&gt;
==Оценка надёжности и платёжеспособности кандидатов на получение кредитов==&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (наличие телефонного номера), другие {{---}} к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
[https://www.researchgate.net/profile/William_Ickes/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables/links/00b7d5201204a3465c000000/Big-Five-predictors-of-behavior-and-perceptions-in-initial-dyadic-interactions-Personality-similarity-helps-extraverts-and-introverts-but-hurts-disagreeables.pdf f]&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
*[https://somin.ai/ somin.ai]&lt;br /&gt;
*Алексей Филатов. Заметки профайлера&lt;br /&gt;
*[https://www.researchgate.net/profile/William_Ickes/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables/links/00b7d5201204a3465c000000/Big-Five-predictors-of-behavior-and-perceptions-in-initial-dyadic-interactions-Personality-similarity-helps-extraverts-and-introverts-but-hurts-disagreeables.pdf Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts &amp;quot;disagreeables&amp;quot;]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Анализ социальных сетей]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77188</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77188"/>
				<updated>2021-01-09T21:30:49Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
Анализ социальных сетей представляет из себя ряд отдельных задач, выполняющихся поэтапно.&lt;br /&gt;
* Задача сбора данных.&lt;br /&gt;
**Анкетных данных.&lt;br /&gt;
**Адресов.&lt;br /&gt;
**Интересов.&lt;br /&gt;
* Задача анализа достоверности данных.&lt;br /&gt;
* Задача индексации данных.&lt;br /&gt;
* Задача классификации данных.&lt;br /&gt;
* Задача предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]], своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа, становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей, соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий [[Сиамская нейронная сеть |поиска людей по их изображениям]], перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп;&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным, получившим подтверждение из независимых источников, присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук, таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition {{---}} предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F Экстраверсии (противоположность {{---}} интроверсия)].&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, [https://www.researchgate.net/profile/William_Ickes/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables/links/00b7d5201204a3465c000000/Big-Five-predictors-of-behavior-and-perceptions-in-initial-dyadic-interactions-Personality-similarity-helps-extraverts-and-introverts-but-hurts-disagreeables.pdf Cuperman and Ickes (2009)] изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно исходя из нужд конкретных задач. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий вне дома.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее». &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с Днем Рождения в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-инов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и так далее) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование широкого спектра функций социальных сетей.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер&amp;lt;ref&amp;gt;Заметки профайлера&amp;lt;/ref&amp;gt;==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. [[Обработка естественного языка | Компьютерный анализ текстов]], поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того, какой области это касается, будь то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент &amp;lt;ref&amp;gt;[http://farseev.azurewebsites.net/papers/ACMMM18Demo.pdf Social Multimedia Influencer Discovery Marketplace]&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;[http://213.226.126.9/fc/2015/fc27/fc2715-2.pdf Прогнозирование кредитоспособности клиентов на основе методов машинного обучения]&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;[https://target.my.com/pro/technologies/psychotypes Психотипы для таргетирования рекламы]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5 нейролингвистического программирования] может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей.&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик.&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности, характерной для этих людей в социальных сетях, и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером, нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
&lt;br /&gt;
==Оценка надёжности и платёжеспособности кандидатов на получение кредитов==&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (наличие телефонного номера), другие {{---}} к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
*[https://somin.ai/ somin.ai]&lt;br /&gt;
*Алексей Филатов. Заметки профайлера&lt;br /&gt;
*[https://www.researchgate.net/profile/William_Ickes/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables/links/00b7d5201204a3465c000000/Big-Five-predictors-of-behavior-and-perceptions-in-initial-dyadic-interactions-Personality-similarity-helps-extraverts-and-introverts-but-hurts-disagreeables.pdf Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts &amp;quot;disagreeables&amp;quot;]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Анализ социальных сетей]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77185</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77185"/>
				<updated>2021-01-09T21:19:43Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
Анализ социальных сетей представляет из себя ряд отдельных задач, выполняющихся поэтапно.&lt;br /&gt;
* Задача сбора данных.&lt;br /&gt;
**Анкетных данных.&lt;br /&gt;
**Адресов.&lt;br /&gt;
**Интересов.&lt;br /&gt;
* Задача анализа достоверности данных.&lt;br /&gt;
* Задача индексации данных.&lt;br /&gt;
* Задача классификации данных.&lt;br /&gt;
* Задача предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]], своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа, становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей, соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий [[Сиамская нейронная сеть |поиска людей по их изображениям]], перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп;&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным, получившим подтверждение из независимых источников, присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук, таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition {{---}} предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F Экстраверсии (противоположность {{---}} интроверсия)].&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, [https://www.researchgate.net/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables Cuperman and Ickes (2009)] изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно исходя из нужд конкретных задач. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий вне дома.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее». &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с Днем Рождения в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-инов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и так далее) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование широкого спектра функций социальных сетей.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер&amp;lt;ref&amp;gt;Заметки профайлера&amp;lt;/ref&amp;gt;==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. [[Обработка естественного языка | Компьютерный анализ текстов]], поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того, какой области это касается, будь то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент &amp;lt;ref&amp;gt;[http://farseev.azurewebsites.net/papers/ACMMM18Demo.pdf Social Multimedia Influencer Discovery Marketplace]&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;[http://213.226.126.9/fc/2015/fc27/fc2715-2.pdf Прогнозирование кредитоспособности клиентов на основе методов машинного обучения]&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;[https://target.my.com/pro/technologies/psychotypes Психотипы для таргетирования рекламы]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5 нейролингвистического программирования] может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей.&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик.&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности, характерной для этих людей в социальных сетях, и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером, нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
&lt;br /&gt;
==Оценка надёжности и платёжеспособности кандидатов на получение кредитов==&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (наличие телефонного номера), другие {{---}} к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
*[https://somin.ai/ somin.ai]&lt;br /&gt;
*Алексей Филатов. Заметки профайлера&lt;br /&gt;
*[https://www.researchgate.net/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts &amp;quot;disagreeables&amp;quot;]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Анализ социальных сетей]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77182</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77182"/>
				<updated>2021-01-09T20:51:19Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
Анализ социальных сетей представляет из себя ряд отдельных задач, выполняющихся поэтапно.&lt;br /&gt;
* Задача сбора данных.&lt;br /&gt;
**Анкетных данных.&lt;br /&gt;
**Адресов.&lt;br /&gt;
**Интересов.&lt;br /&gt;
* Задача анализа достоверности данных.&lt;br /&gt;
* Задача индексации данных.&lt;br /&gt;
* Задача классификации данных.&lt;br /&gt;
* Задача предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]], своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа, становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей, соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий [[Сиамская нейронная сеть |поиска людей по их изображениям]], перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп;&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным, получившим подтверждение из независимых источников, присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук, таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition {{---}} предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F Экстраверсии (противоположность {{---}} интроверсия)].&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, [https://www.researchgate.net/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables Cuperman and Ickes (2009)] изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно исходя из нужд конкретных задач. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий вне дома.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее». &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с Днем Рождения в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-инов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и так далее) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование широкого спектра функций социальных сетей.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер&amp;lt;ref&amp;gt;[https://www.litres.ru/aleksey-vladimirovich-filatov/zametki-profaylera/chitat-onlayn/ Заметки профайлера]&amp;lt;/ref&amp;gt;==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. [[Обработка естественного языка | Компьютерный анализ текстов]], поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того, какой области это касается, будь то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент &amp;lt;ref&amp;gt;[https://somin.ai/science/find-em-all Social Multimedia Influencer Discovery Marketplace]&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;[https://www.fin-izdat.ru/journal/fc/detail.php?ID=66408 Прогнозирование кредитоспособности клиентов на основе методов машинного обучения]&amp;lt;/ref&amp;gt; &amp;lt;ref&amp;gt;[https://target.my.com/pro/technologies/psychotypes Психотипы для таргетирования рекламы]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5 нейролингвистического программирования] может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей.&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик.&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности, характерной для этих людей в социальных сетях, и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером, нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
&lt;br /&gt;
==Оценка надёжности и платёжеспособности кандидатов на получение кредитов==&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (наличие телефонного номера), другие {{---}} к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
*[https://somin.ai/ somin.ai]&lt;br /&gt;
*[https://www.litres.ru/aleksey-vladimirovich-filatov/zametki-profaylera/chitat-onlayn/ Алексей Филатов. Заметки профайлера]&lt;br /&gt;
*[https://www.researchgate.net/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts &amp;quot;disagreeables&amp;quot;]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Анализ социальных сетей]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77177</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77177"/>
				<updated>2021-01-09T20:17:53Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
Анализ социальных сетей представляет из себя ряд отдельных задач, выполняющихся поэтапно.&lt;br /&gt;
* Задача сбора данных.&lt;br /&gt;
**Анкетных данных.&lt;br /&gt;
**Адресов.&lt;br /&gt;
**Интересов.&lt;br /&gt;
* Задача анализа достоверности данных.&lt;br /&gt;
* Задача индексации данных.&lt;br /&gt;
* Задача классификации данных.&lt;br /&gt;
* Задача предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]], своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа, становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей, соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий [[Сиамская нейронная сеть |поиска людей по их изображениям]], перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп;&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным, получившим подтверждение из независимых источников, присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук, таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition {{---}} предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F Экстраверсии (противоположность {{---}} интроверсия)].&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, [https://www.researchgate.net/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables Cuperman and Ickes (2009)] изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно исходя из нужд конкретных задач. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий вне дома.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее». &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с Днем Рождения в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-инов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и так далее) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование широкого спектра функций социальных сетей.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер&amp;lt;ref&amp;gt;[https://www.litres.ru/aleksey-vladimirovich-filatov/zametki-profaylera/chitat-onlayn/ Заметки профайлера]&amp;lt;/ref&amp;gt;==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. [[Обработка естественного языка | Компьютерный анализ текстов]], поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того, какой области это касается, будь то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5 нейролингвистического программирования] может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей.&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик.&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности, характерной для этих людей в социальных сетях, и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером, нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
&lt;br /&gt;
==Оценка надёжности и платёжеспособности кандидатов на получение кредитов==&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (наличие телефонного номера), другие {{---}} к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
*[https://www.litres.ru/aleksey-vladimirovich-filatov/zametki-profaylera/chitat-onlayn/ Алексей Филатов. Заметки профайлера]&lt;br /&gt;
*[https://www.researchgate.net/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts &amp;quot;disagreeables&amp;quot;]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Анализ социальных сетей]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77176</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77176"/>
				<updated>2021-01-09T20:17:12Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
Анализ социальных сетей представляет из себя ряд отдельных задач, выполняющихся поэтапно.&lt;br /&gt;
* Задача сбора данных.&lt;br /&gt;
**Анкетных данных.&lt;br /&gt;
**Адресов.&lt;br /&gt;
**Интересов.&lt;br /&gt;
* Задача анализа достоверности данных.&lt;br /&gt;
* Задача индексации данных.&lt;br /&gt;
* Задача классификации данных.&lt;br /&gt;
* Задача предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]], своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа, становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей, соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий [[Сиамская нейронная сеть |поиска людей по их изображениям]], перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп;&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным, получившим подтверждение из независимых источников, присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук, таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition {{---}} предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F Экстраверсии (противоположность {{---}} интроверсия)].&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, [https://www.researchgate.net/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeablesCuperman and Ickes (2009)] изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно исходя из нужд конкретных задач. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий вне дома.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее». &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с Днем Рождения в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-инов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и так далее) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование широкого спектра функций социальных сетей.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер&amp;lt;ref&amp;gt;[https://www.litres.ru/aleksey-vladimirovich-filatov/zametki-profaylera/chitat-onlayn/ Заметки профайлера]&amp;lt;/ref&amp;gt;==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. [[Обработка естественного языка | Компьютерный анализ текстов]], поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того, какой области это касается, будь то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5 нейролингвистического программирования] может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей.&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик.&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности, характерной для этих людей в социальных сетях, и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером, нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
&lt;br /&gt;
==Оценка надёжности и платёжеспособности кандидатов на получение кредитов==&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (наличие телефонного номера), другие {{---}} к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
*[https://www.litres.ru/aleksey-vladimirovich-filatov/zametki-profaylera/chitat-onlayn/ Алексей Филатов. Заметки профайлера]&lt;br /&gt;
*[https://www.researchgate.net/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts &amp;quot;disagreeables&amp;quot;]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Анализ социальных сетей]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77174</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77174"/>
				<updated>2021-01-09T20:15:40Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: музыка&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
Анализ социальных сетей представляет из себя ряд отдельных задач, выполняющихся поэтапно.&lt;br /&gt;
* Задача сбора данных.&lt;br /&gt;
**Анкетных данных.&lt;br /&gt;
**Адресов.&lt;br /&gt;
**Интересов.&lt;br /&gt;
* Задача анализа достоверности данных.&lt;br /&gt;
* Задача индексации данных.&lt;br /&gt;
* Задача классификации данных.&lt;br /&gt;
* Задача предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]], своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа, становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей, соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий [[Сиамская нейронная сеть |поиска людей по их изображениям]], перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп;&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным, получившим подтверждение из независимых источников, присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук, таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition {{---}} предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F Экстраверсии (противоположность {{---}} интроверсия)].&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, [26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables Cuperman and Ickes (2009)] изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно исходя из нужд конкретных задач. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий вне дома.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее». &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с Днем Рождения в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-инов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и так далее) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование широкого спектра функций социальных сетей.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер&amp;lt;ref&amp;gt;[https://www.litres.ru/aleksey-vladimirovich-filatov/zametki-profaylera/chitat-onlayn/ Заметки профайлера]&amp;lt;/ref&amp;gt;==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. [[Обработка естественного языка | Компьютерный анализ текстов]], поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того, какой области это касается, будь то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5 нейролингвистического программирования] может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей.&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик.&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности, характерной для этих людей в социальных сетях, и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером, нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
&lt;br /&gt;
==Оценка надёжности и платёжеспособности кандидатов на получение кредитов==&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (наличие телефонного номера), другие {{---}} к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
*[https://www.litres.ru/aleksey-vladimirovich-filatov/zametki-profaylera/chitat-onlayn/ Алексей Филатов. Заметки профайлера]&lt;br /&gt;
*[https://www.researchgate.net/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts &amp;quot;disagreeables&amp;quot;]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Анализ социальных сетей]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77165</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77165"/>
				<updated>2021-01-09T20:00:30Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
Анализ социальных сетей представляет из себя ряд отдельных задач, выполняющихся поэтапно.&lt;br /&gt;
* Задача сбора данных.&lt;br /&gt;
**Анкетных данных.&lt;br /&gt;
**Адресов.&lt;br /&gt;
**Интересов.&lt;br /&gt;
* Задача анализа достоверности данных.&lt;br /&gt;
* Задача индексации данных.&lt;br /&gt;
* Задача классификации данных.&lt;br /&gt;
* Задача предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]], своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа, становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей, соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий [[Сиамская нейронная сеть |поиска людей по их изображениям]], перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп;&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным, получившим подтверждение из независимых источников, присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук, таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition {{---}} предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F Экстраверсии (противоположность {{---}} интроверсия)].&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, [https://psycnet.apa.org/record/2009-16971-008 Cuperman and Ickes (2009)] изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно исходя из нужд конкретных задач. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий вне дома.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее». &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с Днем Рождения в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-инов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и так далее) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование широкого спектра функций социальных сетей.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. [[Обработка естественного языка | Компьютерный анализ текстов]], поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того, какой области это касается, будь то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5 нейролингвистического программирования] может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей.&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик.&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности, характерной для этих людей в социальных сетях, и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером, нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
&lt;br /&gt;
==Оценка надёжности и платёжеспособности кандидатов на получение кредитов==&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (наличие телефонного номера), другие {{---}} к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
* [https://psycnet.apa.org/doiLanding?doi=10.1037%2Fa0015741 Cuperman, R., &amp;amp; Ickes, W. (2009). Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts «disagreeables». ''Journal of Personality and Social Psychology, 97'', 667{{---}}684.]&lt;br /&gt;
*[https://www.researchgate.net/publication/26852443_Big_Five_predictors_of_behavior_and_perceptions_in_initial_dyadic_interactions_Personality_similarity_helps_extraverts_and_introverts_but_hurts_disagreeables Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts &amp;quot;disagreeables&amp;quot;]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Анализ социальных сетей]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77163</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77163"/>
				<updated>2021-01-09T19:50:56Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: вводное предложение&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
Анализ социальных сетей представляет из себя ряд отдельных задач, выполняющихся поэтапно.&lt;br /&gt;
* Задача сбора данных.&lt;br /&gt;
**Анкетных данных.&lt;br /&gt;
**Адресов.&lt;br /&gt;
**Интересов.&lt;br /&gt;
* Задача анализа достоверности данных.&lt;br /&gt;
* Задача индексации данных.&lt;br /&gt;
* Задача классификации данных.&lt;br /&gt;
* Задача предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]], своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа, становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей, соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий [[Сиамская нейронная сеть |поиска людей по их изображениям]], перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп;&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным, получившим подтверждение из независимых источников, присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук, таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition {{---}} предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F Экстраверсии (противоположность {{---}} интроверсия)].&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, [https://psycnet.apa.org/record/2009-16971-008 Cuperman and Ickes (2009)] изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно исходя из нужд конкретных задач. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий вне дома.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее». &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с Днем Рождения в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-инов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и так далее) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование широкого спектра функций социальных сетей.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. [[Обработка естественного языка | Компьютерный анализ текстов]], поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того, какой области это касается, будь то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5 нейролингвистического программирования] может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей.&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик.&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности, характерной для этих людей в социальных сетях, и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером, нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
&lt;br /&gt;
==Оценка надёжности и платёжеспособности кандидатов на получение кредитов==&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (наличие телефонного номера), другие {{---}} к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
* [https://psycnet.apa.org/doiLanding?doi=10.1037%2Fa0015741 Cuperman, R., &amp;amp; Ickes, W. (2009). Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts «disagreeables». ''Journal of Personality and Social Psychology, 97'', 667{{---}}684.]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Анализ социальных сетей]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77134</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77134"/>
				<updated>2021-01-09T19:18:14Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
* Сбор данных.&lt;br /&gt;
**Анкетные данные.&lt;br /&gt;
**Адреса.&lt;br /&gt;
**Интересы.&lt;br /&gt;
* Анализ достоверности данных.&lt;br /&gt;
* Индексация данных.&lt;br /&gt;
* Классификация данных.&lt;br /&gt;
* Предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]], своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа, становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей, соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий [[Сиамская нейронная сеть |поиска людей по их изображениям]], перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп;&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным, получившим подтверждение из независимых источников, присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук, таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition {{---}} предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F Экстраверсии (противоположность {{---}} интроверсия)].&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, [https://psycnet.apa.org/record/2009-16971-008 Cuperman and Ickes (2009)] изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно исходя из нужд конкретных задач. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий вне дома.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее». &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с Днем Рождения в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-инов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и так далее) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование широкого спектра функций социальных сетей.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. [[Обработка естественного языка | Компьютерный анализ текстов]], поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того, какой области это касается, будь то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5 нейролингвистического программирования] может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей.&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик.&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности, характерной для этих людей в социальных сетях, и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером, нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
&lt;br /&gt;
==Оценка надёжности и платёжеспособности кандидатов на получение кредитов==&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (наличие телефонного номера), другие {{---}} к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
* [https://psycnet.apa.org/doiLanding?doi=10.1037%2Fa0015741 Cuperman, R., &amp;amp; Ickes, W. (2009). Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts «disagreeables». ''Journal of Personality and Social Psychology, 97'', 667{{---}}684.]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Анализ социальных сетей]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77131</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77131"/>
				<updated>2021-01-09T19:11:30Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: связанные с нашими конкретными задачами и интересами&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
* Сбор данных.&lt;br /&gt;
**Анкетные данные.&lt;br /&gt;
**Адреса.&lt;br /&gt;
**Интересы.&lt;br /&gt;
* Анализ достоверности данных.&lt;br /&gt;
* Индексация данных.&lt;br /&gt;
* Классификация данных.&lt;br /&gt;
* Предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]], своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа, становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей, соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий [[Сиамская нейронная сеть |поиска людей по их изображениям]], перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп;&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным, получившим подтверждение из независимых источников, присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук, таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition {{---}} предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F Экстраверсии (противоположность {{---}} интроверсия)].&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, Cuperman and Ickes (2009) изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно исходя из нужд конкретных задач. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий вне дома.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее». &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с Днем Рождения в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-инов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и так далее) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование широкого спектра функций социальных сетей.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. [[Обработка естественного языка | Компьютерный анализ текстов]], поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того, какой области это касается, будь то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5 нейролингвистического программирования] может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей.&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик.&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности, характерной для этих людей в социальных сетях, и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером, нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
&lt;br /&gt;
==Оценка надёжности и платёжеспособности кандидатов на получение кредитов==&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (наличие телефонного номера), другие {{---}} к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
* Cuperman, R., &amp;amp; Ickes, W. (2009). Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts «disagreeables». ''Journal of Personality and Social Psychology, 97'', 667{{---}}684.&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Анализ социальных сетей]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77130</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77130"/>
				<updated>2021-01-09T19:04:41Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
* Сбор данных.&lt;br /&gt;
**Анкетные данные.&lt;br /&gt;
**Адреса.&lt;br /&gt;
**Интересы.&lt;br /&gt;
* Анализ достоверности данных.&lt;br /&gt;
* Индексация данных.&lt;br /&gt;
* Классификация данных.&lt;br /&gt;
* Предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]], своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа, становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей, соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства и т.д.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий [[Сиамская нейронная сеть |поиска людей по их изображениям]], перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп;&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным, получившим подтверждение из независимых источников, присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук, таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition {{---}} предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F Экстраверсии (противоположность {{---}} интроверсия)].&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, Cuperman and Ickes (2009) изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно связанные с нашими конкретными задачами и интересами. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий вне дома.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее» и др.. &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение и пр.). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить и пр.). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с Днем Рождения в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-инов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение и пр.). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать и пр.). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие и пр.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми и пр.).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и т.д.) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то и пр.).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми и пр.).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование широкого спектра функций социальных сетей.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. [[Обработка естественного языка | Компьютерный анализ текстов]], поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того, какой области это касается, будь то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5 нейролингвистического программирования] может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей.&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик.&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение, и т.д.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности, характерной для этих людей в социальных сетях, и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером, нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
&lt;br /&gt;
==Оценка надёжности и платёжеспособности кандидатов на получение кредитов==&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (наличие телефонного номера), другие {{---}} к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
* Cuperman, R., &amp;amp; Ickes, W. (2009). Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts «disagreeables». ''Journal of Personality and Social Psychology, 97'', 667{{---}}684.&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Анализ социальных сетей]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77128</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77128"/>
				<updated>2021-01-09T18:58:18Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
* Сбор данных.&lt;br /&gt;
**Анкетные данные.&lt;br /&gt;
**Адреса.&lt;br /&gt;
**Интересы.&lt;br /&gt;
* Анализ достоверности данных.&lt;br /&gt;
* Индексация данных.&lt;br /&gt;
* Классификация данных.&lt;br /&gt;
* Предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]], своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа, становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей, соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства и т.д.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий поиска людей по их изображениям, перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп;&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным, получившим подтверждение из независимых источников, присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу и т.д. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук, таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition {{---}} предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F Экстраверсии (противоположность {{---}} интроверсия)].&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, Cuperman and Ickes (2009) изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно связанные с нашими конкретными задачами и интересами. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий вне дома.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее» и др.. &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение и пр.). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить и пр.). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с Днем Рождения в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-инов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение и пр.). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать и пр.). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие и пр.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми и пр.).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и т.д.) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то и пр.).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми и пр.).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование широкого спектра функций социальных сетей.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. [[Обработка естественного языка | Компьютерный анализ текстов]], поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того, какой области это касается, будь то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5 нейролингвистического программирования] может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей.&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик.&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение, и т.д.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности, характерной для этих людей в социальных сетях, и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером, нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
&lt;br /&gt;
==Оценка надёжности и платёжеспособности кандидатов на получение кредитов==&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (наличие телефонного номера), другие {{---}} к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
* Cuperman, R., &amp;amp; Ickes, W. (2009). Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts «disagreeables». ''Journal of Personality and Social Psychology, 97'', 667{{---}}684.&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Анализ социальных сетей]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77121</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=77121"/>
				<updated>2021-01-09T18:54:27Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: большая часть исправлений&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
* Сбор данных.&lt;br /&gt;
**Анкетные данные.&lt;br /&gt;
**Адреса.&lt;br /&gt;
**Интересы.&lt;br /&gt;
* Анализ достоверности данных.&lt;br /&gt;
* Индексация данных.&lt;br /&gt;
* Классификация данных.&lt;br /&gt;
* Предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]], своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа, становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей, соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства и т.д.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий поиска людей по их изображениям, перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп;&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным, получившим подтверждение из независимых источников, присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу и т.д. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук, таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition {{---}} предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F Экстраверсии (противоположность {{---}} интроверсия)].&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, Cuperman and Ickes (2009) изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно связанные с нашими конкретными задачами и интересами. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий вне дома.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее» и др.. &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение и пр.). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить и пр.). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с Днем Рождения в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-инов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение и пр.). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать и пр.). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие и пр.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми и пр.).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и т.д.) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то и пр.).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми и пр.).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование широкого спектра функций социальных сетей.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. Компьютерный анализ текстов, поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того, какой области это касается, будь то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B3%D1%80%D0%B0%D0%BC%D0%BC%D0%B8%D1%80%D0%BE%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5 нейролингвистического программирования] может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей.&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик.&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение, и т.д.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности, характерной для этих людей в социальных сетях, и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером, нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
&lt;br /&gt;
==Оценка надёжности и платёжеспособности кандидатов на получение кредитов==&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (наличие телефонного номера), другие {{---}} к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
* Cuperman, R., &amp;amp; Ickes, W. (2009). Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts «disagreeables». ''Journal of Personality and Social Psychology, 97'', 667{{---}}684.&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Анализ социальных сетей]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=76987</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=76987"/>
				<updated>2021-01-09T14:39:32Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
* Сбор данных.&lt;br /&gt;
**Анкетные данные.&lt;br /&gt;
**Адреса.&lt;br /&gt;
**Интересы.&lt;br /&gt;
* Анализ достоверности данных.&lt;br /&gt;
* Индексация данных.&lt;br /&gt;
* Классификация данных.&lt;br /&gt;
* Предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]] своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей. Соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства и т.д.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий поиска людей по их изображениям, перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* Посты. &lt;br /&gt;
* Комментарии. &lt;br /&gt;
* Лайки. &lt;br /&gt;
* Дизлайки. &lt;br /&gt;
* Анализируются ссылки на группу в тематических контентах. &lt;br /&gt;
* Интересы других пользователей этих групп.&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным получившим подтверждение из независимых  источников присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу и т.д. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition — предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F экстраверсии (противоположность - интроверсия)],&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, Cuperman and Ickes (2009) изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно связанные с нашими конкретными задачами и интересами. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий outside.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее» и др.. &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение и пр.). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить и пр.). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с ДР в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-иннов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение и пр.). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать и пр.). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие и пр.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми и пр.).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и т.д.) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то и пр.).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми и пр.).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование мессенджера ФБ и ВК в качестве основного мессенджера.&lt;br /&gt;
*Использование широкого спектра функций ФБ.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. Компьютерный анализ текстов, поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того какой области это касается будь-то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: нейролингвистического программирования может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей;&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик;&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение, и т.д.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности характерной для этих людей в социальных сетях и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, так, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
----&lt;br /&gt;
Оценка надёжности и платёжеспособности кандидатов на получение кредитов&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (пол, наличие телефонного номера), другие — к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
* Cuperman, R., &amp;amp; Ickes, W. (2009). Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts «disagreeables». ''Journal of Personality and Social Psychology, 97'', 667—684.&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Анализ социальных сетей]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=76986</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=76986"/>
				<updated>2021-01-09T14:38:23Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
* Сбор данных.&lt;br /&gt;
**Анкетные данные.&lt;br /&gt;
**Адреса.&lt;br /&gt;
**Интересы.&lt;br /&gt;
* Анализ достоверности данных.&lt;br /&gt;
* Индексация данных.&lt;br /&gt;
* Классификация данных.&lt;br /&gt;
* Предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]] своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей. Соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства и т.д.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий поиска людей по их изображениям, перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* Посты. &lt;br /&gt;
* Комментарии. &lt;br /&gt;
* Лайки. &lt;br /&gt;
* Дизлайки. &lt;br /&gt;
* Анализируются ссылки на группу в тематических контентах. &lt;br /&gt;
* Интересы других пользователей этих групп.&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным получившим подтверждение из независимых  источников присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу и т.д. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition — предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F экстраверсии (противоположность - интроверсия)],&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, Cuperman and Ickes (2009) изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно связанные с нашими конкретными задачами и интересами. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий outside.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее» и др.. &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение и пр.). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить и пр.). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с ДР в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-иннов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение и пр.). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать и пр.). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие и пр.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми и пр.).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и т.д.) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то и пр.).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми и пр.).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование мессенджера ФБ и ВК в качестве основного мессенджера.&lt;br /&gt;
*Использование широкого спектра функций ФБ.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. Компьютерный анализ текстов, поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того какой области это касается будь-то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: нейролингвистического программирования может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей;&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик;&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение, и т.д.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности характерной для этих людей в социальных сетях и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, так, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
----&lt;br /&gt;
Оценка надёжности и платёжеспособности кандидатов на получение кредитов&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (пол, наличие телефонного номера), другие — к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
* Cuperman, R., &amp;amp; Ickes, W. (2009). Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts «disagreeables». ''Journal of Personality and Social Psychology, 97'', 667—684.&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение |Анализ социальных сетей]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%BF%D0%BE%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F&amp;diff=76870</id>
		<title>Оценка положения</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%BF%D0%BE%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F&amp;diff=76870"/>
				<updated>2021-01-08T21:07:46Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: Сверточные нейронные сети&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{В разработке}}&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition =&lt;br /&gt;
'''Оценка положения''' (англ. ''Pose Estimation'') {{---}} задача определения положения и ориентации объекта или группы объектов в пространстве.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
== Области применения ==&lt;br /&gt;
Задача оценки положения движущихся и статичных объектов возникает во множестве прикладных областей. Сейчас происходит подъем популярности разработки устройств и систем, отслеживающих положения объектов окружающего мира и использующих эту информацию для различных целей. Рассмотрим несколько областей:&lt;br /&gt;
&lt;br /&gt;
#'''Транспортные средства с встроенными системами помощи водителю ''' ''(автопилот, круиз контроль и др.)''. Эти системы помогают водителю с парковкой, контролируют скорость и направление движения, а также предупреждают об объектах, находящихся на дороге, о типе дорожного покрытия и возможных авариях.&lt;br /&gt;
#'''Дополненная реальность: '''устройства, в которых в реальное изображение, получаемое с помощью видеокамер, встраивается некоторая информация, полезная человеку.&lt;br /&gt;
#'''Виртуальная реальность: '''оценка положения, как технология, является критически важной для достижения эффекта погружения в виртуальную реальность. В сочетании с отслеживанием ориентации становится возможным измерять и передавать в виртуальную реальность все 6 степеней свободы ([https://en.wikipedia.org/wiki/Six_degrees_of_freedom 6-DoF]) реального мира.&lt;br /&gt;
#'''Робототехника: '''роботы (медицинские, научные, промышленные и др.), которые основывают свое движение на построении карты окружения и препятствий.&lt;br /&gt;
#'''Веб-технологии: '''исследование пользовательского опыта и удобства использования продукта. Можно [[Отслеживание_направления_взгляда_пользователя_в_браузере|отслеживать взгляд пользователя]], чтобы понимать какие блоки сайта привлекают наибольшее внимание.&lt;br /&gt;
&lt;br /&gt;
== Методы решения задачи оценки положения ==&lt;br /&gt;
=== Акустические методы===&lt;br /&gt;
&lt;br /&gt;
Акустические приборы слежения используют ультразвуковые (высокочастотные) звуковые волны для измерения положения и ориентации целевого объекта в пространстве. Для определения положения объекта либо измеряется время пролёта ([https://en.wikipedia.org/wiki/Time_of_arrival time-of-arrival]) звуковой волны от передатчика к приёмникам, либо разность фаз синусоидальной звуковой волны при приёмо-передаче. Алгоритмы отслеживания положения при использовании акустических приборов основаны на [https://en.wikipedia.org/wiki/True_range_multilateration трилатерации] и расчете [https://en.wikipedia.org/wiki/Angle_of_arrival угла прибытия]. При использовании данных методов разработчики сталкиваются с некоторыми проблемами: акустические трекеры, как правило, имеют низкую скорость обновления, связанную с низкой скоростью звука в воздухе, которая зависит от внешних факторов среды, таких как температура, давление и влажность.&lt;br /&gt;
&lt;br /&gt;
=== Радиочастотные методы ===&lt;br /&gt;
&lt;br /&gt;
Методов, основанных на радиочастотах, достаточно много.&lt;br /&gt;
#'''Позиционированиe с использованием пассивных радиочастотных идентификаторов [https://ru.wikipedia.org/wiki/RFID#Антиколлизионный_механизм_(меток) RFID]''' &amp;lt;br/&amp;gt; Основное назначение систем с пассивными RFID метками {{---}} идентификация. Они применяются в системах, традиционно использовавших штрих-коды или магнитные карточки: в системах распознавания товаров и грузов, опознания людей, в системах контроля и управления доступом (СКУД) и т.п. Система включает RFID метки с уникальными кодами и считыватели и работает следующим образом. Считыватель непрерывно генерирует радиоизлучение заданной частоты. ЧИП метки, попадая в зону действия считывателя, использует это излучение в качестве источника электропитания и передает на считыватель идентификационный код. Радиус действия считывателя составляет около метра.&lt;br /&gt;
#'''Позиционирование с использованием активных RFID ''' &amp;lt;br/&amp;gt;Активные радиочастотные метки используются при необходимости отслеживания предметов на относительно больших расстояниях (например, на территории сортировочной площадки). Рабочие частоты активных RFID меток {{---}} 455МГц, 2.4ГГц или 5.8ГГц, а радиус действия {{---}} до ста метров. Питаются активные метки от встроенного аккумулятора. Существуют активные метки двух типов: [https://ru.wikipedia.org/wiki/Транспондер транспондеры] и [https://ru.wikipedia.org/wiki/Маркерный_радиомаяк радиомаяки]. Транспондеры включаются, получая сигнал считывателя. Они применяются в АС оплаты проезда, на КПП, въездных порталах и других подобных системах. Радиомаяки используются в системах позиционирования реального времени. Радиомаяк отправляет пакеты с уникальным идентификационным кодом по команде либо с заданной периодичностью. Пакеты принимаются как минимум тремя приемниками, расположенными по периметру контролируемой зоны. Расстояние от маячка до приемников с фиксированными координатами определяются по углу направления на маячок [https://en.wikipedia.org/wiki/Angle_of_arrival  Angle of arrival] (AoA), по времени прихода сигнала [https://en.wikipedia.org/wiki/Time_of_arrival Time of arrival] (ToA) или по времени распространения сигнала от маячка до приемника [https://en.wikipedia.org/wiki/Time_of_flight Time of flight] (ToF). Инфраструктура системы строится на базе проводной сети и в двух последних случаях требует синхронизации.&lt;br /&gt;
#''' Ultra Wideband (UWB) позиционирование '''&amp;lt;br/&amp;gt; Технология UWB (сверхширокополосная) использует короткие импульсы с максимальной полосой пропускания при минимальной центральной частоте. У большинства производителей центральная частота составляет несколько гигагерц, а относительная ширина полосы {{---}} 25-100%. Технология используется в связи, радиолокации, измерении расстояний и позиционировании. Это обеспечивается передачей коротких импульсов, широкополосных по своей природе. Идеальный импульс (волна конечной амплитуды и бесконечно малой длительности), как показывает [https://ru.wikipedia.org/wiki/Анализ_Фурье анализ Фурье], обеспечивает бесконечную полосу пропускания. UWB сигнал не походит на модулированные синусоидальные волны, а напоминает серию импульсов. Производители предлагают разные варианты UWB технологии. Различаются формы импульсов. В некоторых случаях используются относительно мощные одиночные импульсы, в других {{---}} сотни миллионов маломощных импульсов в секунду. Применяется как когерентная (последовательная) обработка сигнала, так и не когерентная. Все это приводит к значительному различию характеристик UWB систем разных производителей.&lt;br /&gt;
&lt;br /&gt;
=== Магнитные методы ===&lt;br /&gt;
Магнитные методы основаны на измерении интенсивности магнитного поля в различных направлениях. Как правило, в таких системах есть [https://ru.wikipedia.org/wiki/Базовая_станция базовая станция], которая генерирует переменный или постоянный ток. Так как сила магнитного поля уменьшается с увеличением расстояния между точкой измерения и базовой станцией, можно определить местоположение контроллера, зная силу магнитного поля. Если точка измерения вращается, то распределение магнитного поля изменяется по различным осям, что позволяет определить ориентацию. Наиболее известными продуктами на основе магнитного трекинга являются [https://ru.wikipedia.org/wiki/Виртуальная_реальность VR] контроллер [https://ru.wikipedia.org/wiki/Hydra_(контроллер) Razer Hydra] и система [https://www.sixense.com/platform/hardware/ STEM] от компании Sixense. Точность данного метода может быть достаточна высока в контролируемых условиях (в спецификациях Hydra говорится о 1 мм позиционной точности и 1 градусе точности ориентации), однако магнитное отслеживание подвержено помехам от токопроводящих материалов вблизи излучателя или датчика, от магнитных полей, создаваемых другими электронными устройствами и ферромагнитных материалов в пространстве отслеживания.&lt;br /&gt;
&lt;br /&gt;
=== Оптические методы ===&lt;br /&gt;
Оптические методы представляют собой совокупность алгоритмов [http://neerc.ifmo.ru/wiki/index.php?title=Компьютерное_зрение компьютерного зрения] и отслеживающих устройств, в роли которых выступают камеры видимого или инфракрасного диапазона, стерео-камеры и камеры глубины. Оптический трекинг основан на том же принципе, что и стереоскопическое зрениe человека. Когда человек смотрит на объект с помощью бинокулярного зрения, он в состоянии определить, приблизительно на каком расстоянии объект находится. Не достаточно просто установить несколько камер для имитации стереоскопического зрения человека. Камеры должны определить расстояние до объекта и его положения в пространстве, так что их необходимо откалибровать. [https://ru.wikipedia.org/wiki/Оптическая_система Оптические системы] надежны и относительно дешевы, но с ними трудно провести начальную калибровку. Кроме того, система требует прямой линии света, в противном случае мы получаем неправильные данные. &lt;br /&gt;
В зависимости от наличия специальных оптических маркеров выделяют отдельно:&lt;br /&gt;
*'''Безмаркерный трекинг: '''как правило строится на сложных алгоритмах с использованием двух и более камер, либо стерео-камер с сенсорами глубины. Используется наибольшим образом в автомобилях с автопилотом и иными системами помощи водителю.&lt;br /&gt;
*'''Трекинг с использованием маркеров:''' предполагает заранее заданную модель объекта, которую можно отслеживать даже с одной камерой. Маркерами обычно служат источники инфракрасного излучения (как активные, так и пассивные), а также видимые маркеры наподобие [https://ru.wikipedia.org/wiki/QR-код QR]-кодов. Такой вид трекинга возможен только в пределах прямой видимости маркера.&lt;br /&gt;
&lt;br /&gt;
=== Задача Perspective-n-Point (PnP) ===&lt;br /&gt;
При оптическом отслеживании для определения положения объекта в пространстве решается так называемая задача PnP (Perspective-n-Point), когда по перспективной проекции объекта на плоскость сенсора камеры необходимо определить положение объекта в 3D-пространстве.&lt;br /&gt;
&lt;br /&gt;
Для заданной 3D-модели объекта и 2D-проекции объекта на плоскость камеры решается система уравнений. В результате чего получается множество возможных решений. Количество решений зависит от числа точек в 3D-модели объекта. Однозначное решение для определения 6-DoF положения объекта можно получить как минимум при 4 точках. Для треугольника получается от 2 до 4 возможных решений, то есть положение не может быть определено однозначно. &lt;br /&gt;
&lt;br /&gt;
&amp;lt;div style=&amp;quot;text-align: center&amp;quot;&amp;gt;&amp;lt;ul&amp;gt; &lt;br /&gt;
&amp;lt;li style=&amp;quot;display: inline-block;&amp;quot;&amp;gt; [[Файл:Pnp.gif |400px|thumb|center| Рис. 1 Задача (PnP)]] &amp;lt;/li&amp;gt;&lt;br /&gt;
&amp;lt;li style=&amp;quot;display: inline-block;&amp;quot;&amp;gt; [[Файл:triangles.gif |400px|thumb|center| Рис. 2 Решение &amp;quot;треугольников&amp;quot;]] &amp;lt;/li&amp;gt;&lt;br /&gt;
&amp;lt;/ul&amp;gt;&amp;lt;/div&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Решение предлагается достаточно большим количеством алгоритмов, реализованных в виде библиотек:&lt;br /&gt;
#'''[http://sv-journal.org/2015-4/09/index.php?lang=ru POS]''' ''(Pose from Orthography and Scaling)'', аппроксимирующий перспективную проекцию с помощью масштабированной ортогональной проекции и находящий матрицу поворота и вектор сдвига объекта путём решения линейной системы уравнений.&lt;br /&gt;
#'''[https://github.com/opencv/opencv/wiki/Posit POSIT]''' ''(POS with ITerations)'', который использует в цикле аппроксимацию нахождения положения POS для нахождения более хорошей масштабированной ортогональной проекции особых точек, а затем применяет POS к этим точкам, а не к исходным. POSIT сходится к точному решению за несколько итераций.&lt;br /&gt;
#'''[https://opencv.org/ OpenCV]''' {{---}} библиотека компьютерного зрения широкого назначения с открытым исходным кодом. Основные части библиотеки {{---}} интерпретация изображений и алгоритмы машинного обучения. Список возможностей, предоставляемых OpenCV, весьма обширен: интерпретация изображений, калибровка камеры по эталону, устранение оптических искажений, анализ перемещения объекта, определение формы объекта и слежение за объектом, сегментация объекта и др. Нам же интереcен метод [https://docs.opencv.org/3.1.0/d9/d0c/group__calib3d.html#ga549c2075fac14829ff4a58bc931c033d solvePnP].&lt;br /&gt;
&lt;br /&gt;
=== SLAM&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/SLAM_(%D0%BC%D0%B5%D1%82%D0%BE%D0%B4) simultaneous localization and mapping ]&amp;lt;/ref&amp;gt; {{---}} Simultaneous Localization and Mapping ===&lt;br /&gt;
 Метод одновременной локализации и построения карты (SLAM) {{---}} наиболее популярный способ позиционирования, который применяется для отслеживания положения в пространстве.[[Файл:Slam.png |400px|thumb| right| Рис. 3 Метод SLAM]]&lt;br /&gt;
Алгоритм состоит из двух частей: первая {{---}} составление карты неизвестного окружающего пространства на основе измерений (данные с [https://ru.wikipedia.org/wiki/Одометр одометра] или [https://ru.wikipedia.org/wiki/Стереоскопический_фотоаппарат стерео-камеры]), вторая {{---}} определение своего местоположения (локализация) в пространстве на основе сравнения текущих измерений с имеющейся картой пространства. Данный цикл непрерывно перевычисляется, при этом результаты одного процесса участвуют в вычислениях другого процесса. Наиболее популярные методы решения задачи включают в себя фильтр частиц и расширенный [https://ru.wikipedia.org/wiki/Фильтр_Калмана фильтр Калмана]. SLAM удобен для мобильных решений виртуальной и дополненной реальности. Недостатком данного подхода является большая вычислительная сложность.&lt;br /&gt;
&lt;br /&gt;
=== Инерциальный трекинг ===&lt;br /&gt;
Современные инерциальные измерительные системы ([https://en.wikipedia.org/wiki/Inertial_measurement_unit IMU]) на основе [https://ru.wikipedia.org/wiki/Микроэлектромеханические_системы MEMS-технологии] позволяют отслеживать ориентацию (roll, pitch, yaw) в пространстве с большой точностью и минимальными задержками.[[Файл:gyro.gif |400px|thumb| right| Рис. 4 MEMS]]&lt;br /&gt;
Благодаря алгоритмам [https://en.wikipedia.org/wiki/Sensor_fusion «sensor fusion»] на основе [https://robotclass.ru/articles/complementary-filter комплементарного фильтра] или фильтра Калмана данные с гироскопа и акселерометра успешно корректируют друг друга и обеспечивают точность как для кратковременных измерений, так и для длительного периода. Однако определение координат (перемещения) за счёт двойного интегрирования линейного ускорения ([https://en.wikipedia.org/wiki/Dead_reckoning dead reckoning]), вычисленного из сырых данных с [https://ru.wikipedia.org/wiki/Акселерометр акселерометра], не удовлетворяет требованиям по точности на длительных периодах времени. Акселерометр сам по себе даёт сильно зашумленные данные, и при интегрировании ошибка увеличивается со временем квадратично.&lt;br /&gt;
Решить данную проблему помогает комбинирование инерциального подхода к трекингу с другими методами, которые периодически корректируют так называемый дрифт акселерометра.&lt;br /&gt;
&lt;br /&gt;
=== Гибридные методы ===&lt;br /&gt;
Так как ни один из методов не является безупречным, и все они имеют свои слабые места, наиболее разумно комбинировать различные методы отслеживания. Так инерциальный трекинг (IMU) может обеспечить высокую частоту обновления данных (до 1000 Гц), в то время как оптические методы могут дать стабильную точность в длительные периоды времени (корректирование дрифта).&lt;br /&gt;
&lt;br /&gt;
== Оценка положения человека ==&lt;br /&gt;
&lt;br /&gt;
[[Файл:Deformable.png|600px|thumb|right|Рис. 5 Изобразительные структуры в классическом подходе решения задачи оценки положения человека.]]&lt;br /&gt;
&lt;br /&gt;
[[Оценка положения человека|Оценка положения человека (англ. ''Human Pose Estimation'')]] {{---}} одна из важных задач последних нескольких десятилетий в области компьютерного зрения, которая является необходимым шагом к распознаванию людей на изображениях и видео. Задачу разбивают на 2 категории: &lt;br /&gt;
&lt;br /&gt;
* Оценка положения в плоскости (англ. ''2D Human Pose Estimation'') {{---}} определение расположения отдельных частей тела и суставов человека (англ. ''keypoints/body joints'') на изображении.&lt;br /&gt;
* Оценка положения в пространстве (англ. ''3D Human Pose Estimation'') {{---}} предсказание пространственного расположения тела человека.&lt;br /&gt;
&lt;br /&gt;
Оценку положения человека использует множество областей. В частности, распознавание жестов, упрощение анимации персонажей, в разработке игр, и другое.&lt;br /&gt;
&lt;br /&gt;
Существуют различные подходы к решению данной задачи. Классический подход {{---}} использование изобразительных структур (англ. ''pictoral structures''). Основная идея заключается в том, чтобы представить объект в виде набора &amp;quot;частей&amp;quot;, соединенных пружинами (Рис. 5). Каждая &amp;quot;часть&amp;quot; является деталью внешности(нога, рука, глаз и др.), соответствующим изображению. Когда части параметризованы расположением пикселей и ориентацией, полученная структура может моделировать &amp;quot;каркас&amp;quot; в положении человека. Однако этот подход ограничен количеством таких заранее построенных блочных структур, ведь они не зависят от входного изображения. Проводившиеся исследования были сосредоточены на обогащении репрезентативной силы этого метода, однако существуют более удачные подходы. Альтернативный подход {{---}} использование [[Сверточные нейронные сети|сверточных нейронных сетей (англ. ''Convolutional Neural Network, CNN'')]] и [[Глубокое обучение|глубокого обучения (англ. ''Deep learning'')]]. Большинство последних систем оценки положения человека используют именно этот подход, в значительной степени заменяя созданные вручную функции и графические модели. Использование машинного обучения значительно улучшило результаты.&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Отслеживание направления взгляда пользователя в браузере]]&lt;br /&gt;
*[[Сегментация изображений]]&lt;br /&gt;
*[[Вписывание части изображения]]&lt;br /&gt;
*[[Глубокое обучение]]&lt;br /&gt;
*[[Сверточные нейронные сети]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
== Источники информации==&lt;br /&gt;
&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/RFID#Антиколлизионный_механизм_(меток) Радиочастотная идентификация.]&lt;br /&gt;
* [https://ru.qwe.wiki/wiki/Augmented_reality Дополненная реальность.]&lt;br /&gt;
* [https://ru.qwe.wiki/wiki/Positional_tracking Positional tracking.]&lt;br /&gt;
* [http://docs.cntd.ru/document/gost-r-54621-2011 ГОСТ Р 54621-2011. Информационные технологии. Радиочастотная идентификация для управления предметами.]&lt;br /&gt;
* [https://habr.com/ru/post/482220/ Локализация по Aruco маркерам]&lt;br /&gt;
* [https://habr.com/ru/post/397757/ Обзор методов и технологий отслеживания положения для виртуальной реальности.]&lt;br /&gt;
* [https://nanonets.com/blog/object-tracking-deepsort/ DeepSORT: Deep Learning to Track Custom Objects in a Video.]&lt;br /&gt;
* [https://nanonets.com/blog/human-pose-estimation-2d-guide/ Оценка положения человека.]&lt;br /&gt;
&lt;br /&gt;
{{В разработке}}&lt;br /&gt;
&lt;br /&gt;
[[Категория:Компьютерное зрение]]&lt;br /&gt;
[[Категория:Оценка положения]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0_%D0%BD%D0%B0_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76869</id>
		<title>Распознавание текста на изображении</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B0%D1%81%D0%BF%D0%BE%D0%B7%D0%BD%D0%B0%D0%B2%D0%B0%D0%BD%D0%B8%D0%B5_%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%B0_%D0%BD%D0%B0_%D0%B8%D0%B7%D0%BE%D0%B1%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76869"/>
				<updated>2021-01-08T21:06:41Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: Глубокое обучение&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{В разработке}}&lt;br /&gt;
&lt;br /&gt;
'''Распознавание текста на изображениях''' (оптическое распознавание символов (англ. optical character recognition, OCR&amp;lt;ref&amp;gt;https://en.wikipedia.org/wiki/Optical_character_recognition&amp;lt;/ref&amp;gt;)) {{---}} одно из направлений распознавания образов, задача которого заключается в переводе изображений рукописного, машинописного или печатного текста в текстовые данные, использующиеся для представления символов в компьютере (например, в текстовом редакторе).&lt;br /&gt;
&lt;br /&gt;
== Общая информация ==&lt;br /&gt;
Распознавание текста на изображениях является важной задачей машинного обучения, так как это позволяет удобное взаимодействие с данными: редактирование, анализ, поиск слов или фраз и т.д.&lt;br /&gt;
&lt;br /&gt;
В последние десятилетия, благодаря использованию современных достижений компьютерных технологий, были развиты новые методы обработки изображений и распознавания образов, благодаря чему стало возможным создание таких промышленных систем распознавания печатного текста, как, например, FineReader&amp;lt;ref&amp;gt;https://www.abbyy.com/ru/finereader/&amp;lt;/ref&amp;gt;, которые удовлетворяют основным требованиям систем автоматизации документооборота.&lt;br /&gt;
&lt;br /&gt;
Тем не менее, создание каждого нового приложения в данной области по-прежнему остается творческой задачей и требует дополнительных исследований в связи со специфическими требованиями по разрешению, быстродействию, надежности распознавания и объему памяти, которыми характеризуется каждая конкретная задача.&lt;br /&gt;
&lt;br /&gt;
== История ==&lt;br /&gt;
&lt;br /&gt;
Разработка OCR-систем берет начало из  технологий, связанных с  телеграфией и созданием считывающих устройств для слепых. В 1914 году Эммануэль Гольдберг разработал устройство, которое считывало символы и преобразовывало их в стандартный телеграфный код. Одновременно Эдмунд Фурнье д'Альбе разработал «Оптофон», ручной сканер, который, при перемещении по напечатанной странице, вырабатывал тональные сигналы, соответствующие определенным буквам или символам.&lt;br /&gt;
&lt;br /&gt;
В 1974 году Рэй Курцвейл создал компанию «Kurzweil Computer Products, Inc» и начал работать над развитием первой системы оптического распознавания символов, способной распознавать текст, напечатанный любым шрифтом. Курцвейл считал, что лучшее применение этой технологии {{---}} создание машины чтения для слепых, которая позволила бы слепым людям иметь компьютер, умеющий читать текст вслух. Данное устройство требовало изобретения сразу двух технологий {{---}} ПЗС (прибор с зарядовой связью&amp;lt;ref&amp;gt;https://ru.wikipedia.org/wiki/ПЗС&amp;lt;/ref&amp;gt;) планшетного сканера и синтезатора, преобразующего текст в речь.&lt;br /&gt;
&lt;br /&gt;
Первой коммерчески успешной программой, распознающей кириллицу, стала программа «AutoR» российской компании «ОКРУС». Алгоритм «AutoR» был компактный, быстрый и в полной мере «интеллектуальный», то есть по-настоящему шрифтонезависимый. Этот алгоритм разработали и испытали ещё в конце 60-х два молодых биофизика, выпускники МФТИ {{---}} Г. М. Зенкин и А. П. Петров. В настоящее время алгоритм Зенкина-Петрова применяется в нескольких прикладных системах, решающих задачу распознавания графических символов. &lt;br /&gt;
&lt;br /&gt;
В 1993 году вышла технология распознавания текстов российской компании ABBYY. На её основе создан ряд корпоративных решений и программ для массовых пользователей. Технологии распознавания текстов ABBYY OCR лицензируют международные ИТ-компании, такие как Fujitsu, Panasonic, Xerox, Samsung, EMC и другие.&lt;br /&gt;
&lt;br /&gt;
В 2000-х годах производительность и компактность OCR-системы позволила представить на рынок онлайн-сервисы по переводу текста с одного языка на другой. Со временем  такие программы получили возможность обрабатывать изображения как печатного, так и рукописного текста.&lt;br /&gt;
&lt;br /&gt;
С развитием технологий производства мобильных устройств и упрощения процесса разработки мобильных приложений, OCR-системы стали неотъемлемой частью разнообразных программ: от развлекательных до обучающих, от мобильных помощников до систем управления.&lt;br /&gt;
&lt;br /&gt;
== Применение систем распознавания текстов ==&lt;br /&gt;
&lt;br /&gt;
Системы OCR применяются во многих областях. Вот некоторые из задач, которые решают системы распознавания текстов:&lt;br /&gt;
* Считывание данных с бланков и анкет;&lt;br /&gt;
* Автоматическое распознавание номерного знака;&lt;br /&gt;
* Распознавание паспортных данных;&lt;br /&gt;
* Извлечение информации из визитных карточек в список контактов;&lt;br /&gt;
* Создание цифровых версий печатных и рукописных документов, например, сканирование книг для проекта &amp;quot;Гутенберг&amp;quot;&amp;lt;ref&amp;gt;https://ru.wikipedia.org/wiki/Проект_«Гутенберг»&amp;lt;/ref&amp;gt;;&lt;br /&gt;
* Технология для помощи слепым и слабовидящим;&lt;br /&gt;
&lt;br /&gt;
== Наиболее распространенные задачи OCR ==&lt;br /&gt;
С задачей распознавания символов связаны следующие проблемы:&lt;br /&gt;
* Разнообразие форм начертания символов: документ может содержать несколько шрифтов сразу: как распространенных, так и нестандартных;&lt;br /&gt;
$\;\;\;\;\;\,$символы могут быть схожи по начертанию (например, “G” и “6”, “S” и “5”, “U” и “V” и тд.);&lt;br /&gt;
* Искажение изображения, содержащего текст:&lt;br /&gt;
** Шумы при печати;&lt;br /&gt;
** Плохое качество изображения (засвеченность, размытость);&lt;br /&gt;
* Вариации размеров, масштаба и положения символов на странице;&lt;br /&gt;
* Влияние исходного масштаба печати: система оптического распознавания текста должна быть нечувствительной (устойчивой)&lt;br /&gt;
$\;\;\;\;\;\,$по отношению к способу верстки, расстоянию между строками и другим параметрам печати.&lt;br /&gt;
&lt;br /&gt;
== Процесс распознавания текста ==&lt;br /&gt;
[[Файл:Процесс_распознавания_текста.jpg|thumb|400px|Процесс распознавания текста]]&lt;br /&gt;
&lt;br /&gt;
Система распознавания текста предполагает наличие на входе изображения с текстом (в формате данных графического файла). На выходе система должна выдать  текст,  выделенный из входных данных. Весь процесс распознавания текста состоит из нескольких задач.&lt;br /&gt;
&lt;br /&gt;
=== Обработка изображения ===&lt;br /&gt;
&lt;br /&gt;
Перед началом распознавания текста изображение должно быть очищено от шума и приведено к виду, позволяющему эффективно выделять символы и распознавать их. Обычно у изображения повышают резкость, контрастность, выравнивают его и преобразовывают в используемый системой формат (например, 8-битное изображение в градациях серого).&lt;br /&gt;
&lt;br /&gt;
=== Распознавание символов ===&lt;br /&gt;
''' ДОБАВИТЬ ОБЩИЕ СЛОВА '''&lt;br /&gt;
&lt;br /&gt;
== Алгоритмы распознавания символов ==&lt;br /&gt;
=== Распознавание при помощи метрик ===&lt;br /&gt;
&lt;br /&gt;
Этой способ лучше всего работает с машинописным текстом, но при обработке новых шрифтов точность распознавания падает. &lt;br /&gt;
Метрика по сути является признаком символа, поэтому иногда в контексте данного способа говорят о процессе выявления признаков.&lt;br /&gt;
В качестве метрики используют [[Расстояние Хэмминга| расстояние Хэмминга]], которое показывает, на сколько пикселей различаются изображения.&lt;br /&gt;
Если  признаки двух символов максимально похожи, то разность между их метриками (то есть расстояние между ними) стремится к нулю. Дальнейшая классификация символа происходит по [[Метрический классификатор и метод ближайших соседей|методу ближайшего соседа]] &lt;br /&gt;
&lt;br /&gt;
Однако одной метрики недостаточно для распознавания символа, так как некоторые символы очень похожи между собой (например, “j” и “i”, “Z” и “2”) и это может привести к ошибке. Чтобы избежать этого, есть несколько способов:&lt;br /&gt;
* группировка символов&lt;br /&gt;
Например, некоторые символы (“O”, “H”, “I”) обладают суперсимметрией (полностью совпадают со своими отражениями и значимые пиксели распределены равномерно по всему изображению) и их можно выделить в отдельный класс. Это сокращает перебор метрик в несколько раз.&lt;br /&gt;
* контекстное распознавание&lt;br /&gt;
В качестве помощи алгоритмам распознавания в систему включают словари. Словари предоставляют справки во многих случаях, но быстро отказывают, когда, например, имеют дело с именами собственными, которые не находятся в словаре.&lt;br /&gt;
&lt;br /&gt;
=== Распознавание с применением нейронных сетей ===&lt;br /&gt;
 [[Файл:Нейронная_сеть_для_распознавания_символов.png|thumb|800px|Сверточная нейронная сеть для распознавания символа]]&lt;br /&gt;
[[Нейронные сети, перцептрон|Нейронные сети]]  – это структура связанных элементов, на которых заданы функции преобразования сигнала, а также коэффициенты, которые могут быть настроены на определенный характер работы. &lt;br /&gt;
&lt;br /&gt;
Часть элементов структуры выделены как входные: на них поступают сигналы извне, таким образом, они описывают значения пикселя изображения. То есть, если имеется изображение 16х16, входов у сети должно быть 256. Другая часть – выходные: они формируют результирующие сигналы. &lt;br /&gt;
&lt;br /&gt;
Сигнал, который проходит через нейронную сеть, преобразуется согласно формулам на элементах сети, и на выходе формируется ответ. Так как все нейроны поименованы значениями букв, следовательно, среагировавший нейрон и несет ответ распознавания. &lt;br /&gt;
&lt;br /&gt;
Нейронная сеть может служить в системе распознавания текста в качестве классификатора. Этот классификатор сначала обучают, настраивая коэффициенты на элементах сети. При обучении сеть получает на вход изображения, анализирует все позиции черных пикселей и выравнивает коэффициенты, минимизируя ошибку. Таким образом, достигается лучший результат распознавания. &lt;br /&gt;
&lt;br /&gt;
'''Пример нейронной сети''' &lt;br /&gt;
[[Файл:Пример нейронной сети для распознавания символов.jpg|thumb|800px| Пример нейронной сети для распознавания символов]]&lt;br /&gt;
&lt;br /&gt;
На картинке в качестве примера схематически показана нейронная сеть, которая включает в себя 35 входов (каждый символ {{---}} матрица 7x5, соответственно, вектор, описывающий матрицу, состоит из 35 элементов) и 26 выходов (количество букв). Данная НС является двухслойной сетью. [[Практики реализации нейронных сетей#Функции активации|Функцией активации]]  поставим логарифмическую сигмоидную функцию, которую удобно использовать, потому что выходные векторы содержат элементы со значениями в диапазоне от 0 до 1, что потом удобно перевести в булеву алгебру. На скрытый уровень выделим 10 нейронов (это число можно регулировать).&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
&amp;lt;br&amp;gt;&lt;br /&gt;
'''Пример на синтаксисе скриптового языка MATLAB'''&lt;br /&gt;
    S1 = 10; ''% количество нейронов на скрытом слое''&lt;br /&gt;
    [S2,Q] = size(targets); ''% количество нейронов на втором слое (количество выходов сети)''&lt;br /&gt;
    P = alphabet; ''% входная матрица, содержащая информацию о буквах''&lt;br /&gt;
    ''% создаем новую сеть с использованием диалогового окна''&lt;br /&gt;
    net = newff(minmax(P), ''% матрица минимальных и максимальных значений строк входной матрицы''&lt;br /&gt;
            [S1 S2], ''% количество нейронов на слоях''&lt;br /&gt;
            {’logsig’ ’logsig’}, ''% функция активации''&lt;br /&gt;
            ’traingdx’ ''% алгоритм подстройки весов и смещений (обучающий алгоритм)''&lt;br /&gt;
        );&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Недостатки нейронных сетей''' &lt;br /&gt;
&lt;br /&gt;
Нейронные сети с успехом могут применяться в системах распознавания текста, но существует большое число недостатков, которые препятствуют их широкому применению. &lt;br /&gt;
* Затраты {{---}} для построения сети, обеспечивающей распознавание каждого символа текста, необходимо построить достаточно большую сеть элементов, что приводит к большим затратам памяти. &lt;br /&gt;
* Затраты ресурсов системы {{---}} помимо памяти, еще сильнее тратятся ресурсы системы в процессе распознавания, так как функции на элементах сети работают с числами с плавающей точкой. &lt;br /&gt;
* Необходимость в обучение {{---}} для достижения более точного результата нейронную сеть необходимо обучать на все случаи, однако и это не гарантирует 100% результат.&lt;br /&gt;
* Зависимость от конфигураций сети {{---}} так как работа нейронной сети по распознаванию текста во многом зависит от конфигурации сети и функций, заданных в элементах, требуется больше усилий для построения эффективно работающей сети.&lt;br /&gt;
&lt;br /&gt;
== См. также ==&lt;br /&gt;
*[[Задача нахождения объектов на изображении]]&lt;br /&gt;
*[[Сверточные нейронные сети]]&lt;br /&gt;
*[[Глубокое обучение]]&lt;br /&gt;
&lt;br /&gt;
== Источники информации ==&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%93%D0%B5%D0%BD%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D1%8F_%D0%BE%D0%B1%D1%8A%D0%B5%D0%BA%D1%82%D0%BE%D0%B2&amp;diff=76781</id>
		<title>Генерация объектов</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%93%D0%B5%D0%BD%D0%B5%D1%80%D0%B0%D1%86%D0%B8%D1%8F_%D0%BE%D0%B1%D1%8A%D0%B5%D0%BA%D1%82%D0%BE%D0%B2&amp;diff=76781"/>
				<updated>2021-01-08T08:28:34Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{В разработке}}&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Задача генерации объектов''' (англ. ''object generation problem'') {{---}} задача, связанная с машинным обучением, заключающаяся в создании новых правдоподобных объектов на основании заданной выборки.&lt;br /&gt;
Полученные объекты могут как быть использованы независимо для прикладных целей (в таком случае, это чаще всего изображения), так и для устранения несбалансированности классов (''оверсэмплинг'') и дальнейшей обработки данных (обычно ''классификации''). В зависимости от того, для какой из этих целей используется генерация объектов, постановка задачи и методы её решения несколько отличаются.&lt;br /&gt;
&lt;br /&gt;
== Генерация объектов для прикладных целей ==&lt;br /&gt;
&lt;br /&gt;
=== Применение ===&lt;br /&gt;
&lt;br /&gt;
==== Изображения ====&lt;br /&gt;
&lt;br /&gt;
===== В искусстве и рекламе =====&lt;br /&gt;
При генерации объектов основная задача обычно состоит в том, чтобы научиться создавать изображения, которые человек не может отличить от изображений, полученных иных путём. Такие изображения могут использоваться, среди прочего, для более дешёвого создания модельных снимков, обложек или пейзажей. Одним из ярких примеров такого использования является создание фотографий вымышленных людей для рекламы в расчёте на то, что люди будут больше ассоциировать себя с образом, не представляющим кого-либо конкретного, но сочетающим в себе те черты, которые есть у них самих. А модель [[Generative Adversarial Nets (GAN) | GAN]] под названием Speech2Face может реконструировать изображение лица человека после прослушивания его голоса.&lt;br /&gt;
&lt;br /&gt;
===== В науке =====&lt;br /&gt;
&lt;br /&gt;
Генерация объектов может улучшать астрономические изображения и использоваться при моделировании дорогостоящих для изучения физических процессов. Так, в 2019 году при помощи [[Generative Adversarial Nets (GAN) | состязательных сетей]] были успешно смоделированы распределения темной материи в определенном направлении в пространстве и составлены предсказания гравитационного линзирования.&lt;br /&gt;
&lt;br /&gt;
GAN также может использоваться для обнаружения глаукомных изображений, помогая ранней диагностике, которая необходима для предотвращения частичной или полной потери зрения.&amp;lt;ref&amp;gt;[https://www.sciencedirect.com/science/article/abs/pii/S1568494620301058?via%3Dihub Статья про обнаружение глаукомных изображений]&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==== Музыка и звуки ====&lt;br /&gt;
&lt;br /&gt;
В Google активно используется модель [https://en.wikipedia.org/wiki/WaveNet WaveNet] которая способна генерировать речь, похожую на голос любого человека, и другие звуки, включая музыку (например, композиции на пианино) &amp;lt;ref&amp;gt;[https://habr.com/ru/company/Voximplant/blog/309648/ Google WaveNet]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
&amp;lt;!---&lt;br /&gt;
&lt;br /&gt;
Генерировать можно документы и тексты. Например, существу&lt;br /&gt;
&lt;br /&gt;
--&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==== Анимация и игры ====&lt;br /&gt;
&lt;br /&gt;
Еще генерация объектов может использоваться при воссоздании текстур старых игр в лучшем расширении (пример игры, для которой был использован такой метод – [https://ru.wikipedia.org/wiki/Resident_Evil Resident Evil] ).&lt;br /&gt;
[[File:propal_chelovek.jpg|thumb|Пример сгенерированного изображения]]&lt;br /&gt;
&lt;br /&gt;
=== Используемые модели ===&lt;br /&gt;
&lt;br /&gt;
Для достижения данной цели обычно используются [[Порождающие модели | порождающие модели]]. В таком варианте в качестве задачи ставится восстановление совместного распределения &amp;lt;tex&amp;gt;p(x,y)&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;y&amp;lt;/tex&amp;gt; — это один бит, отвечающий за отдельный признак (то есть тот класс, к которому должна принадлежать созданный объект; например, фотография человека), а &amp;lt;tex&amp;gt;x&amp;lt;/tex&amp;gt; — это весь объект (фотография).&lt;br /&gt;
Чаще всего порождаемый объект &amp;lt;tex&amp;gt;X&amp;lt;/tex&amp;gt; представляет собой набор элементов &amp;lt;tex&amp;gt;X = \{x_i\}&amp;lt;/tex&amp;gt;, что позволяет порождать объект по частям. Для изображения, например, такими частями будут являться пиксели. Таким образом, при порождении следующих частей объекта мы можем опираться на уже созданные, и тогда перед нами встаёт задача максимизация функции правдоподобия: для набора данных &amp;lt;tex&amp;gt;X = \{x_i\}&amp;lt;/tex&amp;gt; максимизировать &amp;lt;tex&amp;gt;\displaystyle \prod_i p_{\operatorname{model}}(x_i,\theta)&amp;lt;/tex&amp;gt; по параметрам модели θ, т.е. найти &amp;lt;math&amp;gt;\theta^* = \underset{\theta}{\operatorname{argmax}} \displaystyle \prod_i p_{\operatorname{model}}(x_i,\theta)&amp;lt;/math&amp;gt;. Эта задача относится к классу задач обучения без учителя или с частичным привлечением учителя. При её решении либо работают с явными распределениями, сводя распределение &amp;lt;tex&amp;gt;p(x,y)&amp;lt;/tex&amp;gt; к произведению распределений определённой структуры, либо используют неявные модели, которые не восстанавливают всю функцию плотности, а только моделируют ту часть этой функции, которая нужна непосредственно. Стоит отметить, что простые порождающие модели, такие как наивный байесовский классификатор, не показывают достаточное качество результата, чтобы на их основе можно было сгенерировать полноценные мультимедиа объекты. Из класса порождающих моделей при генерации именно изображений особенно хорошо показали себя модели [[Generative Adversarial Nets (GAN) | состязательных сетей]], [[PixelRNN и PixelCNN | PixelRNN и PixelCNN]], а также DRAW (рисуют изображение с помощью сочетания [[Рекуррентные нейронные сети | рекуррентных НС]] и [[Механизм внимания | механизма внимания]]). Также стоит отметить модель [https://en.wikipedia.org/wiki/WaveNet WaveNet], используемую для создания звуковых записей. Эта модель создана в 2016 году, а к 2018 году, после нескольких оптимизаций вычислительной сложности, она нашла применение в Google при создании образцов речи на различных языках.&lt;br /&gt;
&lt;br /&gt;
&amp;lt;!---&lt;br /&gt;
== Оверсэмплинг ==&lt;br /&gt;
&lt;br /&gt;
Основная причина применения расширения выборки за счёт создания объектов – ''дисбаланс'' классов в уже имеющейся выборке. Этот дисбаланс может быть двух типов:&lt;br /&gt;
&amp;lt;ul&amp;gt;&lt;br /&gt;
    &amp;lt;li&amp;gt; Недостаточное представление класса в одной или нескольких ''входных переменных''. Это явление широко распространено в реальных данных и возникает естественным образом, например, при социологических исследованиях. Так, при случайном нестратифицированном опросе программистов-женщин будет опрошено в несколько раз меньше, чем мужчин, так как мужчины больше представлены в данной профессии, что может оказаться важным при установлении связи с такой переменной, как стаж работы.&lt;br /&gt;
    &amp;lt;/li&amp;gt;&lt;br /&gt;
    &amp;lt;li&amp;gt; Недостаточное представление класса в ''выходной переменной''. Это явление так же широко также распространено в реальных данных. Особенно часто этот эффект проявляется в медицине, где процент заболевших обычно много меньше процента здоровых обследуемых. Адекватность оценки предсказания в таких случаях помогает сохранять использование точности, полноты и F-меры.&lt;br /&gt;
    &amp;lt;/li&amp;gt;&lt;br /&gt;
&amp;lt;/ul&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Дисбаланс данных является проблемой потому, что, хотя некоторые аналитические методы (''линейная и логистическая регрессия'') устойчивы к дисбалансу данных, многие другие (например, ''нейронные сети'') уязвимы к нему и снижают качество предсказания. В связи с этим возникает задача балансировки данных, которая может быть решена двумя способами: '''оверсэмплинг''' (генерация новых объектов выборки ''миноритарного'' или менее представленного класса) и '''андерсэмплинг''' (удаление из выборки объектов ''мажоритарного'' или более представленного класса). В рамках данной статьи будет рассмотрен только оверсэмплинг, так как именно он связан с генерацией объектов.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
=== Используемые методы ===&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Случайный оверсэмплинг''' – создание копий нескольких объектов миноритарного класса. Этот метод включает несколько вариаций, так как могут различаться количество копий &amp;lt;tex&amp;gt;(2, 5, 10)&amp;lt;/tex&amp;gt; и более для каждого объекта и доля объектов миноритарного класса, для которой создаются копии. Этот метод – один из самых ранних, для него доказана '''выбросоустойчивость''' (''robustness''). Однако его эффективность часто недостаточна.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''SMOTE''' (''Synthetic Minority Oversampling Technique'') – генерация искусственных примеров, не совпадающих с имеющимися в выборке. Этот алгоритм во многом основан на [[Метрический классификатор и метод ближайших соседей | методе ближайшего соседа]]. Для создания новой записи находят разность &amp;lt;tex&amp;gt;d=X_b–X_a&amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;X_a,X_b&amp;lt;/tex&amp;gt; – векторы признаков «соседних» примеров &amp;lt;tex&amp;gt;a&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;b&amp;lt;/tex&amp;gt; из миноритарного класса (их находят так же, как в методе ''kNN''). В данном случае необходимо и достаточно для примера &amp;lt;tex&amp;gt;b&amp;lt;/tex&amp;gt; получить набор из &amp;lt;tex&amp;gt;k&amp;lt;/tex&amp;gt; соседей, из которого в дальнейшем будет выбрана запись &amp;lt;tex&amp;gt;b&amp;lt;/tex&amp;gt;. Далее из &amp;lt;tex&amp;gt;d&amp;lt;/tex&amp;gt; путем умножения каждого его элемента на случайное число в интервале &amp;lt;tex&amp;gt;(0, 1)&amp;lt;/tex&amp;gt; получают &amp;lt;tex&amp;gt;d&amp;lt;/tex&amp;gt;. Вектор признаков нового примера вычисляется путем сложения &amp;lt;tex&amp;gt;X_a&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;d&amp;lt;/tex&amp;gt;. Алгоритм SMOTE позволяет задавать количество записей, которое необходимо искусственно сгенерировать. Степень сходства примеров &amp;lt;tex&amp;gt;a&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;b&amp;lt;/tex&amp;gt; можно регулировать путем изменения значения &amp;lt;tex&amp;gt;k&amp;lt;/tex&amp;gt; (числа ближайших соседей). Пример работы алгоритма продемонстрирован на рис. 1. &amp;lt;br /&amp;gt;&lt;br /&gt;
[[File:SMOTE_GEN.gif|none|frame|Рис. 1. Пример работы алгоритма SMOTE]]&lt;br /&gt;
&lt;br /&gt;
Данный подход имеет недостаток в том, что «вслепую» увеличивает плотность примерами в области слабо представленного класса. Пример такого увеличения изображён на рис. 2.&amp;lt;br /&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[File:SMOTE_GEN_DISS.gif|none|frame|Рис. 2. Пример неудачного срабатывания SMOTE]]&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''ASMO''' (''Adaptive Synthetic Minority Oversampling'') – алгоритм адаптивного искусственного увеличения числа примеров миноритарного класса, модифицирующий SMOTE. В случае, если миноритарные примеры равномерно распределены среди мажоритарных и имеют низкую плотность, алгоритм SMOTE только сильнее перемешает классы. В качестве решения данной проблемы был предложен алгоритм ASMO. Он применяется, если для каждого &amp;lt;tex&amp;gt;i&amp;lt;/tex&amp;gt;-ого примера миноритарного класса из &amp;lt;tex&amp;gt;k&amp;lt;/tex&amp;gt; ближайших соседей &amp;lt;tex&amp;gt;g (g≤k)&amp;lt;/tex&amp;gt; принадлежит к мажоритарному. В этом случае на основании примеров миноритарного класса выделяется несколько кластеров и для примеров каждого кластера применяют SMOTE.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''ADASYN''' (''Adaptive synthetic sampling'') – семейство методов, являющихся попыткой «адаптации» SMOTE, то есть создания объектов, с которыми на выборке будет показан лучший результат классификации. Такие методы могут: создавать больше данных на миноритарных классах, на которых обучение сложнее; изменять пространство объектов в сторону точек, у которых соседи неоднородны; просто добавлять случайное изменение к генерируемым точкам для создания естественного шума.&lt;br /&gt;
--&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Generative Adversarial Nets (GAN)]]&lt;br /&gt;
*[[Генерация изображения по тексту]]&lt;br /&gt;
*[[Порождающие модели]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
== Источники ==&lt;br /&gt;
&lt;br /&gt;
&amp;lt;ol&amp;gt;&lt;br /&gt;
    &amp;lt;li&amp;gt;[https://en.wikipedia.org/wiki/Generative_adversarial_network Генеративно-состязательная сеть]&amp;lt;/li&amp;gt;&lt;br /&gt;
    &amp;lt;li&amp;gt;[https://en.wikipedia.org/wiki/WaveNet WaveNet]&amp;lt;/li&amp;gt;&lt;br /&gt;
&amp;lt;!---&lt;br /&gt;
    &amp;lt;li&amp;gt;[https://en.wikipedia.org/wiki/Oversampling_and_undersampling_in_data_analysis Оверсемплинг]&amp;lt;/li&amp;gt;&lt;br /&gt;
    &amp;lt;li&amp;gt;[https://www.kaggle.com/residentmario/oversampling-with-smote-and-adasyn Оверсемплинг с SMOTE]&amp;lt;/li&amp;gt;&lt;br /&gt;
    &amp;lt;li&amp;gt;[https://medium.com/coinmonks/smote-and-adasyn-handling-imbalanced-data-set-34f5223e167  Методы работы с небалансными данными в SMOTE и ADASYN]&amp;lt;/li&amp;gt;&lt;br /&gt;
--&amp;gt;&lt;br /&gt;
    &amp;lt;li&amp;gt;[https://towardsdatascience.com/dealing-with-imbalanced-classes-in-machine-learning-d43d6fa19d2 Методы работы с небалансными классами]&amp;lt;/li&amp;gt;&lt;br /&gt;
    &amp;lt;li&amp;gt;[https://basegroup.ru/community/articles/imbalance-datasets Несбалансированные датасеты]&amp;lt;/li&amp;gt;&lt;br /&gt;
&amp;lt;/ol&amp;gt;&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Порождающие модели]]&lt;br /&gt;
[[Категория: Генерация объектов]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D0%B2_%D1%80%D0%B5%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%BC_%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%B8&amp;diff=76780</id>
		<title>Обучение в реальном времени</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%9E%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B5_%D0%B2_%D1%80%D0%B5%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE%D0%BC_%D0%B2%D1%80%D0%B5%D0%BC%D0%B5%D0%BD%D0%B8&amp;diff=76780"/>
				<updated>2021-01-08T08:16:55Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;'''Обучение в реальном времени, онлайн-обучение''' (англ. ''online machine learning'') {{---}} вид машинного обучения, при котором данные поступают в последовательном порядке и используются для обновления лучшего предсказания на каждом шаге.&lt;br /&gt;
&lt;br /&gt;
[[Файл:BatchVsOnline.PNG|420px|thumb|right|Разница между пакетным и онлайн-обучением]]&lt;br /&gt;
&lt;br /&gt;
== Общая информация ==&lt;br /&gt;
&lt;br /&gt;
[[Файл:OnlineLearningTaxonomy.PNG|420px|thumb|right|Классификация методов онлайн-обучения]]&lt;br /&gt;
&lt;br /&gt;
Алгоритмы пакетного обучения обладают рядом критических недостатков из-за необходимости обучать модель с нуля при получении новых данных: низкая эффективность по времени и памяти, плохая масштабируемость для крупных систем. Онлайн-обучение решает эти проблемы, поскольку модель обновляется на основе поступающих в каждый момент времени данных. Благодаря этому алгоритмы онлайн-обучения гораздо более эффективны в приложениях, где данные не только имеют большой размер, но и поступают с высокой скоростью.&lt;br /&gt;
&lt;br /&gt;
При онлайн-обучении для построения модели необходим один проход по данным, что позволяет не сохранять их для последующего доступа в процессе обучения и использовать меньший объем памяти. Обработка одного объекта за раз также значительно упрощает реализацию алгоритма онлайн-обучения. Однако изменение вида входных данных, выход сервера из строя и многие другие причины могут привести к некорректной работе системы. Оценить качество работы системы при онлайн-обучении сложнее, чем при пакетном: нет возможности получить репрезентативный тестовый набор данных.&lt;br /&gt;
&lt;br /&gt;
В зависимости от типа обратной связи существующие методы онлайн-обучения можно разделить на три группы:&lt;br /&gt;
&lt;br /&gt;
* Онлайн-обучение с учителем (англ. ''supervised online learning'')&lt;br /&gt;
* Онлайн-обучение с частичным привлечением учителя (англ. ''online learning with limited feedback'')&lt;br /&gt;
* Онлайн-обучение без учителя (англ. ''unsupervised online learning'')&lt;br /&gt;
&lt;br /&gt;
== Математическая основа ==&lt;br /&gt;
&lt;br /&gt;
=== Функция ожидаемого риска (англ. Expected Risk Function) ===&lt;br /&gt;
&lt;br /&gt;
Цель системы обучения состоит в поиске минимума функции &amp;lt;tex&amp;gt;J(w)&amp;lt;/tex&amp;gt;, называемой функцией ожидаемого риска. &lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt;J(w) \stackrel{\triangle}{=} E_z\ Q(z,w) \stackrel{\triangle}{=}  \int Q(z,w)\,\mathrm{d}P(z) &amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Переменная минимизации &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt; предназначена для представления части системы обучения, которая должна быть адаптирована в качестве реакции на наблюдение событий &amp;lt;tex&amp;gt;z&amp;lt;/tex&amp;gt;, происходящих в реальном мире. Функция потерь &amp;lt;tex&amp;gt;Q(z, w)&amp;lt;/tex&amp;gt; измеряет производительность системы обучения с параметром &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt; при обстоятельствах, описанных событием &amp;lt;tex&amp;gt;z&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
События &amp;lt;tex&amp;gt;z&amp;lt;/tex&amp;gt; моделируются как случайные независимые наблюдения, взятые из неизвестного распределения вероятности &amp;lt;tex&amp;gt;\mathrm{d}P(z)&amp;lt;/tex&amp;gt;. Функция риска &amp;lt;tex&amp;gt;J(w)&amp;lt;/tex&amp;gt; - это ожидание функции потерь &amp;lt;tex&amp;gt;Q(z, w)&amp;lt;/tex&amp;gt; для фиксированного значения параметра &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Функция ожидаемого риска &amp;lt;tex&amp;gt;J(w)&amp;lt;/tex&amp;gt; не может быть минимизирована напрямую, потому что распределение &amp;lt;tex&amp;gt;\mathrm{d}P(z)&amp;lt;/tex&amp;gt; неизвестно. Однако возможно вычислить приближение &amp;lt;tex&amp;gt;J(w)&amp;lt;/tex&amp;gt;, используя конечный обучающий набор независимых наблюдений &amp;lt;tex&amp;gt;z_1, ... , z_L&amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt; J (w) \thickapprox \hat{J_L}(w)   \stackrel{\triangle}{=} \frac{1}{L} \sum_{n=1}^L Q(z_n,w) &amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Пакетный градиентный спуск (англ. Batch Gradient Descent) === &lt;br /&gt;
&lt;br /&gt;
[[Файл:BatchGradientDescent.PNG|420px|thumb|right|Пакетный градиентный спуск]]&lt;br /&gt;
&lt;br /&gt;
Минимизировать эмпирический риск &amp;lt;tex&amp;gt;\hat{J_L}(w)&amp;lt;/tex&amp;gt; можно с помощью алгоритма пакетного градиентного спуска. Последовательные оценки &amp;lt;tex&amp;gt;w_t&amp;lt;/tex&amp;gt; оптимального параметра вычисляются по следующей формуле, где &amp;lt;tex&amp;gt;\gamma_t&amp;lt;/tex&amp;gt; - положительное число:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt; w_{t+1} = w_t -  \gamma_t \bigtriangledown_w  \hat{J_L}(w_t) = w_t - \gamma_t\ \frac{1}{L} \sum_{i=1}^L \bigtriangledown_w\ Q(z_i,w_t)\ &amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Когда скорость обучения &amp;lt;tex&amp;gt;\gamma_t&amp;lt;/tex&amp;gt; достаточно мала, алгоритм сходится к локальному минимуму эмпирического риска &amp;lt;tex&amp;gt;\hat{J_L}(w)&amp;lt;/tex&amp;gt;. Значительное ускорение сходимости может быть достигнуто путем замены скорости обучения &amp;lt;tex&amp;gt;\gamma_t&amp;lt;/tex&amp;gt; подходящей положительно определенной матрицей.&lt;br /&gt;
&lt;br /&gt;
Каждая итерация алгоритма пакетного градиентного спуска включает в себя вычисление среднего значения градиентов функции потерь &amp;lt;tex&amp;gt;\bigtriangledown_w Q(z_n,w)&amp;lt;/tex&amp;gt; по всей обучающей выборке. Для хранения достаточно большой обучающей выборки и вычисления этого среднего должны быть выделены значительные вычислительные ресурсы и память.&lt;br /&gt;
&lt;br /&gt;
=== Градиентный спуск в реальном времени (англ. Online Gradient Descent) ===&lt;br /&gt;
&lt;br /&gt;
[[Файл:OnlineGradientDescent.PNG|420px|thumb|right|Градиентный спуск в реальном времени]]&lt;br /&gt;
&lt;br /&gt;
Алгоритм градиентного спуска в реальном времени получается при удалении операции усреднения в алгоритме пакетного градиентного спуска. Вместо усреднения градиента потерь по всей обучающей выборке каждая итерация градиентного спуска в реальном времени состоит из случайного выбора примера &amp;lt;tex&amp;gt;z_t&amp;lt;/tex&amp;gt; и обновления параметра &amp;lt;tex&amp;gt;w_t&amp;lt;/tex&amp;gt; в соответствии со следующей формулой:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt; w_{t+1} = w_t -  \gamma_t  \bigtriangledown_w Q(z_t, w_t) \ &amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Усреднение этого обновления по всем возможным вариантам обучающего примера &amp;lt;tex&amp;gt;z_t&amp;lt;/tex&amp;gt; позволяет восстановить алгоритм пакетного градиентного спуска. Упрощение градиентного спуска в реальном времени основано на предположении, что случайный шум, вносимый этой процедурой, не будет мешать усредненному поведению алгоритма. Эмпирические данные подтверждают это предположение.&lt;br /&gt;
&lt;br /&gt;
Градиентный спуск в реальном времени также может быть описан без использования обучающей выборки, используя события из реального мира напрямую. Такая формулировка подходит для описания адаптивных алгоритмов, обрабатывающих поступающее наблюдение и одновременно обучающихся работать лучше. Такие адаптивные алгоритмы наиболее полезны для отслеживания явлений, развивающихся во времени.&lt;br /&gt;
&lt;br /&gt;
Общий алгоритм градиентного спуска в реальном времени используется для минимизации следующей функции стоимости &amp;lt;tex&amp;gt;C(w)&amp;lt;/tex&amp;gt;:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt; C(w) \stackrel{\triangle}{=} E_z Q(z,w) \stackrel{\triangle}{=}  \int Q(z, w)\,\mathrm{d}P(z)\  &amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Каждая итерация этого алгоритма состоит из извлечения события &amp;lt;tex&amp;gt;z_t&amp;lt;/tex&amp;gt; из распределения &amp;lt;tex&amp;gt;\mathrm{d}P(z)&amp;lt;/tex&amp;gt; и применения следующей формулы обновления, где &amp;lt;tex&amp;gt;\gamma_t&amp;lt;/tex&amp;gt; - либо положительное число, либо положительно определенная матрица:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt; w_{t+1} = w_t -  \gamma_t H(z_t, w_t) \ &amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt;H(z, w)&amp;lt;/tex&amp;gt; удовлетворяет следующему условию:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt; E_z   H(z, w) = \bigtriangledown_w C(w)  \ &amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Примеры ==&lt;br /&gt;
&lt;br /&gt;
=== Adaline ===&lt;br /&gt;
&lt;br /&gt;
[[Файл:Adaline.PNG|420px|thumb|right|Adaline]]&lt;br /&gt;
&lt;br /&gt;
Алгоритм обучения Adaline подбирает параметры одного порогового элемента. Входные данные &amp;lt;tex&amp;gt;x&amp;lt;/tex&amp;gt; распознаются как класс &amp;lt;tex&amp;gt;y = +1&amp;lt;/tex&amp;gt; или &amp;lt;tex&amp;gt;y = −1&amp;lt;/tex&amp;gt; в зависимости от знака &amp;lt;tex&amp;gt;w' x + \beta&amp;lt;/tex&amp;gt;. Целесообразно рассмотреть расширенный набор входных данных &amp;lt;tex&amp;gt;x&amp;lt;/tex&amp;gt;, содержащий дополнительный постоянный коэффициент, равный 1. Смещение &amp;lt;tex&amp;gt;\beta&amp;lt;/tex&amp;gt; тогда представляется как дополнительный коэффициент в векторе параметров &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;. Тогда вывод порогового элемента имеет вид:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt;\hat{y_w}(x) \stackrel{\triangle}{=} sign(w' x) =  sign  \sum_{i} w_i x_i \ &amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Параметр &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt; корректируется после использования дельта-правила:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt;w_{t+1} = w_t\ + \gamma_t(y_t - w'_t x_t) x_t \ &amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Дельта-правило - это итерация алгоритма градиентного спуска в реальном времени со следующей функцией потерь, где &amp;lt;tex&amp;gt;z = (x, y)&amp;lt;/tex&amp;gt;:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt;Q_{adaline}(z, w)  \stackrel{\triangle}{=} (y - w'x)^2\ &amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== Многослойные сети (англ. Multi-Layer Networks)===&lt;br /&gt;
&lt;br /&gt;
Многослойные сети были разработаны для преодоления вычислительных ограничений пороговых элементов. Произвольные двоичные отображения могут быть реализованы путем объединения нескольких слоев пороговых элементов, при этом каждый слой использует выходные данные элементов предыдущих слоев в качестве входных данных.&lt;br /&gt;
&lt;br /&gt;
Разрыв порогового элемента может быть представлен плавным нелинейным приближением:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt;sign(w'x) \thickapprox tanh (w' x) \ &amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Использование таких сигмоидальных элементов не уменьшает вычислительные возможности многослойной сети.&lt;br /&gt;
&lt;br /&gt;
Многослойная сеть сигмоидальных элементов реализует дифференцируемую функцию &amp;lt;tex&amp;gt;f(x, w)&amp;lt;/tex&amp;gt; от входных данных &amp;lt;tex&amp;gt;x&amp;lt;/tex&amp;gt; и параметров &amp;lt;tex&amp;gt;w&amp;lt;/tex&amp;gt;. Алгоритм обратного распространения ошибки обеспечивает эффективный способ вычисления градиентов функции среднего квадрата потерь.&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt;Q_{mse}(z, w)  =  \frac{1}{2}(y - f(x, w))^2 \ &amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== K-Means ===&lt;br /&gt;
&lt;br /&gt;
[[Файл:KMeansOnline.PNG|420px|thumb|right|K-Means]]&lt;br /&gt;
&lt;br /&gt;
Алгоритм K-Means можно получить, выполнив градиентный спуск в реальном времени со следующей функцией потерь:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt;Q_{kmeans}(x, w)  \stackrel{\triangle}{=} \stackrel{K}{\min_{k = 1}}(x - w(k))^2\ &amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Эта функция потерь измеряет ошибку в положении точки &amp;lt;tex&amp;gt;x&amp;lt;/tex&amp;gt;, когда мы заменяем ее ближайшим центроидом, и удовлетворяет следующему условию:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt; \forall z, \forall \upsilon \in \vartheta (w),  \mid  Q(z, \upsilon) - Q(z, w)\mid  \le  \mid w - \upsilon \mid \Phi(z, w)  \ &amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Поэтому можно игнорировать недифференцируемые точки и применять алгоритм градиентного спуска в реальном времени.&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt; w_{t+1}^- = w_t^-  +  \gamma_t(x_t - w_t) \ &amp;lt;/tex&amp;gt;&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Обучение с частичным привлечением учителя]]&lt;br /&gt;
*[[Активное обучение]]&lt;br /&gt;
*[[Обучение с подкреплением]]&lt;br /&gt;
*[[Глубокое обучение]]&lt;br /&gt;
&lt;br /&gt;
== Источники информации ==&lt;br /&gt;
&lt;br /&gt;
* [https://arxiv.org/pdf/1802.02871.pdf Steven C. H. Hoi, Doyen Sahoo, Jing Lu, and Peilin Zhao. Online Learning: A Comprehensive Survey. 2018]&lt;br /&gt;
* [https://leon.bottou.org/publications/pdf/online-1998.pdf Leon Bottou. Online Learning and Stochastic Approximations. 1998]&lt;br /&gt;
* [https://www.analyticsvidhya.com/blog/2015/01/introduction-online-machine-learning-simplified-2/ Introduction to Online Machine Learning: Simplified]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Виды обучения]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%9D%D0%B0%D1%81%D1%82%D1%80%D0%BE%D0%B9%D0%BA%D0%B0_%D0%B3%D0%B8%D0%BF%D0%B5%D1%80%D0%BF%D0%B0%D1%80%D0%B0%D0%BC%D0%B5%D1%82%D1%80%D0%BE%D0%B2&amp;diff=76779</id>
		<title>Настройка гиперпараметров</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%9D%D0%B0%D1%81%D1%82%D1%80%D0%BE%D0%B9%D0%BA%D0%B0_%D0%B3%D0%B8%D0%BF%D0%B5%D1%80%D0%BF%D0%B0%D1%80%D0%B0%D0%BC%D0%B5%D1%82%D1%80%D0%BE%D0%B2&amp;diff=76779"/>
				<updated>2021-01-08T08:08:41Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== Гиперпараметры ==&lt;br /&gt;
&lt;br /&gt;
Гиперпараметры — параметры, которые не настраиваются во время обучения модели.  Пример гиперпараметра — шаг градиентного спуска, он задается перед обучением. Пример параметров — веса градиентного спуска, они изменяются и настраиваются во время обучения.&lt;br /&gt;
&lt;br /&gt;
Для подбора гиперпараметров необходимо разделить датасет на три части:&lt;br /&gt;
* тренировочный набор данных (training set), для обучения модели&lt;br /&gt;
* валидационный набор данных (validation set), для расчета ошибки и выбора наилучшей модели&lt;br /&gt;
* тестовый набор данных (test set), для тестирования выбранной модели&lt;br /&gt;
&lt;br /&gt;
Зачем нам нужен и валидационный, и тестовый набор? Дело в том, что модель может переучиться на валидационном наборе данных. Для выявления переобучения используется тестовый набор данных.&lt;br /&gt;
&lt;br /&gt;
Рассмотрим модель &amp;lt;code&amp;gt;KNeighborsClassifier&amp;lt;/code&amp;gt; из библиотеки sklearn. Все “параметры” данной модели (loss, penalty, alpha и т.д), с точки зрения машинного обучения, являются гиперпараметрами, так как задаются до начала обучения.&lt;br /&gt;
&lt;br /&gt;
    class sklearn.linear_model.SGDClassifier(loss='hinge', penalty='l2', alpha=0.0001, l1_ratio=0.15, fit_intercept=True, max_iter=1000, &lt;br /&gt;
                                         tol=0.001, shuffle=True, verbose=0, epsilon=0.1, n_jobs=None, random_state=None, learning_rate='optimal', &lt;br /&gt;
                                         eta0=0.0, power_t=0.5, early_stopping=False, validation_fraction=0.1, n_iter_no_change=5, class_weight=None, &lt;br /&gt;
                                         warm_start=False, average=False)&lt;br /&gt;
&lt;br /&gt;
== Grid search ==&lt;br /&gt;
&lt;br /&gt;
=== Общая информация ===&lt;br /&gt;
&lt;br /&gt;
Grid search принимает на вход модель и различные значения гиперпараметров (сетку гиперпараметров). Далее, для каждого возможного сочетания значений гиперпараметров, метод считает ошибку и в конце выбирает сочетание, при котором ошибка минимальна.&lt;br /&gt;
&lt;br /&gt;
=== Sklearn Grid search: использование ===&lt;br /&gt;
&lt;br /&gt;
Пример использования &amp;lt;code&amp;gt;GridSearch&amp;lt;/code&amp;gt; из библиотеки scikit-learn:&lt;br /&gt;
&lt;br /&gt;
# Создание экземпляра класса  &amp;lt;code&amp;gt;SGDClassifier&amp;lt;/code&amp;gt; (из sklearn)&lt;br /&gt;
# Создание сетки гиперпараметров. В данном случае будем подбирать коэффициент регуляризации, шаг градиентного спуска, количество итераций и параметр скорости обучения.&lt;br /&gt;
# Создание экземпляра класса кросс-валидации&lt;br /&gt;
# Создание экземпляра &amp;lt;code&amp;gt;GridSearch&amp;lt;/code&amp;gt; (из sklearn). Первый параметр — модель, второй — сетка гиперпараметров, третий — функционал ошибки (используемый для контроля качества моделей по технике кросс-валидации), четвертый — кросс-валидация (можно задать количество фолдов, а можно передать экземпляр класса кросс - валидации)&lt;br /&gt;
# Запуск поиска по сетке.&lt;br /&gt;
&lt;br /&gt;
    classifier = linear_model.SGDClassifier(random_state = 0, tol=1e-3)&lt;br /&gt;
&lt;br /&gt;
    parameters_grid = {&lt;br /&gt;
        'alpha' : np.linspace(0.00001, 0.0001, 15),&lt;br /&gt;
        'learning_rate': ['optimal', 'constant', 'invscaling'],&lt;br /&gt;
        'eta0' : np.linspace(0.00001, 0.0001, 15),&lt;br /&gt;
        'max_iter' : np.arange(5,10),&lt;br /&gt;
    }&lt;br /&gt;
&lt;br /&gt;
    cv = model_selection.StratifiedShuffleSplit(n_splits=10, test_size = 0.2)&lt;br /&gt;
    grid_cv = model_selection.GridSearchCV(classifier, parameters_grid, scoring = 'accuracy', cv = cv)&lt;br /&gt;
    grid_cv.fit(train_data, test_data)&lt;br /&gt;
&lt;br /&gt;
    Out:&lt;br /&gt;
    GridSearchCV(cv=StratifiedShuffleSplit(n_splits=10, random_state=0, test_size=0.2, train_size=None), error_score=nan,&lt;br /&gt;
                 estimator=SGDClassifier(alpha=0.0001, average=False, class_weight=None, early_stopping=False,&lt;br /&gt;
                                     epsilon=0.1, eta0=0.0, fit_intercept=True, l1_ratio=0.15, learning_rate='optimal',&lt;br /&gt;
                                     loss='hinge', max_iter=1000, n_iter_no_change=5, n_jobs=None, &lt;br /&gt;
                                     penalty='l2...&lt;br /&gt;
                         'eta0': array([1.00000000e-05, 1.64285714e-05, 2.28571429e-05, 2.92857143e-05, 3.57142857e-05, 4.21428571e-05, 4.85714286e-05, 5.50000000e-05,&lt;br /&gt;
                                       6.14285714e-05, 6.78571429e-05, 7.42857143e-05, 8.07142857e-05, 8.71428571e-05, 9.35714286e-05, 1.00000000e-04]),&lt;br /&gt;
                         'learning_rate': ['optimal', 'constant', 'invscaling'],&lt;br /&gt;
                         'max_iter': array([5, 6, 7, 8, 9])},&lt;br /&gt;
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,&lt;br /&gt;
             scoring='accuracy', verbose=0)&lt;br /&gt;
&lt;br /&gt;
=== Sklearn Grid search: важные атрибуты ===&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;code&amp;gt;best_estimator_&amp;lt;/code&amp;gt;  — лучшая модель&lt;br /&gt;
* &amp;lt;code&amp;gt;best_score_&amp;lt;/code&amp;gt;  — ошибка, полученная на лучшей модели.&lt;br /&gt;
* &amp;lt;code&amp;gt;best_params_&amp;lt;/code&amp;gt; — гиперпараметры лучшей модели &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
    print(grid_cv.best_estimator_) &amp;lt;br&amp;gt;&lt;br /&gt;
    Out: SGDClassifier(alpha=4.857142857142857e-05, average=False, class_weight=None, early_stopping=False, epsilon=0.1, eta0=1e-05, fit_intercept=True,&lt;br /&gt;
                   l1_ratio=0.15, learning_rate='optimal', loss='hinge', max_iter=6, n_iter_no_change=5, n_jobs=None, penalty='l2', power_t=0.5,&lt;br /&gt;
                   random_state=0, shuffle=True, tol=0.001, validation_fraction=0.1, verbose=0, warm_start=False)&lt;br /&gt;
&lt;br /&gt;
    print(grid_cv.best_score_) &amp;lt;br&amp;gt;&lt;br /&gt;
    Out: 0.9099999999999999&lt;br /&gt;
&lt;br /&gt;
    print(grid_cv.best_params_) &amp;lt;br&amp;gt;&lt;br /&gt;
    Out: {'alpha': 4.857142857142857e-05, 'eta0': 1e-05, 'learning_rate': 'optimal', 'max_iter': 6}&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;code&amp;gt;cv_results_&amp;lt;/code&amp;gt;  — результаты всех моделей. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
    print(grid_cv.cv_results_) &amp;lt;br&amp;gt;&lt;br /&gt;
    Out:&lt;br /&gt;
        {'mean_fit_time': array([0.00209482, 0.00120714, 0.00089645, ..., 0.00109975, 0.00100021,&lt;br /&gt;
        0.00099928]),&lt;br /&gt;
        'std_fit_time': array([1.22382854e-03, 6.21233347e-04, 5.32190271e-04, ...,&lt;br /&gt;
            3.11922473e-04, 1.27400324e-05, 1.94000071e-06]),&lt;br /&gt;
        'mean_score_time': array([2.00700760e-04, 0.00000000e+00, 2.99715996e-04, ...,&lt;br /&gt;
            1.99961662e-04, 2.96926498e-04, 9.98973846e-05]),&lt;br /&gt;
        'std_score_time': array([0.0004014 , 0.        , 0.00045782, ..., 0.00039992, 0.00045363,&lt;br /&gt;
           0.00029969]),&lt;br /&gt;
         ...... }&lt;br /&gt;
&lt;br /&gt;
     print(grid_cv.cv_results_['param_max_iter'].data) &amp;lt;br&amp;gt;&lt;br /&gt;
     Out: array([5, 6, 7, ..., 7, 8, 9], dtype=object)&lt;br /&gt;
&lt;br /&gt;
=== Реализация Grid search в библеотеках ===&lt;br /&gt;
* scikit-learn&amp;lt;ref&amp;gt;[https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html scikit-learn]&amp;lt;/ref&amp;gt;&lt;br /&gt;
* Katib&amp;lt;ref&amp;gt;[https://github.com/kubeflow/katib Katib]&amp;lt;/ref&amp;gt;&lt;br /&gt;
* Tune&amp;lt;ref&amp;gt;[https://tidymodels.github.io/tune/articles/grid.html Tune]&amp;lt;/ref&amp;gt;&lt;br /&gt;
* Talos&amp;lt;ref&amp;gt;[https://autonomio.github.io/docs_talos/#grid-search Talos]&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Random grid search ==&lt;br /&gt;
&lt;br /&gt;
=== Основная информация ===&lt;br /&gt;
&lt;br /&gt;
Вместо полного перебора, Random grid search работает с некоторыми, случайным образом выбранными, комбинациями. На основе полученных результатов, происходит сужение области поиска. &lt;br /&gt;
&lt;br /&gt;
Когда random grid search будет гораздо полезнее, чем  grid search? В ситуации,  когда гиперпараметров много, но сильно влияющих на конечную производительность алгоритма — мало.&lt;br /&gt;
&lt;br /&gt;
=== Реализация Random grid ===&lt;br /&gt;
&lt;br /&gt;
* Ray&amp;lt;ref&amp;gt;[https://ray.readthedocs.io/en/latest/tune-searchalg.html#variant-generation-grid-search-random-search Ray]&amp;lt;/ref&amp;gt;&lt;br /&gt;
* Katib&lt;br /&gt;
* scikit-learn&lt;br /&gt;
* Tune&lt;br /&gt;
* Talos&lt;br /&gt;
* Hyperopt&amp;lt;ref&amp;gt;[https://hyperopt.github.io/hyperopt/#algorithms Hyperopt]&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== SMBO  ==&lt;br /&gt;
&lt;br /&gt;
=== Основная информация ===&lt;br /&gt;
&lt;br /&gt;
SMBO (Sequential Model-Based Optimization) — методы, основанные на байесовской оптимизации&lt;br /&gt;
&lt;br /&gt;
Когда используют SMBO? Когда оптимизация целевой функции будет стоить очень &amp;quot;дорого&amp;quot;. Главная идея SMBO — замена целевой функции &amp;quot;суррогатной&amp;quot; функцией.&lt;br /&gt;
 &lt;br /&gt;
На каждом шаге работы SMBO:&lt;br /&gt;
&lt;br /&gt;
# Строится вероятностная модель (суррогатная функция) целевой функции.&lt;br /&gt;
# Подбираются гиперпараметры, которые лучше всего подходят для вероятностной модели.&lt;br /&gt;
# Подобранные гиперпараметры применяются к целевой функции.&lt;br /&gt;
# Вероятностная модель перестраивается (обновляется).&lt;br /&gt;
# Шаги 2-4 повторяются столько раз, сколько задал пользователь.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Существует четыре ключевые аспекта SMBO:&lt;br /&gt;
* Сетка значений гиперпараметров (область поиска).&lt;br /&gt;
* Целевая функция (выводит оценку, которую мы хотим минимизировать или максимизировать).&lt;br /&gt;
* Вероятностная модель целевой функции (суррогатная функция).&lt;br /&gt;
* Критерий, называемый функцией выбора (для выбора следующих гиперпараметры по текущей вероятностной модели).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Методы SMBO отличаются между собой вероятностными моделями и функциями выбора: &amp;lt;br&amp;gt;&lt;br /&gt;
Популярные вероятностные модели (суррогатные функции):&lt;br /&gt;
* Gaussian Processes&lt;br /&gt;
* Tree Parzen Estimators (TPE)&lt;br /&gt;
* Random Forest Regressions&lt;br /&gt;
&lt;br /&gt;
=== TPE ===&lt;br /&gt;
&lt;br /&gt;
==== Основная информация ====&lt;br /&gt;
TPE — Tree-structured Parzen Estimator (Древовидная структура Парзена)&lt;br /&gt;
&lt;br /&gt;
Как было написано выше, методы SMBO отличаются тем, как они строят вероятностную модель &amp;lt;math&amp;gt; {p(y|x)} &amp;lt;/math&amp;gt;. В случае TPE, используется следующая функция:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt; p(y) = \frac{p(x|y) * p(y)}{p(x)} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt; {p(x|y)} &amp;lt;/math&amp;gt; — распределение гиперпараметров, &amp;lt;math&amp;gt; y &amp;lt;/math&amp;gt; —  значение целевой функции,  &amp;lt;math&amp;gt; y* &amp;lt;/math&amp;gt; — пороговое начение&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;  p(x|y) = \begin{cases}&lt;br /&gt;
  l(x),  &amp;amp; \mbox{if }  y &amp;lt; y* \\&lt;br /&gt;
  g(x), &amp;amp; \mbox{if }  y \ge y*&lt;br /&gt;
\end{cases}&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В TPE задается два различных распределения гиперпараметров: первое при значениях целевой функции меньших, чем пороговое значение. Второе - при значениях целевой функции больших, чем пороговое значение.&lt;br /&gt;
&lt;br /&gt;
==== Алгоритм ====&lt;br /&gt;
&lt;br /&gt;
# На вход подается список пар (parameters, loss)&lt;br /&gt;
# По заданному порогу, происходит разбиение списка на 2 части&lt;br /&gt;
# Для каждого списка строится распределение&lt;br /&gt;
# Возвращается значение: &amp;lt;math&amp;gt; argmin_{param} \frac{g(param)}{l(param)} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== SMAC ===&lt;br /&gt;
&lt;br /&gt;
==== Основная информация ====&lt;br /&gt;
&lt;br /&gt;
SMAC использует Random Forest regression и расширяет подходы SMBO:&lt;br /&gt;
&lt;br /&gt;
* Использует дискретные и условные пространства параметров.&lt;br /&gt;
* Обрабатывает негауссовский шум.&lt;br /&gt;
* Выделяет бюджет на общее время, доступное для настройки алгоритма, а не на количество оценок функций.&lt;br /&gt;
&lt;br /&gt;
Кроме того, SMAC использует переданную ему модель для формирования списка перспективных конфигураций (сочетаний) параметров. Чтобы оценить перспективность конфигурация &amp;lt;math&amp;gt; \theta &amp;lt;/math&amp;gt;, SMAC строит распределение результатов модели для  &amp;lt;math&amp;gt; \theta &amp;lt;/math&amp;gt;.&lt;br /&gt;
С помощью этого распределения, а также информации, о текущей лучшей конфигурации, SMAC вычисляет ожидаемое положительное улучшение [https://www.cs.ubc.ca/~hutter/papers/10-TR-SMAC.pdf &amp;lt;math&amp;gt; EI(\theta) &amp;lt;/math&amp;gt;]. &lt;br /&gt;
После нахождения &amp;lt;math&amp;gt; EI(\theta) &amp;lt;/math&amp;gt; необходимо найти конфигурацию с наибольшим значением &amp;lt;math&amp;gt; EI(\theta) &amp;lt;/math&amp;gt;. Эта задача приводит к проблеме максимизация значения на всем пространстве конфигураций.&lt;br /&gt;
Другие методы SMBO максимизируют значения а случайной выборке из пространства конфигураций, что достаточно плохо работает в случае высокомерного пространства.&lt;br /&gt;
SMAC применяет немного другой подход: выполняется несколько локальных и поисков и среди них выбираются все конфигурации с максимальным &amp;lt;math&amp;gt; EI(\theta) &amp;lt;/math&amp;gt;. И уже среди них производится новый поиск и выбирается лучшая конфигурация.&lt;br /&gt;
&lt;br /&gt;
=== Реализация ===&lt;br /&gt;
* Random Forest Regressions: [https://www.automl.org/automated-algorithm-design/algorithm-configuration/smac/ SMAC]&lt;br /&gt;
* Tree Parzen Estimators: [https://hyperopt.github.io/hyperopt/#algorithms Hyperopt]&lt;br /&gt;
* Gaussian Processes: [https://devhub.io/repos/automl-spearmint Spearmint], [https://scikit-optimize.github.io/stable/modules/classes.html#module-skopt.optimizer Scikit-optimize]&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Автоматическое машинное обучение]]&lt;br /&gt;
*[[Бустинг, AdaBoost]]&lt;br /&gt;
*[[Кросс-валидация]]&lt;br /&gt;
*[[Поиск архитектуры нейронной сети]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
== Источники ==&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
* [https://papers.nips.cc/paper/4443-algorithms-for-hyper-parameter-optimization.pdf Algorithms for Hyper-Parameter Optimization]&lt;br /&gt;
* [https://www.cs.ubc.ca/~hutter/papers/10-TR-SMAC.pdf Sequential Model-Based Optimization for General Algorithm Configuration]&lt;br /&gt;
* [https://www.youtube.com/watch?v=u6MG_UTwiIQ Bayesian optimization]&lt;br /&gt;
* [https://www.youtube.com/watch?v=PgJMLpIfIc8 Гауссовские процессы и байесовская оптимизация]&lt;br /&gt;
* [https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html GridSearchCV sklearn]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]] [[Категория: Автоматическое машинное обучение]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%9D%D0%B0%D1%81%D1%82%D1%80%D0%BE%D0%B9%D0%BA%D0%B0_%D0%B3%D0%B8%D0%BF%D0%B5%D1%80%D0%BF%D0%B0%D1%80%D0%B0%D0%BC%D0%B5%D1%82%D1%80%D0%BE%D0%B2&amp;diff=76778</id>
		<title>Настройка гиперпараметров</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%9D%D0%B0%D1%81%D1%82%D1%80%D0%BE%D0%B9%D0%BA%D0%B0_%D0%B3%D0%B8%D0%BF%D0%B5%D1%80%D0%BF%D0%B0%D1%80%D0%B0%D0%BC%D0%B5%D1%82%D1%80%D0%BE%D0%B2&amp;diff=76778"/>
				<updated>2021-01-08T08:05:46Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;== Гиперпараметры ==&lt;br /&gt;
&lt;br /&gt;
Гиперпараметры — параметры, которые не настраиваются во время обучения модели.  Пример гиперпараметра — шаг градиентного спуска, он задается перед обучением. Пример параметров — веса градиентного спуска, они изменяются и настраиваются во время обучения.&lt;br /&gt;
&lt;br /&gt;
Для подбора гиперпараметров необходимо разделить датасет на три части:&lt;br /&gt;
* тренировочный набор данных (training set), для обучения модели&lt;br /&gt;
* валидационный набор данных (validation set), для расчета ошибки и выбора наилучшей модели&lt;br /&gt;
* тестовый набор данных (test set), для тестирования выбранной модели&lt;br /&gt;
&lt;br /&gt;
Зачем нам нужен и валидационный, и тестовый набор? Дело в том, что модель может переучиться на валидационном наборе данных. Для выявления переобучения используется тестовый набор данных.&lt;br /&gt;
&lt;br /&gt;
Рассмотрим модель &amp;lt;code&amp;gt;KNeighborsClassifier&amp;lt;/code&amp;gt; из библиотеки sklearn. Все “параметры” данной модели (loss, penalty, alpha и т.д), с точки зрения машинного обучения, являются гиперпараметрами, так как задаются до начала обучения.&lt;br /&gt;
&lt;br /&gt;
    class sklearn.linear_model.SGDClassifier(loss='hinge', penalty='l2', alpha=0.0001, l1_ratio=0.15, fit_intercept=True, max_iter=1000, &lt;br /&gt;
                                         tol=0.001, shuffle=True, verbose=0, epsilon=0.1, n_jobs=None, random_state=None, learning_rate='optimal', &lt;br /&gt;
                                         eta0=0.0, power_t=0.5, early_stopping=False, validation_fraction=0.1, n_iter_no_change=5, class_weight=None, &lt;br /&gt;
                                         warm_start=False, average=False)&lt;br /&gt;
&lt;br /&gt;
== Grid search ==&lt;br /&gt;
&lt;br /&gt;
=== Общая информация ===&lt;br /&gt;
&lt;br /&gt;
Grid search принимает на вход модель и различные значения гиперпараметров (сетку гиперпараметров). Далее, для каждого возможного сочетания значений гиперпараметров, метод считает ошибку и в конце выбирает сочетание, при котором ошибка минимальна.&lt;br /&gt;
&lt;br /&gt;
=== Sklearn Grid search: использование ===&lt;br /&gt;
&lt;br /&gt;
Пример использования &amp;lt;code&amp;gt;GridSearch&amp;lt;/code&amp;gt; из библиотеки scikit-learn:&lt;br /&gt;
&lt;br /&gt;
# Создание экземпляра класса  &amp;lt;code&amp;gt;SGDClassifier&amp;lt;/code&amp;gt; (из sklearn)&lt;br /&gt;
# Создание сетки гиперпараметров. В данном случае будем подбирать коэффициент регуляризации, шаг градиентного спуска, количество итераций и параметр скорости обучения.&lt;br /&gt;
# Создание экземпляра класса кросс-валидации&lt;br /&gt;
# Создание экземпляра &amp;lt;code&amp;gt;GridSearch&amp;lt;/code&amp;gt; (из sklearn). Первый параметр — модель, второй — сетка гиперпараметров, третий — функционал ошибки (используемый для контроля качества моделей по технике кросс-валидации), четвертый — кросс-валидация (можно задать количество фолдов, а можно передать экземпляр класса кросс - валидации)&lt;br /&gt;
# Запуск поиска по сетке.&lt;br /&gt;
&lt;br /&gt;
    classifier = linear_model.SGDClassifier(random_state = 0, tol=1e-3)&lt;br /&gt;
&lt;br /&gt;
    parameters_grid = {&lt;br /&gt;
        'alpha' : np.linspace(0.00001, 0.0001, 15),&lt;br /&gt;
        'learning_rate': ['optimal', 'constant', 'invscaling'],&lt;br /&gt;
        'eta0' : np.linspace(0.00001, 0.0001, 15),&lt;br /&gt;
        'max_iter' : np.arange(5,10),&lt;br /&gt;
    }&lt;br /&gt;
&lt;br /&gt;
    cv = model_selection.StratifiedShuffleSplit(n_splits=10, test_size = 0.2)&lt;br /&gt;
    grid_cv = model_selection.GridSearchCV(classifier, parameters_grid, scoring = 'accuracy', cv = cv)&lt;br /&gt;
    grid_cv.fit(train_data, test_data)&lt;br /&gt;
&lt;br /&gt;
    Out:&lt;br /&gt;
    GridSearchCV(cv=StratifiedShuffleSplit(n_splits=10, random_state=0, test_size=0.2, train_size=None), error_score=nan,&lt;br /&gt;
                 estimator=SGDClassifier(alpha=0.0001, average=False, class_weight=None, early_stopping=False,&lt;br /&gt;
                                     epsilon=0.1, eta0=0.0, fit_intercept=True, l1_ratio=0.15, learning_rate='optimal',&lt;br /&gt;
                                     loss='hinge', max_iter=1000, n_iter_no_change=5, n_jobs=None, &lt;br /&gt;
                                     penalty='l2...&lt;br /&gt;
                         'eta0': array([1.00000000e-05, 1.64285714e-05, 2.28571429e-05, 2.92857143e-05, 3.57142857e-05, 4.21428571e-05, 4.85714286e-05, 5.50000000e-05,&lt;br /&gt;
                                       6.14285714e-05, 6.78571429e-05, 7.42857143e-05, 8.07142857e-05, 8.71428571e-05, 9.35714286e-05, 1.00000000e-04]),&lt;br /&gt;
                         'learning_rate': ['optimal', 'constant', 'invscaling'],&lt;br /&gt;
                         'max_iter': array([5, 6, 7, 8, 9])},&lt;br /&gt;
             pre_dispatch='2*n_jobs', refit=True, return_train_score=False,&lt;br /&gt;
             scoring='accuracy', verbose=0)&lt;br /&gt;
&lt;br /&gt;
=== Sklearn Grid search: важные атрибуты ===&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;code&amp;gt;best_estimator_&amp;lt;/code&amp;gt;  — лучшая модель&lt;br /&gt;
* &amp;lt;code&amp;gt;best_score_&amp;lt;/code&amp;gt;  — ошибка, полученная на лучшей модели.&lt;br /&gt;
* &amp;lt;code&amp;gt;best_params_&amp;lt;/code&amp;gt; — гиперпараметры лучшей модели &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
    print(grid_cv.best_estimator_) &amp;lt;br&amp;gt;&lt;br /&gt;
    Out: SGDClassifier(alpha=4.857142857142857e-05, average=False, class_weight=None, early_stopping=False, epsilon=0.1, eta0=1e-05, fit_intercept=True,&lt;br /&gt;
                   l1_ratio=0.15, learning_rate='optimal', loss='hinge', max_iter=6, n_iter_no_change=5, n_jobs=None, penalty='l2', power_t=0.5,&lt;br /&gt;
                   random_state=0, shuffle=True, tol=0.001, validation_fraction=0.1, verbose=0, warm_start=False)&lt;br /&gt;
&lt;br /&gt;
    print(grid_cv.best_score_) &amp;lt;br&amp;gt;&lt;br /&gt;
    Out: 0.9099999999999999&lt;br /&gt;
&lt;br /&gt;
    print(grid_cv.best_params_) &amp;lt;br&amp;gt;&lt;br /&gt;
    Out: {'alpha': 4.857142857142857e-05, 'eta0': 1e-05, 'learning_rate': 'optimal', 'max_iter': 6}&lt;br /&gt;
&lt;br /&gt;
* &amp;lt;code&amp;gt;cv_results_&amp;lt;/code&amp;gt;  — результаты всех моделей. &amp;lt;br&amp;gt;&lt;br /&gt;
&lt;br /&gt;
    print(grid_cv.cv_results_) &amp;lt;br&amp;gt;&lt;br /&gt;
    Out:&lt;br /&gt;
        {'mean_fit_time': array([0.00209482, 0.00120714, 0.00089645, ..., 0.00109975, 0.00100021,&lt;br /&gt;
        0.00099928]),&lt;br /&gt;
        'std_fit_time': array([1.22382854e-03, 6.21233347e-04, 5.32190271e-04, ...,&lt;br /&gt;
            3.11922473e-04, 1.27400324e-05, 1.94000071e-06]),&lt;br /&gt;
        'mean_score_time': array([2.00700760e-04, 0.00000000e+00, 2.99715996e-04, ...,&lt;br /&gt;
            1.99961662e-04, 2.96926498e-04, 9.98973846e-05]),&lt;br /&gt;
        'std_score_time': array([0.0004014 , 0.        , 0.00045782, ..., 0.00039992, 0.00045363,&lt;br /&gt;
           0.00029969]),&lt;br /&gt;
         ...... }&lt;br /&gt;
&lt;br /&gt;
     print(grid_cv.cv_results_['param_max_iter'].data) &amp;lt;br&amp;gt;&lt;br /&gt;
     Out: array([5, 6, 7, ..., 7, 8, 9], dtype=object)&lt;br /&gt;
&lt;br /&gt;
=== Реализация Grid search в библеотеках ===&lt;br /&gt;
* scikit-learn&amp;lt;ref&amp;gt;[https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html scikit-learn]&amp;lt;/ref&amp;gt;&lt;br /&gt;
* Katib&amp;lt;ref&amp;gt;[https://github.com/kubeflow/katib Katib]&amp;lt;/ref&amp;gt;&lt;br /&gt;
* Tune&amp;lt;ref&amp;gt;[https://tidymodels.github.io/tune/articles/grid.html Tune]&amp;lt;/ref&amp;gt;&lt;br /&gt;
* Talos&amp;lt;ref&amp;gt;[https://autonomio.github.io/docs_talos/#grid-search Talos]&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== Random grid search ==&lt;br /&gt;
&lt;br /&gt;
=== Основная информация ===&lt;br /&gt;
&lt;br /&gt;
Вместо полного перебора, Random grid search работает с некоторыми, случайным образом выбранными, комбинациями. На основе полученных результатов, происходит сужение области поиска. &lt;br /&gt;
&lt;br /&gt;
Когда random grid search будет гораздо полезнее, чем  grid search? В ситуации,  когда гиперпараметров много, но сильно влияющих на конечную производительность алгоритма — мало.&lt;br /&gt;
&lt;br /&gt;
=== Реализация Random grid ===&lt;br /&gt;
&lt;br /&gt;
* Ray&amp;lt;ref&amp;gt;[https://ray.readthedocs.io/en/latest/tune-searchalg.html#variant-generation-grid-search-random-search Ray]&amp;lt;/ref&amp;gt;&lt;br /&gt;
* Katib&amp;lt;ref&amp;gt;[https://github.com/kubeflow/katib Katib]&amp;lt;/ref&amp;gt;&lt;br /&gt;
* scikit-learn&amp;lt;ref&amp;gt;[https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.RandomizedSearchCV.html scikit-learn]&amp;lt;/ref&amp;gt;&lt;br /&gt;
* Tune&amp;lt;ref&amp;gt;[https://ray.readthedocs.io/en/latest/tune-searchalg.html#variant-generation-grid-search-random-search Tune]&amp;lt;/ref&amp;gt;&lt;br /&gt;
* Talos&amp;lt;ref&amp;gt;[https://autonomio.github.io/docs_talos/#models Talos]&amp;lt;/ref&amp;gt;&lt;br /&gt;
* Hyperopt&amp;lt;ref&amp;gt;[https://hyperopt.github.io/hyperopt/#algorithms Hyperopt]&amp;lt;/ref&amp;gt;&lt;br /&gt;
&lt;br /&gt;
== SMBO  ==&lt;br /&gt;
&lt;br /&gt;
=== Основная информация ===&lt;br /&gt;
&lt;br /&gt;
SMBO (Sequential Model-Based Optimization) — методы, основанные на байесовской оптимизации&lt;br /&gt;
&lt;br /&gt;
Когда используют SMBO? Когда оптимизация целевой функции будет стоить очень &amp;quot;дорого&amp;quot;. Главная идея SMBO — замена целевой функции &amp;quot;суррогатной&amp;quot; функцией.&lt;br /&gt;
 &lt;br /&gt;
На каждом шаге работы SMBO:&lt;br /&gt;
&lt;br /&gt;
# Строится вероятностная модель (суррогатная функция) целевой функции.&lt;br /&gt;
# Подбираются гиперпараметры, которые лучше всего подходят для вероятностной модели.&lt;br /&gt;
# Подобранные гиперпараметры применяются к целевой функции.&lt;br /&gt;
# Вероятностная модель перестраивается (обновляется).&lt;br /&gt;
# Шаги 2-4 повторяются столько раз, сколько задал пользователь.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Существует четыре ключевые аспекта SMBO:&lt;br /&gt;
* Сетка значений гиперпараметров (область поиска).&lt;br /&gt;
* Целевая функция (выводит оценку, которую мы хотим минимизировать или максимизировать).&lt;br /&gt;
* Вероятностная модель целевой функции (суррогатная функция).&lt;br /&gt;
* Критерий, называемый функцией выбора (для выбора следующих гиперпараметры по текущей вероятностной модели).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Методы SMBO отличаются между собой вероятностными моделями и функциями выбора: &amp;lt;br&amp;gt;&lt;br /&gt;
Популярные вероятностные модели (суррогатные функции):&lt;br /&gt;
* Gaussian Processes&lt;br /&gt;
* Tree Parzen Estimators (TPE)&lt;br /&gt;
* Random Forest Regressions&lt;br /&gt;
&lt;br /&gt;
=== TPE ===&lt;br /&gt;
&lt;br /&gt;
==== Основная информация ====&lt;br /&gt;
TPE — Tree-structured Parzen Estimator (Древовидная структура Парзена)&lt;br /&gt;
&lt;br /&gt;
Как было написано выше, методы SMBO отличаются тем, как они строят вероятностную модель &amp;lt;math&amp;gt; {p(y|x)} &amp;lt;/math&amp;gt;. В случае TPE, используется следующая функция:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt; p(y) = \frac{p(x|y) * p(y)}{p(x)} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt; {p(x|y)} &amp;lt;/math&amp;gt; — распределение гиперпараметров, &amp;lt;math&amp;gt; y &amp;lt;/math&amp;gt; —  значение целевой функции,  &amp;lt;math&amp;gt; y* &amp;lt;/math&amp;gt; — пороговое начение&lt;br /&gt;
&lt;br /&gt;
&amp;lt;math&amp;gt;  p(x|y) = \begin{cases}&lt;br /&gt;
  l(x),  &amp;amp; \mbox{if }  y &amp;lt; y* \\&lt;br /&gt;
  g(x), &amp;amp; \mbox{if }  y \ge y*&lt;br /&gt;
\end{cases}&lt;br /&gt;
&amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
В TPE задается два различных распределения гиперпараметров: первое при значениях целевой функции меньших, чем пороговое значение. Второе - при значениях целевой функции больших, чем пороговое значение.&lt;br /&gt;
&lt;br /&gt;
==== Алгоритм ====&lt;br /&gt;
&lt;br /&gt;
# На вход подается список пар (parameters, loss)&lt;br /&gt;
# По заданному порогу, происходит разбиение списка на 2 части&lt;br /&gt;
# Для каждого списка строится распределение&lt;br /&gt;
# Возвращается значение: &amp;lt;math&amp;gt; argmin_{param} \frac{g(param)}{l(param)} &amp;lt;/math&amp;gt;&lt;br /&gt;
&lt;br /&gt;
=== SMAC ===&lt;br /&gt;
&lt;br /&gt;
==== Основная информация ====&lt;br /&gt;
&lt;br /&gt;
SMAC использует Random Forest regression и расширяет подходы SMBO:&lt;br /&gt;
&lt;br /&gt;
* Использует дискретные и условные пространства параметров.&lt;br /&gt;
* Обрабатывает негауссовский шум.&lt;br /&gt;
* Выделяет бюджет на общее время, доступное для настройки алгоритма, а не на количество оценок функций.&lt;br /&gt;
&lt;br /&gt;
Кроме того, SMAC использует переданную ему модель для формирования списка перспективных конфигураций (сочетаний) параметров. Чтобы оценить перспективность конфигурация &amp;lt;math&amp;gt; \theta &amp;lt;/math&amp;gt;, SMAC строит распределение результатов модели для  &amp;lt;math&amp;gt; \theta &amp;lt;/math&amp;gt;.&lt;br /&gt;
С помощью этого распределения, а также информации, о текущей лучшей конфигурации, SMAC вычисляет ожидаемое положительное улучшение [https://www.cs.ubc.ca/~hutter/papers/10-TR-SMAC.pdf &amp;lt;math&amp;gt; EI(\theta) &amp;lt;/math&amp;gt;]. &lt;br /&gt;
После нахождения &amp;lt;math&amp;gt; EI(\theta) &amp;lt;/math&amp;gt; необходимо найти конфигурацию с наибольшим значением &amp;lt;math&amp;gt; EI(\theta) &amp;lt;/math&amp;gt;. Эта задача приводит к проблеме максимизация значения на всем пространстве конфигураций.&lt;br /&gt;
Другие методы SMBO максимизируют значения а случайной выборке из пространства конфигураций, что достаточно плохо работает в случае высокомерного пространства.&lt;br /&gt;
SMAC применяет немного другой подход: выполняется несколько локальных и поисков и среди них выбираются все конфигурации с максимальным &amp;lt;math&amp;gt; EI(\theta) &amp;lt;/math&amp;gt;. И уже среди них производится новый поиск и выбирается лучшая конфигурация.&lt;br /&gt;
&lt;br /&gt;
=== Реализация ===&lt;br /&gt;
* Random Forest Regressions: [https://www.automl.org/automated-algorithm-design/algorithm-configuration/smac/ SMAC]&lt;br /&gt;
* Tree Parzen Estimators: [https://hyperopt.github.io/hyperopt/#algorithms Hyperopt]&lt;br /&gt;
* Gaussian Processes: [https://devhub.io/repos/automl-spearmint Spearmint], [https://scikit-optimize.github.io/stable/modules/classes.html#module-skopt.optimizer Scikit-optimize]&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Автоматическое машинное обучение]]&lt;br /&gt;
*[[Бустинг, AdaBoost]]&lt;br /&gt;
*[[Кросс-валидация]]&lt;br /&gt;
*[[Поиск архитектуры нейронной сети]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
== Источники ==&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
* [https://papers.nips.cc/paper/4443-algorithms-for-hyper-parameter-optimization.pdf Algorithms for Hyper-Parameter Optimization]&lt;br /&gt;
* [https://www.cs.ubc.ca/~hutter/papers/10-TR-SMAC.pdf Sequential Model-Based Optimization for General Algorithm Configuration]&lt;br /&gt;
* [https://www.youtube.com/watch?v=u6MG_UTwiIQ Bayesian optimization]&lt;br /&gt;
* [https://www.youtube.com/watch?v=PgJMLpIfIc8 Гауссовские процессы и байесовская оптимизация]&lt;br /&gt;
* [https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html GridSearchCV sklearn]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]] [[Категория: Автоматическое машинное обучение]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%BA%D0%BE%D0%BC%D0%B5%D0%BD%D0%B4%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B&amp;diff=76777</id>
		<title>Рекомендательные системы</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%BA%D0%BE%D0%BC%D0%B5%D0%BD%D0%B4%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B&amp;diff=76777"/>
				<updated>2021-01-08T08:00:57Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;'''Рекомендательные системы''' {{---}} программы, которые пытаются предсказать, какие объекты будут интересны пользователю, имея определенную информацию о его профиле.&lt;br /&gt;
&lt;br /&gt;
== Обзор и постановка задачи ==&lt;br /&gt;
&lt;br /&gt;
Основная задача рекомендательных систем&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B5%D0%BA%D0%BE%D0%BC%D0%B5%D0%BD%D0%B4%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0 Рекомендательные системы]&amp;lt;/ref&amp;gt; {{---}} проинформировать пользователя о товарах или услугах, которые будут для него наиболее интересными и актуальными. Разнообразие таких систем можно проиллюстрировать основными характеристиками:&lt;br /&gt;
&lt;br /&gt;
* предмет рекомендации;&lt;br /&gt;
* цель рекомендации;&lt;br /&gt;
* контекст рекомендации;&lt;br /&gt;
* источник рекомендации;&lt;br /&gt;
* степень персонализации;&lt;br /&gt;
* формат рекомендации;&lt;br /&gt;
* прозрачность рекомендации.&lt;br /&gt;
&lt;br /&gt;
В центре таких систем лежит матрица предпочтений. В этой матрице одна из осей отвечает за пользователей, вторая за объекты рекомендации. Заполнена же эта матрица значениями по заданной шкале (например от &amp;lt;tex&amp;gt;1&amp;lt;/tex&amp;gt; до &amp;lt;tex&amp;gt;5&amp;lt;/tex&amp;gt;). Так как каждый пользователь обычно может оценить только небольшую часть объектов, то данная матрица очень разрежена. Задача системы {{---}} обобщение информации и предсказание отношения пользователя к объекту (заполнение пропущенных значений матрицы). &lt;br /&gt;
&lt;br /&gt;
Данные, сообщающие предпочтения пользователя, можно получить двумя способами:&lt;br /&gt;
&lt;br /&gt;
* явно (англ. ''explicit feedback'', ''explicit ratings'');&lt;br /&gt;
* неявно (англ. ''implicit feedback'', ''implicit ratings'').&lt;br /&gt;
&lt;br /&gt;
При явном оценивании пользователь сам показывает, насколько ему интересен тот или иной объект. Типичным примером данных, полученных при явном оценивании, являются рейтинги, проставленные пользователями объектам. На практике таких данных обычно мало.&lt;br /&gt;
Гораздо больше имеется информации о неявных предпочтениях пользователя: просмотры, клики, добавления в закладки. Однако по таким данным не всегда можно сделать явный вывод об отношении пользователя к объекту. Например, если пользователь посмотрел фильм, то это означает, что до просмотра он ему был интересен, но сделать вывод о том, понравился ли ему фильм, нельзя.&lt;br /&gt;
В большинстве рекомендательных систем эти два подхода используются вместе, тем самым минимизируются недостатки каждого из них в отдельности.&lt;br /&gt;
&lt;br /&gt;
Формализуем задачу. Имеется множество пользователей &amp;lt;tex&amp;gt; u \in U &amp;lt;/tex&amp;gt;, множество объектов &amp;lt;tex&amp;gt; i \in I &amp;lt;/tex&amp;gt; и множество событий &amp;lt;tex&amp;gt; (r_{ui}, u, i,\dots) \in D &amp;lt;/tex&amp;gt; (действия, которые совершают пользователи с объектами). Каждое событие задается пользователем &amp;lt;tex&amp;gt; u &amp;lt;/tex&amp;gt;, объектом &amp;lt;tex&amp;gt; i &amp;lt;/tex&amp;gt;, своим результатом &amp;lt;tex&amp;gt; r_{ui} &amp;lt;/tex&amp;gt; и, возможно, но не обязательно, другими характеристиками. По итогу от рекомендательной системы требуется:&lt;br /&gt;
&lt;br /&gt;
* предсказывать предпочтение пользователя &amp;lt;tex&amp;gt; u &amp;lt;/tex&amp;gt; к объекту &amp;lt;tex&amp;gt; i &amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt; \hat{r}_{ui} = Predict(u, i,\dots) \approx r_{ui}; &amp;lt;/tex&amp;gt;&lt;br /&gt;
* выдавать персональные рекомендации для пользователя &amp;lt;tex&amp;gt; u &amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt; Recommend_k(u,\dots) = (i_1,\dots, i_k); &amp;lt;/tex&amp;gt;&lt;br /&gt;
* определять объекты, похожие на объект &amp;lt;tex&amp;gt;i&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;Similar_M(i) = (i_1,\dots, i_M). &amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Кластеризация пользователей==&lt;br /&gt;
&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Коллаборативная фильтрация''' (англ. ''collaborative filtering'') {{---}} один из методов построения прогнозов (рекомендаций) в рекомендательных системах, использующий известные предпочтения (оценки) группы пользователей для прогнозирования неизвестных предпочтений другого пользователя.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
Основная идея метода {{---}} похожим пользователям нравятся похожие объекты.&lt;br /&gt;
&lt;br /&gt;
Алгоритм можно разбить на следующие шаги:&lt;br /&gt;
# Выбор условной меры схожести пользователей по истории их оценок &amp;lt;tex&amp;gt; sim(u, v) &amp;lt;/tex&amp;gt;.&lt;br /&gt;
# Объединение пользователей в группы (кластеры) так, чтобы похожие пользователи оказывались в одном кластере &amp;lt;tex&amp;gt; u \mapsto F(u) &amp;lt;/tex&amp;gt;.&lt;br /&gt;
# Предсказание оценки пользователя: средняя оценка кластера этому объекту &amp;lt;tex&amp;gt; \hat{r}_{ui} = \dfrac{1}{|F(u)|}\sum_{u \in F(u)}{}{r_{ui}} &amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Проблемы алгоритма:&lt;br /&gt;
&lt;br /&gt;
* нечего рекомендовать новым пользователям, так как их невозможно отнести к какому-либо кластеру;&lt;br /&gt;
* не учитывается контекст и специфика пользователя;&lt;br /&gt;
* если в кластере нет оценки объекта, то предсказание невозможно.&lt;br /&gt;
&lt;br /&gt;
== Холодный старт ==&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Холодный старт''' (англ. ''cold start'') {{---}} ситуация, когда ещё не накоплено достаточное количество данных для корректной работы рекомендательной системы.&lt;br /&gt;
}}&lt;br /&gt;
Данная проблема актуальна для новых объектов или объектов, с которыми пользователи редко совершают действия. Если средний рейтинг посчитан по оценкам всего трёх пользователей, такая оценка явно не будет достоверной, и пользователи это понимают. Часто в таких ситуациях рейтинги искусственно корректируют.&lt;br /&gt;
&lt;br /&gt;
'''Первый способ.''' Предлагается показывать не среднее значение, а сглаженное среднее (англ. ''damped mean''). Смысл таков: при малом количестве оценок отображаемый рейтинг больше тяготеет к некому безопасному «среднему» показателю, а как только набирается достаточное количество новых оценок, «усредняющая» корректировка перестает действовать.&lt;br /&gt;
&lt;br /&gt;
'''Второй способ.''' Для объекта считается средний рейтинг, затем определяется интервал достоверности (англ. ''сonfidence interval'') этого рейтинга. Математически, чем больше оценок, тем меньше вариация среднего и, значит, больше уверенность в его корректности. А в качестве рейтинга объекта можно выводить, например, нижнюю границу интервала (англ. ''low CI bound''). При этом понятно, что такая система будет достаточно консервативной, с тенденцией к занижению оценок по новым объектам.&lt;br /&gt;
&lt;br /&gt;
== User-based и item-based алгоритмы ==&lt;br /&gt;
&lt;br /&gt;
=== User-based алгоритм ===&lt;br /&gt;
Заменим жесткую кластеризацию на предположение, что объект понравится пользователю, если он понравился похожим пользователям. Тогда предпочтение пользователя &amp;lt;tex&amp;gt;u&amp;lt;/tex&amp;gt; к объекту &amp;lt;tex&amp;gt;i&amp;lt;/tex&amp;gt; можно записать следующим образом:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt; \hat{r}_{ui} = \bar{r}_u + \dfrac{\sum_{v \in U_i}{}{sim(u, v)(r_{vi} - \bar{r}_v)}}{\sum_{v \in {U_i}}{}{sim(u, v)}} &amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\bar{r}_u&amp;lt;/tex&amp;gt; {{---}} средняя оценка, проставленная пользователем &amp;lt;tex&amp;gt; u &amp;lt;/tex&amp;gt;, а &amp;lt;tex&amp;gt; sim(u,v) &amp;lt;/tex&amp;gt; {{---}} мера схожести пользователей  &amp;lt;tex&amp;gt;u&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
Однако у этого алгоритма есть недостатки: &lt;br /&gt;
&lt;br /&gt;
* холодный старт — новые объекты никому не рекомендуются;&lt;br /&gt;
* нечего рекомендовать новым/нетипичным пользователям.&lt;br /&gt;
&lt;br /&gt;
=== Item-based алгоритм ===&lt;br /&gt;
Также имеется абсолютно симметричный алгоритм. Теперь будем считать, что объект понравится пользователю, если ему понравились похожие объекты. Предпочтение пользователя &amp;lt;tex&amp;gt;u&amp;lt;/tex&amp;gt; к объекту &amp;lt;tex&amp;gt;i&amp;lt;/tex&amp;gt; запишется так:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt; \hat{r}_{ui} = \bar{r}_i + \dfrac{\sum_{j \in I_u}{}{sim(i, j)(r_{uj} - \bar{r}_j)}}{\sum_{j \in {I_u}}{}{sim(i, j)}} &amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\bar{r}_i&amp;lt;/tex&amp;gt; {{---}} средняя оценка, проставленная объекту &amp;lt;tex&amp;gt; i &amp;lt;/tex&amp;gt;, а &amp;lt;tex&amp;gt; sim(i, j) &amp;lt;/tex&amp;gt; {{---}} мера схожести объектов  &amp;lt;tex&amp;gt;i&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;.  &lt;br /&gt;
&lt;br /&gt;
У такого подхода остается недостаток в виде холодного старта и при этом рекомендации становятся тривиальными.&lt;br /&gt;
&lt;br /&gt;
Cтоит отметить, что ресурсоемкость вычислений такими методами высока: для предсказаний необходимо держать в памяти все оценки всех пользователей.&lt;br /&gt;
&lt;br /&gt;
==Алгоритм SVD==&lt;br /&gt;
&lt;br /&gt;
Попробуем воспользоваться [[Сингулярное разложение | сингулярным разложением (SVD)]] для задачи рекомендации. &lt;br /&gt;
&lt;br /&gt;
Разложим матрицу оценок &amp;lt;tex&amp;gt; R &amp;lt;/tex&amp;gt; с использованием сингулярного разложения: &lt;br /&gt;
&amp;lt;tex&amp;gt; R_{n \times m} = U_{n \times n} \times \Sigma_{n \times m} \times V^T_{m \times m} &amp;lt;/tex&amp;gt;.&lt;br /&gt;
Применяя усеченное разложение, получим следующее:&lt;br /&gt;
&amp;lt;tex&amp;gt; R'_{n \times m} = U'_{n \times d} \times \Sigma '_{d \times d} \times V'^T_{d \times m} &amp;lt;/tex&amp;gt;.&lt;br /&gt;
Из свойств сингулярного разложения мы знаем, что матрица &amp;lt;tex&amp;gt; R'_{n \times m} &amp;lt;/tex&amp;gt; является наилучшим низкоранговым приближением с точки зрения средне-квадратичного отклонения. Несколько упростим запись выражения: запишем произведение первых двух матриц &amp;lt;tex&amp;gt; \tilde{U}_{n \times d} = U'_{n \times d} \times \Sigma '_{d \times d} &amp;lt;/tex&amp;gt;, а матрицу &amp;lt;tex&amp;gt; V'^T_{d \times m} &amp;lt;/tex&amp;gt; обозначим как &amp;lt;tex&amp;gt; \tilde{V}_{d \times m} &amp;lt;/tex&amp;gt;. Получим формулу &amp;lt;tex&amp;gt; R'_{n \times m} =  \tilde{U}_{n \times d}  \times \tilde{V}_{d \times m} &amp;lt;/tex&amp;gt;. Интерпретировать полученную формулу стоит следующим образом: приближенная матрица оценок может быть вычислена как произведение усеченных матриц пользователей и оценок.&lt;br /&gt;
&lt;br /&gt;
Благодаря использованию такого усечения можно решить одну из главных проблем всех ранее упомянутых алгоритмов: ресурсоемкость вычислений.&lt;br /&gt;
&lt;br /&gt;
[[Файл:RecommendSVD.png|450px|thumb|right|SVD для рекомендательных систем.]]&lt;br /&gt;
&lt;br /&gt;
Чтобы предсказать оценку пользователя &amp;lt;tex&amp;gt; u &amp;lt;/tex&amp;gt; для объекта &amp;lt;tex&amp;gt; i &amp;lt;/tex&amp;gt;, берём некоторый вектор &amp;lt;tex&amp;gt; p_u &amp;lt;/tex&amp;gt; для данного пользователя и вектор данного объекта &amp;lt;tex&amp;gt; q_i &amp;lt;/tex&amp;gt;. Получаем необходимое предсказание: &amp;lt;tex&amp;gt; \hat{r}_{ui} = \langle p_u,q_i \rangle &amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Помимо предсказания оценок, алгоритм позволяет выявлять скрытые признаки объектов и интересы пользователей.&lt;br /&gt;
Например, может так получиться, что на первой координате вектора у каждого пользователя будет стоять число, показывающее, похож ли пользователь больше на мальчика или на девочку, на второй координате — число, отражающее примерный возраст пользователя. У фильма же первая координата будет показывать, интересен ли он больше мальчикам или девочкам, а вторая — какой возрастной группе пользователей он интересен.&lt;br /&gt;
&lt;br /&gt;
Однако данный алгоритм имеет ряд проблем:&lt;br /&gt;
* матрица оценок &amp;lt;tex&amp;gt; R &amp;lt;/tex&amp;gt; полностью не известна, поэтому просто взять SVD разложение не представляется возможным;&lt;br /&gt;
* Сингулярное разложение не единственное, поэтому даже если какое-то разложение будет найдено, нет гарантии, что первая координата в нем будет соответствовать некоторым выбранным характеристикам пользователя.&lt;br /&gt;
&lt;br /&gt;
==Решение проблемы матрицы оценок==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Для решения проблем, связанных с матрицей оценок &amp;lt;tex&amp;gt;R&amp;lt;/tex&amp;gt;, построим модель.&lt;br /&gt;
&lt;br /&gt;
Модель будет зависеть от следующих параметров: вектор пользователей и вектор объектов. Для заданных параметров &amp;lt;tex&amp;gt; u &amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;i&amp;lt;/tex&amp;gt; возьмем вектор пользователя &amp;lt;tex&amp;gt; p_u &amp;lt;/tex&amp;gt; и вектор объекта &amp;lt;tex&amp;gt;q_i&amp;lt;/tex&amp;gt;, затем для предсказания оценки получим их скалярное произведение, как и в алгоритме SVD:&lt;br /&gt;
&amp;lt;tex&amp;gt; \hat{r}_{ui}(\Theta) = p^T_uq_i &amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt; \Theta = \{p_u, q_i \mid u \in U, i \in I\} &amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Но вектора пока не известны, их нужно получить. Имеются оценки пользователей, при помощи которых можно найти оптимальные параметры, при которых модель предскажет оценки наилучшим образом:&lt;br /&gt;
&amp;lt;tex&amp;gt; E_{(u,i)}(\hat{r}_{ui}(\Theta) - r_{ui})^2 \to min_{\Theta} &amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
То есть, нужно найти такие параметры &amp;lt;tex&amp;gt; \Theta &amp;lt;/tex&amp;gt;, чтобы квадрат ошибки был наименьшим. Однако ситуация следующая: оптимизация приведет к наименьшим ошибкам в будущем, но как именно оценки будут спрашивать {{---}} неизвестно. Следовательно, это нельзя оптимизировать. Однако, так как оценки, уже проставленные пользователями, известны, постараемся минимизировать ошибку на тех данных, что у нас уже есть. Также воспользуемся  [[Регуляризация | регуляризацией]]. В качестве регуляризатора будет выступать слагаемое &amp;lt;tex&amp;gt;\lambda \sum_{\theta \in \Theta}{\theta^2}&amp;lt;/tex&amp;gt;. Получим следующее:&lt;br /&gt;
&amp;lt;tex&amp;gt; \sum_{(u,i) \in D}{(\hat{r}_{ui}(\Theta) - r_{ui})^2} + \lambda \sum_{\theta \in \Theta}{\theta^2} \to min_{\Theta} &amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
==Численная оптимизация==&lt;br /&gt;
&lt;br /&gt;
Чтобы найти оптимальные параметры построенной модели необходимо оптимизировать следующий функционал:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt; J(\Theta) = \sum_{(u,i) \in D}{(p^T_uq_i - r_{ui})^2} + \lambda (\sum_u{||p_u||^2} + \sum_i{||q_i||^2}) &amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Множество параметров: для каждого объекта и пользователя есть свой вектор, который нужно оптимизировать. Чтобы найти минимум функции можно использовать [[ Стохастический градиентный спуск | метод градиентного спуска]]. Для этого нам понадобится градиент {{---}} вектор из частных производных по каждому параметру, который в нашем случае будет выглядеть так:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt; \nabla J(\Theta) = (\dfrac{\partial J}{\partial \theta_1}, \dfrac{\partial J}{\partial \theta_2},\dots,\dfrac{\partial J}{\partial \theta_n})^T &amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Шаг градиентного спуска можно записать следующим образом: &amp;lt;tex&amp;gt; \Theta_{t+1} = \Theta_t - \eta \nabla J(\Theta) &amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt; \eta &amp;lt;/tex&amp;gt; {{---}} коэффициент скорости обучения.&lt;br /&gt;
&lt;br /&gt;
==Измерение качества рекомендаций==&lt;br /&gt;
&lt;br /&gt;
Зачастую качество рекомендаций измеряется с  помощью функции ошибки [[ Оценка_качества_в_задачах_классификации_и_регрессии#.D0.9A.D0.BE.D1.80.D0.B5.D0.BD.D1.8C_.D0.B8.D0.B7_.D1.81.D1.80.D0.B5.D0.B4.D0.BD.D0.B5.D0.B9_.D0.BA.D0.B2.D0.B0.D0.B4.D1.80.D0.B0.D1.82.D0.B8.D1.87.D0.BD.D0.BE.D0.B9_.D0.BE.D1.88.D0.B8.D0.B1.D0.BA.D0.B8_.28.D0.B0.D0.BD.D0.B3.D0.BB._Root_Mean_Squared_Error.2C_RMSE.29 | RMSE]]:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt; RMSE = \sqrt{\dfrac{1}{|D|} \sum_{(u,i) \in D}{(\hat{r}_{ui} - r_{ui})^2}} &amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Данный способ, хоть и является стандартным для измерением качества, имеет ряд недостатков:&lt;br /&gt;
* пользователи с большим разбросом оценок будут влиять на значение метрики больше, чем остальные;&lt;br /&gt;
* ошибка в предсказании высокой оценки имеет такой же вес, что и ошибка в предсказании низкой оценки;&lt;br /&gt;
* есть риск плохого ранжирования при почти идеальной RMSE и наоборот.&lt;br /&gt;
&lt;br /&gt;
Существуют при этом и другие метрики {{---}} метрики ранжирования, на основе полноты и точности. Однако они не так популярны и используются значительно реже.&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Регуляризация]]&lt;br /&gt;
* [[Оценка качества в задаче кластеризации]]&lt;br /&gt;
* [[Оценка качества в задачах классификации и регрессии]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
== Источники информации==&lt;br /&gt;
* [https://habr.com/ru/company/yandex/blog/241455/ Как работают рекомендательные системы.]&lt;br /&gt;
* [https://habr.com/ru/company/jetinfosystems/blog/453792/ Рекомендательные системы: идеи, подходы, задачи.]&lt;br /&gt;
* [https://neurohive.io/ru/osnovy-data-science/rekomendatelnye-sistemy-modeli-i-ocenka/ Анатомия рекомендательных систем.]&lt;br /&gt;
* [http://www.mathnet.ru/links/4d5ff6f460c0d9409ce16b558725408d/ista26.pdf Рекомендательные системы: обзор основных постановок и результатов.]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Рекомендательные системы]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%BA%D0%BE%D0%BC%D0%B5%D0%BD%D0%B4%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B&amp;diff=76776</id>
		<title>Рекомендательные системы</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%BA%D0%BE%D0%BC%D0%B5%D0%BD%D0%B4%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D1%8B&amp;diff=76776"/>
				<updated>2021-01-08T08:00:12Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;'''Рекомендательные системы''' {{---}} программы, которые пытаются предсказать, какие объекты будут интересны пользователю, имея определенную информацию о его профиле.&lt;br /&gt;
&lt;br /&gt;
== Обзор и постановка задачи ==&lt;br /&gt;
&lt;br /&gt;
Основная задача рекомендательных систем&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%A0%D0%B5%D0%BA%D0%BE%D0%BC%D0%B5%D0%BD%D0%B4%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0 Рекомендательные системы]&amp;lt;/ref&amp;gt; {{---}} проинформировать пользователя о товарах или услугах, которые будут для него наиболее интересными и актуальными. Разнообразие таких систем можно проиллюстрировать основными характеристиками:&lt;br /&gt;
&lt;br /&gt;
* предмет рекомендации;&lt;br /&gt;
* цель рекомендации;&lt;br /&gt;
* контекст рекомендации;&lt;br /&gt;
* источник рекомендации;&lt;br /&gt;
* степень персонализации;&lt;br /&gt;
* формат рекомендации;&lt;br /&gt;
* прозрачность рекомендации.&lt;br /&gt;
&lt;br /&gt;
В центре таких систем лежит матрица предпочтений. В этой матрице одна из осей отвечает за пользователей, вторая за объекты рекомендации. Заполнена же эта матрица значениями по заданной шкале (например от &amp;lt;tex&amp;gt;1&amp;lt;/tex&amp;gt; до &amp;lt;tex&amp;gt;5&amp;lt;/tex&amp;gt;). Так как каждый пользователь обычно может оценить только небольшую часть объектов, то данная матрица очень разрежена. Задача системы {{---}} обобщение информации и предсказание отношения пользователя к объекту (заполнение пропущенных значений матрицы). &lt;br /&gt;
&lt;br /&gt;
Данные, сообщающие предпочтения пользователя, можно получить двумя способами:&lt;br /&gt;
&lt;br /&gt;
* явно (англ. ''explicit feedback'', ''explicit ratings'');&lt;br /&gt;
* неявно (англ. ''implicit feedback'', ''implicit ratings'').&lt;br /&gt;
&lt;br /&gt;
При явном оценивании пользователь сам показывает, насколько ему интересен тот или иной объект. Типичным примером данных, полученных при явном оценивании, являются рейтинги, проставленные пользователями объектам. На практике таких данных обычно мало.&lt;br /&gt;
Гораздо больше имеется информации о неявных предпочтениях пользователя: просмотры, клики, добавления в закладки. Однако по таким данным не всегда можно сделать явный вывод об отношении пользователя к объекту. Например, если пользователь посмотрел фильм, то это означает, что до просмотра он ему был интересен, но сделать вывод о том, понравился ли ему фильм, нельзя.&lt;br /&gt;
В большинстве рекомендательных систем эти два подхода используются вместе, тем самым минимизируются недостатки каждого из них в отдельности.&lt;br /&gt;
&lt;br /&gt;
Формализуем задачу. Имеется множество пользователей &amp;lt;tex&amp;gt; u \in U &amp;lt;/tex&amp;gt;, множество объектов &amp;lt;tex&amp;gt; i \in I &amp;lt;/tex&amp;gt; и множество событий &amp;lt;tex&amp;gt; (r_{ui}, u, i,\dots) \in D &amp;lt;/tex&amp;gt; (действия, которые совершают пользователи с объектами). Каждое событие задается пользователем &amp;lt;tex&amp;gt; u &amp;lt;/tex&amp;gt;, объектом &amp;lt;tex&amp;gt; i &amp;lt;/tex&amp;gt;, своим результатом &amp;lt;tex&amp;gt; r_{ui} &amp;lt;/tex&amp;gt; и, возможно, но не обязательно, другими характеристиками. По итогу от рекомендательной системы требуется:&lt;br /&gt;
&lt;br /&gt;
* предсказывать предпочтение пользователя &amp;lt;tex&amp;gt; u &amp;lt;/tex&amp;gt; к объекту &amp;lt;tex&amp;gt; i &amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt; \hat{r}_{ui} = Predict(u, i,\dots) \approx r_{ui}; &amp;lt;/tex&amp;gt;&lt;br /&gt;
* выдавать персональные рекомендации для пользователя &amp;lt;tex&amp;gt; u &amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt; Recommend_k(u,\dots) = (i_1,\dots, i_k); &amp;lt;/tex&amp;gt;&lt;br /&gt;
* определять объекты, похожие на объект &amp;lt;tex&amp;gt;i&amp;lt;/tex&amp;gt;: &amp;lt;tex&amp;gt;Similar_M(i) = (i_1,\dots, i_M). &amp;lt;/tex&amp;gt;&lt;br /&gt;
&lt;br /&gt;
==Кластеризация пользователей==&lt;br /&gt;
&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Коллаборативная фильтрация''' (англ. ''collaborative filtering'') {{---}} один из методов построения прогнозов (рекомендаций) в рекомендательных системах, использующий известные предпочтения (оценки) группы пользователей для прогнозирования неизвестных предпочтений другого пользователя.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
Основная идея метода {{---}} похожим пользователям нравятся похожие объекты.&lt;br /&gt;
&lt;br /&gt;
Алгоритм можно разбить на следующие шаги:&lt;br /&gt;
# Выбор условной меры схожести пользователей по истории их оценок &amp;lt;tex&amp;gt; sim(u, v) &amp;lt;/tex&amp;gt;.&lt;br /&gt;
# Объединение пользователей в группы (кластеры) так, чтобы похожие пользователи оказывались в одном кластере &amp;lt;tex&amp;gt; u \mapsto F(u) &amp;lt;/tex&amp;gt;.&lt;br /&gt;
# Предсказание оценки пользователя: средняя оценка кластера этому объекту &amp;lt;tex&amp;gt; \hat{r}_{ui} = \dfrac{1}{|F(u)|}\sum_{u \in F(u)}{}{r_{ui}} &amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Проблемы алгоритма:&lt;br /&gt;
&lt;br /&gt;
* нечего рекомендовать новым пользователям, так как их невозможно отнести к какому-либо кластеру;&lt;br /&gt;
* не учитывается контекст и специфика пользователя;&lt;br /&gt;
* если в кластере нет оценки объекта, то предсказание невозможно.&lt;br /&gt;
&lt;br /&gt;
== Холодный старт ==&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition=&lt;br /&gt;
'''Холодный старт''' (англ. ''cold start'') {{---}} ситуация, когда ещё не накоплено достаточное количество данных для корректной работы рекомендательной системы.&lt;br /&gt;
}}&lt;br /&gt;
Данная проблема актуальна для новых объектов или объектов, с которыми пользователи редко совершают действия. Если средний рейтинг посчитан по оценкам всего трёх пользователей, такая оценка явно не будет достоверной, и пользователи это понимают. Часто в таких ситуациях рейтинги искусственно корректируют.&lt;br /&gt;
&lt;br /&gt;
'''Первый способ.''' Предлагается показывать не среднее значение, а сглаженное среднее (англ. ''damped mean'')&amp;lt;ref&amp;gt;[damped mean]&amp;lt;/ref&amp;gt;. Смысл таков: при малом количестве оценок отображаемый рейтинг больше тяготеет к некому безопасному «среднему» показателю, а как только набирается достаточное количество новых оценок, «усредняющая» корректировка перестает действовать.&lt;br /&gt;
&lt;br /&gt;
'''Второй способ.''' Для объекта считается средний рейтинг, затем определяется интервал достоверности (англ. ''сonfidence interval'') этого рейтинга. Математически, чем больше оценок, тем меньше вариация среднего и, значит, больше уверенность в его корректности. А в качестве рейтинга объекта можно выводить, например, нижнюю границу интервала (англ. ''low CI bound''). При этом понятно, что такая система будет достаточно консервативной, с тенденцией к занижению оценок по новым объектам.&lt;br /&gt;
&lt;br /&gt;
== User-based и item-based алгоритмы ==&lt;br /&gt;
&lt;br /&gt;
=== User-based алгоритм ===&lt;br /&gt;
Заменим жесткую кластеризацию на предположение, что объект понравится пользователю, если он понравился похожим пользователям. Тогда предпочтение пользователя &amp;lt;tex&amp;gt;u&amp;lt;/tex&amp;gt; к объекту &amp;lt;tex&amp;gt;i&amp;lt;/tex&amp;gt; можно записать следующим образом:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt; \hat{r}_{ui} = \bar{r}_u + \dfrac{\sum_{v \in U_i}{}{sim(u, v)(r_{vi} - \bar{r}_v)}}{\sum_{v \in {U_i}}{}{sim(u, v)}} &amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\bar{r}_u&amp;lt;/tex&amp;gt; {{---}} средняя оценка, проставленная пользователем &amp;lt;tex&amp;gt; u &amp;lt;/tex&amp;gt;, а &amp;lt;tex&amp;gt; sim(u,v) &amp;lt;/tex&amp;gt; {{---}} мера схожести пользователей  &amp;lt;tex&amp;gt;u&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;v&amp;lt;/tex&amp;gt;. &lt;br /&gt;
&lt;br /&gt;
Однако у этого алгоритма есть недостатки: &lt;br /&gt;
&lt;br /&gt;
* холодный старт — новые объекты никому не рекомендуются;&lt;br /&gt;
* нечего рекомендовать новым/нетипичным пользователям.&lt;br /&gt;
&lt;br /&gt;
=== Item-based алгоритм ===&lt;br /&gt;
Также имеется абсолютно симметричный алгоритм. Теперь будем считать, что объект понравится пользователю, если ему понравились похожие объекты. Предпочтение пользователя &amp;lt;tex&amp;gt;u&amp;lt;/tex&amp;gt; к объекту &amp;lt;tex&amp;gt;i&amp;lt;/tex&amp;gt; запишется так:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt; \hat{r}_{ui} = \bar{r}_i + \dfrac{\sum_{j \in I_u}{}{sim(i, j)(r_{uj} - \bar{r}_j)}}{\sum_{j \in {I_u}}{}{sim(i, j)}} &amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt;\bar{r}_i&amp;lt;/tex&amp;gt; {{---}} средняя оценка, проставленная объекту &amp;lt;tex&amp;gt; i &amp;lt;/tex&amp;gt;, а &amp;lt;tex&amp;gt; sim(i, j) &amp;lt;/tex&amp;gt; {{---}} мера схожести объектов  &amp;lt;tex&amp;gt;i&amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;j&amp;lt;/tex&amp;gt;.  &lt;br /&gt;
&lt;br /&gt;
У такого подхода остается недостаток в виде холодного старта и при этом рекомендации становятся тривиальными.&lt;br /&gt;
&lt;br /&gt;
Cтоит отметить, что ресурсоемкость вычислений такими методами высока: для предсказаний необходимо держать в памяти все оценки всех пользователей.&lt;br /&gt;
&lt;br /&gt;
==Алгоритм SVD==&lt;br /&gt;
&lt;br /&gt;
Попробуем воспользоваться [[Сингулярное разложение | сингулярным разложением (SVD)]] для задачи рекомендации. &lt;br /&gt;
&lt;br /&gt;
Разложим матрицу оценок &amp;lt;tex&amp;gt; R &amp;lt;/tex&amp;gt; с использованием сингулярного разложения: &lt;br /&gt;
&amp;lt;tex&amp;gt; R_{n \times m} = U_{n \times n} \times \Sigma_{n \times m} \times V^T_{m \times m} &amp;lt;/tex&amp;gt;.&lt;br /&gt;
Применяя усеченное разложение, получим следующее:&lt;br /&gt;
&amp;lt;tex&amp;gt; R'_{n \times m} = U'_{n \times d} \times \Sigma '_{d \times d} \times V'^T_{d \times m} &amp;lt;/tex&amp;gt;.&lt;br /&gt;
Из свойств сингулярного разложения мы знаем, что матрица &amp;lt;tex&amp;gt; R'_{n \times m} &amp;lt;/tex&amp;gt; является наилучшим низкоранговым приближением с точки зрения средне-квадратичного отклонения. Несколько упростим запись выражения: запишем произведение первых двух матриц &amp;lt;tex&amp;gt; \tilde{U}_{n \times d} = U'_{n \times d} \times \Sigma '_{d \times d} &amp;lt;/tex&amp;gt;, а матрицу &amp;lt;tex&amp;gt; V'^T_{d \times m} &amp;lt;/tex&amp;gt; обозначим как &amp;lt;tex&amp;gt; \tilde{V}_{d \times m} &amp;lt;/tex&amp;gt;. Получим формулу &amp;lt;tex&amp;gt; R'_{n \times m} =  \tilde{U}_{n \times d}  \times \tilde{V}_{d \times m} &amp;lt;/tex&amp;gt;. Интерпретировать полученную формулу стоит следующим образом: приближенная матрица оценок может быть вычислена как произведение усеченных матриц пользователей и оценок.&lt;br /&gt;
&lt;br /&gt;
Благодаря использованию такого усечения можно решить одну из главных проблем всех ранее упомянутых алгоритмов: ресурсоемкость вычислений.&lt;br /&gt;
&lt;br /&gt;
[[Файл:RecommendSVD.png|450px|thumb|right|SVD для рекомендательных систем.]]&lt;br /&gt;
&lt;br /&gt;
Чтобы предсказать оценку пользователя &amp;lt;tex&amp;gt; u &amp;lt;/tex&amp;gt; для объекта &amp;lt;tex&amp;gt; i &amp;lt;/tex&amp;gt;, берём некоторый вектор &amp;lt;tex&amp;gt; p_u &amp;lt;/tex&amp;gt; для данного пользователя и вектор данного объекта &amp;lt;tex&amp;gt; q_i &amp;lt;/tex&amp;gt;. Получаем необходимое предсказание: &amp;lt;tex&amp;gt; \hat{r}_{ui} = \langle p_u,q_i \rangle &amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Помимо предсказания оценок, алгоритм позволяет выявлять скрытые признаки объектов и интересы пользователей.&lt;br /&gt;
Например, может так получиться, что на первой координате вектора у каждого пользователя будет стоять число, показывающее, похож ли пользователь больше на мальчика или на девочку, на второй координате — число, отражающее примерный возраст пользователя. У фильма же первая координата будет показывать, интересен ли он больше мальчикам или девочкам, а вторая — какой возрастной группе пользователей он интересен.&lt;br /&gt;
&lt;br /&gt;
Однако данный алгоритм имеет ряд проблем:&lt;br /&gt;
* матрица оценок &amp;lt;tex&amp;gt; R &amp;lt;/tex&amp;gt; полностью не известна, поэтому просто взять SVD разложение не представляется возможным;&lt;br /&gt;
* Сингулярное разложение не единственное, поэтому даже если какое-то разложение будет найдено, нет гарантии, что первая координата в нем будет соответствовать некоторым выбранным характеристикам пользователя.&lt;br /&gt;
&lt;br /&gt;
==Решение проблемы матрицы оценок==&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
Для решения проблем, связанных с матрицей оценок &amp;lt;tex&amp;gt;R&amp;lt;/tex&amp;gt;, построим модель.&lt;br /&gt;
&lt;br /&gt;
Модель будет зависеть от следующих параметров: вектор пользователей и вектор объектов. Для заданных параметров &amp;lt;tex&amp;gt; u &amp;lt;/tex&amp;gt; и &amp;lt;tex&amp;gt;i&amp;lt;/tex&amp;gt; возьмем вектор пользователя &amp;lt;tex&amp;gt; p_u &amp;lt;/tex&amp;gt; и вектор объекта &amp;lt;tex&amp;gt;q_i&amp;lt;/tex&amp;gt;, затем для предсказания оценки получим их скалярное произведение, как и в алгоритме SVD:&lt;br /&gt;
&amp;lt;tex&amp;gt; \hat{r}_{ui}(\Theta) = p^T_uq_i &amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt; \Theta = \{p_u, q_i \mid u \in U, i \in I\} &amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Но вектора пока не известны, их нужно получить. Имеются оценки пользователей, при помощи которых можно найти оптимальные параметры, при которых модель предскажет оценки наилучшим образом:&lt;br /&gt;
&amp;lt;tex&amp;gt; E_{(u,i)}(\hat{r}_{ui}(\Theta) - r_{ui})^2 \to min_{\Theta} &amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
То есть, нужно найти такие параметры &amp;lt;tex&amp;gt; \Theta &amp;lt;/tex&amp;gt;, чтобы квадрат ошибки был наименьшим. Однако ситуация следующая: оптимизация приведет к наименьшим ошибкам в будущем, но как именно оценки будут спрашивать {{---}} неизвестно. Следовательно, это нельзя оптимизировать. Однако, так как оценки, уже проставленные пользователями, известны, постараемся минимизировать ошибку на тех данных, что у нас уже есть. Также воспользуемся  [[Регуляризация | регуляризацией]]. В качестве регуляризатора будет выступать слагаемое &amp;lt;tex&amp;gt;\lambda \sum_{\theta \in \Theta}{\theta^2}&amp;lt;/tex&amp;gt;. Получим следующее:&lt;br /&gt;
&amp;lt;tex&amp;gt; \sum_{(u,i) \in D}{(\hat{r}_{ui}(\Theta) - r_{ui})^2} + \lambda \sum_{\theta \in \Theta}{\theta^2} \to min_{\Theta} &amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
==Численная оптимизация==&lt;br /&gt;
&lt;br /&gt;
Чтобы найти оптимальные параметры построенной модели необходимо оптимизировать следующий функционал:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt; J(\Theta) = \sum_{(u,i) \in D}{(p^T_uq_i - r_{ui})^2} + \lambda (\sum_u{||p_u||^2} + \sum_i{||q_i||^2}) &amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Множество параметров: для каждого объекта и пользователя есть свой вектор, который нужно оптимизировать. Чтобы найти минимум функции можно использовать [[ Стохастический градиентный спуск | метод градиентного спуска]]. Для этого нам понадобится градиент {{---}} вектор из частных производных по каждому параметру, который в нашем случае будет выглядеть так:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt; \nabla J(\Theta) = (\dfrac{\partial J}{\partial \theta_1}, \dfrac{\partial J}{\partial \theta_2},\dots,\dfrac{\partial J}{\partial \theta_n})^T &amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Шаг градиентного спуска можно записать следующим образом: &amp;lt;tex&amp;gt; \Theta_{t+1} = \Theta_t - \eta \nabla J(\Theta) &amp;lt;/tex&amp;gt;, где &amp;lt;tex&amp;gt; \eta &amp;lt;/tex&amp;gt; {{---}} коэффициент скорости обучения.&lt;br /&gt;
&lt;br /&gt;
==Измерение качества рекомендаций==&lt;br /&gt;
&lt;br /&gt;
Зачастую качество рекомендаций измеряется с  помощью функции ошибки [[ Оценка_качества_в_задачах_классификации_и_регрессии#.D0.9A.D0.BE.D1.80.D0.B5.D0.BD.D1.8C_.D0.B8.D0.B7_.D1.81.D1.80.D0.B5.D0.B4.D0.BD.D0.B5.D0.B9_.D0.BA.D0.B2.D0.B0.D0.B4.D1.80.D0.B0.D1.82.D0.B8.D1.87.D0.BD.D0.BE.D0.B9_.D0.BE.D1.88.D0.B8.D0.B1.D0.BA.D0.B8_.28.D0.B0.D0.BD.D0.B3.D0.BB._Root_Mean_Squared_Error.2C_RMSE.29 | RMSE]]:&lt;br /&gt;
&lt;br /&gt;
&amp;lt;tex&amp;gt; RMSE = \sqrt{\dfrac{1}{|D|} \sum_{(u,i) \in D}{(\hat{r}_{ui} - r_{ui})^2}} &amp;lt;/tex&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
Данный способ, хоть и является стандартным для измерением качества, имеет ряд недостатков:&lt;br /&gt;
* пользователи с большим разбросом оценок будут влиять на значение метрики больше, чем остальные;&lt;br /&gt;
* ошибка в предсказании высокой оценки имеет такой же вес, что и ошибка в предсказании низкой оценки;&lt;br /&gt;
* есть риск плохого ранжирования при почти идеальной RMSE и наоборот.&lt;br /&gt;
&lt;br /&gt;
Существуют при этом и другие метрики {{---}} метрики ранжирования, на основе полноты и точности. Однако они не так популярны и используются значительно реже.&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Регуляризация]]&lt;br /&gt;
* [[Оценка качества в задаче кластеризации]]&lt;br /&gt;
* [[Оценка качества в задачах классификации и регрессии]]&lt;br /&gt;
&lt;br /&gt;
== Источники информации==&lt;br /&gt;
* [https://habr.com/ru/company/yandex/blog/241455/ Как работают рекомендательные системы.]&lt;br /&gt;
* [https://habr.com/ru/company/jetinfosystems/blog/453792/ Рекомендательные системы: идеи, подходы, задачи.]&lt;br /&gt;
* [https://neurohive.io/ru/osnovy-data-science/rekomendatelnye-sistemy-modeli-i-ocenka/ Анатомия рекомендательных систем.]&lt;br /&gt;
* [http://www.mathnet.ru/links/4d5ff6f460c0d9409ce16b558725408d/ista26.pdf Рекомендательные системы: обзор основных постановок и результатов.]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Рекомендательные системы]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A1%D0%B5%D1%82%D0%B8_%D0%B3%D0%BB%D1%83%D0%B1%D0%BE%D0%BA%D0%BE%D0%B3%D0%BE_%D0%B4%D0%BE%D0%B2%D0%B5%D1%80%D0%B8%D1%8F&amp;diff=76775</id>
		<title>Сети глубокого доверия</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A1%D0%B5%D1%82%D0%B8_%D0%B3%D0%BB%D1%83%D0%B1%D0%BE%D0%BA%D0%BE%D0%B3%D0%BE_%D0%B4%D0%BE%D0%B2%D0%B5%D1%80%D0%B8%D1%8F&amp;diff=76775"/>
				<updated>2021-01-08T07:49:18Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
'''Сети глубокого доверия''' {{---}} это вероятностные [[Порождающие модели|генеративные модели]], которые состоят из нескольких слоев стохастических скрытых переменных. Скрытые переменные обычно имеют двоичные значения и часто называются скрытыми узлами или детекторами признаков. Два верхних слоя имеют ненаправленные, симметричные связи между ними и образуют ассоциативную память. Между оставшимися парами соседних слоёв есть только направленные связи от верхнего к нижнему. Состояния узлов в нижнем слое представляют вектор данных.&lt;br /&gt;
&lt;br /&gt;
Два наиболее значимых свойства сетей глубокого доверия:&lt;br /&gt;
# Существует эффективная послойная процедура для обучения нисходящих весов, которая определяет, как переменные в одном слое зависят от переменных в слое выше.&lt;br /&gt;
# После обучения скрытых переменных в каждом слое могут быть выведены значения за один проход снизу вверх, который начинается с наблюдаемого вектора данных в нижнем слое и использует веса в обратном направлении.&lt;br /&gt;
Сети глубокого доверия обучаются по одному слою за раз, обрабатывая значения скрытых переменных в одном слое в тот момент, когда они выводятся из данных для обучения следующего слоя. Это эффективное, жадное обучение может сопровождаться или сочетаться с другими процедурами обучения, которые точно настраивают все веса для улучшения генеративных или дискриминационных характеристик всей сети.&lt;br /&gt;
&lt;br /&gt;
Дискриминирующая тонкая настройка может быть выполнена путем добавления последнего слоя переменных, которые представляют желаемые выходные данные и производные [[Обратное распространение ошибки|ошибок обратного распространения]]. Когда сети со многими скрытыми слоями применяются к высокоструктурированным входным данным, таким как изображения, обратное распространение работает намного лучше, если детекторы признаков в скрытых слоях инициализируются путем обучения глубокой сети доверия, которая моделирует структуру во входных данных.&lt;br /&gt;
&lt;br /&gt;
== Как развивались сети глубокого доверия ==&lt;br /&gt;
&lt;br /&gt;
В нейронных сетях первого поколения использовались [[Нейронные сети, перцептрон|перцептроны]], которые идентифицировали конкретный объект или что-либо еще, принимая во внимание «вес» или предварительные свойства. Однако перцептроны могут быть эффективны только на базовом уровне и бесполезны для передовых технологий. Для решения этих проблем во втором поколении нейронных сетей была введена концепция обратного распространения, при которой полученный вывод сравнивается с желаемым выводом, а значение ошибки было снижено до нуля. [[Метод опорных векторов (SVM)|Метод опорных векторов]] позволил создать больше контрольных примеров, ссылаясь на ранее введенные контрольные примеры. Затем последовали циклические графы, называемые сетями доверия, которые помогли в решении проблем, связанных с выводом и проблемами обучения. За этим последовали  сети глубокого доверия, которые помогли создать непредвзятые значения для хранения в конечных узлах.&lt;br /&gt;
&lt;br /&gt;
== Композиция простых обучающих модулей ==&lt;br /&gt;
[[Файл:Rbmimage4.png |400px|thumb| right| Рис. 1 Распределение restricted Boltzmann machine]]&lt;br /&gt;
Глубокая сеть доверия может рассматриваться как набор простых обучающих модулей, каждый из которых представляет собой ограниченную машину Больцмана&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9E%D0%B3%D1%80%D0%B0%D0%BD%D0%B8%D1%87%D0%B5%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%B0_%D0%91%D0%BE%D0%BB%D1%8C%D1%86%D0%BC%D0%B0%D0%BD%D0%B0 restricted Boltzmann machine, RBM]&amp;lt;/ref&amp;gt;, которая содержит слой видимых узлов, представляющий данные, и слой скрытых узлов, которые обучаются представлению особенностей, которые захватывают более высокие порядки корреляции в данных. Ограниченные машины Больцмана могут быть сложены и обучены [[Теорема Радо-Эдмондса (жадный алгоритм)|жадным алгоритмом]], чтобы сформировать так называемые глубокие сети доверия, которые моделируют совместное распределение между наблюдаемым вектором &amp;lt;math&amp;gt;x&amp;lt;/math&amp;gt; и скрытыми слоями &amp;lt;math&amp;gt;h^{k}&amp;lt;/math&amp;gt; следующим образом:&lt;br /&gt;
 &amp;lt;center&amp;gt;&amp;lt;tex&amp;gt;P(x, h^1, \ldots, h^l)=\left( \prod\limits_{k = 0}^{l - 2}P(h^k|h^{k + 1}) \right) P(h^{l - 1}|h^l)&amp;lt;/tex&amp;gt;,&amp;lt;/center&amp;gt; &lt;br /&gt;
где $x=h^0$, $P(h^{k-1}|h^{k})$ {{---}} условное распределение для видимых узлов, обусловленных скрытыми узлами RBM на уровне &amp;lt;math&amp;gt;k&amp;lt;/math&amp;gt;, и $P(h^{l - 1}|h^l)$ {{---}} это видимое-скрытое совместное распределение в RBM верхнего уровня. Это показано на рисунке 1.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Ограниченная машина Больцмана (RBM) ==&lt;br /&gt;
[[Файл:Bolcman.jpg |400px| thumb | right |Рис 2. Визуализация RBM]]&lt;br /&gt;
Если вы знаете, что такое факторный анализ, то RBM можно рассматривать как двоичную версию факторного анализа. Таким образом, вместо множества факторов, определяющих вывод, мы можем иметь двоичную переменную в форме 0 или 1.&lt;br /&gt;
&lt;br /&gt;
Например: если вы читаете книгу, а затем судите эту книгу по двухзначной шкале: это либо вам нравится книга, либо вам не нравится книга. В таких сценариях мы можем использовать RBM, которые помогут нам определить причину, по которой мы делаем такой выбор.&lt;br /&gt;
&lt;br /&gt;
RBM используют вероятностный подход для нейронных сетей, и поэтому их также называют стохастическими нейронными сетями.&lt;br /&gt;
Если мы разложим RBM, то становится ясно, что они состоят из трех частей:&lt;br /&gt;
# Один входной слой, так называемые &amp;quot;Видимые узлы&amp;quot;.&lt;br /&gt;
# Один скрытый слой. &lt;br /&gt;
# Узлы смещения.&lt;br /&gt;
В приведенном выше примере видимые узлы {{---}} это не что иное, как то, нравится ли вам книга или нет. Скрытые узлы помогают найти то, что заставило вас одобрить эту книгу. Узлы смещения добавлены, чтобы включить различные виды свойств, разных книг.&lt;br /&gt;
Простая визуализация Ограниченной машины Больцмана показана на рисунке 2. &lt;br /&gt;
&lt;br /&gt;
Зеленым отмечены видимые узлы, красным скрытые, а белые узлы с меткой &amp;quot;bias&amp;quot; соответствуют узлам смещения.&lt;br /&gt;
&lt;br /&gt;
Сети глубокого доверия имеют две фазы:&lt;br /&gt;
# Фаза предварительного обучения.&lt;br /&gt;
# Фаза тонкой настройки.&lt;br /&gt;
Фаза предварительного обучения {{---}} это не что иное, как несколько уровней RBN, в то время как фаза тонкой настройки {{---}} это нейронная сеть с прямой связью. Визуализация обеих фаз показана на рисунке 3 ниже&lt;br /&gt;
[[Файл:Vis2f.png |600px|thumb| center| Рис. 3 Визуализация фаз RBM]]&lt;br /&gt;
&lt;br /&gt;
Алгоритм обучения глубокой сети доверия, состоит из нескольких этапов:&lt;br /&gt;
#  Нахождение признаков видимых узлов, используя алгоритм контрастной дивергенции.&lt;br /&gt;
#  Нахождение скрытых признаков объектов, найденных в предыдущем шаге.&lt;br /&gt;
&lt;br /&gt;
== Реализация ==&lt;br /&gt;
Мы начнем с определения класса для глубокой сети доверия, который назовем DBN (Deep belief network), который будет хранить уровни многослойного перцептрона MLP (Multilayer perceptron) вместе со связанными с ними RBM. Поскольку мы используем  RBM для инициализации MLP, код будет отражать эту идею, насколько это возможно. Далее будут приведены RBM, используемые для инициализации сети, и MLP, используемый для классификации.&lt;br /&gt;
 from __future__ import print_function, division&lt;br /&gt;
 import os&lt;br /&gt;
 import sys&lt;br /&gt;
 import timeit&lt;br /&gt;
 import numpy&lt;br /&gt;
 import theano&lt;br /&gt;
 import theano.tensor as T&lt;br /&gt;
&lt;br /&gt;
 from theano.sandbox.rng_mrg import MRG_RandomStreams&lt;br /&gt;
 from logistic_sgd import LogisticRegression, load_data&lt;br /&gt;
 from mlp import HiddenLayer&lt;br /&gt;
 from rbm import RBM&lt;br /&gt;
&lt;br /&gt;
 class DBN(object):&lt;br /&gt;
     def __init__(self, numpy_rng, theano_rng=None, n_ins=784, hidden_layers_sizes=[500, 500], n_outs=10):&lt;br /&gt;
        self.sigmoid_layers = []&lt;br /&gt;
        self.rbm_layers = []&lt;br /&gt;
        self.params = []&lt;br /&gt;
        self.n_layers = len(hidden_layers_sizes)&lt;br /&gt;
        assert self.n_layers &amp;gt; 0&lt;br /&gt;
        if not theano_rng:&lt;br /&gt;
            theano_rng = MRG_RandomStreams(numpy_rng.randint(2 ** 30))&lt;br /&gt;
        # allocate symbolic variables for the data&lt;br /&gt;
        # the data is presented as rasterized images&lt;br /&gt;
        self.x = T.matrix('x')&lt;br /&gt;
        # the labels are presented as 1D vector of [int] labels&lt;br /&gt;
        self.y = T.ivector('y')&lt;br /&gt;
&amp;lt;code&amp;gt;self.sigmoid_layers&amp;lt;/code&amp;gt; будет хранить графики прямой связи, которые вместе образуют MLP, в то время как &amp;lt;code&amp;gt;self.rbm_layers&amp;lt;/code&amp;gt; будет хранить RBM, используемые для предварительной подготовки каждого уровня MLP.&lt;br /&gt;
Следующим шагом мы строим сигмоидные слои &amp;lt;code&amp;gt;n_layers&amp;lt;/code&amp;gt; (мы используем класс &amp;lt;code&amp;gt;HiddenLayer&amp;lt;/code&amp;gt;, введенный в Multilayer Perceptron, с единственной модификацией, в которой мы заменили нелинейность от &amp;lt;tex&amp;gt;tanh&amp;lt;/tex&amp;gt; на логистическую функцию $s(x) = \frac{1}{1 + e^{-x}}$ и &amp;lt;code&amp;gt;n_layers&amp;lt;/code&amp;gt; RBM, где &amp;lt;code&amp;gt;n_layers&amp;lt;/code&amp;gt; {{---}} это глубина нашей модели. Мы связываем сигмоидные слои так, что они образуют MLP, и строим каждый RBM таким образом, чтобы они разделяли весовую матрицу и скрытое смещение с соответствующим сигмоидным слоем.&lt;br /&gt;
 for i in range(self.n_layers):&lt;br /&gt;
     if i == 0:&lt;br /&gt;
         input_size = n_ins&lt;br /&gt;
     else:&lt;br /&gt;
         input_size = hidden_layers_sizes[i - 1]&lt;br /&gt;
     if i == 0:&lt;br /&gt;
         layer_input = self.x&lt;br /&gt;
     else:&lt;br /&gt;
         layer_input = self.sigmoid_layers[-1].output&lt;br /&gt;
     sigmoid_layer = HiddenLayer(rng=numpy_rng,&lt;br /&gt;
                                 input=layer_input,&lt;br /&gt;
                                 n_in=input_size,&lt;br /&gt;
                                 n_out=hidden_layers_sizes[i],&lt;br /&gt;
                                 activation=T.nnet.sigmoid)&lt;br /&gt;
     # add the layer to our list of layers&lt;br /&gt;
     self.sigmoid_layers.append(sigmoid_layer)&lt;br /&gt;
     self.params.extend(sigmoid_layer.params)&lt;br /&gt;
     # Construct an RBM that shared weights with this layer&lt;br /&gt;
     rbm_layer = RBM(numpy_rng=numpy_rng,&lt;br /&gt;
                     theano_rng=theano_rng,&lt;br /&gt;
                     input=layer_input,&lt;br /&gt;
                     n_visible=input_size,&lt;br /&gt;
                     n_hidden=hidden_layers_sizes[i],&lt;br /&gt;
                     W=sigmoid_layer.W,&lt;br /&gt;
                     hbias=sigmoid_layer.b)&lt;br /&gt;
     self.rbm_layers.append(rbm_layer)&lt;br /&gt;
&lt;br /&gt;
Осталось только сложить один последний уровень логистической регрессии, чтобы сформировать MLP. Мы будем использовать класс &amp;lt;code&amp;gt;LogisticRegression&amp;lt;/code&amp;gt;:&lt;br /&gt;
 self.logLayer = LogisticRegression(input=self.sigmoid_layers[-1].output,&lt;br /&gt;
                                    n_in=hidden_layers_sizes[-1],&lt;br /&gt;
                                    n_out=n_outs)&lt;br /&gt;
 self.params.extend(self.logLayer.params)&lt;br /&gt;
 self.finetune_cost = self.logLayer.negative_log_likelihood(self.y)&lt;br /&gt;
 self.errors = self.logLayer.errors(self.y)&lt;br /&gt;
Класс также предоставляет метод, который генерирует обучающие функции для каждой из RBM. Они возвращаются в виде списка, где элемент &amp;lt;tex&amp;gt;i&amp;lt;/tex&amp;gt; является функцией, которая реализует один этап обучения для RBM на уровне &amp;lt;tex&amp;gt;i&amp;lt;/tex&amp;gt;.&lt;br /&gt;
 def pretraining_functions(self, train_set_x, batch_size, k):&lt;br /&gt;
      index = T.lscalar('index') # index to a minibatch&lt;br /&gt;
Чтобы иметь возможность изменять скорость обучения во время обучения, мы связываем с ней переменную &amp;lt;code&amp;gt;Theano&amp;lt;/code&amp;gt;, которая имеет значение по умолчанию.&lt;br /&gt;
 learning_rate = T.scalar('lr')  # learning rate to use&lt;br /&gt;
 # begining of a batch, given `index`&lt;br /&gt;
 batch_begin = index * batch_size&lt;br /&gt;
 # ending of a batch given `index`&lt;br /&gt;
 batch_end = batch_begin + batch_size&lt;br /&gt;
 pretrain_fns = []&lt;br /&gt;
 for rbm in self.rbm_layers:&lt;br /&gt;
     # get the cost and the updates list&lt;br /&gt;
     # using CD-k here (persisent=None) for training each RBM.&lt;br /&gt;
     # TODO: change cost function to reconstruction error&lt;br /&gt;
     cost, updates = rbm.get_cost_updates(learning_rate, persistent=None, k=k)&lt;br /&gt;
     # compile the theano function&lt;br /&gt;
     fn = theano.function(&lt;br /&gt;
         inputs=[index, theano.In(learning_rate, value=0.1)],&lt;br /&gt;
         outputs=cost,&lt;br /&gt;
         updates=updates,&lt;br /&gt;
         givens={&lt;br /&gt;
             self.x: train_set_x[batch_begin:batch_end]&lt;br /&gt;
         }&lt;br /&gt;
     )&lt;br /&gt;
     # append `fn` to the list of functions&lt;br /&gt;
     pretrain_fns.append(fn)&lt;br /&gt;
 return pretrain_fns&lt;br /&gt;
&lt;br /&gt;
Теперь любая функция &amp;lt;code&amp;gt;pretrain_fns[i]&amp;lt;/code&amp;gt; принимает в качестве аргумента индекс и, опционально, &amp;lt;code&amp;gt;lr&amp;lt;/code&amp;gt; {{---}} скорость обучения. Обратите внимание, что имена параметров {{---}} это имена, данные переменным &amp;lt;code&amp;gt;Theano&amp;lt;/code&amp;gt; (например, &amp;lt;code&amp;gt;lr&amp;lt;/code&amp;gt;) при их создании, а не имена переменных python (например, &amp;lt;code&amp;gt;learning_rate&amp;lt;/code&amp;gt;). Имейте это в виду при работе с &amp;lt;code&amp;gt;Theano&amp;lt;/code&amp;gt;. При желании, если вы укажете &amp;lt;math&amp;gt;k&amp;lt;/math&amp;gt; (количество шагов Гиббса, которые нужно выполнить на CD или PCD), это также станет аргументом функции.&lt;br /&gt;
&lt;br /&gt;
Точно так же класс &amp;lt;code&amp;gt;DBN&amp;lt;/code&amp;gt; включает метод для построения функций, необходимых для тонкой настройки (&amp;lt;code&amp;gt;train_model&amp;lt;/code&amp;gt;, &amp;lt;code&amp;gt;validate_model&amp;lt;/code&amp;gt; и &amp;lt;code&amp;gt;test_model&amp;lt;/code&amp;gt;).&lt;br /&gt;
 def build_finetune_functions(self, datasets, batch_size, learning_rate):&lt;br /&gt;
         (train_set_x, train_set_y) = datasets[0]&lt;br /&gt;
         (valid_set_x, valid_set_y) = datasets[1]&lt;br /&gt;
         (test_set_x, test_set_y) = datasets[2]&lt;br /&gt;
         # compute number of minibatches for training, validation and testing&lt;br /&gt;
         n_valid_batches = valid_set_x.get_value(borrow=True).shape[0]&lt;br /&gt;
         n_valid_batches //= batch_size&lt;br /&gt;
         n_test_batches = test_set_x.get_value(borrow=True).shape[0]&lt;br /&gt;
         n_test_batches //= batch_size&lt;br /&gt;
         index = T.lscalar('index')  # index to a [mini]batch&lt;br /&gt;
         # compute the gradients with respect to the model parameters&lt;br /&gt;
         gparams = T.grad(self.finetune_cost, self.params)&lt;br /&gt;
         # compute list of fine-tuning updates&lt;br /&gt;
         updates = []&lt;br /&gt;
         for param, gparam in zip(self.params, gparams):&lt;br /&gt;
             updates.append((param, param - gparam * learning_rate))&lt;br /&gt;
         train_fn = theano.function(&lt;br /&gt;
             inputs=[index],&lt;br /&gt;
             outputs=self.finetune_cost,&lt;br /&gt;
             updates=updates,&lt;br /&gt;
             givens={&lt;br /&gt;
                 self.x: train_set_x[&lt;br /&gt;
                     index * batch_size: (index + 1) * batch_size&lt;br /&gt;
                 ],&lt;br /&gt;
                 self.y: train_set_y[&lt;br /&gt;
                     index * batch_size: (index + 1) * batch_size&lt;br /&gt;
                 ]&lt;br /&gt;
             }&lt;br /&gt;
         )&lt;br /&gt;
         test_score_i = theano.function(&lt;br /&gt;
             [index],&lt;br /&gt;
             self.errors,&lt;br /&gt;
             givens={&lt;br /&gt;
                 self.x: test_set_x[&lt;br /&gt;
                     index * batch_size: (index + 1) * batch_size&lt;br /&gt;
                 ],&lt;br /&gt;
                 self.y: test_set_y[&lt;br /&gt;
                     index * batch_size: (index + 1) * batch_size&lt;br /&gt;
                 ]&lt;br /&gt;
             }&lt;br /&gt;
         )&lt;br /&gt;
         valid_score_i = theano.function(&lt;br /&gt;
             [index],&lt;br /&gt;
             self.errors,&lt;br /&gt;
             givens={&lt;br /&gt;
                 self.x: valid_set_x[&lt;br /&gt;
                     index * batch_size: (index + 1) * batch_size&lt;br /&gt;
                 ],&lt;br /&gt;
                 self.y: valid_set_y[&lt;br /&gt;
                     index * batch_size: (index + 1) * batch_size&lt;br /&gt;
                 ]&lt;br /&gt;
             }&lt;br /&gt;
         )&lt;br /&gt;
         # Create a function that scans the entire validation set&lt;br /&gt;
         def valid_score():&lt;br /&gt;
             return [valid_score_i(i) for i in range(n_valid_batches)]&lt;br /&gt;
         # Create a function that scans the entire test set&lt;br /&gt;
         def test_score():&lt;br /&gt;
             return [test_score_i(i) for i in range(n_test_batches)]&lt;br /&gt;
         return train_fn, valid_score, test_score&lt;br /&gt;
Обратите внимание, что возвращенные &amp;lt;code&amp;gt;valid_score&amp;lt;/code&amp;gt; и &amp;lt;code&amp;gt;test_score&amp;lt;/code&amp;gt; являются не функциями &amp;lt;code&amp;gt;Theano&amp;lt;/code&amp;gt;, а скорее функциями Python. Они зацикливаются на всем наборе проверки и на всем наборе тестов, чтобы создать список потерь, полученных на этих наборах&lt;br /&gt;
&lt;br /&gt;
В конце концов&lt;br /&gt;
несколько строк кода ниже создают глубокую сеть доверия:&lt;br /&gt;
 numpy_rng = numpy.random.RandomState(123)&lt;br /&gt;
 print('... building the model')&lt;br /&gt;
 # construct the Deep Belief Network&lt;br /&gt;
 dbn = DBN(numpy_rng=numpy_rng, n_ins=28 * 28,&lt;br /&gt;
           hidden_layers_sizes=[1000, 1000, 1000],&lt;br /&gt;
           n_outs=10)&lt;br /&gt;
Эта сеть состоит из двух этапов: (1) этап предварительного обучения и (2) этап точной настройки.&lt;br /&gt;
&lt;br /&gt;
На этапе предварительного обучения мы перебираем все слои сети. Для каждого уровня мы используем скомпилированную функцию &amp;lt;code&amp;gt;anano&amp;lt;/code&amp;gt;, которая определяет вход в RBM &amp;lt;tex&amp;gt;i&amp;lt;/tex&amp;gt;-го уровня и выполняет один шаг CD-k в этом RBM. Эта функция применяется к обучающему набору для фиксированного числа эпох, заданных &amp;lt;code&amp;gt;pretraining_epochs&amp;lt;/code&amp;gt;.&lt;br /&gt;
 print('... getting the pretraining functions')&lt;br /&gt;
 pretraining_fns = dbn.pretraining_functions(train_set_x=train_set_x,&lt;br /&gt;
                                             batch_size=batch_size,&lt;br /&gt;
                                             k=k)&lt;br /&gt;
 print('... pre-training the model')&lt;br /&gt;
 start_time = timeit.default_timer()&lt;br /&gt;
 # Pre-train layer-wise&lt;br /&gt;
 for i in range(dbn.n_layers):&lt;br /&gt;
     # go through pretraining epochs&lt;br /&gt;
     for epoch in range(pretraining_epochs):&lt;br /&gt;
         # go through the training set&lt;br /&gt;
         c = []&lt;br /&gt;
         for batch_index in range(n_train_batches):&lt;br /&gt;
             c.append(pretraining_fns[i](index=batch_index,&lt;br /&gt;
                                         lr=pretrain_lr))&lt;br /&gt;
         print('Pre-training layer %i, epoch %d, cost ' % (i, epoch), end=' ')&lt;br /&gt;
         print(numpy.mean(c, dtype='float64'))&lt;br /&gt;
 &lt;br /&gt;
 end_time = timeit.default_timer()&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Глубокое обучение]]&lt;br /&gt;
*[[Метод опорных векторов]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
#[http://deeplearning.net/tutorial/DBN.html Статья Deeplearning о применении DBN] &lt;br /&gt;
#[https://en.wikipedia.org/wiki/Deep_belief_network wikipedia dbn] {{---}} Статья про DBN в Wikipedia&lt;br /&gt;
#[https://www.cs.toronto.edu/~hinton/nipstutorial/nipstut3.pdf 2007 NIPS Tutorial on: Deep Belief Nets]&lt;br /&gt;
#[https://pathmind.com/wiki/restricted-boltzmann-machine A Beginner's Guide to Restricted Boltzmann Machines]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Сети глубокого доверия]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%A1%D0%B5%D1%82%D0%B8_%D0%B3%D0%BB%D1%83%D0%B1%D0%BE%D0%BA%D0%BE%D0%B3%D0%BE_%D0%B4%D0%BE%D0%B2%D0%B5%D1%80%D0%B8%D1%8F&amp;diff=76774</id>
		<title>Сети глубокого доверия</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%A1%D0%B5%D1%82%D0%B8_%D0%B3%D0%BB%D1%83%D0%B1%D0%BE%D0%BA%D0%BE%D0%B3%D0%BE_%D0%B4%D0%BE%D0%B2%D0%B5%D1%80%D0%B8%D1%8F&amp;diff=76774"/>
				<updated>2021-01-08T07:48:19Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;br /&gt;
'''Сети глубокого доверия''' {{---}} это вероятностные [[Порождающие модели|генеративные модели]], которые состоят из нескольких слоев стохастических скрытых переменных. Скрытые переменные обычно имеют двоичные значения и часто называются скрытыми узлами или детекторами признаков. Два верхних слоя имеют ненаправленные, симметричные связи между ними и образуют ассоциативную память. Между оставшимися парами соседних слоёв есть только направленные связи от верхнего к нижнему. Состояния узлов в нижнем слое представляют вектор данных.&lt;br /&gt;
&lt;br /&gt;
Два наиболее значимых свойства сетей глубокого доверия:&lt;br /&gt;
# Существует эффективная послойная процедура для обучения нисходящих весов, которая определяет, как переменные в одном слое зависят от переменных в слое выше.&lt;br /&gt;
# После обучения скрытых переменных в каждом слое могут быть выведены значения за один проход снизу вверх, который начинается с наблюдаемого вектора данных в нижнем слое и использует веса в обратном направлении.&lt;br /&gt;
Сети глубокого доверия обучаются по одному слою за раз, обрабатывая значения скрытых переменных в одном слое в тот момент, когда они выводятся из данных для обучения следующего слоя. Это эффективное, жадное обучение может сопровождаться или сочетаться с другими процедурами обучения, которые точно настраивают все веса для улучшения генеративных или дискриминационных характеристик всей сети.&lt;br /&gt;
&lt;br /&gt;
Дискриминирующая тонкая настройка может быть выполнена путем добавления последнего слоя переменных, которые представляют желаемые выходные данные и производные [[Обратное распространение ошибки|ошибок обратного распространения]]. Когда сети со многими скрытыми слоями применяются к высокоструктурированным входным данным, таким как изображения, обратное распространение работает намного лучше, если детекторы признаков в скрытых слоях инициализируются путем обучения глубокой сети доверия, которая моделирует структуру во входных данных.&lt;br /&gt;
&lt;br /&gt;
== Как развивались сети глубокого доверия ==&lt;br /&gt;
&lt;br /&gt;
В нейронных сетях первого поколения использовались [[Нейронные сети, перцептрон|перцептроны]], которые идентифицировали конкретный объект или что-либо еще, принимая во внимание «вес» или предварительные свойства. Однако перцептроны могут быть эффективны только на базовом уровне и бесполезны для передовых технологий. Для решения этих проблем во втором поколении нейронных сетей была введена концепция обратного распространения, при которой полученный вывод сравнивается с желаемым выводом, а значение ошибки было снижено до нуля. [[Метод опорных векторов (SVM)|Метод опорных векторов]] позволил создать больше контрольных примеров, ссылаясь на ранее введенные контрольные примеры. Затем последовали циклические графы, называемые сетями доверия, которые помогли в решении проблем, связанных с выводом и проблемами обучения. За этим последовали  сети глубокого доверия, которые помогли создать непредвзятые значения для хранения в конечных узлах.&lt;br /&gt;
&lt;br /&gt;
== Композиция простых обучающих модулей ==&lt;br /&gt;
[[Файл:Rbmimage4.png |400px|thumb| right| Рис. 1 Распределение restricted Boltzmann machine]]&lt;br /&gt;
Глубокая сеть доверия может рассматриваться как набор простых обучающих модулей, каждый из которых представляет собой ограниченную машину &amp;lt;ref&amp;gt; Больцмана[https://ru.wikipedia.org/wiki/%D0%9E%D0%B3%D1%80%D0%B0%D0%BD%D0%B8%D1%87%D0%B5%D0%BD%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%B0_%D0%91%D0%BE%D0%BB%D1%8C%D1%86%D0%BC%D0%B0%D0%BD%D0%B0 restricted Boltzmann machine, RBM]&amp;lt;/ref&amp;gt;, которая содержит слой видимых узлов, представляющий данные, и слой скрытых узлов, которые обучаются представлению особенностей, которые захватывают более высокие порядки корреляции в данных. Ограниченные машины Больцмана могут быть сложены и обучены [[Теорема Радо-Эдмондса (жадный алгоритм)|жадным алгоритмом]], чтобы сформировать так называемые глубокие сети доверия, которые моделируют совместное распределение между наблюдаемым вектором &amp;lt;math&amp;gt;x&amp;lt;/math&amp;gt; и скрытыми слоями &amp;lt;math&amp;gt;h^{k}&amp;lt;/math&amp;gt; следующим образом:&lt;br /&gt;
 &amp;lt;center&amp;gt;&amp;lt;tex&amp;gt;P(x, h^1, \ldots, h^l)=\left( \prod\limits_{k = 0}^{l - 2}P(h^k|h^{k + 1}) \right) P(h^{l - 1}|h^l)&amp;lt;/tex&amp;gt;,&amp;lt;/center&amp;gt; &lt;br /&gt;
где $x=h^0$, $P(h^{k-1}|h^{k})$ {{---}} условное распределение для видимых узлов, обусловленных скрытыми узлами RBM на уровне &amp;lt;math&amp;gt;k&amp;lt;/math&amp;gt;, и $P(h^{l - 1}|h^l)$ {{---}} это видимое-скрытое совместное распределение в RBM верхнего уровня. Это показано на рисунке 1.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Ограниченная машина Больцмана (RBM) ==&lt;br /&gt;
[[Файл:Bolcman.jpg |400px| thumb | right |Рис 2. Визуализация RBM]]&lt;br /&gt;
Если вы знаете, что такое факторный анализ, то RBM можно рассматривать как двоичную версию факторного анализа. Таким образом, вместо множества факторов, определяющих вывод, мы можем иметь двоичную переменную в форме 0 или 1.&lt;br /&gt;
&lt;br /&gt;
Например: если вы читаете книгу, а затем судите эту книгу по двухзначной шкале: это либо вам нравится книга, либо вам не нравится книга. В таких сценариях мы можем использовать RBM, которые помогут нам определить причину, по которой мы делаем такой выбор.&lt;br /&gt;
&lt;br /&gt;
RBM используют вероятностный подход для нейронных сетей, и поэтому их также называют стохастическими нейронными сетями.&lt;br /&gt;
Если мы разложим RBM, то становится ясно, что они состоят из трех частей:&lt;br /&gt;
# Один входной слой, так называемые &amp;quot;Видимые узлы&amp;quot;.&lt;br /&gt;
# Один скрытый слой. &lt;br /&gt;
# Узлы смещения.&lt;br /&gt;
В приведенном выше примере видимые узлы {{---}} это не что иное, как то, нравится ли вам книга или нет. Скрытые узлы помогают найти то, что заставило вас одобрить эту книгу. Узлы смещения добавлены, чтобы включить различные виды свойств, разных книг.&lt;br /&gt;
Простая визуализация Ограниченной машины Больцмана показана на рисунке 2. &lt;br /&gt;
&lt;br /&gt;
Зеленым отмечены видимые узлы, красным скрытые, а белые узлы с меткой &amp;quot;bias&amp;quot; соответствуют узлам смещения.&lt;br /&gt;
&lt;br /&gt;
Сети глубокого доверия имеют две фазы:&lt;br /&gt;
# Фаза предварительного обучения.&lt;br /&gt;
# Фаза тонкой настройки.&lt;br /&gt;
Фаза предварительного обучения {{---}} это не что иное, как несколько уровней RBN, в то время как фаза тонкой настройки {{---}} это нейронная сеть с прямой связью. Визуализация обеих фаз показана на рисунке 3 ниже&lt;br /&gt;
[[Файл:Vis2f.png |600px|thumb| center| Рис. 3 Визуализация фаз RBM]]&lt;br /&gt;
&lt;br /&gt;
Алгоритм обучения глубокой сети доверия, состоит из нескольких этапов:&lt;br /&gt;
#  Нахождение признаков видимых узлов, используя алгоритм контрастной дивергенции.&lt;br /&gt;
#  Нахождение скрытых признаков объектов, найденных в предыдущем шаге.&lt;br /&gt;
&lt;br /&gt;
== Реализация ==&lt;br /&gt;
Мы начнем с определения класса для глубокой сети доверия, который назовем DBN (Deep belief network), который будет хранить уровни многослойного перцептрона MLP (Multilayer perceptron) вместе со связанными с ними RBM. Поскольку мы используем  RBM для инициализации MLP, код будет отражать эту идею, насколько это возможно. Далее будут приведены RBM, используемые для инициализации сети, и MLP, используемый для классификации.&lt;br /&gt;
 from __future__ import print_function, division&lt;br /&gt;
 import os&lt;br /&gt;
 import sys&lt;br /&gt;
 import timeit&lt;br /&gt;
 import numpy&lt;br /&gt;
 import theano&lt;br /&gt;
 import theano.tensor as T&lt;br /&gt;
&lt;br /&gt;
 from theano.sandbox.rng_mrg import MRG_RandomStreams&lt;br /&gt;
 from logistic_sgd import LogisticRegression, load_data&lt;br /&gt;
 from mlp import HiddenLayer&lt;br /&gt;
 from rbm import RBM&lt;br /&gt;
&lt;br /&gt;
 class DBN(object):&lt;br /&gt;
     def __init__(self, numpy_rng, theano_rng=None, n_ins=784, hidden_layers_sizes=[500, 500], n_outs=10):&lt;br /&gt;
        self.sigmoid_layers = []&lt;br /&gt;
        self.rbm_layers = []&lt;br /&gt;
        self.params = []&lt;br /&gt;
        self.n_layers = len(hidden_layers_sizes)&lt;br /&gt;
        assert self.n_layers &amp;gt; 0&lt;br /&gt;
        if not theano_rng:&lt;br /&gt;
            theano_rng = MRG_RandomStreams(numpy_rng.randint(2 ** 30))&lt;br /&gt;
        # allocate symbolic variables for the data&lt;br /&gt;
        # the data is presented as rasterized images&lt;br /&gt;
        self.x = T.matrix('x')&lt;br /&gt;
        # the labels are presented as 1D vector of [int] labels&lt;br /&gt;
        self.y = T.ivector('y')&lt;br /&gt;
&amp;lt;code&amp;gt;self.sigmoid_layers&amp;lt;/code&amp;gt; будет хранить графики прямой связи, которые вместе образуют MLP, в то время как &amp;lt;code&amp;gt;self.rbm_layers&amp;lt;/code&amp;gt; будет хранить RBM, используемые для предварительной подготовки каждого уровня MLP.&lt;br /&gt;
Следующим шагом мы строим сигмоидные слои &amp;lt;code&amp;gt;n_layers&amp;lt;/code&amp;gt; (мы используем класс &amp;lt;code&amp;gt;HiddenLayer&amp;lt;/code&amp;gt;, введенный в Multilayer Perceptron, с единственной модификацией, в которой мы заменили нелинейность от &amp;lt;tex&amp;gt;tanh&amp;lt;/tex&amp;gt; на логистическую функцию $s(x) = \frac{1}{1 + e^{-x}}$ и &amp;lt;code&amp;gt;n_layers&amp;lt;/code&amp;gt; RBM, где &amp;lt;code&amp;gt;n_layers&amp;lt;/code&amp;gt; {{---}} это глубина нашей модели. Мы связываем сигмоидные слои так, что они образуют MLP, и строим каждый RBM таким образом, чтобы они разделяли весовую матрицу и скрытое смещение с соответствующим сигмоидным слоем.&lt;br /&gt;
 for i in range(self.n_layers):&lt;br /&gt;
     if i == 0:&lt;br /&gt;
         input_size = n_ins&lt;br /&gt;
     else:&lt;br /&gt;
         input_size = hidden_layers_sizes[i - 1]&lt;br /&gt;
     if i == 0:&lt;br /&gt;
         layer_input = self.x&lt;br /&gt;
     else:&lt;br /&gt;
         layer_input = self.sigmoid_layers[-1].output&lt;br /&gt;
     sigmoid_layer = HiddenLayer(rng=numpy_rng,&lt;br /&gt;
                                 input=layer_input,&lt;br /&gt;
                                 n_in=input_size,&lt;br /&gt;
                                 n_out=hidden_layers_sizes[i],&lt;br /&gt;
                                 activation=T.nnet.sigmoid)&lt;br /&gt;
     # add the layer to our list of layers&lt;br /&gt;
     self.sigmoid_layers.append(sigmoid_layer)&lt;br /&gt;
     self.params.extend(sigmoid_layer.params)&lt;br /&gt;
     # Construct an RBM that shared weights with this layer&lt;br /&gt;
     rbm_layer = RBM(numpy_rng=numpy_rng,&lt;br /&gt;
                     theano_rng=theano_rng,&lt;br /&gt;
                     input=layer_input,&lt;br /&gt;
                     n_visible=input_size,&lt;br /&gt;
                     n_hidden=hidden_layers_sizes[i],&lt;br /&gt;
                     W=sigmoid_layer.W,&lt;br /&gt;
                     hbias=sigmoid_layer.b)&lt;br /&gt;
     self.rbm_layers.append(rbm_layer)&lt;br /&gt;
&lt;br /&gt;
Осталось только сложить один последний уровень логистической регрессии, чтобы сформировать MLP. Мы будем использовать класс &amp;lt;code&amp;gt;LogisticRegression&amp;lt;/code&amp;gt;:&lt;br /&gt;
 self.logLayer = LogisticRegression(input=self.sigmoid_layers[-1].output,&lt;br /&gt;
                                    n_in=hidden_layers_sizes[-1],&lt;br /&gt;
                                    n_out=n_outs)&lt;br /&gt;
 self.params.extend(self.logLayer.params)&lt;br /&gt;
 self.finetune_cost = self.logLayer.negative_log_likelihood(self.y)&lt;br /&gt;
 self.errors = self.logLayer.errors(self.y)&lt;br /&gt;
Класс также предоставляет метод, который генерирует обучающие функции для каждой из RBM. Они возвращаются в виде списка, где элемент &amp;lt;tex&amp;gt;i&amp;lt;/tex&amp;gt; является функцией, которая реализует один этап обучения для RBM на уровне &amp;lt;tex&amp;gt;i&amp;lt;/tex&amp;gt;.&lt;br /&gt;
 def pretraining_functions(self, train_set_x, batch_size, k):&lt;br /&gt;
      index = T.lscalar('index') # index to a minibatch&lt;br /&gt;
Чтобы иметь возможность изменять скорость обучения во время обучения, мы связываем с ней переменную &amp;lt;code&amp;gt;Theano&amp;lt;/code&amp;gt;, которая имеет значение по умолчанию.&lt;br /&gt;
 learning_rate = T.scalar('lr')  # learning rate to use&lt;br /&gt;
 # begining of a batch, given `index`&lt;br /&gt;
 batch_begin = index * batch_size&lt;br /&gt;
 # ending of a batch given `index`&lt;br /&gt;
 batch_end = batch_begin + batch_size&lt;br /&gt;
 pretrain_fns = []&lt;br /&gt;
 for rbm in self.rbm_layers:&lt;br /&gt;
     # get the cost and the updates list&lt;br /&gt;
     # using CD-k here (persisent=None) for training each RBM.&lt;br /&gt;
     # TODO: change cost function to reconstruction error&lt;br /&gt;
     cost, updates = rbm.get_cost_updates(learning_rate, persistent=None, k=k)&lt;br /&gt;
     # compile the theano function&lt;br /&gt;
     fn = theano.function(&lt;br /&gt;
         inputs=[index, theano.In(learning_rate, value=0.1)],&lt;br /&gt;
         outputs=cost,&lt;br /&gt;
         updates=updates,&lt;br /&gt;
         givens={&lt;br /&gt;
             self.x: train_set_x[batch_begin:batch_end]&lt;br /&gt;
         }&lt;br /&gt;
     )&lt;br /&gt;
     # append `fn` to the list of functions&lt;br /&gt;
     pretrain_fns.append(fn)&lt;br /&gt;
 return pretrain_fns&lt;br /&gt;
&lt;br /&gt;
Теперь любая функция &amp;lt;code&amp;gt;pretrain_fns[i]&amp;lt;/code&amp;gt; принимает в качестве аргумента индекс и, опционально, &amp;lt;code&amp;gt;lr&amp;lt;/code&amp;gt; {{---}} скорость обучения. Обратите внимание, что имена параметров {{---}} это имена, данные переменным &amp;lt;code&amp;gt;Theano&amp;lt;/code&amp;gt; (например, &amp;lt;code&amp;gt;lr&amp;lt;/code&amp;gt;) при их создании, а не имена переменных python (например, &amp;lt;code&amp;gt;learning_rate&amp;lt;/code&amp;gt;). Имейте это в виду при работе с &amp;lt;code&amp;gt;Theano&amp;lt;/code&amp;gt;. При желании, если вы укажете &amp;lt;math&amp;gt;k&amp;lt;/math&amp;gt; (количество шагов Гиббса, которые нужно выполнить на CD или PCD), это также станет аргументом функции.&lt;br /&gt;
&lt;br /&gt;
Точно так же класс &amp;lt;code&amp;gt;DBN&amp;lt;/code&amp;gt; включает метод для построения функций, необходимых для тонкой настройки (&amp;lt;code&amp;gt;train_model&amp;lt;/code&amp;gt;, &amp;lt;code&amp;gt;validate_model&amp;lt;/code&amp;gt; и &amp;lt;code&amp;gt;test_model&amp;lt;/code&amp;gt;).&lt;br /&gt;
 def build_finetune_functions(self, datasets, batch_size, learning_rate):&lt;br /&gt;
         (train_set_x, train_set_y) = datasets[0]&lt;br /&gt;
         (valid_set_x, valid_set_y) = datasets[1]&lt;br /&gt;
         (test_set_x, test_set_y) = datasets[2]&lt;br /&gt;
         # compute number of minibatches for training, validation and testing&lt;br /&gt;
         n_valid_batches = valid_set_x.get_value(borrow=True).shape[0]&lt;br /&gt;
         n_valid_batches //= batch_size&lt;br /&gt;
         n_test_batches = test_set_x.get_value(borrow=True).shape[0]&lt;br /&gt;
         n_test_batches //= batch_size&lt;br /&gt;
         index = T.lscalar('index')  # index to a [mini]batch&lt;br /&gt;
         # compute the gradients with respect to the model parameters&lt;br /&gt;
         gparams = T.grad(self.finetune_cost, self.params)&lt;br /&gt;
         # compute list of fine-tuning updates&lt;br /&gt;
         updates = []&lt;br /&gt;
         for param, gparam in zip(self.params, gparams):&lt;br /&gt;
             updates.append((param, param - gparam * learning_rate))&lt;br /&gt;
         train_fn = theano.function(&lt;br /&gt;
             inputs=[index],&lt;br /&gt;
             outputs=self.finetune_cost,&lt;br /&gt;
             updates=updates,&lt;br /&gt;
             givens={&lt;br /&gt;
                 self.x: train_set_x[&lt;br /&gt;
                     index * batch_size: (index + 1) * batch_size&lt;br /&gt;
                 ],&lt;br /&gt;
                 self.y: train_set_y[&lt;br /&gt;
                     index * batch_size: (index + 1) * batch_size&lt;br /&gt;
                 ]&lt;br /&gt;
             }&lt;br /&gt;
         )&lt;br /&gt;
         test_score_i = theano.function(&lt;br /&gt;
             [index],&lt;br /&gt;
             self.errors,&lt;br /&gt;
             givens={&lt;br /&gt;
                 self.x: test_set_x[&lt;br /&gt;
                     index * batch_size: (index + 1) * batch_size&lt;br /&gt;
                 ],&lt;br /&gt;
                 self.y: test_set_y[&lt;br /&gt;
                     index * batch_size: (index + 1) * batch_size&lt;br /&gt;
                 ]&lt;br /&gt;
             }&lt;br /&gt;
         )&lt;br /&gt;
         valid_score_i = theano.function(&lt;br /&gt;
             [index],&lt;br /&gt;
             self.errors,&lt;br /&gt;
             givens={&lt;br /&gt;
                 self.x: valid_set_x[&lt;br /&gt;
                     index * batch_size: (index + 1) * batch_size&lt;br /&gt;
                 ],&lt;br /&gt;
                 self.y: valid_set_y[&lt;br /&gt;
                     index * batch_size: (index + 1) * batch_size&lt;br /&gt;
                 ]&lt;br /&gt;
             }&lt;br /&gt;
         )&lt;br /&gt;
         # Create a function that scans the entire validation set&lt;br /&gt;
         def valid_score():&lt;br /&gt;
             return [valid_score_i(i) for i in range(n_valid_batches)]&lt;br /&gt;
         # Create a function that scans the entire test set&lt;br /&gt;
         def test_score():&lt;br /&gt;
             return [test_score_i(i) for i in range(n_test_batches)]&lt;br /&gt;
         return train_fn, valid_score, test_score&lt;br /&gt;
Обратите внимание, что возвращенные &amp;lt;code&amp;gt;valid_score&amp;lt;/code&amp;gt; и &amp;lt;code&amp;gt;test_score&amp;lt;/code&amp;gt; являются не функциями &amp;lt;code&amp;gt;Theano&amp;lt;/code&amp;gt;, а скорее функциями Python. Они зацикливаются на всем наборе проверки и на всем наборе тестов, чтобы создать список потерь, полученных на этих наборах&lt;br /&gt;
&lt;br /&gt;
В конце концов&lt;br /&gt;
несколько строк кода ниже создают глубокую сеть доверия:&lt;br /&gt;
 numpy_rng = numpy.random.RandomState(123)&lt;br /&gt;
 print('... building the model')&lt;br /&gt;
 # construct the Deep Belief Network&lt;br /&gt;
 dbn = DBN(numpy_rng=numpy_rng, n_ins=28 * 28,&lt;br /&gt;
           hidden_layers_sizes=[1000, 1000, 1000],&lt;br /&gt;
           n_outs=10)&lt;br /&gt;
Эта сеть состоит из двух этапов: (1) этап предварительного обучения и (2) этап точной настройки.&lt;br /&gt;
&lt;br /&gt;
На этапе предварительного обучения мы перебираем все слои сети. Для каждого уровня мы используем скомпилированную функцию &amp;lt;code&amp;gt;anano&amp;lt;/code&amp;gt;, которая определяет вход в RBM &amp;lt;tex&amp;gt;i&amp;lt;/tex&amp;gt;-го уровня и выполняет один шаг CD-k в этом RBM. Эта функция применяется к обучающему набору для фиксированного числа эпох, заданных &amp;lt;code&amp;gt;pretraining_epochs&amp;lt;/code&amp;gt;.&lt;br /&gt;
 print('... getting the pretraining functions')&lt;br /&gt;
 pretraining_fns = dbn.pretraining_functions(train_set_x=train_set_x,&lt;br /&gt;
                                             batch_size=batch_size,&lt;br /&gt;
                                             k=k)&lt;br /&gt;
 print('... pre-training the model')&lt;br /&gt;
 start_time = timeit.default_timer()&lt;br /&gt;
 # Pre-train layer-wise&lt;br /&gt;
 for i in range(dbn.n_layers):&lt;br /&gt;
     # go through pretraining epochs&lt;br /&gt;
     for epoch in range(pretraining_epochs):&lt;br /&gt;
         # go through the training set&lt;br /&gt;
         c = []&lt;br /&gt;
         for batch_index in range(n_train_batches):&lt;br /&gt;
             c.append(pretraining_fns[i](index=batch_index,&lt;br /&gt;
                                         lr=pretrain_lr))&lt;br /&gt;
         print('Pre-training layer %i, epoch %d, cost ' % (i, epoch), end=' ')&lt;br /&gt;
         print(numpy.mean(c, dtype='float64'))&lt;br /&gt;
 &lt;br /&gt;
 end_time = timeit.default_timer()&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Глубокое обучение]]&lt;br /&gt;
*[[Метод опорных векторов]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
==Источники информации==&lt;br /&gt;
#[http://deeplearning.net/tutorial/DBN.html Статья Deeplearning о применении DBN] &lt;br /&gt;
#[https://en.wikipedia.org/wiki/Deep_belief_network wikipedia dbn] {{---}} Статья про DBN в Wikipedia&lt;br /&gt;
#[https://www.cs.toronto.edu/~hinton/nipstutorial/nipstut3.pdf 2007 NIPS Tutorial on: Deep Belief Nets]&lt;br /&gt;
#[https://pathmind.com/wiki/restricted-boltzmann-machine A Beginner's Guide to Restricted Boltzmann Machines]&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;br /&gt;
[[Категория: Сети глубокого доверия]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76773</id>
		<title>Многопоточность в машинном обучении</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76773"/>
				<updated>2021-01-08T07:40:33Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Следует выделить следующие виды параллелизма:&lt;br /&gt;
* Параллелизм на уровне инструкций (ILP&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9F%D0%B0%D1%80%D0%B0%D0%BB%D0%BB%D0%B5%D0%BB%D0%B8%D0%B7%D0%BC_%D0%BD%D0%B0_%D1%83%D1%80%D0%BE%D0%B2%D0%BD%D0%B5_%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4 ILP]&amp;lt;/ref&amp;gt;): несколько инструкций исполняются одновременно.&lt;br /&gt;
* Параллелизм типа одна инструкция множество данных (SIMD&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/SIMD SIMD]&amp;lt;/ref&amp;gt;): одна операция применяется к множеству данных&lt;br /&gt;
* Многопоточный параллелизм: несколько независимых рабочих потоков взаимодействуют через абстракцию совместно используемой памяти.&lt;br /&gt;
* Распределенные вычисления: несколько независимых рабочих компьютеров взаимодействуют по сети. (MLlib&amp;lt;ref&amp;gt;[https://spark.apache.org/mllib/ MLlib]&amp;lt;/ref&amp;gt; на Spark, Mahout&amp;lt;ref&amp;gt;[https://mahout.apache.org/ Mahout]&amp;lt;/ref&amp;gt; на Hadoop)&lt;br /&gt;
&lt;br /&gt;
== Идеи используемые для ускорения вычислений в ML ==&lt;br /&gt;
=== Параллелизм для ускорения линейной алгебры. ===&lt;br /&gt;
Многие операции линейной алгебры, например, векторное сложение, произведение матриц и вычисление нормы состоят из большого количества независимых операций. Поэтому можно сильно повысить их производительность как за счёт ILP и SIMD параллелизма для маленьких данных, так и за счёт многопоточности для больших данных. От ускорения линейной алгебры особенно выигрывают нейронные сети, так как большую часть времени их работы занимает умножение матриц.&lt;br /&gt;
&lt;br /&gt;
Иногда необходимо выполнить операцию с объектам имеющими разнаю размерность, но которые можно привести к одной размерности повторением одного из объектов вдоль одной или нескольких осей. Например, если нужно прибавить к каждой строке матрицы вектор или домножить вектор на число. В таком случае можно не писать цикл в явном виде, а использовать broadcast операции. При этом задача оптимизации переходит к разработчику библиотеки, который может обеспечить лучший параллелизм операций за счет доступа к внутренностям библиотеки. &lt;br /&gt;
&lt;br /&gt;
Примеры оптимизаций:&lt;br /&gt;
* Высоко оптимизированные тензорные библиотеки для арифметики.&lt;br /&gt;
* Алгоритмы в терминах матричных операций, а не векторных операций, насколько это возможно.&lt;br /&gt;
* Broadcast операции вместо циклов.&lt;br /&gt;
* Распараллеленные реализации некоторых специальных операций (таких как свертки для [[Сверточные нейронные сети | CNN]]).&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в оптимизации гиперпараметров ===&lt;br /&gt;
Для параллельной [[Настройка гиперпараметров | оптимизации гиперпараметров]] можно использовать поиск по решётке или случайный поиск в которых мы можем оценить параметры независимо.&lt;br /&gt;
Такая оптимизации часто встречаются в библиотеках машинного обучения.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм кросс-валидации ===&lt;br /&gt;
Полная [[Кросс-валидация | кросс-валидация]], k-fold, t×k-fold, Leave-One-Out легко распараллеливаются на несколько потоков, каждый из которых работает на своем разбиении данных&lt;br /&gt;
&lt;br /&gt;
[[Файл:ParallelCrossValidation.png|500px]]&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм GPU&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%93%D1%80%D0%B0%D1%84%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81%D0%BE%D1%80 GPU]&amp;lt;/ref&amp;gt; ===&lt;br /&gt;
Графические процессоры позволяют применять одну и ту же операцию параллельно к десяткам тысяч элементов за счет большого числа потоков.&lt;br /&gt;
&lt;br /&gt;
Фреймворки машинного обучения, такие как TensorFlow, PyTorch и MxNet используют эти возможности через библиотеки от компаний производителей графических ускорителей и открытые фреймворки:&lt;br /&gt;
* CUDA&amp;lt;ref&amp;gt;[https://developer.nvidia.com/cuda-toolkit CUDA]&amp;lt;/ref&amp;gt; — язык параллельного программирования/вычислительная платформа для вычислений общего назначения на графическом процессоре&lt;br /&gt;
* cuBLAS&amp;lt;ref&amp;gt;[https://developer.nvidia.com/cublas cuBLAS]&amp;lt;/ref&amp;gt; — библиотека представляет собой реализацию BLAS (базовых подпрограмм линейной алгебры) поверх среды выполнения CUDA.&lt;br /&gt;
* OpenCL&amp;lt;ref&amp;gt;[https://www.khronos.org/opencl/ OpenCL]&amp;lt;/ref&amp;gt;— фреймворк для написания компьютерных программ, связанных с параллельными вычислениями на различных графических и центральных процессорах, а также FPGA&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на cuBLAS&lt;br /&gt;
  void gpu_blas_mmul(cublasHandle_t &amp;amp;handle, const float *A, const float *B, float *C, const int m, const int k, const int n) {&lt;br /&gt;
      int lda = m, ldb = k, ldc = m;&lt;br /&gt;
      const float alf = 1;&lt;br /&gt;
      const float bet = 0;&lt;br /&gt;
      const float *alpha = &amp;amp;alf;&lt;br /&gt;
      const float *beta = &amp;amp;bet;&lt;br /&gt;
      // Do the actual multiplication&lt;br /&gt;
      cublasSgemm(handle, CUBLAS_OP_N, CUBLAS_OP_N, m, n, k, alpha, A, lda, B, ldb, beta, C, ldc);&lt;br /&gt;
  }&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на PyCUDA&lt;br /&gt;
  import pycuda.gpuarray as gpuarray&lt;br /&gt;
  import numpy as np&lt;br /&gt;
  import skcuda.linalg as linalg&lt;br /&gt;
  # --- Initializations&lt;br /&gt;
  import pycuda.autoinit&lt;br /&gt;
  linalg.init()&lt;br /&gt;
   &lt;br /&gt;
  A = np.array(([1, 2, 3], [4, 5, 6])).astype(np.float64)&lt;br /&gt;
  B = np.array(([7, 8, 1, 5], [9, 10, 0, 9], [11, 12, 5, 5])).astype(np.float64)&lt;br /&gt;
   &lt;br /&gt;
  A_gpu = gpuarray.to_gpu(A)&lt;br /&gt;
  B_gpu = gpuarray.to_gpu(B)&lt;br /&gt;
   &lt;br /&gt;
  C_gpu = linalg.dot(A_gpu, B_gpu)&lt;br /&gt;
   &lt;br /&gt;
  print(np.dot(A, B))&lt;br /&gt;
  print(C_gpu)&lt;br /&gt;
&lt;br /&gt;
Наивная реализация перемножения матриц на OpenCL&lt;br /&gt;
  // First naive implementation&lt;br /&gt;
  __kernel void myGEMM1(const int M, const int N, const int K,&lt;br /&gt;
                        const __global float *A,&lt;br /&gt;
                        const __global float *B,&lt;br /&gt;
                        __global float *C) {&lt;br /&gt;
       &lt;br /&gt;
      // Thread identifiers&lt;br /&gt;
      const int globalRow = get_global_id(0); // Row ID of C (0..M)&lt;br /&gt;
      const int globalCol = get_global_id(1); // Col ID of C (0..N)&lt;br /&gt;
       &lt;br /&gt;
      // Compute a single element (loop over K)&lt;br /&gt;
      float acc = 0.0f;&lt;br /&gt;
      for (int k = 0; k &amp;lt; K; k++) {&lt;br /&gt;
          acc += A[k * M + globalRow] * B[globalCol * K + k];&lt;br /&gt;
      }&lt;br /&gt;
       &lt;br /&gt;
      // Store the result&lt;br /&gt;
      C[globalCol * M + globalRow] = acc;&lt;br /&gt;
  }&lt;br /&gt;
=== Параллелизм в стохастическом градиентном спуске ===&lt;br /&gt;
Можно запустить внешний цикл [[Стохастический градиентный спуск|стохастического градиентного спуска (SGD)]] параллельно в пуле потоков и использовать конструкции синхронизации, такие как блокировки, чтобы предотвратить состояние гонки. Однако из-за накладных расходов на синхронизацию ускорение может получиться маленьким. &lt;br /&gt;
&lt;br /&gt;
Еще более интересная идея называется асинхронным SGD или Hogwild A Lock-Free Approach to Parallelizing Stochastic Gradient Descent&amp;lt;ref&amp;gt;[https://arxiv.org/abs/1106.5730 HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
SGD запускается параллельно в несколько потоков без какой-либо синхронизации. Теперь состояния гонки могут возникнуть, но во многих случаях это хорошо, потому что они просто немного изменяют шум и ошибки уже присутствующие из-за случайного выбора градиента.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе k ближайших соседей ===&lt;br /&gt;
Основное время работы [[Метрический классификатор и метод ближайших соседей|метода k ближайших соседей]] составляет поиск ближайших соседей. &lt;br /&gt;
Так как расстояния до разных объектов независимы, то можно разбить объекты на группы, параллельно решить задачу во всех группах, а потом объединить результат Implementation of a Parallel K-Nearest Neighbor Algorithm Using MPI&amp;lt;ref&amp;gt;[http://ceres-journal.eu/download.php?file=2019_01_01.pdf Implementation of a Parallel K-Nearest Neighbor Algorithm Using MPI]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Альтернативный подход — параллельная сортировка всех объектов, например, с использованием битонной сортировки Parallel Search of k-Nearest Neighbors with Synchronous Operations&amp;lt;ref&amp;gt;[https://users.cs.duke.edu/~nikos/reprints/knn-TR-CS-2012-03.pdf Parallel Search of k-Nearest Neighbors with Synchronous Operations]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе опорных веторов ===&lt;br /&gt;
Вычислительная сложность [[Метод опорных векторов (SVM)|метода опорных векторов]] заключается в минимизации квадратичной функции. &lt;br /&gt;
Первый вариант распараллеливания задачи — добавление параллелизма в алгоритм в явном виде, например, параллельная оптимизация большего количества переменных в SMO Parallel Support Vector Machines&amp;lt;ref&amp;gt;[https://publikationen.uni-tuebingen.de/xmlui/bitstream/handle/10900/49015/pdf/tech_21.pdf Parallel Support Vector Machines]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Второй подход — запись алгоритма через матричные операции, которые легко параллелизируемы Multiplicative Updates for Nonnegative Quadratic Programming&amp;lt;ref&amp;gt;[https://www.researchgate.net/publication/6265163_Multiplicative_Updates_for_Nonnegative_Quadratic_Programming Multiplicative Updates for Nonnegative Quadratic Programming]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Стохастический градиентный спуск]]&lt;br /&gt;
*[[Кросс-валидация]]&lt;br /&gt;
*[[Настройка гиперпараметров]]&lt;br /&gt;
*[[Метод опорных векторов (SVM)]]&lt;br /&gt;
*[[Метрический классификатор и метод ближайших соседей]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
== Источники информации ==&lt;br /&gt;
# [http://www.cs.cornell.edu/courses/cs4787/2019sp/notes/lecture1.pdf Principles of Large-Scale Machine Learning]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/pdf/CUBLAS_Library.pdf cuBLAS library user guide]&lt;br /&gt;
# [https://solarianprogrammer.com/2012/05/31/matrix-multiplication-cuda-cublas-curand-thrust/ Matrix multiplication on GPU using CUDA with CUBLAS]&lt;br /&gt;
# [https://medium.com/@CIulius/a-short-notice-on-performing-matrix-multiplications-in-pycuda-cbfb00cf1450 A short notice on performing matrix multiplications in PyCUDA]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html CUDA C++ Programming Guide]&lt;br /&gt;
# [https://cnugteren.github.io/tutorial/pages/page1.html OpenCL SGEMM tuning for Kepler]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76772</id>
		<title>Многопоточность в машинном обучении</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76772"/>
				<updated>2021-01-08T07:39:09Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Следует выделить следующие виды параллелизма:&lt;br /&gt;
* Параллелизм на уровне инструкций ILP(&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9F%D0%B0%D1%80%D0%B0%D0%BB%D0%BB%D0%B5%D0%BB%D0%B8%D0%B7%D0%BC_%D0%BD%D0%B0_%D1%83%D1%80%D0%BE%D0%B2%D0%BD%D0%B5_%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4 ILP]&amp;lt;/ref&amp;gt;): несколько инструкций исполняются одновременно.&lt;br /&gt;
* Параллелизм типа одна инструкция множество данных (SIMD&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/SIMD SIMD]&amp;lt;/ref&amp;gt;): одна операция применяется к множеству данных&lt;br /&gt;
* Многопоточный параллелизм: несколько независимых рабочих потоков взаимодействуют через абстракцию совместно используемой памяти.&lt;br /&gt;
* Распределенные вычисления: несколько независимых рабочих компьютеров взаимодействуют по сети. (MLlib&amp;lt;ref&amp;gt;[https://spark.apache.org/mllib/ MLlib]&amp;lt;/ref&amp;gt; на Spark, Mahout&amp;lt;ref&amp;gt;[https://mahout.apache.org/ Mahout]&amp;lt;/ref&amp;gt; на Hadoop)&lt;br /&gt;
&lt;br /&gt;
== Идеи используемые для ускорения вычислений в ML ==&lt;br /&gt;
=== Параллелизм для ускорения линейной алгебры. ===&lt;br /&gt;
Многие операции линейной алгебры, например, векторное сложение, произведение матриц и вычисление нормы состоят из большого количества независимых операций. Поэтому можно сильно повысить их производительность как за счёт ILP и SIMD параллелизма для маленьких данных, так и за счёт многопоточности для больших данных. От ускорения линейной алгебры особенно выигрывают нейронные сети, так как большую часть времени их работы занимает умножение матриц.&lt;br /&gt;
&lt;br /&gt;
Иногда необходимо выполнить операцию с объектам имеющими разнаю размерность, но которые можно привести к одной размерности повторением одного из объектов вдоль одной или нескольких осей. Например, если нужно прибавить к каждой строке матрицы вектор или домножить вектор на число. В таком случае можно не писать цикл в явном виде, а использовать broadcast операции. При этом задача оптимизации переходит к разработчику библиотеки, который может обеспечить лучший параллелизм операций за счет доступа к внутренностям библиотеки. &lt;br /&gt;
&lt;br /&gt;
Примеры оптимизаций:&lt;br /&gt;
* Высоко оптимизированные тензорные библиотеки для арифметики.&lt;br /&gt;
* Алгоритмы в терминах матричных операций, а не векторных операций, насколько это возможно.&lt;br /&gt;
* Broadcast операции вместо циклов.&lt;br /&gt;
* Распараллеленные реализации некоторых специальных операций (таких как свертки для [[Сверточные нейронные сети | CNN]]).&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в оптимизации гиперпараметров ===&lt;br /&gt;
Для параллельной [[Настройка гиперпараметров | оптимизации гиперпараметров]] можно использовать поиск по решётке или случайный поиск в которых мы можем оценить параметры независимо.&lt;br /&gt;
Такая оптимизации часто встречаются в библиотеках машинного обучения.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм кросс-валидации ===&lt;br /&gt;
Полная [[Кросс-валидация | кросс-валидация]], k-fold, t×k-fold, Leave-One-Out легко распараллеливаются на несколько потоков, каждый из которых работает на своем разбиении данных&lt;br /&gt;
&lt;br /&gt;
[[Файл:ParallelCrossValidation.png|500px]]&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм GPU&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%93%D1%80%D0%B0%D1%84%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81%D0%BE%D1%80 GPU]&amp;lt;/ref&amp;gt; ===&lt;br /&gt;
Графические процессоры позволяют применять одну и ту же операцию параллельно к десяткам тысяч элементов за счет большого числа потоков.&lt;br /&gt;
&lt;br /&gt;
Фреймворки машинного обучения, такие как TensorFlow, PyTorch и MxNet используют эти возможности через библиотеки от компаний производителей графических ускорителей и открытые фреймворки:&lt;br /&gt;
* CUDA&amp;lt;ref&amp;gt;[https://developer.nvidia.com/cuda-toolkit CUDA]&amp;lt;/ref&amp;gt; — язык параллельного программирования/вычислительная платформа для вычислений общего назначения на графическом процессоре&lt;br /&gt;
* cuBLAS&amp;lt;ref&amp;gt;[https://developer.nvidia.com/cublas cuBLAS]&amp;lt;/ref&amp;gt; — библиотека представляет собой реализацию BLAS (базовых подпрограмм линейной алгебры) поверх среды выполнения CUDA.&lt;br /&gt;
* OpenCL&amp;lt;ref&amp;gt;[https://www.khronos.org/opencl/ OpenCL]&amp;lt;/ref&amp;gt;— фреймворк для написания компьютерных программ, связанных с параллельными вычислениями на различных графических и центральных процессорах, а также FPGA&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на cuBLAS&lt;br /&gt;
  void gpu_blas_mmul(cublasHandle_t &amp;amp;handle, const float *A, const float *B, float *C, const int m, const int k, const int n) {&lt;br /&gt;
      int lda = m, ldb = k, ldc = m;&lt;br /&gt;
      const float alf = 1;&lt;br /&gt;
      const float bet = 0;&lt;br /&gt;
      const float *alpha = &amp;amp;alf;&lt;br /&gt;
      const float *beta = &amp;amp;bet;&lt;br /&gt;
      // Do the actual multiplication&lt;br /&gt;
      cublasSgemm(handle, CUBLAS_OP_N, CUBLAS_OP_N, m, n, k, alpha, A, lda, B, ldb, beta, C, ldc);&lt;br /&gt;
  }&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на PyCUDA&lt;br /&gt;
  import pycuda.gpuarray as gpuarray&lt;br /&gt;
  import numpy as np&lt;br /&gt;
  import skcuda.linalg as linalg&lt;br /&gt;
  # --- Initializations&lt;br /&gt;
  import pycuda.autoinit&lt;br /&gt;
  linalg.init()&lt;br /&gt;
   &lt;br /&gt;
  A = np.array(([1, 2, 3], [4, 5, 6])).astype(np.float64)&lt;br /&gt;
  B = np.array(([7, 8, 1, 5], [9, 10, 0, 9], [11, 12, 5, 5])).astype(np.float64)&lt;br /&gt;
   &lt;br /&gt;
  A_gpu = gpuarray.to_gpu(A)&lt;br /&gt;
  B_gpu = gpuarray.to_gpu(B)&lt;br /&gt;
   &lt;br /&gt;
  C_gpu = linalg.dot(A_gpu, B_gpu)&lt;br /&gt;
   &lt;br /&gt;
  print(np.dot(A, B))&lt;br /&gt;
  print(C_gpu)&lt;br /&gt;
&lt;br /&gt;
Наивная реализация перемножения матриц на OpenCL&lt;br /&gt;
  // First naive implementation&lt;br /&gt;
  __kernel void myGEMM1(const int M, const int N, const int K,&lt;br /&gt;
                        const __global float *A,&lt;br /&gt;
                        const __global float *B,&lt;br /&gt;
                        __global float *C) {&lt;br /&gt;
       &lt;br /&gt;
      // Thread identifiers&lt;br /&gt;
      const int globalRow = get_global_id(0); // Row ID of C (0..M)&lt;br /&gt;
      const int globalCol = get_global_id(1); // Col ID of C (0..N)&lt;br /&gt;
       &lt;br /&gt;
      // Compute a single element (loop over K)&lt;br /&gt;
      float acc = 0.0f;&lt;br /&gt;
      for (int k = 0; k &amp;lt; K; k++) {&lt;br /&gt;
          acc += A[k * M + globalRow] * B[globalCol * K + k];&lt;br /&gt;
      }&lt;br /&gt;
       &lt;br /&gt;
      // Store the result&lt;br /&gt;
      C[globalCol * M + globalRow] = acc;&lt;br /&gt;
  }&lt;br /&gt;
=== Параллелизм в стохастическом градиентном спуске ===&lt;br /&gt;
Можно запустить внешний цикл [[Стохастический градиентный спуск|стохастического градиентного спуска (SGD)]] параллельно в пуле потоков и использовать конструкции синхронизации, такие как блокировки, чтобы предотвратить состояние гонки. Однако из-за накладных расходов на синхронизацию ускорение может получиться маленьким. &lt;br /&gt;
&lt;br /&gt;
Еще более интересная идея называется асинхронным SGD или Hogwild A Lock-Free Approach to Parallelizing Stochastic Gradient Descent&amp;lt;ref&amp;gt;[https://arxiv.org/abs/1106.5730 HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
SGD запускается параллельно в несколько потоков без какой-либо синхронизации. Теперь состояния гонки могут возникнуть, но во многих случаях это хорошо, потому что они просто немного изменяют шум и ошибки уже присутствующие из-за случайного выбора градиента.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе k ближайших соседей ===&lt;br /&gt;
Основное время работы [[Метрический классификатор и метод ближайших соседей|метода k ближайших соседей]] составляет поиск ближайших соседей. &lt;br /&gt;
Так как расстояния до разных объектов независимы, то можно разбить объекты на группы, параллельно решить задачу во всех группах, а потом объединить результат Implementation of a Parallel K-Nearest Neighbor Algorithm Using MPI&amp;lt;ref&amp;gt;[http://ceres-journal.eu/download.php?file=2019_01_01.pdf Implementation of a Parallel K-Nearest Neighbor Algorithm Using MPI]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Альтернативный подход — параллельная сортировка всех объектов, например, с использованием битонной сортировки Parallel Search of k-Nearest Neighbors with Synchronous Operations&amp;lt;ref&amp;gt;[https://users.cs.duke.edu/~nikos/reprints/knn-TR-CS-2012-03.pdf Parallel Search of k-Nearest Neighbors with Synchronous Operations]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе опорных веторов ===&lt;br /&gt;
Вычислительная сложность [[Метод опорных векторов (SVM)|метода опорных векторов]] заключается в минимизации квадратичной функции. &lt;br /&gt;
Первый вариант распараллеливания задачи — добавление параллелизма в алгоритм в явном виде, например, параллельная оптимизация большего количества переменных в SMO Parallel Support Vector Machines&amp;lt;ref&amp;gt;[https://publikationen.uni-tuebingen.de/xmlui/bitstream/handle/10900/49015/pdf/tech_21.pdf Parallel Support Vector Machines]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Второй подход — запись алгоритма через матричные операции, которые легко параллелизируемы Multiplicative Updates for Nonnegative Quadratic Programming&amp;lt;ref&amp;gt;[https://www.researchgate.net/publication/6265163_Multiplicative_Updates_for_Nonnegative_Quadratic_Programming Multiplicative Updates for Nonnegative Quadratic Programming]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Стохастический градиентный спуск]]&lt;br /&gt;
*[[Кросс-валидация]]&lt;br /&gt;
*[[Настройка гиперпараметров]]&lt;br /&gt;
*[[Метод опорных векторов (SVM)]]&lt;br /&gt;
*[[Метрический классификатор и метод ближайших соседей]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
== Источники информации ==&lt;br /&gt;
# [http://www.cs.cornell.edu/courses/cs4787/2019sp/notes/lecture1.pdf Principles of Large-Scale Machine Learning]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/pdf/CUBLAS_Library.pdf cuBLAS library user guide]&lt;br /&gt;
# [https://solarianprogrammer.com/2012/05/31/matrix-multiplication-cuda-cublas-curand-thrust/ Matrix multiplication on GPU using CUDA with CUBLAS]&lt;br /&gt;
# [https://medium.com/@CIulius/a-short-notice-on-performing-matrix-multiplications-in-pycuda-cbfb00cf1450 A short notice on performing matrix multiplications in PyCUDA]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html CUDA C++ Programming Guide]&lt;br /&gt;
# [https://cnugteren.github.io/tutorial/pages/page1.html OpenCL SGEMM tuning for Kepler]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76771</id>
		<title>Многопоточность в машинном обучении</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76771"/>
				<updated>2021-01-08T07:36:01Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: prim&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Следует выделить следующие виды параллелизма:&lt;br /&gt;
* Параллелизм на уровне инструкций (&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%9F%D0%B0%D1%80%D0%B0%D0%BB%D0%BB%D0%B5%D0%BB%D0%B8%D0%B7%D0%BC_%D0%BD%D0%B0_%D1%83%D1%80%D0%BE%D0%B2%D0%BD%D0%B5_%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4 ILP]&amp;lt;/ref&amp;gt;): несколько инструкций исполняются одновременно.&lt;br /&gt;
* Параллелизм типа одна инструкция множество данных (&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/SIMD SIMD]&amp;lt;/ref&amp;gt;): одна операция применяется к множеству данных&lt;br /&gt;
* Многопоточный параллелизм: несколько независимых рабочих потоков взаимодействуют через абстракцию совместно используемой памяти.&lt;br /&gt;
* Распределенные вычисления: несколько независимых рабочих компьютеров взаимодействуют по сети. (&amp;lt;ref&amp;gt;[https://spark.apache.org/mllib/ MLlib]&amp;lt;/ref&amp;gt; на Spark, &amp;lt;ref&amp;gt;[https://mahout.apache.org/ Mahout]&amp;lt;/ref&amp;gt; на Hadoop)&lt;br /&gt;
&lt;br /&gt;
== Идеи используемые для ускорения вычислений в ML ==&lt;br /&gt;
=== Параллелизм для ускорения линейной алгебры. ===&lt;br /&gt;
Многие операции линейной алгебры, например, векторное сложение, произведение матриц и вычисление нормы состоят из большого количества независимых операций. Поэтому можно сильно повысить их производительность как за счёт ILP и SIMD параллелизма для маленьких данных, так и за счёт многопоточности для больших данных. От ускорения линейной алгебры особенно выигрывают нейронные сети, так как большую часть времени их работы занимает умножение матриц.&lt;br /&gt;
&lt;br /&gt;
Иногда необходимо выполнить операцию с объектам имеющими разнаю размерность, но которые можно привести к одной размерности повторением одного из объектов вдоль одной или нескольких осей. Например, если нужно прибавить к каждой строке матрицы вектор или домножить вектор на число. В таком случае можно не писать цикл в явном виде, а использовать broadcast операции. При этом задача оптимизации переходит к разработчику библиотеки, который может обеспечить лучший параллелизм операций за счет доступа к внутренностям библиотеки. &lt;br /&gt;
&lt;br /&gt;
Примеры оптимизаций:&lt;br /&gt;
* Высоко оптимизированные тензорные библиотеки для арифметики.&lt;br /&gt;
* Алгоритмы в терминах матричных операций, а не векторных операций, насколько это возможно.&lt;br /&gt;
* Broadcast операции вместо циклов.&lt;br /&gt;
* Распараллеленные реализации некоторых специальных операций (таких как свертки для [[Сверточные нейронные сети | CNN]]).&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в оптимизации гиперпараметров ===&lt;br /&gt;
Для параллельной [[Настройка гиперпараметров | оптимизации гиперпараметров]] можно использовать поиск по решётке или случайный поиск в которых мы можем оценить параметры независимо.&lt;br /&gt;
Такая оптимизации часто встречаются в библиотеках машинного обучения.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм кросс-валидации ===&lt;br /&gt;
Полная [[Кросс-валидация | кросс-валидация]], k-fold, t×k-fold, Leave-One-Out легко распараллеливаются на несколько потоков, каждый из которых работает на своем разбиении данных&lt;br /&gt;
&lt;br /&gt;
[[Файл:ParallelCrossValidation.png|500px]]&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм GPU&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%93%D1%80%D0%B0%D1%84%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81%D0%BE%D1%80 GPU]&amp;lt;/ref&amp;gt; ===&lt;br /&gt;
Графические процессоры позволяют применять одну и ту же операцию параллельно к десяткам тысяч элементов за счет большого числа потоков.&lt;br /&gt;
&lt;br /&gt;
Фреймворки машинного обучения, такие как TensorFlow, PyTorch и MxNet используют эти возможности через библиотеки от компаний производителей графических ускорителей и открытые фреймворки:&lt;br /&gt;
* &amp;lt;ref&amp;gt;[https://developer.nvidia.com/cuda-toolkit CUDA]&amp;lt;/ref&amp;gt; — язык параллельного программирования/вычислительная платформа для вычислений общего назначения на графическом процессоре&lt;br /&gt;
* &amp;lt;ref&amp;gt;[https://developer.nvidia.com/cublas cuBLAS]&amp;lt;/ref&amp;gt; — библиотека представляет собой реализацию BLAS (базовых подпрограмм линейной алгебры) поверх среды выполнения CUDA.&lt;br /&gt;
* &amp;lt;ref&amp;gt;[https://www.khronos.org/opencl/ OpenCL]&amp;lt;/ref&amp;gt;— фреймворк для написания компьютерных программ, связанных с параллельными вычислениями на различных графических и центральных процессорах, а также FPGA&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на cuBLAS&lt;br /&gt;
  void gpu_blas_mmul(cublasHandle_t &amp;amp;handle, const float *A, const float *B, float *C, const int m, const int k, const int n) {&lt;br /&gt;
      int lda = m, ldb = k, ldc = m;&lt;br /&gt;
      const float alf = 1;&lt;br /&gt;
      const float bet = 0;&lt;br /&gt;
      const float *alpha = &amp;amp;alf;&lt;br /&gt;
      const float *beta = &amp;amp;bet;&lt;br /&gt;
      // Do the actual multiplication&lt;br /&gt;
      cublasSgemm(handle, CUBLAS_OP_N, CUBLAS_OP_N, m, n, k, alpha, A, lda, B, ldb, beta, C, ldc);&lt;br /&gt;
  }&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на PyCUDA&lt;br /&gt;
  import pycuda.gpuarray as gpuarray&lt;br /&gt;
  import numpy as np&lt;br /&gt;
  import skcuda.linalg as linalg&lt;br /&gt;
  # --- Initializations&lt;br /&gt;
  import pycuda.autoinit&lt;br /&gt;
  linalg.init()&lt;br /&gt;
   &lt;br /&gt;
  A = np.array(([1, 2, 3], [4, 5, 6])).astype(np.float64)&lt;br /&gt;
  B = np.array(([7, 8, 1, 5], [9, 10, 0, 9], [11, 12, 5, 5])).astype(np.float64)&lt;br /&gt;
   &lt;br /&gt;
  A_gpu = gpuarray.to_gpu(A)&lt;br /&gt;
  B_gpu = gpuarray.to_gpu(B)&lt;br /&gt;
   &lt;br /&gt;
  C_gpu = linalg.dot(A_gpu, B_gpu)&lt;br /&gt;
   &lt;br /&gt;
  print(np.dot(A, B))&lt;br /&gt;
  print(C_gpu)&lt;br /&gt;
&lt;br /&gt;
Наивная реализация перемножения матриц на OpenCL&lt;br /&gt;
  // First naive implementation&lt;br /&gt;
  __kernel void myGEMM1(const int M, const int N, const int K,&lt;br /&gt;
                        const __global float *A,&lt;br /&gt;
                        const __global float *B,&lt;br /&gt;
                        __global float *C) {&lt;br /&gt;
       &lt;br /&gt;
      // Thread identifiers&lt;br /&gt;
      const int globalRow = get_global_id(0); // Row ID of C (0..M)&lt;br /&gt;
      const int globalCol = get_global_id(1); // Col ID of C (0..N)&lt;br /&gt;
       &lt;br /&gt;
      // Compute a single element (loop over K)&lt;br /&gt;
      float acc = 0.0f;&lt;br /&gt;
      for (int k = 0; k &amp;lt; K; k++) {&lt;br /&gt;
          acc += A[k * M + globalRow] * B[globalCol * K + k];&lt;br /&gt;
      }&lt;br /&gt;
       &lt;br /&gt;
      // Store the result&lt;br /&gt;
      C[globalCol * M + globalRow] = acc;&lt;br /&gt;
  }&lt;br /&gt;
=== Параллелизм в стохастическом градиентном спуске ===&lt;br /&gt;
Можно запустить внешний цикл [[Стохастический градиентный спуск|стохастического градиентного спуска (SGD)]] параллельно в пуле потоков и использовать конструкции синхронизации, такие как блокировки, чтобы предотвратить состояние гонки. Однако из-за накладных расходов на синхронизацию ускорение может получиться маленьким. &lt;br /&gt;
&lt;br /&gt;
Еще более интересная идея называется асинхронным SGD или Hogwild&amp;lt;ref&amp;gt;[https://arxiv.org/abs/1106.5730 HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
SGD запускается параллельно в несколько потоков без какой-либо синхронизации. Теперь состояния гонки могут возникнуть, но во многих случаях это хорошо, потому что они просто немного изменяют шум и ошибки уже присутствующие из-за случайного выбора градиента.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе k ближайших соседей ===&lt;br /&gt;
Основное время работы [[Метрический классификатор и метод ближайших соседей|метода k ближайших соседей]] составляет поиск ближайших соседей. &lt;br /&gt;
Так как расстояния до разных объектов независимы, то можно разбить объекты на группы, параллельно решить задачу во всех группах, а потом объединить результат&amp;lt;ref&amp;gt;[http://ceres-journal.eu/download.php?file=2019_01_01.pdf Implementation of a Parallel K-Nearest Neighbor Algorithm Using MPI]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Альтернативный подход — параллельная сортировка всех объектов, например, с использованием битонной сортировки&amp;lt;ref&amp;gt;[https://users.cs.duke.edu/~nikos/reprints/knn-TR-CS-2012-03.pdf Parallel Search of k-Nearest Neighbors with Synchronous Operations]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе опорных веторов ===&lt;br /&gt;
Вычислительная сложность [[Метод опорных векторов (SVM)|метода опорных векторов]] заключается в минимизации квадратичной функции. &lt;br /&gt;
Первый вариант распараллеливания задачи — добавление параллелизма в алгоритм в явном виде, например, параллельная оптимизация большего количества переменных в SMO&amp;lt;ref&amp;gt;[https://publikationen.uni-tuebingen.de/xmlui/bitstream/handle/10900/49015/pdf/tech_21.pdf Parallel Support Vector Machines]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Второй подход — запись алгоритма через матричные операции, которые легко параллелизируемы&amp;lt;ref&amp;gt;[https://www.researchgate.net/publication/6265163_Multiplicative_Updates_for_Nonnegative_Quadratic_Programming Multiplicative Updates for Nonnegative Quadratic Programming]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Стохастический градиентный спуск]]&lt;br /&gt;
*[[Кросс-валидация]]&lt;br /&gt;
*[[Настройка гиперпараметров]]&lt;br /&gt;
*[[Метод опорных векторов (SVM)]]&lt;br /&gt;
*[[Метрический классификатор и метод ближайших соседей]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
== Источники информации ==&lt;br /&gt;
# [http://www.cs.cornell.edu/courses/cs4787/2019sp/notes/lecture1.pdf Principles of Large-Scale Machine Learning]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/pdf/CUBLAS_Library.pdf cuBLAS library user guide]&lt;br /&gt;
# [https://solarianprogrammer.com/2012/05/31/matrix-multiplication-cuda-cublas-curand-thrust/ Matrix multiplication on GPU using CUDA with CUBLAS]&lt;br /&gt;
# [https://medium.com/@CIulius/a-short-notice-on-performing-matrix-multiplications-in-pycuda-cbfb00cf1450 A short notice on performing matrix multiplications in PyCUDA]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html CUDA C++ Programming Guide]&lt;br /&gt;
# [https://cnugteren.github.io/tutorial/pages/page1.html OpenCL SGEMM tuning for Kepler]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE&amp;diff=76770</id>
		<title>Анализ видео</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE&amp;diff=76770"/>
				<updated>2021-01-08T07:31:34Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;'''Трекинг''' — определение местоположения объекта (нескольких объектов) во времени.&lt;br /&gt;
&lt;br /&gt;
Задача отслеживания объектов на видео является одной из самых интересных задач в информационных технологиях. На первый взгляд, видеопоток можно рассматривать как последовательность отдельных кадров, поэтому применимы многие алгоритмы, использующиеся для обработки обычных изображений. Сегодня к задаче распознавания объектов также широко применяются методы классификации, а именно, строятся системы, которые определяют к какому классу (изображение содержит объект или изображение не содержит объект) относится изображение.&lt;br /&gt;
&lt;br /&gt;
С другой стороны, видеопоток обладает свойством связности: каждый последующий кадр не сильно отличается от предыдущего, поэтому возможно применение алгоритмов, основанных на этом свойстве. Одной из интересных задач в этой области является трекинг перемещений объектов на видео. В работе &amp;lt;ref&amp;gt;[http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.115.2861&amp;amp;rep=rep1&amp;amp;type=pdf A Survey on Visual Surveillance of Object Motion and Behaviors]&amp;lt;/ref&amp;gt; алгоритмы отслеживания разделены на четыре основные категории: отслеживание областей, отслеживание по активному контуру, отслеживание по характерным признакам, отслеживание по модели.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Распознавание изображений ==&lt;br /&gt;
&lt;br /&gt;
Для детектирования объекта на изображении применяются алгоритмы распознавания. Алгоритм распознавания изображений принимает картинку в качестве входных данных и выводит, что содержится на данном изображении.&lt;br /&gt;
&lt;br /&gt;
Классификация изображений производится поэтапно. На первом шаге входное изображение зачастую предварительно обрабатывается для нормализации контраста и яркости, а также на этом шаге входное изображение обрезается и масштабируется до фиксированного размера.&lt;br /&gt;
&lt;br /&gt;
На втором шаге необходимо упростить изображение путем извлечения важной информации, так как исходное изображение содержит слишком много дополнительной информации, которая не требуется для классификации. Этот шаг называется извлечением признаков. Существует достаточно большое количество признаков, используемых в компьютерном зрении, — это признаки Хаара, HOG (Histogram of Oriented Gradients), SIFT (Scale-Invariant Feature Transform), SURF (Speeded Up Robust Feature) и другие.&lt;br /&gt;
&lt;br /&gt;
На третьем шаге алгоритм классификации принимает вектор признаков в качестве входных данных и выводит к какому классу принадлежит изображение.&lt;br /&gt;
[[Файл: VideoAnalysis1.png|мини|250px|Типы «признаков», использованные в алгоритме]]&lt;br /&gt;
&lt;br /&gt;
=== Метод Виолы-Джонса ===&lt;br /&gt;
&lt;br /&gt;
Основной принцип алгоритмы Виолы-Джонса, основанный на признаках Хаара, заключается в сканировании изображения с помощью сканирующего окна, которое позволяет обнаружить заданный объект. Однако признаки, предложенные Виолой и Джонсом, содержат более одной прямоугольной области и несколько сложнее. На иллюстрации показано ''четыре'' различных типа признаков. Величина каждого признака вычисляется как сумма пикселей в белых прямоугольниках, из которой вычитается сумма пикселей в чёрных областях. Прямоугольные признаки более примитивны, чем steerable filter, и, несмотря на то, что они чувствительны к вертикальным и горизонтальным особенностям изображений, результат их поиска более груб. Однако, при хранении изображения в интегральном формате проверка прямоугольного признака на конкретной позиции проводится за константное время, что является их преимуществом по сравнению с более точными вариантами. Каждая прямоугольная область в используемых признаках всегда смежна с другим прямоугольником, поэтому расчёт признака с ''двумя'' прямоугольниками состоит из ''шести'' обращений в интегральный массив, для признака с ''тремя'' прямоугольниками - из ''восьми'', и с ''четырьмя'' прямоугольниками - из ''девяти''.&lt;br /&gt;
&lt;br /&gt;
== Отслеживание объекта ==&lt;br /&gt;
&lt;br /&gt;
Отслеживанием называется поиск объекта в последовательных кадрах видео. Отслеживание объекта в некоторых случаях может выполняться при помощи алгоритмов детектирования. При детектировании основная идея заключается в том, чтобы сначала определить регионы интереса (ключевые точки), которые будут независимы к преобразованиям. Затем для каждого региона интереса строится его векторное представление — дескриптор. Далее на каждом кадре будет выполняться поиск объекта и выделение его местоположения прямоугольником.&lt;br /&gt;
&lt;br /&gt;
При трекинге целью является нахождение объекта в текущем кадре, если он успешно отслеживался во всех предыдущих кадрах. Так как объект был отслежен до текущего кадра, известны параметры модели движения: скорость и направление движения объекта в предыдущих кадрах. Поэтому можно предсказать новое местоположение объекта, опираясь на его модель движения, и оно будет очень близко к реальному новому положению объекта.&lt;br /&gt;
&lt;br /&gt;
=== Visual object tracking ===&lt;br /&gt;
'''VOT''' (''Visual object tracking'')&lt;br /&gt;
* Рассматривается отслеживание одного объекта&lt;br /&gt;
* Объект уже выделен на первом кадре&lt;br /&gt;
* &amp;quot;Model-free&amp;quot; — нет ничего, кроме одного изображения на первом кадре, т.е. не можем детектировать объект&lt;br /&gt;
* &amp;quot;Short-term&amp;quot; — отслеживаем на коротких промежутках времени, не применяем повторное обнаружение&lt;br /&gt;
* Не используются будущие кадры, только предыдущие&lt;br /&gt;
&lt;br /&gt;
==== Пример алгоритма ====&lt;br /&gt;
[[Файл:Tracking_of_ladon.jpg|left|мини|600px|Трекинг ладони]]&lt;br /&gt;
&amp;lt;br clear=all&amp;gt;&lt;br /&gt;
# Инициализация&lt;br /&gt;
## Находим 100 контрольных точек с помощью метода поиска локальных особенностей (Harris corners) в рамке руки&lt;br /&gt;
## Вычисляем медиану &lt;br /&gt;
## Вычисляем цветовую статистику в окрестности центра&lt;br /&gt;
## Разметить в рамке руки все пиксели, похожие на кожу&lt;br /&gt;
# Слежение&lt;br /&gt;
## Отслеживаем контрольные точки&lt;br /&gt;
## Если точка нарушает условия ''стаи'', то удаляем её&lt;br /&gt;
# Инициализация новых контрольных точек&lt;br /&gt;
## Ищем особенности (Harris corners)&lt;br /&gt;
## Если точка не на коже, то удаляем её&lt;br /&gt;
&lt;br /&gt;
  '''Input''' : Pretrained CNN filters {&amp;lt;tex&amp;gt;w_1&amp;lt;/tex&amp;gt;,..., &amp;lt;tex&amp;gt;w_5&amp;lt;/tex&amp;gt;}&lt;br /&gt;
          Initial target state &amp;lt;tex&amp;gt;x_1&amp;lt;/tex&amp;gt;&lt;br /&gt;
  '''Output''': Estimated target states &amp;lt;tex&amp;gt;x^*_t&amp;lt;/tex&amp;gt; &lt;br /&gt;
  1: Randomly initialize the last layer &amp;lt;tex&amp;gt;w_6&amp;lt;/tex&amp;gt;.&lt;br /&gt;
  2: Train a bounding box regression model.&lt;br /&gt;
  3: Draw positive samples &amp;lt;tex&amp;gt;S^+_1&amp;lt;/tex&amp;gt; and negative samples &amp;lt;tex&amp;gt;S^-_1&amp;lt;/tex&amp;gt;.&lt;br /&gt;
  4: Update {&amp;lt;tex&amp;gt;w_4, w_5, w_6&amp;lt;/tex&amp;gt;} using &amp;lt;tex&amp;gt;S^+_1&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_1&amp;lt;/tex&amp;gt;;&lt;br /&gt;
  5: &amp;lt;tex&amp;gt;T_s&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\leftarrow&amp;lt;/tex&amp;gt; {1} and &amp;lt;tex&amp;gt;T_l&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\leftarrow&amp;lt;/tex&amp;gt; {1}.&lt;br /&gt;
  6: '''repeat'''&lt;br /&gt;
  7:    Draw target candidate samples &amp;lt;tex&amp;gt;x^i_t&amp;lt;/tex&amp;gt;;&lt;br /&gt;
  8:    Find the optimal target state &amp;lt;tex&amp;gt;x^*_t&amp;lt;/tex&amp;gt; by Eq. (1).&lt;br /&gt;
  9:    '''if''' &amp;lt;tex&amp;gt;f^+(x^*_t)&amp;lt;/tex&amp;gt; &amp;gt; 0.5 '''then'''&lt;br /&gt;
 10:      Draw training samples &amp;lt;tex&amp;gt;S^+_t&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_t&amp;lt;/tex&amp;gt;.&lt;br /&gt;
 11:      &amp;lt;tex&amp;gt;T_s \leftarrow T_s&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\cup&amp;lt;/tex&amp;gt; {&amp;lt;tex&amp;gt;t&amp;lt;/tex&amp;gt;}, &amp;lt;tex&amp;gt;T_l \leftarrow T_l&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\cup&amp;lt;/tex&amp;gt; {&amp;lt;tex&amp;gt;t&amp;lt;/tex&amp;gt;}.&lt;br /&gt;
 12:      '''if''' |&amp;lt;tex&amp;gt;T_s&amp;lt;/tex&amp;gt;| &amp;gt; &amp;lt;tex&amp;gt;\tau_s&amp;lt;/tex&amp;gt; '''then''' &amp;lt;tex&amp;gt;T_s \leftarrow T_s&amp;lt;/tex&amp;gt; \ {&amp;lt;tex&amp;gt;min_{\upsilon \in T_s} \upsilon&amp;lt;/tex&amp;gt;}. &lt;br /&gt;
 13:      '''if''' |&amp;lt;tex&amp;gt;T_l&amp;lt;/tex&amp;gt;| &amp;gt; &amp;lt;tex&amp;gt;\tau_l&amp;lt;/tex&amp;gt; '''then''' &amp;lt;tex&amp;gt;T_l \leftarrow T_l&amp;lt;/tex&amp;gt; \ {&amp;lt;tex&amp;gt;min_{\upsilon \in T_l} \upsilon&amp;lt;/tex&amp;gt;}. &lt;br /&gt;
 14:      Adjust &amp;lt;tex&amp;gt;x^*_t&amp;lt;/tex&amp;gt; using bounding box regression.&lt;br /&gt;
 15:    '''if''' &amp;lt;tex&amp;gt;f^+(x^*_t)&amp;lt;/tex&amp;gt; &amp;lt; 0.5 '''then'''&lt;br /&gt;
 16:      Update {&amp;lt;tex&amp;gt;w_4, w_5, w_6&amp;lt;/tex&amp;gt;} using &amp;lt;tex&amp;gt;S^+_{\upsilon \in T_s}&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_{\upsilon \in T_s}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
 17:    '''else''' '''if''' &amp;lt;tex&amp;gt;t&amp;lt;/tex&amp;gt; mod 10 = 0 '''then'''&lt;br /&gt;
 18:      Update {&amp;lt;tex&amp;gt;w_4, w_5, w_6&amp;lt;/tex&amp;gt;} using &amp;lt;tex&amp;gt;S^+_{\upsilon \in T_l}&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_{\upsilon \in T_l}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
 19: '''until''' end of sequence&lt;br /&gt;
&lt;br /&gt;
(1): &amp;lt;tex&amp;gt;x^* = \underset{x^i}{\arg\max} f^+(x^i)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
   &lt;br /&gt;
&lt;br /&gt;
=== Multiple object tracking ===&lt;br /&gt;
'''MOT''' (''Multiple object tracking'')&lt;br /&gt;
* Задача &amp;quot;выделения и сопровождения множества объектов&amp;quot;&lt;br /&gt;
** Нужно найти все объекты на кадрах&lt;br /&gt;
** Определить сколько у нас разных &amp;quot;экземпляров&amp;quot; объектов&lt;br /&gt;
** Найти на каких кадрах виден каждый экземпляр и где он именно&lt;br /&gt;
* Обобщение задачи &amp;quot;выделение объектов на изображении&amp;quot; на случайном видео&lt;br /&gt;
* В отличие от VOT:&lt;br /&gt;
** Работает со множеством объектов&lt;br /&gt;
** На длительных промежутках времени&lt;br /&gt;
** Есть модель объектов (возможность повторного обнаружения)&lt;br /&gt;
** Разрешено &amp;quot;заглядывать в будущее&amp;quot;&lt;br /&gt;
&lt;br /&gt;
==== Пример алгоритма ====&lt;br /&gt;
# Поиск голов на ключевых кадрах&lt;br /&gt;
# Построение треклетов&lt;br /&gt;
## Визуальное сопровождение&lt;br /&gt;
## Получаем гипотезы движения объектов между ключевыми кадрами (треклеты)&lt;br /&gt;
# Объединение треклетов в траектории&lt;br /&gt;
## Алгоритм MCMC DA&lt;br /&gt;
### Построение выборки из распределения &lt;br /&gt;
### Алгоритм Метрополиса — Гастингса&lt;br /&gt;
### Элемент с максимальной вероятностью&lt;br /&gt;
## Восстановление положения на промежуточных кадрах&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===== Multiple Object Tracking Tutorial =====&lt;br /&gt;
&lt;br /&gt;
 function MultipleObjectTrackingExample()&lt;br /&gt;
 // Create objects used for reading video and displaying the results.&lt;br /&gt;
 videoObjects = setupVideoObjects('atrium.mp4');&lt;br /&gt;
 // Create objects used for detecting objects in the foreground of the video.&lt;br /&gt;
 minBlobArea = 400; % Minimum blob size, in pixels, to be considered as a detection&lt;br /&gt;
 detectorObjects = setupDetectorObjects(minBlobArea);&lt;br /&gt;
&lt;br /&gt;
===== Create the Multi-Object Tracker =====&lt;br /&gt;
&lt;br /&gt;
 tracker = multiObjectTracker(...&lt;br /&gt;
    'FilterInitializationFcn', @initDemoFilter, ...&lt;br /&gt;
    'AssignmentThreshold', 30, ...&lt;br /&gt;
    'DeletionThreshold', 22, ...&lt;br /&gt;
    'ConfirmationThreshold', [6 10] ...&lt;br /&gt;
    );&lt;br /&gt;
&lt;br /&gt;
===== Define a Kalman Filter =====&lt;br /&gt;
&lt;br /&gt;
  function filter = initDemoFilter(detection)&lt;br /&gt;
    // Initialize a Kalman filter for this example.&lt;br /&gt;
    // Define the initial state.&lt;br /&gt;
    state = [detection.Measurement(1); 0; detection.Measurement(2); 0];&lt;br /&gt;
    // Define the initial state covariance.&lt;br /&gt;
    stateCov = diag([50, 50, 50, 50]);&lt;br /&gt;
    // Create the tracking filter.&lt;br /&gt;
    filter = trackingKF('MotionModel', '2D Constant Velocity', ...&lt;br /&gt;
        'State', state, ...&lt;br /&gt;
        'StateCovariance', stateCov, ...&lt;br /&gt;
        'MeasurementNoise', detection.MeasurementNoise(1:2,1:2) ...&lt;br /&gt;
        );&lt;br /&gt;
    end&lt;br /&gt;
  // Count frames to create a sense of time.&lt;br /&gt;
  frameCount = 0;&lt;br /&gt;
  while hasFrame(videoObjects.reader)&lt;br /&gt;
     // Read a video frame and detect objects in it.&lt;br /&gt;
     frameCount = frameCount + 1;                                // Promote frame count&lt;br /&gt;
     frame = readFrame(videoObjects.reader);                     // Read frame&lt;br /&gt;
     [detections, mask] = detectObjects(detectorObjects, frame); // Detect objects in video frame&lt;br /&gt;
     // Run the tracker on the preprocessed detections.&lt;br /&gt;
     confirmedTracks = updateTracks(tracker, detections, frameCount);&lt;br /&gt;
     // Display the tracking results on the video.&lt;br /&gt;
     displayTrackingResults(videoObjects, confirmedTracks, frame, mask);&lt;br /&gt;
  end&lt;br /&gt;
&lt;br /&gt;
===== Create Video Objects =====&lt;br /&gt;
 &lt;br /&gt;
    function videoObjects = setupVideoObjects(filename)&lt;br /&gt;
        // Initialize video I/O&lt;br /&gt;
        // Create objects for reading a video from a file, drawing the tracked&lt;br /&gt;
        // objects in each frame, and playing the video.&lt;br /&gt;
        // Create a video file reader.&lt;br /&gt;
        videoObjects.reader = VideoReader(filename);&lt;br /&gt;
        // Create two video players: one to display the video,&lt;br /&gt;
        // and one to display the foreground mask.&lt;br /&gt;
        videoObjects.maskPlayer  = vision.VideoPlayer('Position', [20, 400, 700, 400]);&lt;br /&gt;
        videoObjects.videoPlayer = vision.VideoPlayer('Position', [740, 400, 700, 400]);&lt;br /&gt;
    end&lt;br /&gt;
&lt;br /&gt;
===== Create Detector Objects =====&lt;br /&gt;
&lt;br /&gt;
    function detectorObjects = setupDetectorObjects(minBlobArea)&lt;br /&gt;
        // Create System objects for foreground detection and blob analysis&lt;br /&gt;
        // The foreground detector segments moving objects from the&lt;br /&gt;
        // background. It outputs a binary mask, where the pixel value of 1&lt;br /&gt;
        // corresponds to the foreground and the value of 0 corresponds to&lt;br /&gt;
        // the background.&lt;br /&gt;
        detectorObjects.detector = vision.ForegroundDetector('NumGaussians', 3, ...&lt;br /&gt;
            'NumTrainingFrames', 40, 'MinimumBackgroundRatio', 0.7);&lt;br /&gt;
        // Connected groups of foreground pixels are likely to correspond to&lt;br /&gt;
        // moving objects.  The blob analysis System object finds such&lt;br /&gt;
        // groups (called 'blobs' or 'connected components') and computes&lt;br /&gt;
        // their characteristics, such as their areas, centroids, and the&lt;br /&gt;
        // bounding boxes.&lt;br /&gt;
        detectorObjects.blobAnalyzer = vision.BlobAnalysis('BoundingBoxOutputPort', true, ...&lt;br /&gt;
            'AreaOutputPort', true, 'CentroidOutputPort', true, ...&lt;br /&gt;
            'MinimumBlobArea', minBlobArea);&lt;br /&gt;
    end&lt;br /&gt;
&lt;br /&gt;
===== Detect Objects =====&lt;br /&gt;
&lt;br /&gt;
    function [detections, mask] = detectObjects(detectorObjects, frame)&lt;br /&gt;
        // Expected uncertainty (noise) for the blob centroid.&lt;br /&gt;
        measurementNoise = 100*eye(2);&lt;br /&gt;
        // Detect foreground.&lt;br /&gt;
        mask = detectorObjects.detector.step(frame);&lt;br /&gt;
        // Apply morphological operations to remove noise and fill in holes.&lt;br /&gt;
        mask = imopen(mask, strel('rectangle', [6, 6]));&lt;br /&gt;
        mask = imclose(mask, strel('rectangle', [50, 50]));&lt;br /&gt;
        mask = imfill(mask, 'holes');&lt;br /&gt;
        // Perform blob analysis to find connected components.&lt;br /&gt;
        [~, centroids, bboxes] = detectorObjects.blobAnalyzer.step(mask);&lt;br /&gt;
        // Formulate the detections as a list of objectDetection objects.&lt;br /&gt;
        numDetections = size(centroids, 1);&lt;br /&gt;
        detections = cell(numDetections, 1);&lt;br /&gt;
        for i = 1:numDetections&lt;br /&gt;
            detections{i} = objectDetection(frameCount, centroids(i,:), ...&lt;br /&gt;
                'MeasurementNoise', measurementNoise, ...&lt;br /&gt;
                'ObjectAttributes', {bboxes(i,:)});&lt;br /&gt;
        end&lt;br /&gt;
    end&lt;br /&gt;
&lt;br /&gt;
===== Display Tracking Results =====&lt;br /&gt;
&lt;br /&gt;
    function displayTrackingResults(videoObjects, confirmedTracks, frame, mask)&lt;br /&gt;
        % Convert the frame and the mask to uint8 RGB.&lt;br /&gt;
        frame = im2uint8(frame);&lt;br /&gt;
        mask = uint8(repmat(mask, [1, 1, 3])) .* 255;&lt;br /&gt;
        if ~isempty(confirmedTracks)&lt;br /&gt;
            // Display the objects. If an object has not been detected&lt;br /&gt;
            // in this frame, display its predicted bounding box.&lt;br /&gt;
            numRelTr = numel(confirmedTracks);&lt;br /&gt;
            boxes = zeros(numRelTr, 4);&lt;br /&gt;
            ids = zeros(numRelTr, 1, 'int32');&lt;br /&gt;
            predictedTrackInds = zeros(numRelTr, 1);&lt;br /&gt;
            for tr = 1:numRelTr&lt;br /&gt;
                // Get bounding boxes.&lt;br /&gt;
                boxes(tr, :) = confirmedTracks(tr).ObjectAttributes{1}{1};&lt;br /&gt;
                // Get IDs.&lt;br /&gt;
                ids(tr) = confirmedTracks(tr).TrackID;&lt;br /&gt;
                if confirmedTracks(tr).IsCoasted&lt;br /&gt;
                    predictedTrackInds(tr) = tr;&lt;br /&gt;
                end&lt;br /&gt;
            end&lt;br /&gt;
            predictedTrackInds = predictedTrackInds(predictedTrackInds &amp;gt; 0);&lt;br /&gt;
            // Create labels for objects that display the predicted rather&lt;br /&gt;
            // than the actual location.&lt;br /&gt;
            labels = cellstr(int2str(ids));&lt;br /&gt;
            isPredicted = cell(size(labels));&lt;br /&gt;
            isPredicted(predictedTrackInds) = {' predicted'};&lt;br /&gt;
            labels = strcat(labels, isPredicted);&lt;br /&gt;
            // Draw the objects on the frame.&lt;br /&gt;
            frame = insertObjectAnnotation(frame, 'rectangle', boxes, labels);&lt;br /&gt;
            // Draw the objects on the mask.&lt;br /&gt;
            mask = insertObjectAnnotation(mask, 'rectangle', boxes, labels);&lt;br /&gt;
        end&lt;br /&gt;
        // Display the mask and the frame.&lt;br /&gt;
        videoObjects.maskPlayer.step(mask);&lt;br /&gt;
        videoObjects.videoPlayer.step(frame);&lt;br /&gt;
    end&lt;br /&gt;
 end&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
=== Основные трудности ===&lt;br /&gt;
* Вычислительная нагрузка&lt;br /&gt;
** Нужно обрабатывать &amp;lt;tex&amp;gt;N&amp;lt;/tex&amp;gt; кадров в секунду&lt;br /&gt;
* Изменение по времени&lt;br /&gt;
** Вид объекта меняется от кадра к кадру из-за ракурса, изменения освещения, внутренний изменений&lt;br /&gt;
* Взаимодействие объектов&lt;br /&gt;
** Перекрытие объектов&lt;br /&gt;
** Визуальное сходство объектов&lt;br /&gt;
* Для оценки качества работы алгоритмов слежения и настройки параметров требуются размеченные эталонные данные&lt;br /&gt;
* Подготовить эталонные данные для видео существенно сложнее, чем для изображения&lt;br /&gt;
** Один эталонный пример для выделения объектов — ''одно'' изображение&lt;br /&gt;
** Один эталонный пример для отслеживания объектов — ''одно'' видео&lt;br /&gt;
* Сейчас есть хорошие конкурсы, но объём данных по прежнему ограничен, особенно для MOT&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Компьютерное зрение]]&lt;br /&gt;
*[[Вырезание объекта на изображении]]&lt;br /&gt;
*[[Сегментация изображений]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
== Источники информации ==&lt;br /&gt;
1. [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.115.2861&amp;amp;rep=rep1&amp;amp;type=pdf Hu W. M., Tan T. N., Wang L., Maybank S. A survey of visual surveillance of object motion and behaviors // IEEE Transactions on System, Man, and Cybernetics (T-SMC), Part C. – 2004. Vol. 34(3). – P. 334-352.]&lt;br /&gt;
&lt;br /&gt;
2. Лавелина Е.С., Закуанова М.Р., Масловская М.А. ОТСЛЕЖИВАНИЕ ОБЪЕКТОВ В ВИДЕОПОТОКЕ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. LIV междунар. студ. науч.-практ. конф. № 6(53). URL: https://sibac.info/archive/technic/6(53).pdf (дата обращения: 20.04.2020)&lt;br /&gt;
&lt;br /&gt;
3. [https://compscicenter.ru/media/courses/2018-spring/spb-images-and-video-2/slides/images_and_video_2_lecture_080518.pdf Анализ изображений и видео. Часть 2]&lt;br /&gt;
&lt;br /&gt;
4. [https://arxiv.org/pdf/1510.07945.pdf Learning Multi-Domain Convolutional Neural Networks for Visual Tracking]&lt;br /&gt;
&lt;br /&gt;
5. [https://www.mathworks.com/help/driving/examples/multiple-object-tracking-tutorial.html Multiple object tracking tutorial]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE&amp;diff=76769</id>
		<title>Анализ видео</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE&amp;diff=76769"/>
				<updated>2021-01-08T07:30:44Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;'''Трекинг''' — определение местоположения объекта (нескольких объектов) во времени.&lt;br /&gt;
&lt;br /&gt;
Задача отслеживания объектов на видео является одной из самых интересных задач в информационных технологиях. На первый взгляд, видеопоток можно рассматривать как последовательность отдельных кадров, поэтому применимы многие алгоритмы, использующиеся для обработки обычных изображений. Сегодня к задаче распознавания объектов также широко применяются методы классификации, а именно, строятся системы, которые определяют к какому классу (изображение содержит объект или изображение не содержит объект) относится изображение.&lt;br /&gt;
&lt;br /&gt;
С другой стороны, видеопоток обладает свойством связности: каждый последующий кадр не сильно отличается от предыдущего, поэтому возможно применение алгоритмов, основанных на этом свойстве. Одной из интересных задач в этой области является трекинг перемещений объектов на видео. В работе &amp;lt;ref&amp;gt;[http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.115.2861&amp;amp;rep=rep1&amp;amp;type.pdf A Survey on Visual Surveillance of&lt;br /&gt;
Object Motion and Behaviors]&amp;lt;/ref&amp;gt; алгоритмы отслеживания разделены на четыре основные категории: отслеживание областей, отслеживание по активному контуру, отслеживание по характерным признакам, отслеживание по модели.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Распознавание изображений ==&lt;br /&gt;
&lt;br /&gt;
Для детектирования объекта на изображении применяются алгоритмы распознавания. Алгоритм распознавания изображений принимает картинку в качестве входных данных и выводит, что содержится на данном изображении.&lt;br /&gt;
&lt;br /&gt;
Классификация изображений производится поэтапно. На первом шаге входное изображение зачастую предварительно обрабатывается для нормализации контраста и яркости, а также на этом шаге входное изображение обрезается и масштабируется до фиксированного размера.&lt;br /&gt;
&lt;br /&gt;
На втором шаге необходимо упростить изображение путем извлечения важной информации, так как исходное изображение содержит слишком много дополнительной информации, которая не требуется для классификации. Этот шаг называется извлечением признаков. Существует достаточно большое количество признаков, используемых в компьютерном зрении, — это признаки Хаара, HOG (Histogram of Oriented Gradients), SIFT (Scale-Invariant Feature Transform), SURF (Speeded Up Robust Feature) и другие.&lt;br /&gt;
&lt;br /&gt;
На третьем шаге алгоритм классификации принимает вектор признаков в качестве входных данных и выводит к какому классу принадлежит изображение.&lt;br /&gt;
[[Файл: VideoAnalysis1.png|мини|250px|Типы «признаков», использованные в алгоритме]]&lt;br /&gt;
&lt;br /&gt;
=== Метод Виолы-Джонса ===&lt;br /&gt;
&lt;br /&gt;
Основной принцип алгоритмы Виолы-Джонса, основанный на признаках Хаара, заключается в сканировании изображения с помощью сканирующего окна, которое позволяет обнаружить заданный объект. Однако признаки, предложенные Виолой и Джонсом, содержат более одной прямоугольной области и несколько сложнее. На иллюстрации показано ''четыре'' различных типа признаков. Величина каждого признака вычисляется как сумма пикселей в белых прямоугольниках, из которой вычитается сумма пикселей в чёрных областях. Прямоугольные признаки более примитивны, чем steerable filter, и, несмотря на то, что они чувствительны к вертикальным и горизонтальным особенностям изображений, результат их поиска более груб. Однако, при хранении изображения в интегральном формате проверка прямоугольного признака на конкретной позиции проводится за константное время, что является их преимуществом по сравнению с более точными вариантами. Каждая прямоугольная область в используемых признаках всегда смежна с другим прямоугольником, поэтому расчёт признака с ''двумя'' прямоугольниками состоит из ''шести'' обращений в интегральный массив, для признака с ''тремя'' прямоугольниками - из ''восьми'', и с ''четырьмя'' прямоугольниками - из ''девяти''.&lt;br /&gt;
&lt;br /&gt;
== Отслеживание объекта ==&lt;br /&gt;
&lt;br /&gt;
Отслеживанием называется поиск объекта в последовательных кадрах видео. Отслеживание объекта в некоторых случаях может выполняться при помощи алгоритмов детектирования. При детектировании основная идея заключается в том, чтобы сначала определить регионы интереса (ключевые точки), которые будут независимы к преобразованиям. Затем для каждого региона интереса строится его векторное представление — дескриптор. Далее на каждом кадре будет выполняться поиск объекта и выделение его местоположения прямоугольником.&lt;br /&gt;
&lt;br /&gt;
При трекинге целью является нахождение объекта в текущем кадре, если он успешно отслеживался во всех предыдущих кадрах. Так как объект был отслежен до текущего кадра, известны параметры модели движения: скорость и направление движения объекта в предыдущих кадрах. Поэтому можно предсказать новое местоположение объекта, опираясь на его модель движения, и оно будет очень близко к реальному новому положению объекта.&lt;br /&gt;
&lt;br /&gt;
=== Visual object tracking ===&lt;br /&gt;
'''VOT''' (''Visual object tracking'')&lt;br /&gt;
* Рассматривается отслеживание одного объекта&lt;br /&gt;
* Объект уже выделен на первом кадре&lt;br /&gt;
* &amp;quot;Model-free&amp;quot; — нет ничего, кроме одного изображения на первом кадре, т.е. не можем детектировать объект&lt;br /&gt;
* &amp;quot;Short-term&amp;quot; — отслеживаем на коротких промежутках времени, не применяем повторное обнаружение&lt;br /&gt;
* Не используются будущие кадры, только предыдущие&lt;br /&gt;
&lt;br /&gt;
==== Пример алгоритма ====&lt;br /&gt;
[[Файл:Tracking_of_ladon.jpg|left|мини|600px|Трекинг ладони]]&lt;br /&gt;
&amp;lt;br clear=all&amp;gt;&lt;br /&gt;
# Инициализация&lt;br /&gt;
## Находим 100 контрольных точек с помощью метода поиска локальных особенностей (Harris corners) в рамке руки&lt;br /&gt;
## Вычисляем медиану &lt;br /&gt;
## Вычисляем цветовую статистику в окрестности центра&lt;br /&gt;
## Разметить в рамке руки все пиксели, похожие на кожу&lt;br /&gt;
# Слежение&lt;br /&gt;
## Отслеживаем контрольные точки&lt;br /&gt;
## Если точка нарушает условия ''стаи'', то удаляем её&lt;br /&gt;
# Инициализация новых контрольных точек&lt;br /&gt;
## Ищем особенности (Harris corners)&lt;br /&gt;
## Если точка не на коже, то удаляем её&lt;br /&gt;
&lt;br /&gt;
  '''Input''' : Pretrained CNN filters {&amp;lt;tex&amp;gt;w_1&amp;lt;/tex&amp;gt;,..., &amp;lt;tex&amp;gt;w_5&amp;lt;/tex&amp;gt;}&lt;br /&gt;
          Initial target state &amp;lt;tex&amp;gt;x_1&amp;lt;/tex&amp;gt;&lt;br /&gt;
  '''Output''': Estimated target states &amp;lt;tex&amp;gt;x^*_t&amp;lt;/tex&amp;gt; &lt;br /&gt;
  1: Randomly initialize the last layer &amp;lt;tex&amp;gt;w_6&amp;lt;/tex&amp;gt;.&lt;br /&gt;
  2: Train a bounding box regression model.&lt;br /&gt;
  3: Draw positive samples &amp;lt;tex&amp;gt;S^+_1&amp;lt;/tex&amp;gt; and negative samples &amp;lt;tex&amp;gt;S^-_1&amp;lt;/tex&amp;gt;.&lt;br /&gt;
  4: Update {&amp;lt;tex&amp;gt;w_4, w_5, w_6&amp;lt;/tex&amp;gt;} using &amp;lt;tex&amp;gt;S^+_1&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_1&amp;lt;/tex&amp;gt;;&lt;br /&gt;
  5: &amp;lt;tex&amp;gt;T_s&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\leftarrow&amp;lt;/tex&amp;gt; {1} and &amp;lt;tex&amp;gt;T_l&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\leftarrow&amp;lt;/tex&amp;gt; {1}.&lt;br /&gt;
  6: '''repeat'''&lt;br /&gt;
  7:    Draw target candidate samples &amp;lt;tex&amp;gt;x^i_t&amp;lt;/tex&amp;gt;;&lt;br /&gt;
  8:    Find the optimal target state &amp;lt;tex&amp;gt;x^*_t&amp;lt;/tex&amp;gt; by Eq. (1).&lt;br /&gt;
  9:    '''if''' &amp;lt;tex&amp;gt;f^+(x^*_t)&amp;lt;/tex&amp;gt; &amp;gt; 0.5 '''then'''&lt;br /&gt;
 10:      Draw training samples &amp;lt;tex&amp;gt;S^+_t&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_t&amp;lt;/tex&amp;gt;.&lt;br /&gt;
 11:      &amp;lt;tex&amp;gt;T_s \leftarrow T_s&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\cup&amp;lt;/tex&amp;gt; {&amp;lt;tex&amp;gt;t&amp;lt;/tex&amp;gt;}, &amp;lt;tex&amp;gt;T_l \leftarrow T_l&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\cup&amp;lt;/tex&amp;gt; {&amp;lt;tex&amp;gt;t&amp;lt;/tex&amp;gt;}.&lt;br /&gt;
 12:      '''if''' |&amp;lt;tex&amp;gt;T_s&amp;lt;/tex&amp;gt;| &amp;gt; &amp;lt;tex&amp;gt;\tau_s&amp;lt;/tex&amp;gt; '''then''' &amp;lt;tex&amp;gt;T_s \leftarrow T_s&amp;lt;/tex&amp;gt; \ {&amp;lt;tex&amp;gt;min_{\upsilon \in T_s} \upsilon&amp;lt;/tex&amp;gt;}. &lt;br /&gt;
 13:      '''if''' |&amp;lt;tex&amp;gt;T_l&amp;lt;/tex&amp;gt;| &amp;gt; &amp;lt;tex&amp;gt;\tau_l&amp;lt;/tex&amp;gt; '''then''' &amp;lt;tex&amp;gt;T_l \leftarrow T_l&amp;lt;/tex&amp;gt; \ {&amp;lt;tex&amp;gt;min_{\upsilon \in T_l} \upsilon&amp;lt;/tex&amp;gt;}. &lt;br /&gt;
 14:      Adjust &amp;lt;tex&amp;gt;x^*_t&amp;lt;/tex&amp;gt; using bounding box regression.&lt;br /&gt;
 15:    '''if''' &amp;lt;tex&amp;gt;f^+(x^*_t)&amp;lt;/tex&amp;gt; &amp;lt; 0.5 '''then'''&lt;br /&gt;
 16:      Update {&amp;lt;tex&amp;gt;w_4, w_5, w_6&amp;lt;/tex&amp;gt;} using &amp;lt;tex&amp;gt;S^+_{\upsilon \in T_s}&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_{\upsilon \in T_s}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
 17:    '''else''' '''if''' &amp;lt;tex&amp;gt;t&amp;lt;/tex&amp;gt; mod 10 = 0 '''then'''&lt;br /&gt;
 18:      Update {&amp;lt;tex&amp;gt;w_4, w_5, w_6&amp;lt;/tex&amp;gt;} using &amp;lt;tex&amp;gt;S^+_{\upsilon \in T_l}&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_{\upsilon \in T_l}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
 19: '''until''' end of sequence&lt;br /&gt;
&lt;br /&gt;
(1): &amp;lt;tex&amp;gt;x^* = \underset{x^i}{\arg\max} f^+(x^i)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
   &lt;br /&gt;
&lt;br /&gt;
=== Multiple object tracking ===&lt;br /&gt;
'''MOT''' (''Multiple object tracking'')&lt;br /&gt;
* Задача &amp;quot;выделения и сопровождения множества объектов&amp;quot;&lt;br /&gt;
** Нужно найти все объекты на кадрах&lt;br /&gt;
** Определить сколько у нас разных &amp;quot;экземпляров&amp;quot; объектов&lt;br /&gt;
** Найти на каких кадрах виден каждый экземпляр и где он именно&lt;br /&gt;
* Обобщение задачи &amp;quot;выделение объектов на изображении&amp;quot; на случайном видео&lt;br /&gt;
* В отличие от VOT:&lt;br /&gt;
** Работает со множеством объектов&lt;br /&gt;
** На длительных промежутках времени&lt;br /&gt;
** Есть модель объектов (возможность повторного обнаружения)&lt;br /&gt;
** Разрешено &amp;quot;заглядывать в будущее&amp;quot;&lt;br /&gt;
&lt;br /&gt;
==== Пример алгоритма ====&lt;br /&gt;
# Поиск голов на ключевых кадрах&lt;br /&gt;
# Построение треклетов&lt;br /&gt;
## Визуальное сопровождение&lt;br /&gt;
## Получаем гипотезы движения объектов между ключевыми кадрами (треклеты)&lt;br /&gt;
# Объединение треклетов в траектории&lt;br /&gt;
## Алгоритм MCMC DA&lt;br /&gt;
### Построение выборки из распределения &lt;br /&gt;
### Алгоритм Метрополиса — Гастингса&lt;br /&gt;
### Элемент с максимальной вероятностью&lt;br /&gt;
## Восстановление положения на промежуточных кадрах&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===== Multiple Object Tracking Tutorial =====&lt;br /&gt;
&lt;br /&gt;
 function MultipleObjectTrackingExample()&lt;br /&gt;
 // Create objects used for reading video and displaying the results.&lt;br /&gt;
 videoObjects = setupVideoObjects('atrium.mp4');&lt;br /&gt;
 // Create objects used for detecting objects in the foreground of the video.&lt;br /&gt;
 minBlobArea = 400; % Minimum blob size, in pixels, to be considered as a detection&lt;br /&gt;
 detectorObjects = setupDetectorObjects(minBlobArea);&lt;br /&gt;
&lt;br /&gt;
===== Create the Multi-Object Tracker =====&lt;br /&gt;
&lt;br /&gt;
 tracker = multiObjectTracker(...&lt;br /&gt;
    'FilterInitializationFcn', @initDemoFilter, ...&lt;br /&gt;
    'AssignmentThreshold', 30, ...&lt;br /&gt;
    'DeletionThreshold', 22, ...&lt;br /&gt;
    'ConfirmationThreshold', [6 10] ...&lt;br /&gt;
    );&lt;br /&gt;
&lt;br /&gt;
===== Define a Kalman Filter =====&lt;br /&gt;
&lt;br /&gt;
  function filter = initDemoFilter(detection)&lt;br /&gt;
    // Initialize a Kalman filter for this example.&lt;br /&gt;
    // Define the initial state.&lt;br /&gt;
    state = [detection.Measurement(1); 0; detection.Measurement(2); 0];&lt;br /&gt;
    // Define the initial state covariance.&lt;br /&gt;
    stateCov = diag([50, 50, 50, 50]);&lt;br /&gt;
    // Create the tracking filter.&lt;br /&gt;
    filter = trackingKF('MotionModel', '2D Constant Velocity', ...&lt;br /&gt;
        'State', state, ...&lt;br /&gt;
        'StateCovariance', stateCov, ...&lt;br /&gt;
        'MeasurementNoise', detection.MeasurementNoise(1:2,1:2) ...&lt;br /&gt;
        );&lt;br /&gt;
    end&lt;br /&gt;
  // Count frames to create a sense of time.&lt;br /&gt;
  frameCount = 0;&lt;br /&gt;
  while hasFrame(videoObjects.reader)&lt;br /&gt;
     // Read a video frame and detect objects in it.&lt;br /&gt;
     frameCount = frameCount + 1;                                // Promote frame count&lt;br /&gt;
     frame = readFrame(videoObjects.reader);                     // Read frame&lt;br /&gt;
     [detections, mask] = detectObjects(detectorObjects, frame); // Detect objects in video frame&lt;br /&gt;
     // Run the tracker on the preprocessed detections.&lt;br /&gt;
     confirmedTracks = updateTracks(tracker, detections, frameCount);&lt;br /&gt;
     // Display the tracking results on the video.&lt;br /&gt;
     displayTrackingResults(videoObjects, confirmedTracks, frame, mask);&lt;br /&gt;
  end&lt;br /&gt;
&lt;br /&gt;
===== Create Video Objects =====&lt;br /&gt;
 &lt;br /&gt;
    function videoObjects = setupVideoObjects(filename)&lt;br /&gt;
        // Initialize video I/O&lt;br /&gt;
        // Create objects for reading a video from a file, drawing the tracked&lt;br /&gt;
        // objects in each frame, and playing the video.&lt;br /&gt;
        // Create a video file reader.&lt;br /&gt;
        videoObjects.reader = VideoReader(filename);&lt;br /&gt;
        // Create two video players: one to display the video,&lt;br /&gt;
        // and one to display the foreground mask.&lt;br /&gt;
        videoObjects.maskPlayer  = vision.VideoPlayer('Position', [20, 400, 700, 400]);&lt;br /&gt;
        videoObjects.videoPlayer = vision.VideoPlayer('Position', [740, 400, 700, 400]);&lt;br /&gt;
    end&lt;br /&gt;
&lt;br /&gt;
===== Create Detector Objects =====&lt;br /&gt;
&lt;br /&gt;
    function detectorObjects = setupDetectorObjects(minBlobArea)&lt;br /&gt;
        // Create System objects for foreground detection and blob analysis&lt;br /&gt;
        // The foreground detector segments moving objects from the&lt;br /&gt;
        // background. It outputs a binary mask, where the pixel value of 1&lt;br /&gt;
        // corresponds to the foreground and the value of 0 corresponds to&lt;br /&gt;
        // the background.&lt;br /&gt;
        detectorObjects.detector = vision.ForegroundDetector('NumGaussians', 3, ...&lt;br /&gt;
            'NumTrainingFrames', 40, 'MinimumBackgroundRatio', 0.7);&lt;br /&gt;
        // Connected groups of foreground pixels are likely to correspond to&lt;br /&gt;
        // moving objects.  The blob analysis System object finds such&lt;br /&gt;
        // groups (called 'blobs' or 'connected components') and computes&lt;br /&gt;
        // their characteristics, such as their areas, centroids, and the&lt;br /&gt;
        // bounding boxes.&lt;br /&gt;
        detectorObjects.blobAnalyzer = vision.BlobAnalysis('BoundingBoxOutputPort', true, ...&lt;br /&gt;
            'AreaOutputPort', true, 'CentroidOutputPort', true, ...&lt;br /&gt;
            'MinimumBlobArea', minBlobArea);&lt;br /&gt;
    end&lt;br /&gt;
&lt;br /&gt;
===== Detect Objects =====&lt;br /&gt;
&lt;br /&gt;
    function [detections, mask] = detectObjects(detectorObjects, frame)&lt;br /&gt;
        // Expected uncertainty (noise) for the blob centroid.&lt;br /&gt;
        measurementNoise = 100*eye(2);&lt;br /&gt;
        // Detect foreground.&lt;br /&gt;
        mask = detectorObjects.detector.step(frame);&lt;br /&gt;
        // Apply morphological operations to remove noise and fill in holes.&lt;br /&gt;
        mask = imopen(mask, strel('rectangle', [6, 6]));&lt;br /&gt;
        mask = imclose(mask, strel('rectangle', [50, 50]));&lt;br /&gt;
        mask = imfill(mask, 'holes');&lt;br /&gt;
        // Perform blob analysis to find connected components.&lt;br /&gt;
        [~, centroids, bboxes] = detectorObjects.blobAnalyzer.step(mask);&lt;br /&gt;
        // Formulate the detections as a list of objectDetection objects.&lt;br /&gt;
        numDetections = size(centroids, 1);&lt;br /&gt;
        detections = cell(numDetections, 1);&lt;br /&gt;
        for i = 1:numDetections&lt;br /&gt;
            detections{i} = objectDetection(frameCount, centroids(i,:), ...&lt;br /&gt;
                'MeasurementNoise', measurementNoise, ...&lt;br /&gt;
                'ObjectAttributes', {bboxes(i,:)});&lt;br /&gt;
        end&lt;br /&gt;
    end&lt;br /&gt;
&lt;br /&gt;
===== Display Tracking Results =====&lt;br /&gt;
&lt;br /&gt;
    function displayTrackingResults(videoObjects, confirmedTracks, frame, mask)&lt;br /&gt;
        % Convert the frame and the mask to uint8 RGB.&lt;br /&gt;
        frame = im2uint8(frame);&lt;br /&gt;
        mask = uint8(repmat(mask, [1, 1, 3])) .* 255;&lt;br /&gt;
        if ~isempty(confirmedTracks)&lt;br /&gt;
            // Display the objects. If an object has not been detected&lt;br /&gt;
            // in this frame, display its predicted bounding box.&lt;br /&gt;
            numRelTr = numel(confirmedTracks);&lt;br /&gt;
            boxes = zeros(numRelTr, 4);&lt;br /&gt;
            ids = zeros(numRelTr, 1, 'int32');&lt;br /&gt;
            predictedTrackInds = zeros(numRelTr, 1);&lt;br /&gt;
            for tr = 1:numRelTr&lt;br /&gt;
                // Get bounding boxes.&lt;br /&gt;
                boxes(tr, :) = confirmedTracks(tr).ObjectAttributes{1}{1};&lt;br /&gt;
                // Get IDs.&lt;br /&gt;
                ids(tr) = confirmedTracks(tr).TrackID;&lt;br /&gt;
                if confirmedTracks(tr).IsCoasted&lt;br /&gt;
                    predictedTrackInds(tr) = tr;&lt;br /&gt;
                end&lt;br /&gt;
            end&lt;br /&gt;
            predictedTrackInds = predictedTrackInds(predictedTrackInds &amp;gt; 0);&lt;br /&gt;
            // Create labels for objects that display the predicted rather&lt;br /&gt;
            // than the actual location.&lt;br /&gt;
            labels = cellstr(int2str(ids));&lt;br /&gt;
            isPredicted = cell(size(labels));&lt;br /&gt;
            isPredicted(predictedTrackInds) = {' predicted'};&lt;br /&gt;
            labels = strcat(labels, isPredicted);&lt;br /&gt;
            // Draw the objects on the frame.&lt;br /&gt;
            frame = insertObjectAnnotation(frame, 'rectangle', boxes, labels);&lt;br /&gt;
            // Draw the objects on the mask.&lt;br /&gt;
            mask = insertObjectAnnotation(mask, 'rectangle', boxes, labels);&lt;br /&gt;
        end&lt;br /&gt;
        // Display the mask and the frame.&lt;br /&gt;
        videoObjects.maskPlayer.step(mask);&lt;br /&gt;
        videoObjects.videoPlayer.step(frame);&lt;br /&gt;
    end&lt;br /&gt;
 end&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
=== Основные трудности ===&lt;br /&gt;
* Вычислительная нагрузка&lt;br /&gt;
** Нужно обрабатывать &amp;lt;tex&amp;gt;N&amp;lt;/tex&amp;gt; кадров в секунду&lt;br /&gt;
* Изменение по времени&lt;br /&gt;
** Вид объекта меняется от кадра к кадру из-за ракурса, изменения освещения, внутренний изменений&lt;br /&gt;
* Взаимодействие объектов&lt;br /&gt;
** Перекрытие объектов&lt;br /&gt;
** Визуальное сходство объектов&lt;br /&gt;
* Для оценки качества работы алгоритмов слежения и настройки параметров требуются размеченные эталонные данные&lt;br /&gt;
* Подготовить эталонные данные для видео существенно сложнее, чем для изображения&lt;br /&gt;
** Один эталонный пример для выделения объектов — ''одно'' изображение&lt;br /&gt;
** Один эталонный пример для отслеживания объектов — ''одно'' видео&lt;br /&gt;
* Сейчас есть хорошие конкурсы, но объём данных по прежнему ограничен, особенно для MOT&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Компьютерное зрение]]&lt;br /&gt;
*[[Вырезание объекта на изображении]]&lt;br /&gt;
*[[Сегментация изображений]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
== Источники информации ==&lt;br /&gt;
1. [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.115.2861&amp;amp;rep=rep1&amp;amp;type=pdf Hu W. M., Tan T. N., Wang L., Maybank S. A survey of visual surveillance of object motion and behaviors // IEEE Transactions on System, Man, and Cybernetics (T-SMC), Part C. – 2004. Vol. 34(3). – P. 334-352.]&lt;br /&gt;
&lt;br /&gt;
2. Лавелина Е.С., Закуанова М.Р., Масловская М.А. ОТСЛЕЖИВАНИЕ ОБЪЕКТОВ В ВИДЕОПОТОКЕ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. LIV междунар. студ. науч.-практ. конф. № 6(53). URL: https://sibac.info/archive/technic/6(53).pdf (дата обращения: 20.04.2020)&lt;br /&gt;
&lt;br /&gt;
3. [https://compscicenter.ru/media/courses/2018-spring/spb-images-and-video-2/slides/images_and_video_2_lecture_080518.pdf Анализ изображений и видео. Часть 2]&lt;br /&gt;
&lt;br /&gt;
4. [https://arxiv.org/pdf/1510.07945.pdf Learning Multi-Domain Convolutional Neural Networks for Visual Tracking]&lt;br /&gt;
&lt;br /&gt;
5. [https://www.mathworks.com/help/driving/examples/multiple-object-tracking-tutorial.html Multiple object tracking tutorial]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE&amp;diff=76768</id>
		<title>Анализ видео</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE&amp;diff=76768"/>
				<updated>2021-01-08T07:28:14Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;'''Трекинг''' — определение местоположения объекта (нескольких объектов) во времени.&lt;br /&gt;
&lt;br /&gt;
Задача отслеживания объектов на видео является одной из самых интересных задач в информационных технологиях. На первый взгляд, видеопоток можно рассматривать как последовательность отдельных кадров, поэтому применимы многие алгоритмы, использующиеся для обработки обычных изображений. Сегодня к задаче распознавания объектов также широко применяются методы классификации, а именно, строятся системы, которые определяют к какому классу (изображение содержит объект или изображение не содержит объект) относится изображение.&lt;br /&gt;
&lt;br /&gt;
С другой стороны, видеопоток обладает свойством связности: каждый последующий кадр не сильно отличается от предыдущего, поэтому возможно применение алгоритмов, основанных на этом свойстве. Одной из интересных задач в этой области является трекинг перемещений объектов на видео. В работе &amp;lt;ref&amp;gt;[http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.115.2861&amp;amp;rep=rep1&amp;amp;type=pdf A Survey on Visual Surveillance of&lt;br /&gt;
Object Motion and Behaviors]&amp;lt;/ref&amp;gt; алгоритмы отслеживания разделены на четыре основные категории: отслеживание областей, отслеживание по активному контуру, отслеживание по характерным признакам, отслеживание по модели.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Распознавание изображений ==&lt;br /&gt;
&lt;br /&gt;
Для детектирования объекта на изображении применяются алгоритмы распознавания. Алгоритм распознавания изображений принимает картинку в качестве входных данных и выводит, что содержится на данном изображении.&lt;br /&gt;
&lt;br /&gt;
Классификация изображений производится поэтапно. На первом шаге входное изображение зачастую предварительно обрабатывается для нормализации контраста и яркости, а также на этом шаге входное изображение обрезается и масштабируется до фиксированного размера.&lt;br /&gt;
&lt;br /&gt;
На втором шаге необходимо упростить изображение путем извлечения важной информации, так как исходное изображение содержит слишком много дополнительной информации, которая не требуется для классификации. Этот шаг называется извлечением признаков. Существует достаточно большое количество признаков, используемых в компьютерном зрении, — это признаки Хаара, HOG (Histogram of Oriented Gradients), SIFT (Scale-Invariant Feature Transform), SURF (Speeded Up Robust Feature) и другие.&lt;br /&gt;
&lt;br /&gt;
На третьем шаге алгоритм классификации принимает вектор признаков в качестве входных данных и выводит к какому классу принадлежит изображение.&lt;br /&gt;
[[Файл: VideoAnalysis1.png|мини|250px|Типы «признаков», использованные в алгоритме]]&lt;br /&gt;
&lt;br /&gt;
=== Метод Виолы-Джонса ===&lt;br /&gt;
&lt;br /&gt;
Основной принцип алгоритмы Виолы-Джонса, основанный на признаках Хаара, заключается в сканировании изображения с помощью сканирующего окна, которое позволяет обнаружить заданный объект. Однако признаки, предложенные Виолой и Джонсом, содержат более одной прямоугольной области и несколько сложнее. На иллюстрации показано ''четыре'' различных типа признаков. Величина каждого признака вычисляется как сумма пикселей в белых прямоугольниках, из которой вычитается сумма пикселей в чёрных областях. Прямоугольные признаки более примитивны, чем steerable filter, и, несмотря на то, что они чувствительны к вертикальным и горизонтальным особенностям изображений, результат их поиска более груб. Однако, при хранении изображения в интегральном формате проверка прямоугольного признака на конкретной позиции проводится за константное время, что является их преимуществом по сравнению с более точными вариантами. Каждая прямоугольная область в используемых признаках всегда смежна с другим прямоугольником, поэтому расчёт признака с ''двумя'' прямоугольниками состоит из ''шести'' обращений в интегральный массив, для признака с ''тремя'' прямоугольниками - из ''восьми'', и с ''четырьмя'' прямоугольниками - из ''девяти''.&lt;br /&gt;
&lt;br /&gt;
== Отслеживание объекта ==&lt;br /&gt;
&lt;br /&gt;
Отслеживанием называется поиск объекта в последовательных кадрах видео. Отслеживание объекта в некоторых случаях может выполняться при помощи алгоритмов детектирования. При детектировании основная идея заключается в том, чтобы сначала определить регионы интереса (ключевые точки), которые будут независимы к преобразованиям. Затем для каждого региона интереса строится его векторное представление — дескриптор. Далее на каждом кадре будет выполняться поиск объекта и выделение его местоположения прямоугольником.&lt;br /&gt;
&lt;br /&gt;
При трекинге целью является нахождение объекта в текущем кадре, если он успешно отслеживался во всех предыдущих кадрах. Так как объект был отслежен до текущего кадра, известны параметры модели движения: скорость и направление движения объекта в предыдущих кадрах. Поэтому можно предсказать новое местоположение объекта, опираясь на его модель движения, и оно будет очень близко к реальному новому положению объекта.&lt;br /&gt;
&lt;br /&gt;
=== Visual object tracking ===&lt;br /&gt;
'''VOT''' (''Visual object tracking'')&lt;br /&gt;
* Рассматривается отслеживание одного объекта&lt;br /&gt;
* Объект уже выделен на первом кадре&lt;br /&gt;
* &amp;quot;Model-free&amp;quot; — нет ничего, кроме одного изображения на первом кадре, т.е. не можем детектировать объект&lt;br /&gt;
* &amp;quot;Short-term&amp;quot; — отслеживаем на коротких промежутках времени, не применяем повторное обнаружение&lt;br /&gt;
* Не используются будущие кадры, только предыдущие&lt;br /&gt;
&lt;br /&gt;
==== Пример алгоритма ====&lt;br /&gt;
[[Файл:Tracking_of_ladon.jpg|left|мини|600px|Трекинг ладони]]&lt;br /&gt;
&amp;lt;br clear=all&amp;gt;&lt;br /&gt;
# Инициализация&lt;br /&gt;
## Находим 100 контрольных точек с помощью метода поиска локальных особенностей (Harris corners) в рамке руки&lt;br /&gt;
## Вычисляем медиану &lt;br /&gt;
## Вычисляем цветовую статистику в окрестности центра&lt;br /&gt;
## Разметить в рамке руки все пиксели, похожие на кожу&lt;br /&gt;
# Слежение&lt;br /&gt;
## Отслеживаем контрольные точки&lt;br /&gt;
## Если точка нарушает условия ''стаи'', то удаляем её&lt;br /&gt;
# Инициализация новых контрольных точек&lt;br /&gt;
## Ищем особенности (Harris corners)&lt;br /&gt;
## Если точка не на коже, то удаляем её&lt;br /&gt;
&lt;br /&gt;
  '''Input''' : Pretrained CNN filters {&amp;lt;tex&amp;gt;w_1&amp;lt;/tex&amp;gt;,..., &amp;lt;tex&amp;gt;w_5&amp;lt;/tex&amp;gt;}&lt;br /&gt;
          Initial target state &amp;lt;tex&amp;gt;x_1&amp;lt;/tex&amp;gt;&lt;br /&gt;
  '''Output''': Estimated target states &amp;lt;tex&amp;gt;x^*_t&amp;lt;/tex&amp;gt; &lt;br /&gt;
  1: Randomly initialize the last layer &amp;lt;tex&amp;gt;w_6&amp;lt;/tex&amp;gt;.&lt;br /&gt;
  2: Train a bounding box regression model.&lt;br /&gt;
  3: Draw positive samples &amp;lt;tex&amp;gt;S^+_1&amp;lt;/tex&amp;gt; and negative samples &amp;lt;tex&amp;gt;S^-_1&amp;lt;/tex&amp;gt;.&lt;br /&gt;
  4: Update {&amp;lt;tex&amp;gt;w_4, w_5, w_6&amp;lt;/tex&amp;gt;} using &amp;lt;tex&amp;gt;S^+_1&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_1&amp;lt;/tex&amp;gt;;&lt;br /&gt;
  5: &amp;lt;tex&amp;gt;T_s&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\leftarrow&amp;lt;/tex&amp;gt; {1} and &amp;lt;tex&amp;gt;T_l&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\leftarrow&amp;lt;/tex&amp;gt; {1}.&lt;br /&gt;
  6: '''repeat'''&lt;br /&gt;
  7:    Draw target candidate samples &amp;lt;tex&amp;gt;x^i_t&amp;lt;/tex&amp;gt;;&lt;br /&gt;
  8:    Find the optimal target state &amp;lt;tex&amp;gt;x^*_t&amp;lt;/tex&amp;gt; by Eq. (1).&lt;br /&gt;
  9:    '''if''' &amp;lt;tex&amp;gt;f^+(x^*_t)&amp;lt;/tex&amp;gt; &amp;gt; 0.5 '''then'''&lt;br /&gt;
 10:      Draw training samples &amp;lt;tex&amp;gt;S^+_t&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_t&amp;lt;/tex&amp;gt;.&lt;br /&gt;
 11:      &amp;lt;tex&amp;gt;T_s \leftarrow T_s&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\cup&amp;lt;/tex&amp;gt; {&amp;lt;tex&amp;gt;t&amp;lt;/tex&amp;gt;}, &amp;lt;tex&amp;gt;T_l \leftarrow T_l&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\cup&amp;lt;/tex&amp;gt; {&amp;lt;tex&amp;gt;t&amp;lt;/tex&amp;gt;}.&lt;br /&gt;
 12:      '''if''' |&amp;lt;tex&amp;gt;T_s&amp;lt;/tex&amp;gt;| &amp;gt; &amp;lt;tex&amp;gt;\tau_s&amp;lt;/tex&amp;gt; '''then''' &amp;lt;tex&amp;gt;T_s \leftarrow T_s&amp;lt;/tex&amp;gt; \ {&amp;lt;tex&amp;gt;min_{\upsilon \in T_s} \upsilon&amp;lt;/tex&amp;gt;}. &lt;br /&gt;
 13:      '''if''' |&amp;lt;tex&amp;gt;T_l&amp;lt;/tex&amp;gt;| &amp;gt; &amp;lt;tex&amp;gt;\tau_l&amp;lt;/tex&amp;gt; '''then''' &amp;lt;tex&amp;gt;T_l \leftarrow T_l&amp;lt;/tex&amp;gt; \ {&amp;lt;tex&amp;gt;min_{\upsilon \in T_l} \upsilon&amp;lt;/tex&amp;gt;}. &lt;br /&gt;
 14:      Adjust &amp;lt;tex&amp;gt;x^*_t&amp;lt;/tex&amp;gt; using bounding box regression.&lt;br /&gt;
 15:    '''if''' &amp;lt;tex&amp;gt;f^+(x^*_t)&amp;lt;/tex&amp;gt; &amp;lt; 0.5 '''then'''&lt;br /&gt;
 16:      Update {&amp;lt;tex&amp;gt;w_4, w_5, w_6&amp;lt;/tex&amp;gt;} using &amp;lt;tex&amp;gt;S^+_{\upsilon \in T_s}&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_{\upsilon \in T_s}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
 17:    '''else''' '''if''' &amp;lt;tex&amp;gt;t&amp;lt;/tex&amp;gt; mod 10 = 0 '''then'''&lt;br /&gt;
 18:      Update {&amp;lt;tex&amp;gt;w_4, w_5, w_6&amp;lt;/tex&amp;gt;} using &amp;lt;tex&amp;gt;S^+_{\upsilon \in T_l}&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_{\upsilon \in T_l}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
 19: '''until''' end of sequence&lt;br /&gt;
&lt;br /&gt;
(1): &amp;lt;tex&amp;gt;x^* = \underset{x^i}{\arg\max} f^+(x^i)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
   &lt;br /&gt;
&lt;br /&gt;
=== Multiple object tracking ===&lt;br /&gt;
'''MOT''' (''Multiple object tracking'')&lt;br /&gt;
* Задача &amp;quot;выделения и сопровождения множества объектов&amp;quot;&lt;br /&gt;
** Нужно найти все объекты на кадрах&lt;br /&gt;
** Определить сколько у нас разных &amp;quot;экземпляров&amp;quot; объектов&lt;br /&gt;
** Найти на каких кадрах виден каждый экземпляр и где он именно&lt;br /&gt;
* Обобщение задачи &amp;quot;выделение объектов на изображении&amp;quot; на случайном видео&lt;br /&gt;
* В отличие от VOT:&lt;br /&gt;
** Работает со множеством объектов&lt;br /&gt;
** На длительных промежутках времени&lt;br /&gt;
** Есть модель объектов (возможность повторного обнаружения)&lt;br /&gt;
** Разрешено &amp;quot;заглядывать в будущее&amp;quot;&lt;br /&gt;
&lt;br /&gt;
==== Пример алгоритма ====&lt;br /&gt;
# Поиск голов на ключевых кадрах&lt;br /&gt;
# Построение треклетов&lt;br /&gt;
## Визуальное сопровождение&lt;br /&gt;
## Получаем гипотезы движения объектов между ключевыми кадрами (треклеты)&lt;br /&gt;
# Объединение треклетов в траектории&lt;br /&gt;
## Алгоритм MCMC DA&lt;br /&gt;
### Построение выборки из распределения &lt;br /&gt;
### Алгоритм Метрополиса — Гастингса&lt;br /&gt;
### Элемент с максимальной вероятностью&lt;br /&gt;
## Восстановление положения на промежуточных кадрах&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===== Multiple Object Tracking Tutorial =====&lt;br /&gt;
&lt;br /&gt;
 function MultipleObjectTrackingExample()&lt;br /&gt;
 // Create objects used for reading video and displaying the results.&lt;br /&gt;
 videoObjects = setupVideoObjects('atrium.mp4');&lt;br /&gt;
 // Create objects used for detecting objects in the foreground of the video.&lt;br /&gt;
 minBlobArea = 400; % Minimum blob size, in pixels, to be considered as a detection&lt;br /&gt;
 detectorObjects = setupDetectorObjects(minBlobArea);&lt;br /&gt;
&lt;br /&gt;
===== Create the Multi-Object Tracker =====&lt;br /&gt;
&lt;br /&gt;
 tracker = multiObjectTracker(...&lt;br /&gt;
    'FilterInitializationFcn', @initDemoFilter, ...&lt;br /&gt;
    'AssignmentThreshold', 30, ...&lt;br /&gt;
    'DeletionThreshold', 22, ...&lt;br /&gt;
    'ConfirmationThreshold', [6 10] ...&lt;br /&gt;
    );&lt;br /&gt;
&lt;br /&gt;
===== Define a Kalman Filter =====&lt;br /&gt;
&lt;br /&gt;
  function filter = initDemoFilter(detection)&lt;br /&gt;
    // Initialize a Kalman filter for this example.&lt;br /&gt;
    // Define the initial state.&lt;br /&gt;
    state = [detection.Measurement(1); 0; detection.Measurement(2); 0];&lt;br /&gt;
    // Define the initial state covariance.&lt;br /&gt;
    stateCov = diag([50, 50, 50, 50]);&lt;br /&gt;
    // Create the tracking filter.&lt;br /&gt;
    filter = trackingKF('MotionModel', '2D Constant Velocity', ...&lt;br /&gt;
        'State', state, ...&lt;br /&gt;
        'StateCovariance', stateCov, ...&lt;br /&gt;
        'MeasurementNoise', detection.MeasurementNoise(1:2,1:2) ...&lt;br /&gt;
        );&lt;br /&gt;
    end&lt;br /&gt;
  // Count frames to create a sense of time.&lt;br /&gt;
  frameCount = 0;&lt;br /&gt;
  while hasFrame(videoObjects.reader)&lt;br /&gt;
     // Read a video frame and detect objects in it.&lt;br /&gt;
     frameCount = frameCount + 1;                                // Promote frame count&lt;br /&gt;
     frame = readFrame(videoObjects.reader);                     // Read frame&lt;br /&gt;
     [detections, mask] = detectObjects(detectorObjects, frame); // Detect objects in video frame&lt;br /&gt;
     // Run the tracker on the preprocessed detections.&lt;br /&gt;
     confirmedTracks = updateTracks(tracker, detections, frameCount);&lt;br /&gt;
     // Display the tracking results on the video.&lt;br /&gt;
     displayTrackingResults(videoObjects, confirmedTracks, frame, mask);&lt;br /&gt;
  end&lt;br /&gt;
&lt;br /&gt;
===== Create Video Objects =====&lt;br /&gt;
 &lt;br /&gt;
    function videoObjects = setupVideoObjects(filename)&lt;br /&gt;
        // Initialize video I/O&lt;br /&gt;
        // Create objects for reading a video from a file, drawing the tracked&lt;br /&gt;
        // objects in each frame, and playing the video.&lt;br /&gt;
        // Create a video file reader.&lt;br /&gt;
        videoObjects.reader = VideoReader(filename);&lt;br /&gt;
        // Create two video players: one to display the video,&lt;br /&gt;
        // and one to display the foreground mask.&lt;br /&gt;
        videoObjects.maskPlayer  = vision.VideoPlayer('Position', [20, 400, 700, 400]);&lt;br /&gt;
        videoObjects.videoPlayer = vision.VideoPlayer('Position', [740, 400, 700, 400]);&lt;br /&gt;
    end&lt;br /&gt;
&lt;br /&gt;
===== Create Detector Objects =====&lt;br /&gt;
&lt;br /&gt;
    function detectorObjects = setupDetectorObjects(minBlobArea)&lt;br /&gt;
        // Create System objects for foreground detection and blob analysis&lt;br /&gt;
        // The foreground detector segments moving objects from the&lt;br /&gt;
        // background. It outputs a binary mask, where the pixel value of 1&lt;br /&gt;
        // corresponds to the foreground and the value of 0 corresponds to&lt;br /&gt;
        // the background.&lt;br /&gt;
        detectorObjects.detector = vision.ForegroundDetector('NumGaussians', 3, ...&lt;br /&gt;
            'NumTrainingFrames', 40, 'MinimumBackgroundRatio', 0.7);&lt;br /&gt;
        // Connected groups of foreground pixels are likely to correspond to&lt;br /&gt;
        // moving objects.  The blob analysis System object finds such&lt;br /&gt;
        // groups (called 'blobs' or 'connected components') and computes&lt;br /&gt;
        // their characteristics, such as their areas, centroids, and the&lt;br /&gt;
        // bounding boxes.&lt;br /&gt;
        detectorObjects.blobAnalyzer = vision.BlobAnalysis('BoundingBoxOutputPort', true, ...&lt;br /&gt;
            'AreaOutputPort', true, 'CentroidOutputPort', true, ...&lt;br /&gt;
            'MinimumBlobArea', minBlobArea);&lt;br /&gt;
    end&lt;br /&gt;
&lt;br /&gt;
===== Detect Objects =====&lt;br /&gt;
&lt;br /&gt;
    function [detections, mask] = detectObjects(detectorObjects, frame)&lt;br /&gt;
        // Expected uncertainty (noise) for the blob centroid.&lt;br /&gt;
        measurementNoise = 100*eye(2);&lt;br /&gt;
        // Detect foreground.&lt;br /&gt;
        mask = detectorObjects.detector.step(frame);&lt;br /&gt;
        // Apply morphological operations to remove noise and fill in holes.&lt;br /&gt;
        mask = imopen(mask, strel('rectangle', [6, 6]));&lt;br /&gt;
        mask = imclose(mask, strel('rectangle', [50, 50]));&lt;br /&gt;
        mask = imfill(mask, 'holes');&lt;br /&gt;
        // Perform blob analysis to find connected components.&lt;br /&gt;
        [~, centroids, bboxes] = detectorObjects.blobAnalyzer.step(mask);&lt;br /&gt;
        // Formulate the detections as a list of objectDetection objects.&lt;br /&gt;
        numDetections = size(centroids, 1);&lt;br /&gt;
        detections = cell(numDetections, 1);&lt;br /&gt;
        for i = 1:numDetections&lt;br /&gt;
            detections{i} = objectDetection(frameCount, centroids(i,:), ...&lt;br /&gt;
                'MeasurementNoise', measurementNoise, ...&lt;br /&gt;
                'ObjectAttributes', {bboxes(i,:)});&lt;br /&gt;
        end&lt;br /&gt;
    end&lt;br /&gt;
&lt;br /&gt;
===== Display Tracking Results =====&lt;br /&gt;
&lt;br /&gt;
    function displayTrackingResults(videoObjects, confirmedTracks, frame, mask)&lt;br /&gt;
        % Convert the frame and the mask to uint8 RGB.&lt;br /&gt;
        frame = im2uint8(frame);&lt;br /&gt;
        mask = uint8(repmat(mask, [1, 1, 3])) .* 255;&lt;br /&gt;
        if ~isempty(confirmedTracks)&lt;br /&gt;
            // Display the objects. If an object has not been detected&lt;br /&gt;
            // in this frame, display its predicted bounding box.&lt;br /&gt;
            numRelTr = numel(confirmedTracks);&lt;br /&gt;
            boxes = zeros(numRelTr, 4);&lt;br /&gt;
            ids = zeros(numRelTr, 1, 'int32');&lt;br /&gt;
            predictedTrackInds = zeros(numRelTr, 1);&lt;br /&gt;
            for tr = 1:numRelTr&lt;br /&gt;
                // Get bounding boxes.&lt;br /&gt;
                boxes(tr, :) = confirmedTracks(tr).ObjectAttributes{1}{1};&lt;br /&gt;
                // Get IDs.&lt;br /&gt;
                ids(tr) = confirmedTracks(tr).TrackID;&lt;br /&gt;
                if confirmedTracks(tr).IsCoasted&lt;br /&gt;
                    predictedTrackInds(tr) = tr;&lt;br /&gt;
                end&lt;br /&gt;
            end&lt;br /&gt;
            predictedTrackInds = predictedTrackInds(predictedTrackInds &amp;gt; 0);&lt;br /&gt;
            // Create labels for objects that display the predicted rather&lt;br /&gt;
            // than the actual location.&lt;br /&gt;
            labels = cellstr(int2str(ids));&lt;br /&gt;
            isPredicted = cell(size(labels));&lt;br /&gt;
            isPredicted(predictedTrackInds) = {' predicted'};&lt;br /&gt;
            labels = strcat(labels, isPredicted);&lt;br /&gt;
            // Draw the objects on the frame.&lt;br /&gt;
            frame = insertObjectAnnotation(frame, 'rectangle', boxes, labels);&lt;br /&gt;
            // Draw the objects on the mask.&lt;br /&gt;
            mask = insertObjectAnnotation(mask, 'rectangle', boxes, labels);&lt;br /&gt;
        end&lt;br /&gt;
        // Display the mask and the frame.&lt;br /&gt;
        videoObjects.maskPlayer.step(mask);&lt;br /&gt;
        videoObjects.videoPlayer.step(frame);&lt;br /&gt;
    end&lt;br /&gt;
 end&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
=== Основные трудности ===&lt;br /&gt;
* Вычислительная нагрузка&lt;br /&gt;
** Нужно обрабатывать &amp;lt;tex&amp;gt;N&amp;lt;/tex&amp;gt; кадров в секунду&lt;br /&gt;
* Изменение по времени&lt;br /&gt;
** Вид объекта меняется от кадра к кадру из-за ракурса, изменения освещения, внутренний изменений&lt;br /&gt;
* Взаимодействие объектов&lt;br /&gt;
** Перекрытие объектов&lt;br /&gt;
** Визуальное сходство объектов&lt;br /&gt;
* Для оценки качества работы алгоритмов слежения и настройки параметров требуются размеченные эталонные данные&lt;br /&gt;
* Подготовить эталонные данные для видео существенно сложнее, чем для изображения&lt;br /&gt;
** Один эталонный пример для выделения объектов — ''одно'' изображение&lt;br /&gt;
** Один эталонный пример для отслеживания объектов — ''одно'' видео&lt;br /&gt;
* Сейчас есть хорошие конкурсы, но объём данных по прежнему ограничен, особенно для MOT&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Компьютерное зрение]]&lt;br /&gt;
*[[Вырезание объекта на изображении]]&lt;br /&gt;
*[[Сегментация изображений]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
== Источники информации ==&lt;br /&gt;
1. [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.115.2861&amp;amp;rep=rep1&amp;amp;type.pdf Hu W. M., Tan T. N., Wang L., Maybank S. A survey of visual surveillance of object motion and behaviors // IEEE Transactions on System, Man, and Cybernetics (T-SMC), Part C. – 2004. Vol. 34(3). – P. 334-352.]&lt;br /&gt;
&lt;br /&gt;
2. Лавелина Е.С., Закуанова М.Р., Масловская М.А. ОТСЛЕЖИВАНИЕ ОБЪЕКТОВ В ВИДЕОПОТОКЕ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. LIV междунар. студ. науч.-практ. конф. № 6(53). URL: https://sibac.info/archive/technic/6(53).pdf (дата обращения: 20.04.2020)&lt;br /&gt;
&lt;br /&gt;
3. [https://compscicenter.ru/media/courses/2018-spring/spb-images-and-video-2/slides/images_and_video_2_lecture_080518.pdf Анализ изображений и видео. Часть 2]&lt;br /&gt;
&lt;br /&gt;
4. [https://arxiv.org/pdf/1510.07945.pdf Learning Multi-Domain Convolutional Neural Networks for Visual Tracking]&lt;br /&gt;
&lt;br /&gt;
5. [https://www.mathworks.com/help/driving/examples/multiple-object-tracking-tutorial.html Multiple object tracking tutorial]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE&amp;diff=76767</id>
		<title>Анализ видео</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE&amp;diff=76767"/>
				<updated>2021-01-08T07:26:24Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;'''Трекинг''' — определение местоположения объекта (нескольких объектов) во времени.&lt;br /&gt;
&lt;br /&gt;
Задача отслеживания объектов на видео является одной из самых интересных задач в информационных технологиях. На первый взгляд, видеопоток можно рассматривать как последовательность отдельных кадров, поэтому применимы многие алгоритмы, использующиеся для обработки обычных изображений. Сегодня к задаче распознавания объектов также широко применяются методы классификации, а именно, строятся системы, которые определяют к какому классу (изображение содержит объект или изображение не содержит объект) относится изображение.&lt;br /&gt;
&lt;br /&gt;
С другой стороны, видеопоток обладает свойством связности: каждый последующий кадр не сильно отличается от предыдущего, поэтому возможно применение алгоритмов, основанных на этом свойстве. Одной из интересных задач в этой области является трекинг перемещений объектов на видео. В работе &amp;lt;ref&amp;gt;[http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.115.2861&amp;amp;rep=rep1&amp;amp;type=pdf A Survey on Visual Surveillance of&lt;br /&gt;
Object Motion and Behaviors]&amp;lt;/ref&amp;gt; алгоритмы отслеживания разделены на четыре основные категории: отслеживание областей, отслеживание по активному контуру, отслеживание по характерным признакам, отслеживание по модели.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Распознавание изображений ==&lt;br /&gt;
&lt;br /&gt;
Для детектирования объекта на изображении применяются алгоритмы распознавания. Алгоритм распознавания изображений принимает картинку в качестве входных данных и выводит, что содержится на данном изображении.&lt;br /&gt;
&lt;br /&gt;
Классификация изображений производится поэтапно. На первом шаге входное изображение зачастую предварительно обрабатывается для нормализации контраста и яркости, а также на этом шаге входное изображение обрезается и масштабируется до фиксированного размера.&lt;br /&gt;
&lt;br /&gt;
На втором шаге необходимо упростить изображение путем извлечения важной информации, так как исходное изображение содержит слишком много дополнительной информации, которая не требуется для классификации. Этот шаг называется извлечением признаков. Существует достаточно большое количество признаков, используемых в компьютерном зрении, — это признаки Хаара, HOG (Histogram of Oriented Gradients), SIFT (Scale-Invariant Feature Transform), SURF (Speeded Up Robust Feature) и другие.&lt;br /&gt;
&lt;br /&gt;
На третьем шаге алгоритм классификации принимает вектор признаков в качестве входных данных и выводит к какому классу принадлежит изображение.&lt;br /&gt;
[[Файл: VideoAnalysis1.png|мини|250px|Типы «признаков», использованные в алгоритме]]&lt;br /&gt;
&lt;br /&gt;
=== Метод Виолы-Джонса ===&lt;br /&gt;
&lt;br /&gt;
Основной принцип алгоритмы Виолы-Джонса, основанный на признаках Хаара, заключается в сканировании изображения с помощью сканирующего окна, которое позволяет обнаружить заданный объект. Однако признаки, предложенные Виолой и Джонсом, содержат более одной прямоугольной области и несколько сложнее. На иллюстрации показано ''четыре'' различных типа признаков. Величина каждого признака вычисляется как сумма пикселей в белых прямоугольниках, из которой вычитается сумма пикселей в чёрных областях. Прямоугольные признаки более примитивны, чем steerable filter, и, несмотря на то, что они чувствительны к вертикальным и горизонтальным особенностям изображений, результат их поиска более груб. Однако, при хранении изображения в интегральном формате проверка прямоугольного признака на конкретной позиции проводится за константное время, что является их преимуществом по сравнению с более точными вариантами. Каждая прямоугольная область в используемых признаках всегда смежна с другим прямоугольником, поэтому расчёт признака с ''двумя'' прямоугольниками состоит из ''шести'' обращений в интегральный массив, для признака с ''тремя'' прямоугольниками - из ''восьми'', и с ''четырьмя'' прямоугольниками - из ''девяти''.&lt;br /&gt;
&lt;br /&gt;
== Отслеживание объекта ==&lt;br /&gt;
&lt;br /&gt;
Отслеживанием называется поиск объекта в последовательных кадрах видео. Отслеживание объекта в некоторых случаях может выполняться при помощи алгоритмов детектирования. При детектировании основная идея заключается в том, чтобы сначала определить регионы интереса (ключевые точки), которые будут независимы к преобразованиям. Затем для каждого региона интереса строится его векторное представление — дескриптор. Далее на каждом кадре будет выполняться поиск объекта и выделение его местоположения прямоугольником.&lt;br /&gt;
&lt;br /&gt;
При трекинге целью является нахождение объекта в текущем кадре, если он успешно отслеживался во всех предыдущих кадрах. Так как объект был отслежен до текущего кадра, известны параметры модели движения: скорость и направление движения объекта в предыдущих кадрах. Поэтому можно предсказать новое местоположение объекта, опираясь на его модель движения, и оно будет очень близко к реальному новому положению объекта.&lt;br /&gt;
&lt;br /&gt;
=== Visual object tracking ===&lt;br /&gt;
'''VOT''' (''Visual object tracking'')&lt;br /&gt;
* Рассматривается отслеживание одного объекта&lt;br /&gt;
* Объект уже выделен на первом кадре&lt;br /&gt;
* &amp;quot;Model-free&amp;quot; — нет ничего, кроме одного изображения на первом кадре, т.е. не можем детектировать объект&lt;br /&gt;
* &amp;quot;Short-term&amp;quot; — отслеживаем на коротких промежутках времени, не применяем повторное обнаружение&lt;br /&gt;
* Не используются будущие кадры, только предыдущие&lt;br /&gt;
&lt;br /&gt;
==== Пример алгоритма ====&lt;br /&gt;
[[Файл:Tracking_of_ladon.jpg|left|мини|600px|Трекинг ладони]]&lt;br /&gt;
&amp;lt;br clear=all&amp;gt;&lt;br /&gt;
# Инициализация&lt;br /&gt;
## Находим 100 контрольных точек с помощью метода поиска локальных особенностей (Harris corners) в рамке руки&lt;br /&gt;
## Вычисляем медиану &lt;br /&gt;
## Вычисляем цветовую статистику в окрестности центра&lt;br /&gt;
## Разметить в рамке руки все пиксели, похожие на кожу&lt;br /&gt;
# Слежение&lt;br /&gt;
## Отслеживаем контрольные точки&lt;br /&gt;
## Если точка нарушает условия ''стаи'', то удаляем её&lt;br /&gt;
# Инициализация новых контрольных точек&lt;br /&gt;
## Ищем особенности (Harris corners)&lt;br /&gt;
## Если точка не на коже, то удаляем её&lt;br /&gt;
&lt;br /&gt;
  '''Input''' : Pretrained CNN filters {&amp;lt;tex&amp;gt;w_1&amp;lt;/tex&amp;gt;,..., &amp;lt;tex&amp;gt;w_5&amp;lt;/tex&amp;gt;}&lt;br /&gt;
          Initial target state &amp;lt;tex&amp;gt;x_1&amp;lt;/tex&amp;gt;&lt;br /&gt;
  '''Output''': Estimated target states &amp;lt;tex&amp;gt;x^*_t&amp;lt;/tex&amp;gt; &lt;br /&gt;
  1: Randomly initialize the last layer &amp;lt;tex&amp;gt;w_6&amp;lt;/tex&amp;gt;.&lt;br /&gt;
  2: Train a bounding box regression model.&lt;br /&gt;
  3: Draw positive samples &amp;lt;tex&amp;gt;S^+_1&amp;lt;/tex&amp;gt; and negative samples &amp;lt;tex&amp;gt;S^-_1&amp;lt;/tex&amp;gt;.&lt;br /&gt;
  4: Update {&amp;lt;tex&amp;gt;w_4, w_5, w_6&amp;lt;/tex&amp;gt;} using &amp;lt;tex&amp;gt;S^+_1&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_1&amp;lt;/tex&amp;gt;;&lt;br /&gt;
  5: &amp;lt;tex&amp;gt;T_s&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\leftarrow&amp;lt;/tex&amp;gt; {1} and &amp;lt;tex&amp;gt;T_l&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\leftarrow&amp;lt;/tex&amp;gt; {1}.&lt;br /&gt;
  6: '''repeat'''&lt;br /&gt;
  7:    Draw target candidate samples &amp;lt;tex&amp;gt;x^i_t&amp;lt;/tex&amp;gt;;&lt;br /&gt;
  8:    Find the optimal target state &amp;lt;tex&amp;gt;x^*_t&amp;lt;/tex&amp;gt; by Eq. (1).&lt;br /&gt;
  9:    '''if''' &amp;lt;tex&amp;gt;f^+(x^*_t)&amp;lt;/tex&amp;gt; &amp;gt; 0.5 '''then'''&lt;br /&gt;
 10:      Draw training samples &amp;lt;tex&amp;gt;S^+_t&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_t&amp;lt;/tex&amp;gt;.&lt;br /&gt;
 11:      &amp;lt;tex&amp;gt;T_s \leftarrow T_s&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\cup&amp;lt;/tex&amp;gt; {&amp;lt;tex&amp;gt;t&amp;lt;/tex&amp;gt;}, &amp;lt;tex&amp;gt;T_l \leftarrow T_l&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\cup&amp;lt;/tex&amp;gt; {&amp;lt;tex&amp;gt;t&amp;lt;/tex&amp;gt;}.&lt;br /&gt;
 12:      '''if''' |&amp;lt;tex&amp;gt;T_s&amp;lt;/tex&amp;gt;| &amp;gt; &amp;lt;tex&amp;gt;\tau_s&amp;lt;/tex&amp;gt; '''then''' &amp;lt;tex&amp;gt;T_s \leftarrow T_s&amp;lt;/tex&amp;gt; \ {&amp;lt;tex&amp;gt;min_{\upsilon \in T_s} \upsilon&amp;lt;/tex&amp;gt;}. &lt;br /&gt;
 13:      '''if''' |&amp;lt;tex&amp;gt;T_l&amp;lt;/tex&amp;gt;| &amp;gt; &amp;lt;tex&amp;gt;\tau_l&amp;lt;/tex&amp;gt; '''then''' &amp;lt;tex&amp;gt;T_l \leftarrow T_l&amp;lt;/tex&amp;gt; \ {&amp;lt;tex&amp;gt;min_{\upsilon \in T_l} \upsilon&amp;lt;/tex&amp;gt;}. &lt;br /&gt;
 14:      Adjust &amp;lt;tex&amp;gt;x^*_t&amp;lt;/tex&amp;gt; using bounding box regression.&lt;br /&gt;
 15:    '''if''' &amp;lt;tex&amp;gt;f^+(x^*_t)&amp;lt;/tex&amp;gt; &amp;lt; 0.5 '''then'''&lt;br /&gt;
 16:      Update {&amp;lt;tex&amp;gt;w_4, w_5, w_6&amp;lt;/tex&amp;gt;} using &amp;lt;tex&amp;gt;S^+_{\upsilon \in T_s}&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_{\upsilon \in T_s}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
 17:    '''else''' '''if''' &amp;lt;tex&amp;gt;t&amp;lt;/tex&amp;gt; mod 10 = 0 '''then'''&lt;br /&gt;
 18:      Update {&amp;lt;tex&amp;gt;w_4, w_5, w_6&amp;lt;/tex&amp;gt;} using &amp;lt;tex&amp;gt;S^+_{\upsilon \in T_l}&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_{\upsilon \in T_l}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
 19: '''until''' end of sequence&lt;br /&gt;
&lt;br /&gt;
(1): &amp;lt;tex&amp;gt;x^* = \underset{x^i}{\arg\max} f^+(x^i)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
   &lt;br /&gt;
&lt;br /&gt;
=== Multiple object tracking ===&lt;br /&gt;
'''MOT''' (''Multiple object tracking'')&lt;br /&gt;
* Задача &amp;quot;выделения и сопровождения множества объектов&amp;quot;&lt;br /&gt;
** Нужно найти все объекты на кадрах&lt;br /&gt;
** Определить сколько у нас разных &amp;quot;экземпляров&amp;quot; объектов&lt;br /&gt;
** Найти на каких кадрах виден каждый экземпляр и где он именно&lt;br /&gt;
* Обобщение задачи &amp;quot;выделение объектов на изображении&amp;quot; на случайном видео&lt;br /&gt;
* В отличие от VOT:&lt;br /&gt;
** Работает со множеством объектов&lt;br /&gt;
** На длительных промежутках времени&lt;br /&gt;
** Есть модель объектов (возможность повторного обнаружения)&lt;br /&gt;
** Разрешено &amp;quot;заглядывать в будущее&amp;quot;&lt;br /&gt;
&lt;br /&gt;
==== Пример алгоритма ====&lt;br /&gt;
# Поиск голов на ключевых кадрах&lt;br /&gt;
# Построение треклетов&lt;br /&gt;
## Визуальное сопровождение&lt;br /&gt;
## Получаем гипотезы движения объектов между ключевыми кадрами (треклеты)&lt;br /&gt;
# Объединение треклетов в траектории&lt;br /&gt;
## Алгоритм MCMC DA&lt;br /&gt;
### Построение выборки из распределения &lt;br /&gt;
### Алгоритм Метрополиса — Гастингса&lt;br /&gt;
### Элемент с максимальной вероятностью&lt;br /&gt;
## Восстановление положения на промежуточных кадрах&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===== Multiple Object Tracking Tutorial =====&lt;br /&gt;
&lt;br /&gt;
 function MultipleObjectTrackingExample()&lt;br /&gt;
 // Create objects used for reading video and displaying the results.&lt;br /&gt;
 videoObjects = setupVideoObjects('atrium.mp4');&lt;br /&gt;
 // Create objects used for detecting objects in the foreground of the video.&lt;br /&gt;
 minBlobArea = 400; % Minimum blob size, in pixels, to be considered as a detection&lt;br /&gt;
 detectorObjects = setupDetectorObjects(minBlobArea);&lt;br /&gt;
&lt;br /&gt;
===== Create the Multi-Object Tracker =====&lt;br /&gt;
&lt;br /&gt;
 tracker = multiObjectTracker(...&lt;br /&gt;
    'FilterInitializationFcn', @initDemoFilter, ...&lt;br /&gt;
    'AssignmentThreshold', 30, ...&lt;br /&gt;
    'DeletionThreshold', 22, ...&lt;br /&gt;
    'ConfirmationThreshold', [6 10] ...&lt;br /&gt;
    );&lt;br /&gt;
&lt;br /&gt;
===== Define a Kalman Filter =====&lt;br /&gt;
&lt;br /&gt;
  function filter = initDemoFilter(detection)&lt;br /&gt;
    // Initialize a Kalman filter for this example.&lt;br /&gt;
    // Define the initial state.&lt;br /&gt;
    state = [detection.Measurement(1); 0; detection.Measurement(2); 0];&lt;br /&gt;
    // Define the initial state covariance.&lt;br /&gt;
    stateCov = diag([50, 50, 50, 50]);&lt;br /&gt;
    // Create the tracking filter.&lt;br /&gt;
    filter = trackingKF('MotionModel', '2D Constant Velocity', ...&lt;br /&gt;
        'State', state, ...&lt;br /&gt;
        'StateCovariance', stateCov, ...&lt;br /&gt;
        'MeasurementNoise', detection.MeasurementNoise(1:2,1:2) ...&lt;br /&gt;
        );&lt;br /&gt;
    end&lt;br /&gt;
  // Count frames to create a sense of time.&lt;br /&gt;
  frameCount = 0;&lt;br /&gt;
  while hasFrame(videoObjects.reader)&lt;br /&gt;
     // Read a video frame and detect objects in it.&lt;br /&gt;
     frameCount = frameCount + 1;                                // Promote frame count&lt;br /&gt;
     frame = readFrame(videoObjects.reader);                     // Read frame&lt;br /&gt;
     [detections, mask] = detectObjects(detectorObjects, frame); // Detect objects in video frame&lt;br /&gt;
     // Run the tracker on the preprocessed detections.&lt;br /&gt;
     confirmedTracks = updateTracks(tracker, detections, frameCount);&lt;br /&gt;
     // Display the tracking results on the video.&lt;br /&gt;
     displayTrackingResults(videoObjects, confirmedTracks, frame, mask);&lt;br /&gt;
  end&lt;br /&gt;
&lt;br /&gt;
===== Create Video Objects =====&lt;br /&gt;
 &lt;br /&gt;
    function videoObjects = setupVideoObjects(filename)&lt;br /&gt;
        // Initialize video I/O&lt;br /&gt;
        // Create objects for reading a video from a file, drawing the tracked&lt;br /&gt;
        // objects in each frame, and playing the video.&lt;br /&gt;
        // Create a video file reader.&lt;br /&gt;
        videoObjects.reader = VideoReader(filename);&lt;br /&gt;
        // Create two video players: one to display the video,&lt;br /&gt;
        // and one to display the foreground mask.&lt;br /&gt;
        videoObjects.maskPlayer  = vision.VideoPlayer('Position', [20, 400, 700, 400]);&lt;br /&gt;
        videoObjects.videoPlayer = vision.VideoPlayer('Position', [740, 400, 700, 400]);&lt;br /&gt;
    end&lt;br /&gt;
&lt;br /&gt;
===== Create Detector Objects =====&lt;br /&gt;
&lt;br /&gt;
    function detectorObjects = setupDetectorObjects(minBlobArea)&lt;br /&gt;
        // Create System objects for foreground detection and blob analysis&lt;br /&gt;
        // The foreground detector segments moving objects from the&lt;br /&gt;
        // background. It outputs a binary mask, where the pixel value of 1&lt;br /&gt;
        // corresponds to the foreground and the value of 0 corresponds to&lt;br /&gt;
        // the background.&lt;br /&gt;
        detectorObjects.detector = vision.ForegroundDetector('NumGaussians', 3, ...&lt;br /&gt;
            'NumTrainingFrames', 40, 'MinimumBackgroundRatio', 0.7);&lt;br /&gt;
        // Connected groups of foreground pixels are likely to correspond to&lt;br /&gt;
        // moving objects.  The blob analysis System object finds such&lt;br /&gt;
        // groups (called 'blobs' or 'connected components') and computes&lt;br /&gt;
        // their characteristics, such as their areas, centroids, and the&lt;br /&gt;
        // bounding boxes.&lt;br /&gt;
        detectorObjects.blobAnalyzer = vision.BlobAnalysis('BoundingBoxOutputPort', true, ...&lt;br /&gt;
            'AreaOutputPort', true, 'CentroidOutputPort', true, ...&lt;br /&gt;
            'MinimumBlobArea', minBlobArea);&lt;br /&gt;
    end&lt;br /&gt;
&lt;br /&gt;
===== Detect Objects =====&lt;br /&gt;
&lt;br /&gt;
    function [detections, mask] = detectObjects(detectorObjects, frame)&lt;br /&gt;
        // Expected uncertainty (noise) for the blob centroid.&lt;br /&gt;
        measurementNoise = 100*eye(2);&lt;br /&gt;
        // Detect foreground.&lt;br /&gt;
        mask = detectorObjects.detector.step(frame);&lt;br /&gt;
        // Apply morphological operations to remove noise and fill in holes.&lt;br /&gt;
        mask = imopen(mask, strel('rectangle', [6, 6]));&lt;br /&gt;
        mask = imclose(mask, strel('rectangle', [50, 50]));&lt;br /&gt;
        mask = imfill(mask, 'holes');&lt;br /&gt;
        // Perform blob analysis to find connected components.&lt;br /&gt;
        [~, centroids, bboxes] = detectorObjects.blobAnalyzer.step(mask);&lt;br /&gt;
        // Formulate the detections as a list of objectDetection objects.&lt;br /&gt;
        numDetections = size(centroids, 1);&lt;br /&gt;
        detections = cell(numDetections, 1);&lt;br /&gt;
        for i = 1:numDetections&lt;br /&gt;
            detections{i} = objectDetection(frameCount, centroids(i,:), ...&lt;br /&gt;
                'MeasurementNoise', measurementNoise, ...&lt;br /&gt;
                'ObjectAttributes', {bboxes(i,:)});&lt;br /&gt;
        end&lt;br /&gt;
    end&lt;br /&gt;
&lt;br /&gt;
===== Display Tracking Results =====&lt;br /&gt;
&lt;br /&gt;
    function displayTrackingResults(videoObjects, confirmedTracks, frame, mask)&lt;br /&gt;
        % Convert the frame and the mask to uint8 RGB.&lt;br /&gt;
        frame = im2uint8(frame);&lt;br /&gt;
        mask = uint8(repmat(mask, [1, 1, 3])) .* 255;&lt;br /&gt;
        if ~isempty(confirmedTracks)&lt;br /&gt;
            // Display the objects. If an object has not been detected&lt;br /&gt;
            // in this frame, display its predicted bounding box.&lt;br /&gt;
            numRelTr = numel(confirmedTracks);&lt;br /&gt;
            boxes = zeros(numRelTr, 4);&lt;br /&gt;
            ids = zeros(numRelTr, 1, 'int32');&lt;br /&gt;
            predictedTrackInds = zeros(numRelTr, 1);&lt;br /&gt;
            for tr = 1:numRelTr&lt;br /&gt;
                // Get bounding boxes.&lt;br /&gt;
                boxes(tr, :) = confirmedTracks(tr).ObjectAttributes{1}{1};&lt;br /&gt;
                // Get IDs.&lt;br /&gt;
                ids(tr) = confirmedTracks(tr).TrackID;&lt;br /&gt;
                if confirmedTracks(tr).IsCoasted&lt;br /&gt;
                    predictedTrackInds(tr) = tr;&lt;br /&gt;
                end&lt;br /&gt;
            end&lt;br /&gt;
            predictedTrackInds = predictedTrackInds(predictedTrackInds &amp;gt; 0);&lt;br /&gt;
            // Create labels for objects that display the predicted rather&lt;br /&gt;
            // than the actual location.&lt;br /&gt;
            labels = cellstr(int2str(ids));&lt;br /&gt;
            isPredicted = cell(size(labels));&lt;br /&gt;
            isPredicted(predictedTrackInds) = {' predicted'};&lt;br /&gt;
            labels = strcat(labels, isPredicted);&lt;br /&gt;
            // Draw the objects on the frame.&lt;br /&gt;
            frame = insertObjectAnnotation(frame, 'rectangle', boxes, labels);&lt;br /&gt;
            // Draw the objects on the mask.&lt;br /&gt;
            mask = insertObjectAnnotation(mask, 'rectangle', boxes, labels);&lt;br /&gt;
        end&lt;br /&gt;
        // Display the mask and the frame.&lt;br /&gt;
        videoObjects.maskPlayer.step(mask);&lt;br /&gt;
        videoObjects.videoPlayer.step(frame);&lt;br /&gt;
    end&lt;br /&gt;
 end&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
=== Основные трудности ===&lt;br /&gt;
* Вычислительная нагрузка&lt;br /&gt;
** Нужно обрабатывать &amp;lt;tex&amp;gt;N&amp;lt;/tex&amp;gt; кадров в секунду&lt;br /&gt;
* Изменение по времени&lt;br /&gt;
** Вид объекта меняется от кадра к кадру из-за ракурса, изменения освещения, внутренний изменений&lt;br /&gt;
* Взаимодействие объектов&lt;br /&gt;
** Перекрытие объектов&lt;br /&gt;
** Визуальное сходство объектов&lt;br /&gt;
* Для оценки качества работы алгоритмов слежения и настройки параметров требуются размеченные эталонные данные&lt;br /&gt;
* Подготовить эталонные данные для видео существенно сложнее, чем для изображения&lt;br /&gt;
** Один эталонный пример для выделения объектов — ''одно'' изображение&lt;br /&gt;
** Один эталонный пример для отслеживания объектов — ''одно'' видео&lt;br /&gt;
* Сейчас есть хорошие конкурсы, но объём данных по прежнему ограничен, особенно для MOT&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Компьютерное зрение]]&lt;br /&gt;
*[[Вырезание объекта на изображении]]&lt;br /&gt;
*[[Сегментация изображений]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
== Источники информации ==&lt;br /&gt;
1. [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.115.2861&amp;amp;rep=rep1&amp;amp;type=pdf Hu W. M., Tan T. N., Wang L., Maybank S. A survey of visual surveillance of object motion and behaviors // IEEE Transactions on System, Man, and Cybernetics (T-SMC), Part C. – 2004. Vol. 34(3). – P. 334-352.]&lt;br /&gt;
&lt;br /&gt;
2. Лавелина Е.С., Закуанова М.Р., Масловская М.А. ОТСЛЕЖИВАНИЕ ОБЪЕКТОВ В ВИДЕОПОТОКЕ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. LIV междунар. студ. науч.-практ. конф. № 6(53). URL: https://sibac.info/archive/technic/6(53).pdf (дата обращения: 20.04.2020)&lt;br /&gt;
&lt;br /&gt;
3. [https://compscicenter.ru/media/courses/2018-spring/spb-images-and-video-2/slides/images_and_video_2_lecture_080518.pdf Анализ изображений и видео. Часть 2]&lt;br /&gt;
&lt;br /&gt;
4. [https://arxiv.org/pdf/1510.07945.pdf Learning Multi-Domain Convolutional Neural Networks for Visual Tracking]&lt;br /&gt;
&lt;br /&gt;
5. [https://www.mathworks.com/help/driving/examples/multiple-object-tracking-tutorial.html Multiple object tracking tutorial]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE&amp;diff=76766</id>
		<title>Анализ видео</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D0%B2%D0%B8%D0%B4%D0%B5%D0%BE&amp;diff=76766"/>
				<updated>2021-01-08T07:23:22Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;'''Трекинг''' — определение местоположения объекта (нескольких объектов) во времени.&lt;br /&gt;
&lt;br /&gt;
Задача отслеживания объектов на видео является одной из самых интересных задач в информационных технологиях. На первый взгляд, видеопоток можно рассматривать как последовательность отдельных кадров, поэтому применимы многие алгоритмы, использующиеся для обработки обычных изображений. Сегодня к задаче распознавания объектов также широко применяются методы классификации, а именно, строятся системы, которые определяют к какому классу (изображение содержит объект или изображение не содержит объект) относится изображение.&lt;br /&gt;
&lt;br /&gt;
С другой стороны, видеопоток обладает свойством связности: каждый последующий кадр не сильно отличается от предыдущего, поэтому возможно применение алгоритмов, основанных на этом свойстве. Одной из интересных задач в этой области является трекинг перемещений объектов на видео. В работе &amp;lt;ref&amp;gt;[http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.115.2861&amp;amp;rep=rep1&amp;amp;type=pdf A Survey on Visual Surveillance of&lt;br /&gt;
Object Motion and Behaviors]&amp;lt;/ref&amp;gt; алгоритмы отслеживания разделены на четыре основные категории: отслеживание областей, отслеживание по активному контуру, отслеживание по характерным признакам, отслеживание по модели.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
== Распознавание изображений ==&lt;br /&gt;
&lt;br /&gt;
Для детектирования объекта на изображении применяются алгоритмы распознавания. Алгоритм распознавания изображений принимает картинку в качестве входных данных и выводит, что содержится на данном изображении.&lt;br /&gt;
&lt;br /&gt;
Классификация изображений производится поэтапно. На первом шаге входное изображение зачастую предварительно обрабатывается для нормализации контраста и яркости, а также на этом шаге входное изображение обрезается и масштабируется до фиксированного размера.&lt;br /&gt;
&lt;br /&gt;
На втором шаге необходимо упростить изображение путем извлечения важной информации, так как исходное изображение содержит слишком много дополнительной информации, которая не требуется для классификации. Этот шаг называется извлечением признаков. Существует достаточно большое количество признаков, используемых в компьютерном зрении, — это признаки Хаара, HOG (Histogram of Oriented Gradients), SIFT (Scale-Invariant Feature Transform), SURF (Speeded Up Robust Feature) и другие.&lt;br /&gt;
&lt;br /&gt;
На третьем шаге алгоритм классификации принимает вектор признаков в качестве входных данных и выводит к какому классу принадлежит изображение.&lt;br /&gt;
[[Файл: VideoAnalysis1.png|мини|250px|Типы «признаков», использованные в алгоритме]]&lt;br /&gt;
&lt;br /&gt;
=== Метод Виолы-Джонса ===&lt;br /&gt;
&lt;br /&gt;
Основной принцип алгоритмы Виолы-Джонса, основанный на признаках Хаара, заключается в сканировании изображения с помощью сканирующего окна, которое позволяет обнаружить заданный объект. Однако признаки, предложенные Виолой и Джонсом, содержат более одной прямоугольной области и несколько сложнее. На иллюстрации показано ''четыре'' различных типа признаков. Величина каждого признака вычисляется как сумма пикселей в белых прямоугольниках, из которой вычитается сумма пикселей в чёрных областях. Прямоугольные признаки более примитивны, чем steerable filter, и, несмотря на то, что они чувствительны к вертикальным и горизонтальным особенностям изображений, результат их поиска более груб. Однако, при хранении изображения в интегральном формате проверка прямоугольного признака на конкретной позиции проводится за константное время, что является их преимуществом по сравнению с более точными вариантами. Каждая прямоугольная область в используемых признаках всегда смежна с другим прямоугольником, поэтому расчёт признака с ''двумя'' прямоугольниками состоит из ''шести'' обращений в интегральный массив, для признака с ''тремя'' прямоугольниками - из ''восьми'', и с ''четырьмя'' прямоугольниками - из ''девяти''.&lt;br /&gt;
&lt;br /&gt;
== Отслеживание объекта ==&lt;br /&gt;
&lt;br /&gt;
Отслеживанием называется поиск объекта в последовательных кадрах видео. Отслеживание объекта в некоторых случаях может выполняться при помощи алгоритмов детектирования. При детектировании основная идея заключается в том, чтобы сначала определить регионы интереса (ключевые точки), которые будут независимы к преобразованиям. Затем для каждого региона интереса строится его векторное представление — дескриптор. Далее на каждом кадре будет выполняться поиск объекта и выделение его местоположения прямоугольником.&lt;br /&gt;
&lt;br /&gt;
При трекинге целью является нахождение объекта в текущем кадре, если он успешно отслеживался во всех предыдущих кадрах. Так как объект был отслежен до текущего кадра, известны параметры модели движения: скорость и направление движения объекта в предыдущих кадрах. Поэтому можно предсказать новое местоположение объекта, опираясь на его модель движения, и оно будет очень близко к реальному новому положению объекта.&lt;br /&gt;
&lt;br /&gt;
=== Visual object tracking ===&lt;br /&gt;
'''VOT''' (''Visual object tracking'')&lt;br /&gt;
* Рассматривается отслеживание одного объекта&lt;br /&gt;
* Объект уже выделен на первом кадре&lt;br /&gt;
* &amp;quot;Model-free&amp;quot; — нет ничего, кроме одного изображения на первом кадре, т.е. не можем детектировать объект&lt;br /&gt;
* &amp;quot;Short-term&amp;quot; — отслеживаем на коротких промежутках времени, не применяем повторное обнаружение&lt;br /&gt;
* Не используются будущие кадры, только предыдущие&lt;br /&gt;
&lt;br /&gt;
==== Пример алгоритма ====&lt;br /&gt;
[[Файл:Tracking_of_ladon.jpg|left|мини|600px|Трекинг ладони]]&lt;br /&gt;
&amp;lt;br clear=all&amp;gt;&lt;br /&gt;
# Инициализация&lt;br /&gt;
## Находим 100 контрольных точек с помощью метода поиска локальных особенностей (Harris corners) в рамке руки&lt;br /&gt;
## Вычисляем медиану &lt;br /&gt;
## Вычисляем цветовую статистику в окрестности центра&lt;br /&gt;
## Разметить в рамке руки все пиксели, похожие на кожу&lt;br /&gt;
# Слежение&lt;br /&gt;
## Отслеживаем контрольные точки&lt;br /&gt;
## Если точка нарушает условия ''стаи'', то удаляем её&lt;br /&gt;
# Инициализация новых контрольных точек&lt;br /&gt;
## Ищем особенности (Harris corners)&lt;br /&gt;
## Если точка не на коже, то удаляем её&lt;br /&gt;
&lt;br /&gt;
  '''Input''' : Pretrained CNN filters {&amp;lt;tex&amp;gt;w_1&amp;lt;/tex&amp;gt;,..., &amp;lt;tex&amp;gt;w_5&amp;lt;/tex&amp;gt;}&lt;br /&gt;
          Initial target state &amp;lt;tex&amp;gt;x_1&amp;lt;/tex&amp;gt;&lt;br /&gt;
  '''Output''': Estimated target states &amp;lt;tex&amp;gt;x^*_t&amp;lt;/tex&amp;gt; &lt;br /&gt;
  1: Randomly initialize the last layer &amp;lt;tex&amp;gt;w_6&amp;lt;/tex&amp;gt;.&lt;br /&gt;
  2: Train a bounding box regression model.&lt;br /&gt;
  3: Draw positive samples &amp;lt;tex&amp;gt;S^+_1&amp;lt;/tex&amp;gt; and negative samples &amp;lt;tex&amp;gt;S^-_1&amp;lt;/tex&amp;gt;.&lt;br /&gt;
  4: Update {&amp;lt;tex&amp;gt;w_4, w_5, w_6&amp;lt;/tex&amp;gt;} using &amp;lt;tex&amp;gt;S^+_1&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_1&amp;lt;/tex&amp;gt;;&lt;br /&gt;
  5: &amp;lt;tex&amp;gt;T_s&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\leftarrow&amp;lt;/tex&amp;gt; {1} and &amp;lt;tex&amp;gt;T_l&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\leftarrow&amp;lt;/tex&amp;gt; {1}.&lt;br /&gt;
  6: '''repeat'''&lt;br /&gt;
  7:    Draw target candidate samples &amp;lt;tex&amp;gt;x^i_t&amp;lt;/tex&amp;gt;;&lt;br /&gt;
  8:    Find the optimal target state &amp;lt;tex&amp;gt;x^*_t&amp;lt;/tex&amp;gt; by Eq. (1).&lt;br /&gt;
  9:    '''if''' &amp;lt;tex&amp;gt;f^+(x^*_t)&amp;lt;/tex&amp;gt; &amp;gt; 0.5 '''then'''&lt;br /&gt;
 10:      Draw training samples &amp;lt;tex&amp;gt;S^+_t&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_t&amp;lt;/tex&amp;gt;.&lt;br /&gt;
 11:      &amp;lt;tex&amp;gt;T_s \leftarrow T_s&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\cup&amp;lt;/tex&amp;gt; {&amp;lt;tex&amp;gt;t&amp;lt;/tex&amp;gt;}, &amp;lt;tex&amp;gt;T_l \leftarrow T_l&amp;lt;/tex&amp;gt; &amp;lt;tex&amp;gt;\cup&amp;lt;/tex&amp;gt; {&amp;lt;tex&amp;gt;t&amp;lt;/tex&amp;gt;}.&lt;br /&gt;
 12:      '''if''' |&amp;lt;tex&amp;gt;T_s&amp;lt;/tex&amp;gt;| &amp;gt; &amp;lt;tex&amp;gt;\tau_s&amp;lt;/tex&amp;gt; '''then''' &amp;lt;tex&amp;gt;T_s \leftarrow T_s&amp;lt;/tex&amp;gt; \ {&amp;lt;tex&amp;gt;min_{\upsilon \in T_s} \upsilon&amp;lt;/tex&amp;gt;}. &lt;br /&gt;
 13:      '''if''' |&amp;lt;tex&amp;gt;T_l&amp;lt;/tex&amp;gt;| &amp;gt; &amp;lt;tex&amp;gt;\tau_l&amp;lt;/tex&amp;gt; '''then''' &amp;lt;tex&amp;gt;T_l \leftarrow T_l&amp;lt;/tex&amp;gt; \ {&amp;lt;tex&amp;gt;min_{\upsilon \in T_l} \upsilon&amp;lt;/tex&amp;gt;}. &lt;br /&gt;
 14:      Adjust &amp;lt;tex&amp;gt;x^*_t&amp;lt;/tex&amp;gt; using bounding box regression.&lt;br /&gt;
 15:    '''if''' &amp;lt;tex&amp;gt;f^+(x^*_t)&amp;lt;/tex&amp;gt; &amp;lt; 0.5 '''then'''&lt;br /&gt;
 16:      Update {&amp;lt;tex&amp;gt;w_4, w_5, w_6&amp;lt;/tex&amp;gt;} using &amp;lt;tex&amp;gt;S^+_{\upsilon \in T_s}&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_{\upsilon \in T_s}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
 17:    '''else''' '''if''' &amp;lt;tex&amp;gt;t&amp;lt;/tex&amp;gt; mod 10 = 0 '''then'''&lt;br /&gt;
 18:      Update {&amp;lt;tex&amp;gt;w_4, w_5, w_6&amp;lt;/tex&amp;gt;} using &amp;lt;tex&amp;gt;S^+_{\upsilon \in T_l}&amp;lt;/tex&amp;gt; and &amp;lt;tex&amp;gt;S^-_{\upsilon \in T_l}&amp;lt;/tex&amp;gt;.&lt;br /&gt;
 19: '''until''' end of sequence&lt;br /&gt;
&lt;br /&gt;
(1): &amp;lt;tex&amp;gt;x^* = \underset{x^i}{\arg\max} f^+(x^i)&amp;lt;/tex&amp;gt;.&lt;br /&gt;
   &lt;br /&gt;
&lt;br /&gt;
=== Multiple object tracking ===&lt;br /&gt;
'''MOT''' (''Multiple object tracking'')&lt;br /&gt;
* Задача &amp;quot;выделения и сопровождения множества объектов&amp;quot;&lt;br /&gt;
** Нужно найти все объекты на кадрах&lt;br /&gt;
** Определить сколько у нас разных &amp;quot;экземпляров&amp;quot; объектов&lt;br /&gt;
** Найти на каких кадрах виден каждый экземпляр и где он именно&lt;br /&gt;
* Обобщение задачи &amp;quot;выделение объектов на изображении&amp;quot; на случайном видео&lt;br /&gt;
* В отличие от VOT:&lt;br /&gt;
** Работает со множеством объектов&lt;br /&gt;
** На длительных промежутках времени&lt;br /&gt;
** Есть модель объектов (возможность повторного обнаружения)&lt;br /&gt;
** Разрешено &amp;quot;заглядывать в будущее&amp;quot;&lt;br /&gt;
&lt;br /&gt;
==== Пример алгоритма ====&lt;br /&gt;
# Поиск голов на ключевых кадрах&lt;br /&gt;
# Построение треклетов&lt;br /&gt;
## Визуальное сопровождение&lt;br /&gt;
## Получаем гипотезы движения объектов между ключевыми кадрами (треклеты)&lt;br /&gt;
# Объединение треклетов в траектории&lt;br /&gt;
## Алгоритм MCMC DA&lt;br /&gt;
### Построение выборки из распределения &lt;br /&gt;
### Алгоритм Метрополиса — Гастингса&lt;br /&gt;
### Элемент с максимальной вероятностью&lt;br /&gt;
## Восстановление положения на промежуточных кадрах&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
===== Multiple Object Tracking Tutorial =====&lt;br /&gt;
&lt;br /&gt;
 function MultipleObjectTrackingExample()&lt;br /&gt;
 // Create objects used for reading video and displaying the results.&lt;br /&gt;
 videoObjects = setupVideoObjects('atrium.mp4');&lt;br /&gt;
 // Create objects used for detecting objects in the foreground of the video.&lt;br /&gt;
 minBlobArea = 400; % Minimum blob size, in pixels, to be considered as a detection&lt;br /&gt;
 detectorObjects = setupDetectorObjects(minBlobArea);&lt;br /&gt;
&lt;br /&gt;
===== Create the Multi-Object Tracker =====&lt;br /&gt;
&lt;br /&gt;
 tracker = multiObjectTracker(...&lt;br /&gt;
    'FilterInitializationFcn', @initDemoFilter, ...&lt;br /&gt;
    'AssignmentThreshold', 30, ...&lt;br /&gt;
    'DeletionThreshold', 22, ...&lt;br /&gt;
    'ConfirmationThreshold', [6 10] ...&lt;br /&gt;
    );&lt;br /&gt;
&lt;br /&gt;
===== Define a Kalman Filter =====&lt;br /&gt;
&lt;br /&gt;
  function filter = initDemoFilter(detection)&lt;br /&gt;
    // Initialize a Kalman filter for this example.&lt;br /&gt;
    // Define the initial state.&lt;br /&gt;
    state = [detection.Measurement(1); 0; detection.Measurement(2); 0];&lt;br /&gt;
    // Define the initial state covariance.&lt;br /&gt;
    stateCov = diag([50, 50, 50, 50]);&lt;br /&gt;
    // Create the tracking filter.&lt;br /&gt;
    filter = trackingKF('MotionModel', '2D Constant Velocity', ...&lt;br /&gt;
        'State', state, ...&lt;br /&gt;
        'StateCovariance', stateCov, ...&lt;br /&gt;
        'MeasurementNoise', detection.MeasurementNoise(1:2,1:2) ...&lt;br /&gt;
        );&lt;br /&gt;
    end&lt;br /&gt;
  // Count frames to create a sense of time.&lt;br /&gt;
  frameCount = 0;&lt;br /&gt;
  while hasFrame(videoObjects.reader)&lt;br /&gt;
     // Read a video frame and detect objects in it.&lt;br /&gt;
     frameCount = frameCount + 1;                                // Promote frame count&lt;br /&gt;
     frame = readFrame(videoObjects.reader);                     // Read frame&lt;br /&gt;
     [detections, mask] = detectObjects(detectorObjects, frame); // Detect objects in video frame&lt;br /&gt;
     // Run the tracker on the preprocessed detections.&lt;br /&gt;
     confirmedTracks = updateTracks(tracker, detections, frameCount);&lt;br /&gt;
     // Display the tracking results on the video.&lt;br /&gt;
     displayTrackingResults(videoObjects, confirmedTracks, frame, mask);&lt;br /&gt;
  end&lt;br /&gt;
&lt;br /&gt;
===== Create Video Objects =====&lt;br /&gt;
 &lt;br /&gt;
    function videoObjects = setupVideoObjects(filename)&lt;br /&gt;
        // Initialize video I/O&lt;br /&gt;
        // Create objects for reading a video from a file, drawing the tracked&lt;br /&gt;
        // objects in each frame, and playing the video.&lt;br /&gt;
        // Create a video file reader.&lt;br /&gt;
        videoObjects.reader = VideoReader(filename);&lt;br /&gt;
        // Create two video players: one to display the video,&lt;br /&gt;
        // and one to display the foreground mask.&lt;br /&gt;
        videoObjects.maskPlayer  = vision.VideoPlayer('Position', [20, 400, 700, 400]);&lt;br /&gt;
        videoObjects.videoPlayer = vision.VideoPlayer('Position', [740, 400, 700, 400]);&lt;br /&gt;
    end&lt;br /&gt;
&lt;br /&gt;
===== Create Detector Objects =====&lt;br /&gt;
&lt;br /&gt;
    function detectorObjects = setupDetectorObjects(minBlobArea)&lt;br /&gt;
        // Create System objects for foreground detection and blob analysis&lt;br /&gt;
        // The foreground detector segments moving objects from the&lt;br /&gt;
        // background. It outputs a binary mask, where the pixel value of 1&lt;br /&gt;
        // corresponds to the foreground and the value of 0 corresponds to&lt;br /&gt;
        // the background.&lt;br /&gt;
        detectorObjects.detector = vision.ForegroundDetector('NumGaussians', 3, ...&lt;br /&gt;
            'NumTrainingFrames', 40, 'MinimumBackgroundRatio', 0.7);&lt;br /&gt;
        // Connected groups of foreground pixels are likely to correspond to&lt;br /&gt;
        // moving objects.  The blob analysis System object finds such&lt;br /&gt;
        // groups (called 'blobs' or 'connected components') and computes&lt;br /&gt;
        // their characteristics, such as their areas, centroids, and the&lt;br /&gt;
        // bounding boxes.&lt;br /&gt;
        detectorObjects.blobAnalyzer = vision.BlobAnalysis('BoundingBoxOutputPort', true, ...&lt;br /&gt;
            'AreaOutputPort', true, 'CentroidOutputPort', true, ...&lt;br /&gt;
            'MinimumBlobArea', minBlobArea);&lt;br /&gt;
    end&lt;br /&gt;
&lt;br /&gt;
===== Detect Objects =====&lt;br /&gt;
&lt;br /&gt;
    function [detections, mask] = detectObjects(detectorObjects, frame)&lt;br /&gt;
        // Expected uncertainty (noise) for the blob centroid.&lt;br /&gt;
        measurementNoise = 100*eye(2);&lt;br /&gt;
        // Detect foreground.&lt;br /&gt;
        mask = detectorObjects.detector.step(frame);&lt;br /&gt;
        // Apply morphological operations to remove noise and fill in holes.&lt;br /&gt;
        mask = imopen(mask, strel('rectangle', [6, 6]));&lt;br /&gt;
        mask = imclose(mask, strel('rectangle', [50, 50]));&lt;br /&gt;
        mask = imfill(mask, 'holes');&lt;br /&gt;
        // Perform blob analysis to find connected components.&lt;br /&gt;
        [~, centroids, bboxes] = detectorObjects.blobAnalyzer.step(mask);&lt;br /&gt;
        // Formulate the detections as a list of objectDetection objects.&lt;br /&gt;
        numDetections = size(centroids, 1);&lt;br /&gt;
        detections = cell(numDetections, 1);&lt;br /&gt;
        for i = 1:numDetections&lt;br /&gt;
            detections{i} = objectDetection(frameCount, centroids(i,:), ...&lt;br /&gt;
                'MeasurementNoise', measurementNoise, ...&lt;br /&gt;
                'ObjectAttributes', {bboxes(i,:)});&lt;br /&gt;
        end&lt;br /&gt;
    end&lt;br /&gt;
&lt;br /&gt;
===== Display Tracking Results =====&lt;br /&gt;
&lt;br /&gt;
    function displayTrackingResults(videoObjects, confirmedTracks, frame, mask)&lt;br /&gt;
        % Convert the frame and the mask to uint8 RGB.&lt;br /&gt;
        frame = im2uint8(frame);&lt;br /&gt;
        mask = uint8(repmat(mask, [1, 1, 3])) .* 255;&lt;br /&gt;
        if ~isempty(confirmedTracks)&lt;br /&gt;
            // Display the objects. If an object has not been detected&lt;br /&gt;
            // in this frame, display its predicted bounding box.&lt;br /&gt;
            numRelTr = numel(confirmedTracks);&lt;br /&gt;
            boxes = zeros(numRelTr, 4);&lt;br /&gt;
            ids = zeros(numRelTr, 1, 'int32');&lt;br /&gt;
            predictedTrackInds = zeros(numRelTr, 1);&lt;br /&gt;
            for tr = 1:numRelTr&lt;br /&gt;
                // Get bounding boxes.&lt;br /&gt;
                boxes(tr, :) = confirmedTracks(tr).ObjectAttributes{1}{1};&lt;br /&gt;
                // Get IDs.&lt;br /&gt;
                ids(tr) = confirmedTracks(tr).TrackID;&lt;br /&gt;
                if confirmedTracks(tr).IsCoasted&lt;br /&gt;
                    predictedTrackInds(tr) = tr;&lt;br /&gt;
                end&lt;br /&gt;
            end&lt;br /&gt;
            predictedTrackInds = predictedTrackInds(predictedTrackInds &amp;gt; 0);&lt;br /&gt;
            // Create labels for objects that display the predicted rather&lt;br /&gt;
            // than the actual location.&lt;br /&gt;
            labels = cellstr(int2str(ids));&lt;br /&gt;
            isPredicted = cell(size(labels));&lt;br /&gt;
            isPredicted(predictedTrackInds) = {' predicted'};&lt;br /&gt;
            labels = strcat(labels, isPredicted);&lt;br /&gt;
            // Draw the objects on the frame.&lt;br /&gt;
            frame = insertObjectAnnotation(frame, 'rectangle', boxes, labels);&lt;br /&gt;
            // Draw the objects on the mask.&lt;br /&gt;
            mask = insertObjectAnnotation(mask, 'rectangle', boxes, labels);&lt;br /&gt;
        end&lt;br /&gt;
        // Display the mask and the frame.&lt;br /&gt;
        videoObjects.maskPlayer.step(mask);&lt;br /&gt;
        videoObjects.videoPlayer.step(frame);&lt;br /&gt;
    end&lt;br /&gt;
 end&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
=== Основные трудности ===&lt;br /&gt;
* Вычислительная нагрузка&lt;br /&gt;
** Нужно обрабатывать &amp;lt;tex&amp;gt;N&amp;lt;/tex&amp;gt; кадров в секунду&lt;br /&gt;
* Изменение по времени&lt;br /&gt;
** Вид объекта меняется от кадра к кадру из-за ракурса, изменения освещения, внутренний изменений&lt;br /&gt;
* Взаимодействие объектов&lt;br /&gt;
** Перекрытие объектов&lt;br /&gt;
** Визуальное сходство объектов&lt;br /&gt;
* Для оценки качества работы алгоритмов слежения и настройки параметров требуются размеченные эталонные данные&lt;br /&gt;
* Подготовить эталонные данные для видео существенно сложнее, чем для изображения&lt;br /&gt;
** Один эталонный пример для выделения объектов — ''одно'' изображение&lt;br /&gt;
** Один эталонный пример для отслеживания объектов — ''одно'' видео&lt;br /&gt;
* Сейчас есть хорошие конкурсы, но объём данных по прежнему ограничен, особенно для MOT&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Computer vision]]&lt;br /&gt;
*[[Компьютерное зрение]]&lt;br /&gt;
*[[Вырезание объекта на изображении]]&lt;br /&gt;
*[[Сегментация изображений]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
== Источники информации ==&lt;br /&gt;
1. [http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.115.2861&amp;amp;rep=rep1&amp;amp;type=pdf Hu W. M., Tan T. N., Wang L., Maybank S. A survey of visual surveillance of object motion and behaviors // IEEE Transactions on System, Man, and Cybernetics (T-SMC), Part C. – 2004. Vol. 34(3). – P. 334-352.]&lt;br /&gt;
&lt;br /&gt;
2. Лавелина Е.С., Закуанова М.Р., Масловская М.А. ОТСЛЕЖИВАНИЕ ОБЪЕКТОВ В ВИДЕОПОТОКЕ // Научное сообщество студентов XXI столетия. ТЕХНИЧЕСКИЕ НАУКИ: сб. ст. по мат. LIV междунар. студ. науч.-практ. конф. № 6(53). URL: https://sibac.info/archive/technic/6(53).pdf (дата обращения: 20.04.2020)&lt;br /&gt;
&lt;br /&gt;
3. [https://compscicenter.ru/media/courses/2018-spring/spb-images-and-video-2/slides/images_and_video_2_lecture_080518.pdf Анализ изображений и видео. Часть 2]&lt;br /&gt;
&lt;br /&gt;
4. [https://arxiv.org/pdf/1510.07945.pdf Learning Multi-Domain Convolutional Neural Networks for Visual Tracking]&lt;br /&gt;
&lt;br /&gt;
5. [https://www.mathworks.com/help/driving/examples/multiple-object-tracking-tutorial.html Multiple object tracking tutorial]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%BF%D0%BE%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F&amp;diff=76765</id>
		<title>Оценка положения</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%9E%D1%86%D0%B5%D0%BD%D0%BA%D0%B0_%D0%BF%D0%BE%D0%BB%D0%BE%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F&amp;diff=76765"/>
				<updated>2021-01-08T07:15:34Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;{{В разработке}}&lt;br /&gt;
{{Определение&lt;br /&gt;
|definition =&lt;br /&gt;
'''Оценка положения''' (англ. ''Pose Estimation'') {{---}} задача определения положения и ориентации объекта или группы объектов в пространстве.&lt;br /&gt;
}}&lt;br /&gt;
&lt;br /&gt;
== Области применения ==&lt;br /&gt;
Задача оценки положения движущихся и статичных объектов возникает во множестве прикладных областей. Сейчас происходит подъем популярности разработки устройств и систем, отслеживающих положения объектов окружающего мира и использующих эту информацию для различных целей. Рассмотрим несколько областей:&lt;br /&gt;
&lt;br /&gt;
#'''Транспортные средства с встроенными системами помощи водителю ''' ''(автопилот, круиз контроль и др.)''. Эти системы помогают водителю с парковкой, контролируют скорость и направление движения, а также предупреждают об объектах, находящихся на дороге, о типе дорожного покрытия и возможных авариях.&lt;br /&gt;
#'''Дополненная реальность: '''устройства, в которых в реальное изображение, получаемое с помощью видеокамер, встраивается некоторая информация, полезная человеку.&lt;br /&gt;
#'''Виртуальная реальность: '''оценка положения, как технология, является критически важной для достижения эффекта погружения в виртуальную реальность. В сочетании с отслеживанием ориентации становится возможным измерять и передавать в виртуальную реальность все 6 степеней свободы ([https://en.wikipedia.org/wiki/Six_degrees_of_freedom 6-DoF]) реального мира.&lt;br /&gt;
#'''Робототехника: '''роботы (медицинские, научные, промышленные и др.), которые основывают свое движение на построении карты окружения и препятствий.&lt;br /&gt;
#'''Веб-технологии: '''исследование пользовательского опыта и удобства использования продукта. Можно [[Отслеживание_направления_взгляда_пользователя_в_браузере|отслеживать взгляд пользователя]], чтобы понимать какие блоки сайта привлекают наибольшее внимание.&lt;br /&gt;
&lt;br /&gt;
== Методы решения задачи оценки положения ==&lt;br /&gt;
=== Акустические методы===&lt;br /&gt;
&lt;br /&gt;
Акустические приборы слежения используют ультразвуковые (высокочастотные) звуковые волны для измерения положения и ориентации целевого объекта в пространстве. Для определения положения объекта либо измеряется время пролёта ([https://en.wikipedia.org/wiki/Time_of_arrival time-of-arrival]) звуковой волны от передатчика к приёмникам, либо разность фаз синусоидальной звуковой волны при приёмо-передаче. Алгоритмы отслеживания положения при использовании акустических приборов основаны на [https://en.wikipedia.org/wiki/True_range_multilateration трилатерации] и расчете [https://en.wikipedia.org/wiki/Angle_of_arrival угла прибытия]. При использовании данных методов разработчики сталкиваются с некоторыми проблемами: акустические трекеры, как правило, имеют низкую скорость обновления, связанную с низкой скоростью звука в воздухе, которая зависит от внешних факторов среды, таких как температура, давление и влажность.&lt;br /&gt;
&lt;br /&gt;
=== Радиочастотные методы ===&lt;br /&gt;
&lt;br /&gt;
Методов, основанных на радиочастотах, достаточно много.&lt;br /&gt;
#'''Позиционированиe с использованием пассивных радиочастотных идентификаторов [https://ru.wikipedia.org/wiki/RFID#Антиколлизионный_механизм_(меток) RFID]''' &amp;lt;br/&amp;gt; Основное назначение систем с пассивными RFID метками {{---}} идентификация. Они применяются в системах, традиционно использовавших штрих-коды или магнитные карточки: в системах распознавания товаров и грузов, опознания людей, в системах контроля и управления доступом (СКУД) и т.п. Система включает RFID метки с уникальными кодами и считыватели и работает следующим образом. Считыватель непрерывно генерирует радиоизлучение заданной частоты. ЧИП метки, попадая в зону действия считывателя, использует это излучение в качестве источника электропитания и передает на считыватель идентификационный код. Радиус действия считывателя составляет около метра.&lt;br /&gt;
#'''Позиционирование с использованием активных RFID ''' &amp;lt;br/&amp;gt;Активные радиочастотные метки используются при необходимости отслеживания предметов на относительно больших расстояниях (например, на территории сортировочной площадки). Рабочие частоты активных RFID меток {{---}} 455МГц, 2.4ГГц или 5.8ГГц, а радиус действия {{---}} до ста метров. Питаются активные метки от встроенного аккумулятора. Существуют активные метки двух типов: [https://ru.wikipedia.org/wiki/Транспондер транспондеры] и [https://ru.wikipedia.org/wiki/Маркерный_радиомаяк радиомаяки]. Транспондеры включаются, получая сигнал считывателя. Они применяются в АС оплаты проезда, на КПП, въездных порталах и других подобных системах. Радиомаяки используются в системах позиционирования реального времени. Радиомаяк отправляет пакеты с уникальным идентификационным кодом по команде либо с заданной периодичностью. Пакеты принимаются как минимум тремя приемниками, расположенными по периметру контролируемой зоны. Расстояние от маячка до приемников с фиксированными координатами определяются по углу направления на маячок [https://en.wikipedia.org/wiki/Angle_of_arrival  Angle of arrival] (AoA), по времени прихода сигнала [https://en.wikipedia.org/wiki/Time_of_arrival Time of arrival] (ToA) или по времени распространения сигнала от маячка до приемника [https://en.wikipedia.org/wiki/Time_of_flight Time of flight] (ToF). Инфраструктура системы строится на базе проводной сети и в двух последних случаях требует синхронизации.&lt;br /&gt;
#''' Ultra Wideband (UWB) позиционирование '''&amp;lt;br/&amp;gt; Технология UWB (сверхширокополосная) использует короткие импульсы с максимальной полосой пропускания при минимальной центральной частоте. У большинства производителей центральная частота составляет несколько гигагерц, а относительная ширина полосы {{---}} 25-100%. Технология используется в связи, радиолокации, измерении расстояний и позиционировании. Это обеспечивается передачей коротких импульсов, широкополосных по своей природе. Идеальный импульс (волна конечной амплитуды и бесконечно малой длительности), как показывает [https://ru.wikipedia.org/wiki/Анализ_Фурье анализ Фурье], обеспечивает бесконечную полосу пропускания. UWB сигнал не походит на модулированные синусоидальные волны, а напоминает серию импульсов. Производители предлагают разные варианты UWB технологии. Различаются формы импульсов. В некоторых случаях используются относительно мощные одиночные импульсы, в других {{---}} сотни миллионов маломощных импульсов в секунду. Применяется как когерентная (последовательная) обработка сигнала, так и не когерентная. Все это приводит к значительному различию характеристик UWB систем разных производителей.&lt;br /&gt;
&lt;br /&gt;
=== Магнитные методы ===&lt;br /&gt;
Магнитные методы основаны на измерении интенсивности магнитного поля в различных направлениях. Как правило, в таких системах есть [https://ru.wikipedia.org/wiki/Базовая_станция базовая станция], которая генерирует переменный или постоянный ток. Так как сила магнитного поля уменьшается с увеличением расстояния между точкой измерения и базовой станцией, можно определить местоположение контроллера, зная силу магнитного поля. Если точка измерения вращается, то распределение магнитного поля изменяется по различным осям, что позволяет определить ориентацию. Наиболее известными продуктами на основе магнитного трекинга являются [https://ru.wikipedia.org/wiki/Виртуальная_реальность VR] контроллер [https://ru.wikipedia.org/wiki/Hydra_(контроллер) Razer Hydra] и система [https://www.sixense.com/platform/hardware/ STEM] от компании Sixense. Точность данного метода может быть достаточна высока в контролируемых условиях (в спецификациях Hydra говорится о 1 мм позиционной точности и 1 градусе точности ориентации), однако магнитное отслеживание подвержено помехам от токопроводящих материалов вблизи излучателя или датчика, от магнитных полей, создаваемых другими электронными устройствами и ферромагнитных материалов в пространстве отслеживания.&lt;br /&gt;
&lt;br /&gt;
=== Оптические методы ===&lt;br /&gt;
Оптические методы представляют собой совокупность алгоритмов [http://neerc.ifmo.ru/wiki/index.php?title=Компьютерное_зрение компьютерного зрения] и отслеживающих устройств, в роли которых выступают камеры видимого или инфракрасного диапазона, стерео-камеры и камеры глубины. Оптический трекинг основан на том же принципе, что и стереоскопическое зрениe человека. Когда человек смотрит на объект с помощью бинокулярного зрения, он в состоянии определить, приблизительно на каком расстоянии объект находится. Не достаточно просто установить несколько камер для имитации стереоскопического зрения человека. Камеры должны определить расстояние до объекта и его положения в пространстве, так что их необходимо откалибровать. [https://ru.wikipedia.org/wiki/Оптическая_система Оптические системы] надежны и относительно дешевы, но с ними трудно провести начальную калибровку. Кроме того, система требует прямой линии света, в противном случае мы получаем неправильные данные. &lt;br /&gt;
В зависимости от наличия специальных оптических маркеров выделяют отдельно:&lt;br /&gt;
*'''Безмаркерный трекинг: '''как правило строится на сложных алгоритмах с использованием двух и более камер, либо стерео-камер с сенсорами глубины. Используется наибольшим образом в автомобилях с автопилотом и иными системами помощи водителю.&lt;br /&gt;
*'''Трекинг с использованием маркеров:''' предполагает заранее заданную модель объекта, которую можно отслеживать даже с одной камерой. Маркерами обычно служат источники инфракрасного излучения (как активные, так и пассивные), а также видимые маркеры наподобие [https://ru.wikipedia.org/wiki/QR-код QR]-кодов. Такой вид трекинга возможен только в пределах прямой видимости маркера.&lt;br /&gt;
&lt;br /&gt;
=== Задача Perspective-n-Point (PnP) ===&lt;br /&gt;
При оптическом отслеживании для определения положения объекта в пространстве решается так называемая задача PnP (Perspective-n-Point), когда по перспективной проекции объекта на плоскость сенсора камеры необходимо определить положение объекта в 3D-пространстве.&lt;br /&gt;
&lt;br /&gt;
Для заданной 3D-модели объекта и 2D-проекции объекта на плоскость камеры решается система уравнений. В результате чего получается множество возможных решений. Количество решений зависит от числа точек в 3D-модели объекта. Однозначное решение для определения 6-DoF положения объекта можно получить как минимум при 4 точках. Для треугольника получается от 2 до 4 возможных решений, то есть положение не может быть определено однозначно. &lt;br /&gt;
&lt;br /&gt;
&amp;lt;div style=&amp;quot;text-align: center&amp;quot;&amp;gt;&amp;lt;ul&amp;gt; &lt;br /&gt;
&amp;lt;li style=&amp;quot;display: inline-block;&amp;quot;&amp;gt; [[Файл:Pnp.gif |400px|thumb|center| Рис. 1 Задача (PnP)]] &amp;lt;/li&amp;gt;&lt;br /&gt;
&amp;lt;li style=&amp;quot;display: inline-block;&amp;quot;&amp;gt; [[Файл:triangles.gif |400px|thumb|center| Рис. 2 Решение &amp;quot;треугольников&amp;quot;]] &amp;lt;/li&amp;gt;&lt;br /&gt;
&amp;lt;/ul&amp;gt;&amp;lt;/div&amp;gt;&lt;br /&gt;
&lt;br /&gt;
Решение предлагается достаточно большим количеством алгоритмов, реализованных в виде библиотек:&lt;br /&gt;
#'''[http://sv-journal.org/2015-4/09/index.php?lang=ru POS]''' ''(Pose from Orthography and Scaling)'', аппроксимирующий перспективную проекцию с помощью масштабированной ортогональной проекции и находящий матрицу поворота и вектор сдвига объекта путём решения линейной системы уравнений.&lt;br /&gt;
#'''[https://github.com/opencv/opencv/wiki/Posit POSIT]''' ''(POS with ITerations)'', который использует в цикле аппроксимацию нахождения положения POS для нахождения более хорошей масштабированной ортогональной проекции особых точек, а затем применяет POS к этим точкам, а не к исходным. POSIT сходится к точному решению за несколько итераций.&lt;br /&gt;
#'''[https://opencv.org/ OpenCV]''' {{---}} библиотека компьютерного зрения широкого назначения с открытым исходным кодом. Основные части библиотеки {{---}} интерпретация изображений и алгоритмы машинного обучения. Список возможностей, предоставляемых OpenCV, весьма обширен: интерпретация изображений, калибровка камеры по эталону, устранение оптических искажений, анализ перемещения объекта, определение формы объекта и слежение за объектом, сегментация объекта и др. Нам же интереcен метод [https://docs.opencv.org/3.1.0/d9/d0c/group__calib3d.html#ga549c2075fac14829ff4a58bc931c033d solvePnP].&lt;br /&gt;
&lt;br /&gt;
=== SLAM&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/SLAM_(%D0%BC%D0%B5%D1%82%D0%BE%D0%B4) simultaneous localization and mapping ]&amp;lt;/ref&amp;gt; {{---}} Simultaneous Localization and Mapping ===&lt;br /&gt;
 Метод одновременной локализации и построения карты (SLAM) {{---}} наиболее популярный способ позиционирования, который применяется для отслеживания положения в пространстве.[[Файл:Slam.png |400px|thumb| right| Рис. 3 Метод SLAM]]&lt;br /&gt;
Алгоритм состоит из двух частей: первая {{---}} составление карты неизвестного окружающего пространства на основе измерений (данные с [https://ru.wikipedia.org/wiki/Одометр одометра] или [https://ru.wikipedia.org/wiki/Стереоскопический_фотоаппарат стерео-камеры]), вторая {{---}} определение своего местоположения (локализация) в пространстве на основе сравнения текущих измерений с имеющейся картой пространства. Данный цикл непрерывно перевычисляется, при этом результаты одного процесса участвуют в вычислениях другого процесса. Наиболее популярные методы решения задачи включают в себя фильтр частиц и расширенный [https://ru.wikipedia.org/wiki/Фильтр_Калмана фильтр Калмана]. SLAM удобен для мобильных решений виртуальной и дополненной реальности. Недостатком данного подхода является большая вычислительная сложность.&lt;br /&gt;
&lt;br /&gt;
=== Инерциальный трекинг ===&lt;br /&gt;
Современные инерциальные измерительные системы ([https://en.wikipedia.org/wiki/Inertial_measurement_unit IMU]) на основе [https://ru.wikipedia.org/wiki/Микроэлектромеханические_системы MEMS-технологии] позволяют отслеживать ориентацию (roll, pitch, yaw) в пространстве с большой точностью и минимальными задержками.[[Файл:gyro.gif |400px|thumb| right| Рис. 4 MEMS]]&lt;br /&gt;
Благодаря алгоритмам [https://en.wikipedia.org/wiki/Sensor_fusion «sensor fusion»] на основе [https://robotclass.ru/articles/complementary-filter комплементарного фильтра] или фильтра Калмана данные с гироскопа и акселерометра успешно корректируют друг друга и обеспечивают точность как для кратковременных измерений, так и для длительного периода. Однако определение координат (перемещения) за счёт двойного интегрирования линейного ускорения ([https://en.wikipedia.org/wiki/Dead_reckoning dead reckoning]), вычисленного из сырых данных с [https://ru.wikipedia.org/wiki/Акселерометр акселерометра], не удовлетворяет требованиям по точности на длительных периодах времени. Акселерометр сам по себе даёт сильно зашумленные данные, и при интегрировании ошибка увеличивается со временем квадратично.&lt;br /&gt;
Решить данную проблему помогает комбинирование инерциального подхода к трекингу с другими методами, которые периодически корректируют так называемый дрифт акселерометра.&lt;br /&gt;
&lt;br /&gt;
=== Гибридные методы ===&lt;br /&gt;
Так как ни один из методов не является безупречным, и все они имеют свои слабые места, наиболее разумно комбинировать различные методы отслеживания. Так инерциальный трекинг (IMU) может обеспечить высокую частоту обновления данных (до 1000 Гц), в то время как оптические методы могут дать стабильную точность в длительные периоды времени (корректирование дрифта).&lt;br /&gt;
&lt;br /&gt;
== Оценка положения человека ==&lt;br /&gt;
&lt;br /&gt;
[[Файл:Deformable.png|600px|thumb|right|Рис. 5 Изобразительные структуры в классическом подходе решения задачи оценки положения человека.]]&lt;br /&gt;
&lt;br /&gt;
[[Оценка положения человека|Оценка положения человека (англ. ''Human Pose Estimation'')]] {{---}} одна из важных задач последних нескольких десятилетий в области компьютерного зрения, которая является необходимым шагом к распознаванию людей на изображениях и видео. Задачу разбивают на 2 категории: &lt;br /&gt;
&lt;br /&gt;
* Оценка положения в плоскости (англ. ''2D Human Pose Estimation'') {{---}} определение расположения отдельных частей тела и суставов человека (англ. ''keypoints/body joints'') на изображении.&lt;br /&gt;
* Оценка положения в пространстве (англ. ''3D Human Pose Estimation'') {{---}} предсказание пространственного расположения тела человека.&lt;br /&gt;
&lt;br /&gt;
Оценку положения человека использует множество областей. В частности, распознавание жестов, упрощение анимации персонажей, в разработке игр, и другое.&lt;br /&gt;
&lt;br /&gt;
Существуют различные подходы к решению данной задачи. Классический подход {{---}} использование изобразительных структур (англ. ''pictoral structures''). Основная идея заключается в том, чтобы представить объект в виде набора &amp;quot;частей&amp;quot;, соединенных пружинами (Рис. 5). Каждая &amp;quot;часть&amp;quot; является деталью внешности(нога, рука, глаз и др.), соответствующим изображению. Когда части параметризованы расположением пикселей и ориентацией, полученная структура может моделировать &amp;quot;каркас&amp;quot; в положении человека. Однако этот подход ограничен количеством таких заранее построенных блочных структур, ведь они не зависят от входного изображения. Проводившиеся исследования были сосредоточены на обогащении репрезентативной силы этого метода, однако существуют более удачные подходы. Альтернативный подход {{---}} использование [[Сверточные нейронные сети|сверточных нейронных сетей (англ. ''Convolutional Neural Network, CNN'')]] и [[Глубокое обучение|глубокого обучения (англ. ''Deep learning'')]]. Большинство последних систем оценки положения человека используют именно этот подход, в значительной степени заменяя созданные вручную функции и графические модели. Использование машинного обучения значительно улучшило результаты.&lt;br /&gt;
&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Отслеживание направления взгляда пользователя в браузере]]&lt;br /&gt;
*[[Сегментация изображений]]&lt;br /&gt;
*[[Вписывание части изображения]]&lt;br /&gt;
&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
== Источники информации==&lt;br /&gt;
&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/RFID#Антиколлизионный_механизм_(меток) Радиочастотная идентификация.]&lt;br /&gt;
* [https://ru.qwe.wiki/wiki/Augmented_reality Дополненная реальность.]&lt;br /&gt;
* [https://ru.qwe.wiki/wiki/Positional_tracking Positional tracking.]&lt;br /&gt;
* [http://docs.cntd.ru/document/gost-r-54621-2011 ГОСТ Р 54621-2011. Информационные технологии. Радиочастотная идентификация для управления предметами.]&lt;br /&gt;
* [https://habr.com/ru/post/482220/ Локализация по Aruco маркерам]&lt;br /&gt;
* [https://habr.com/ru/post/397757/ Обзор методов и технологий отслеживания положения для виртуальной реальности.]&lt;br /&gt;
* [https://nanonets.com/blog/object-tracking-deepsort/ DeepSORT: Deep Learning to Track Custom Objects in a Video.]&lt;br /&gt;
* [https://nanonets.com/blog/human-pose-estimation-2d-guide/ Оценка положения человека.]&lt;br /&gt;
&lt;br /&gt;
{{В разработке}}&lt;br /&gt;
&lt;br /&gt;
[[Категория:Компьютерное зрение]]&lt;br /&gt;
[[Категория:Оценка положения]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76764</id>
		<title>Многопоточность в машинном обучении</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76764"/>
				<updated>2021-01-08T07:06:37Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Следует выделить следующие виды параллелизма:&lt;br /&gt;
* Параллелизм на уровне инструкций ([https://ru.wikipedia.org/wiki/%D0%9F%D0%B0%D1%80%D0%B0%D0%BB%D0%BB%D0%B5%D0%BB%D0%B8%D0%B7%D0%BC_%D0%BD%D0%B0_%D1%83%D1%80%D0%BE%D0%B2%D0%BD%D0%B5_%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4 ILP]): несколько инструкций исполняются одновременно.&lt;br /&gt;
* Параллелизм типа одна инструкция множество данных ([https://ru.wikipedia.org/wiki/SIMD SIMD]): одна операция применяется к множеству данных&lt;br /&gt;
* Многопоточный параллелизм: несколько независимых рабочих потоков взаимодействуют через абстракцию совместно используемой памяти.&lt;br /&gt;
* Распределенные вычисления: несколько независимых рабочих компьютеров взаимодействуют по сети. ([https://spark.apache.org/mllib/ MLlib] на Spark, [https://mahout.apache.org/ Mahout] на Hadoop)&lt;br /&gt;
&lt;br /&gt;
== Идеи используемые для ускорения вычислений в ML ==&lt;br /&gt;
=== Параллелизм для ускорения линейной алгебры. ===&lt;br /&gt;
Многие операции линейной алгебры, например, векторное сложение, произведение матриц и вычисление нормы состоят из большого количества независимых операций. Поэтому можно сильно повысить их производительность как за счёт ILP и SIMD параллелизма для маленьких данных, так и за счёт многопоточности для больших данных. От ускорения линейной алгебры особенно выигрывают нейронные сети, так как большую часть времени их работы занимает умножение матриц.&lt;br /&gt;
&lt;br /&gt;
Иногда необходимо выполнить операцию с объектам имеющими разнаю размерность, но которые можно привести к одной размерности повторением одного из объектов вдоль одной или нескольких осей. Например, если нужно прибавить к каждой строке матрицы вектор или домножить вектор на число. В таком случае можно не писать цикл в явном виде, а использовать broadcast операции. При этом задача оптимизации переходит к разработчику библиотеки, который может обеспечить лучший параллелизм операций за счет доступа к внутренностям библиотеки. &lt;br /&gt;
&lt;br /&gt;
Примеры оптимизаций:&lt;br /&gt;
* Высоко оптимизированные тензорные библиотеки для арифметики.&lt;br /&gt;
* Алгоритмы в терминах матричных операций, а не векторных операций, насколько это возможно.&lt;br /&gt;
* Broadcast операции вместо циклов.&lt;br /&gt;
* Распараллеленные реализации некоторых специальных операций (таких как свертки для [[Сверточные нейронные сети | CNN]]).&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в оптимизации гиперпараметров ===&lt;br /&gt;
Для параллельной [[Настройка гиперпараметров | оптимизации гиперпараметров]] можно использовать поиск по решётке или случайный поиск в которых мы можем оценить параметры независимо.&lt;br /&gt;
Такая оптимизации часто встречаются в библиотеках машинного обучения.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм кросс-валидации ===&lt;br /&gt;
Полная [[Кросс-валидация | кросс-валидация]], k-fold, t×k-fold, Leave-One-Out легко распараллеливаются на несколько потоков, каждый из которых работает на своем разбиении данных&lt;br /&gt;
&lt;br /&gt;
[[Файл:ParallelCrossValidation.png|500px]]&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм GPU&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%93%D1%80%D0%B0%D1%84%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81%D0%BE%D1%80 GPU]&amp;lt;/ref&amp;gt; ===&lt;br /&gt;
Графические процессоры позволяют применять одну и ту же операцию параллельно к десяткам тысяч элементов за счет большого числа потоков.&lt;br /&gt;
&lt;br /&gt;
Фреймворки машинного обучения, такие как TensorFlow, PyTorch и MxNet используют эти возможности через библиотеки от компаний производителей графических ускорителей и открытые фреймворки:&lt;br /&gt;
* [https://developer.nvidia.com/cuda-toolkit CUDA] — язык параллельного программирования/вычислительная платформа для вычислений общего назначения на графическом процессоре&lt;br /&gt;
* [https://developer.nvidia.com/cublas cuBLAS] — библиотека представляет собой реализацию BLAS (базовых подпрограмм линейной алгебры) поверх среды выполнения CUDA.&lt;br /&gt;
* [https://www.khronos.org/opencl/ OpenCL] — фреймворк для написания компьютерных программ, связанных с параллельными вычислениями на различных графических и центральных процессорах, а также FPGA&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на cuBLAS&lt;br /&gt;
  void gpu_blas_mmul(cublasHandle_t &amp;amp;handle, const float *A, const float *B, float *C, const int m, const int k, const int n) {&lt;br /&gt;
      int lda = m, ldb = k, ldc = m;&lt;br /&gt;
      const float alf = 1;&lt;br /&gt;
      const float bet = 0;&lt;br /&gt;
      const float *alpha = &amp;amp;alf;&lt;br /&gt;
      const float *beta = &amp;amp;bet;&lt;br /&gt;
      // Do the actual multiplication&lt;br /&gt;
      cublasSgemm(handle, CUBLAS_OP_N, CUBLAS_OP_N, m, n, k, alpha, A, lda, B, ldb, beta, C, ldc);&lt;br /&gt;
  }&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на PyCUDA&lt;br /&gt;
  import pycuda.gpuarray as gpuarray&lt;br /&gt;
  import numpy as np&lt;br /&gt;
  import skcuda.linalg as linalg&lt;br /&gt;
  # --- Initializations&lt;br /&gt;
  import pycuda.autoinit&lt;br /&gt;
  linalg.init()&lt;br /&gt;
   &lt;br /&gt;
  A = np.array(([1, 2, 3], [4, 5, 6])).astype(np.float64)&lt;br /&gt;
  B = np.array(([7, 8, 1, 5], [9, 10, 0, 9], [11, 12, 5, 5])).astype(np.float64)&lt;br /&gt;
   &lt;br /&gt;
  A_gpu = gpuarray.to_gpu(A)&lt;br /&gt;
  B_gpu = gpuarray.to_gpu(B)&lt;br /&gt;
   &lt;br /&gt;
  C_gpu = linalg.dot(A_gpu, B_gpu)&lt;br /&gt;
   &lt;br /&gt;
  print(np.dot(A, B))&lt;br /&gt;
  print(C_gpu)&lt;br /&gt;
&lt;br /&gt;
Наивная реализация перемножения матриц на OpenCL&lt;br /&gt;
  // First naive implementation&lt;br /&gt;
  __kernel void myGEMM1(const int M, const int N, const int K,&lt;br /&gt;
                        const __global float *A,&lt;br /&gt;
                        const __global float *B,&lt;br /&gt;
                        __global float *C) {&lt;br /&gt;
       &lt;br /&gt;
      // Thread identifiers&lt;br /&gt;
      const int globalRow = get_global_id(0); // Row ID of C (0..M)&lt;br /&gt;
      const int globalCol = get_global_id(1); // Col ID of C (0..N)&lt;br /&gt;
       &lt;br /&gt;
      // Compute a single element (loop over K)&lt;br /&gt;
      float acc = 0.0f;&lt;br /&gt;
      for (int k = 0; k &amp;lt; K; k++) {&lt;br /&gt;
          acc += A[k * M + globalRow] * B[globalCol * K + k];&lt;br /&gt;
      }&lt;br /&gt;
       &lt;br /&gt;
      // Store the result&lt;br /&gt;
      C[globalCol * M + globalRow] = acc;&lt;br /&gt;
  }&lt;br /&gt;
=== Параллелизм в стохастическом градиентном спуске ===&lt;br /&gt;
Можно запустить внешний цикл [[Стохастический градиентный спуск|стохастического градиентного спуска (SGD)]] параллельно в пуле потоков и использовать конструкции синхронизации, такие как блокировки, чтобы предотвратить состояние гонки. Однако из-за накладных расходов на синхронизацию ускорение может получиться маленьким. &lt;br /&gt;
&lt;br /&gt;
Еще более интересная идея называется асинхронным SGD или Hogwild&amp;lt;ref&amp;gt;[https://arxiv.org/abs/1106.5730 HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
SGD запускается параллельно в несколько потоков без какой-либо синхронизации. Теперь состояния гонки могут возникнуть, но во многих случаях это хорошо, потому что они просто немного изменяют шум и ошибки уже присутствующие из-за случайного выбора градиента.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе k ближайших соседей ===&lt;br /&gt;
Основное время работы [[Метрический классификатор и метод ближайших соседей|метода k ближайших соседей]] составляет поиск ближайших соседей. &lt;br /&gt;
Так как расстояния до разных объектов независимы, то можно разбить объекты на группы, параллельно решить задачу во всех группах, а потом объединить результат&amp;lt;ref&amp;gt;[http://ceres-journal.eu/download.php?file=2019_01_01.pdf Implementation of a Parallel K-Nearest Neighbor Algorithm Using MPI]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Альтернативный подход — параллельная сортировка всех объектов, например, с использованием битонной сортировки&amp;lt;ref&amp;gt;[https://users.cs.duke.edu/~nikos/reprints/knn-TR-CS-2012-03.pdf Parallel Search of k-Nearest Neighbors with Synchronous Operations]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе опорных веторов ===&lt;br /&gt;
Вычислительная сложность [[Метод опорных векторов (SVM)|метода опорных векторов]] заключается в минимизации квадратичной функции. &lt;br /&gt;
Первый вариант распараллеливания задачи — добавление параллелизма в алгоритм в явном виде, например, параллельная оптимизация большего количества переменных в SMO&amp;lt;ref&amp;gt;[https://publikationen.uni-tuebingen.de/xmlui/bitstream/handle/10900/49015/pdf/tech_21.pdf Parallel Support Vector Machines]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Второй подход — запись алгоритма через матричные операции, которые легко параллелизируемы&amp;lt;ref&amp;gt;[https://www.researchgate.net/publication/6265163_Multiplicative_Updates_for_Nonnegative_Quadratic_Programming Multiplicative Updates for Nonnegative Quadratic Programming]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Стохастический градиентный спуск]]&lt;br /&gt;
*[[Кросс-валидация]]&lt;br /&gt;
*[[Настройка гиперпараметров]]&lt;br /&gt;
*[[Метод опорных векторов (SVM)]]&lt;br /&gt;
*[[Метрический классификатор и метод ближайших соседей]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
== Источники информации ==&lt;br /&gt;
# [http://www.cs.cornell.edu/courses/cs4787/2019sp/notes/lecture1.pdf Principles of Large-Scale Machine Learning]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/pdf/CUBLAS_Library.pdf cuBLAS library user guide]&lt;br /&gt;
# [https://solarianprogrammer.com/2012/05/31/matrix-multiplication-cuda-cublas-curand-thrust/ Matrix multiplication on GPU using CUDA with CUBLAS]&lt;br /&gt;
# [https://medium.com/@CIulius/a-short-notice-on-performing-matrix-multiplications-in-pycuda-cbfb00cf1450 A short notice on performing matrix multiplications in PyCUDA]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html CUDA C++ Programming Guide]&lt;br /&gt;
# [https://cnugteren.github.io/tutorial/pages/page1.html OpenCL SGEMM tuning for Kepler]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76763</id>
		<title>Многопоточность в машинном обучении</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76763"/>
				<updated>2021-01-08T07:04:25Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Следует выделить следующие виды параллелизма:&lt;br /&gt;
* Параллелизм на уровне инструкций ([https://ru.wikipedia.org/wiki/%D0%9F%D0%B0%D1%80%D0%B0%D0%BB%D0%BB%D0%B5%D0%BB%D0%B8%D0%B7%D0%BC_%D0%BD%D0%B0_%D1%83%D1%80%D0%BE%D0%B2%D0%BD%D0%B5_%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4 ILP]): несколько инструкций исполняются одновременно.&lt;br /&gt;
* Параллелизм типа одна инструкция множество данных ([https://ru.wikipedia.org/wiki/SIMD SIMD]): одна операция применяется к множеству данных&lt;br /&gt;
* Многопоточный параллелизм: несколько независимых рабочих потоков взаимодействуют через абстракцию совместно используемой памяти.&lt;br /&gt;
* Распределенные вычисления: несколько независимых рабочих компьютеров взаимодействуют по сети. ([https://spark.apache.org/mllib/ MLlib] на Spark{{Входит в экосистему проектов Hadoop}}, [https://mahout.apache.org/ Mahout] на Hadoop)&lt;br /&gt;
&lt;br /&gt;
== Идеи используемые для ускорения вычислений в ML ==&lt;br /&gt;
=== Параллелизм для ускорения линейной алгебры. ===&lt;br /&gt;
Многие операции линейной алгебры, например, векторное сложение, произведение матриц и вычисление нормы состоят из большого количества независимых операций. Поэтому можно сильно повысить их производительность как за счёт ILP и SIMD параллелизма для маленьких данных, так и за счёт многопоточности для больших данных. От ускорения линейной алгебры особенно выигрывают нейронные сети, так как большую часть времени их работы занимает умножение матриц.&lt;br /&gt;
&lt;br /&gt;
Иногда необходимо выполнить операцию с объектам имеющими разнаю размерность, но которые можно привести к одной размерности повторением одного из объектов вдоль одной или нескольких осей. Например, если нужно прибавить к каждой строке матрицы вектор или домножить вектор на число. В таком случае можно не писать цикл в явном виде, а использовать broadcast операции. При этом задача оптимизации переходит к разработчику библиотеки, который может обеспечить лучший параллелизм операций за счет доступа к внутренностям библиотеки. &lt;br /&gt;
&lt;br /&gt;
Примеры оптимизаций:&lt;br /&gt;
* Высоко оптимизированные тензорные библиотеки для арифметики.&lt;br /&gt;
* Алгоритмы в терминах матричных операций, а не векторных операций, насколько это возможно.&lt;br /&gt;
* Broadcast операции вместо циклов.&lt;br /&gt;
* Распараллеленные реализации некоторых специальных операций (таких как свертки для [[Сверточные нейронные сети | CNN]]).&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в оптимизации гиперпараметров ===&lt;br /&gt;
Для параллельной [[Настройка гиперпараметров | оптимизации гиперпараметров]] можно использовать поиск по решётке или случайный поиск в которых мы можем оценить параметры независимо.&lt;br /&gt;
Такая оптимизации часто встречаются в библиотеках машинного обучения.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм кросс-валидации ===&lt;br /&gt;
Полная [[Кросс-валидация | кросс-валидация]], k-fold, t×k-fold, Leave-One-Out легко распараллеливаются на несколько потоков, каждый из которых работает на своем разбиении данных&lt;br /&gt;
&lt;br /&gt;
[[Файл:ParallelCrossValidation.png|500px]]&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм GPU&amp;lt;ref&amp;gt;[https://ru.wikipedia.org/wiki/%D0%93%D1%80%D0%B0%D1%84%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81%D0%BE%D1%80 GPU]&amp;lt;/ref&amp;gt; ===&lt;br /&gt;
Графические процессоры позволяют применять одну и ту же операцию параллельно к десяткам тысяч элементов за счет большого числа потоков.&lt;br /&gt;
&lt;br /&gt;
Фреймворки машинного обучения, такие как TensorFlow, PyTorch и MxNet используют эти возможности через библиотеки от компаний производителей графических ускорителей и открытые фреймворки:&lt;br /&gt;
* [https://developer.nvidia.com/cuda-toolkit CUDA] — язык параллельного программирования/вычислительная платформа для вычислений общего назначения на графическом процессоре&lt;br /&gt;
* [https://developer.nvidia.com/cublas cuBLAS] — библиотека представляет собой реализацию BLAS (базовых подпрограмм линейной алгебры) поверх среды выполнения CUDA.&lt;br /&gt;
* [https://www.khronos.org/opencl/ OpenCL] — фреймворк для написания компьютерных программ, связанных с параллельными вычислениями на различных графических и центральных процессорах, а также FPGA&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на cuBLAS&lt;br /&gt;
  void gpu_blas_mmul(cublasHandle_t &amp;amp;handle, const float *A, const float *B, float *C, const int m, const int k, const int n) {&lt;br /&gt;
      int lda = m, ldb = k, ldc = m;&lt;br /&gt;
      const float alf = 1;&lt;br /&gt;
      const float bet = 0;&lt;br /&gt;
      const float *alpha = &amp;amp;alf;&lt;br /&gt;
      const float *beta = &amp;amp;bet;&lt;br /&gt;
      // Do the actual multiplication&lt;br /&gt;
      cublasSgemm(handle, CUBLAS_OP_N, CUBLAS_OP_N, m, n, k, alpha, A, lda, B, ldb, beta, C, ldc);&lt;br /&gt;
  }&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на PyCUDA&lt;br /&gt;
  import pycuda.gpuarray as gpuarray&lt;br /&gt;
  import numpy as np&lt;br /&gt;
  import skcuda.linalg as linalg&lt;br /&gt;
  # --- Initializations&lt;br /&gt;
  import pycuda.autoinit&lt;br /&gt;
  linalg.init()&lt;br /&gt;
   &lt;br /&gt;
  A = np.array(([1, 2, 3], [4, 5, 6])).astype(np.float64)&lt;br /&gt;
  B = np.array(([7, 8, 1, 5], [9, 10, 0, 9], [11, 12, 5, 5])).astype(np.float64)&lt;br /&gt;
   &lt;br /&gt;
  A_gpu = gpuarray.to_gpu(A)&lt;br /&gt;
  B_gpu = gpuarray.to_gpu(B)&lt;br /&gt;
   &lt;br /&gt;
  C_gpu = linalg.dot(A_gpu, B_gpu)&lt;br /&gt;
   &lt;br /&gt;
  print(np.dot(A, B))&lt;br /&gt;
  print(C_gpu)&lt;br /&gt;
&lt;br /&gt;
Наивная реализация перемножения матриц на OpenCL&lt;br /&gt;
  // First naive implementation&lt;br /&gt;
  __kernel void myGEMM1(const int M, const int N, const int K,&lt;br /&gt;
                        const __global float *A,&lt;br /&gt;
                        const __global float *B,&lt;br /&gt;
                        __global float *C) {&lt;br /&gt;
       &lt;br /&gt;
      // Thread identifiers&lt;br /&gt;
      const int globalRow = get_global_id(0); // Row ID of C (0..M)&lt;br /&gt;
      const int globalCol = get_global_id(1); // Col ID of C (0..N)&lt;br /&gt;
       &lt;br /&gt;
      // Compute a single element (loop over K)&lt;br /&gt;
      float acc = 0.0f;&lt;br /&gt;
      for (int k = 0; k &amp;lt; K; k++) {&lt;br /&gt;
          acc += A[k * M + globalRow] * B[globalCol * K + k];&lt;br /&gt;
      }&lt;br /&gt;
       &lt;br /&gt;
      // Store the result&lt;br /&gt;
      C[globalCol * M + globalRow] = acc;&lt;br /&gt;
  }&lt;br /&gt;
=== Параллелизм в стохастическом градиентном спуске ===&lt;br /&gt;
Можно запустить внешний цикл [[Стохастический градиентный спуск|стохастического градиентного спуска (SGD)]] параллельно в пуле потоков и использовать конструкции синхронизации, такие как блокировки, чтобы предотвратить состояние гонки. Однако из-за накладных расходов на синхронизацию ускорение может получиться маленьким. &lt;br /&gt;
&lt;br /&gt;
Еще более интересная идея называется асинхронным SGD или Hogwild&amp;lt;ref&amp;gt;[https://arxiv.org/abs/1106.5730 HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
SGD запускается параллельно в несколько потоков без какой-либо синхронизации. Теперь состояния гонки могут возникнуть, но во многих случаях это хорошо, потому что они просто немного изменяют шум и ошибки уже присутствующие из-за случайного выбора градиента.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе k ближайших соседей ===&lt;br /&gt;
Основное время работы [[Метрический классификатор и метод ближайших соседей|метода k ближайших соседей]] составляет поиск ближайших соседей. &lt;br /&gt;
Так как расстояния до разных объектов независимы, то можно разбить объекты на группы, параллельно решить задачу во всех группах, а потом объединить результат&amp;lt;ref&amp;gt;[http://ceres-journal.eu/download.php?file=2019_01_01.pdf Implementation of a Parallel K-Nearest Neighbor Algorithm Using MPI]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Альтернативный подход — параллельная сортировка всех объектов, например, с использованием битонной сортировки&amp;lt;ref&amp;gt;[https://users.cs.duke.edu/~nikos/reprints/knn-TR-CS-2012-03.pdf Parallel Search of k-Nearest Neighbors with Synchronous Operations]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе опорных веторов ===&lt;br /&gt;
Вычислительная сложность [[Метод опорных векторов (SVM)|метода опорных векторов]] заключается в минимизации квадратичной функции. &lt;br /&gt;
Первый вариант распараллеливания задачи — добавление параллелизма в алгоритм в явном виде, например, параллельная оптимизация большего количества переменных в SMO&amp;lt;ref&amp;gt;[https://publikationen.uni-tuebingen.de/xmlui/bitstream/handle/10900/49015/pdf/tech_21.pdf Parallel Support Vector Machines]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Второй подход — запись алгоритма через матричные операции, которые легко параллелизируемы&amp;lt;ref&amp;gt;[https://www.researchgate.net/publication/6265163_Multiplicative_Updates_for_Nonnegative_Quadratic_Programming Multiplicative Updates for Nonnegative Quadratic Programming]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Стохастический градиентный спуск]]&lt;br /&gt;
*[[Кросс-валидация]]&lt;br /&gt;
*[[Настройка гиперпараметров]]&lt;br /&gt;
*[[Метод опорных векторов (SVM)]]&lt;br /&gt;
*[[Метрический классификатор и метод ближайших соседей]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
== Источники информации ==&lt;br /&gt;
# [http://www.cs.cornell.edu/courses/cs4787/2019sp/notes/lecture1.pdf Principles of Large-Scale Machine Learning]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/pdf/CUBLAS_Library.pdf cuBLAS library user guide]&lt;br /&gt;
# [https://solarianprogrammer.com/2012/05/31/matrix-multiplication-cuda-cublas-curand-thrust/ Matrix multiplication on GPU using CUDA with CUBLAS]&lt;br /&gt;
# [https://medium.com/@CIulius/a-short-notice-on-performing-matrix-multiplications-in-pycuda-cbfb00cf1450 A short notice on performing matrix multiplications in PyCUDA]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html CUDA C++ Programming Guide]&lt;br /&gt;
# [https://cnugteren.github.io/tutorial/pages/page1.html OpenCL SGEMM tuning for Kepler]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76762</id>
		<title>Многопоточность в машинном обучении</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76762"/>
				<updated>2021-01-08T07:03:07Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Следует выделить следующие виды параллелизма:&lt;br /&gt;
* Параллелизм на уровне инструкций ([https://ru.wikipedia.org/wiki/%D0%9F%D0%B0%D1%80%D0%B0%D0%BB%D0%BB%D0%B5%D0%BB%D0%B8%D0%B7%D0%BC_%D0%BD%D0%B0_%D1%83%D1%80%D0%BE%D0%B2%D0%BD%D0%B5_%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4 ILP]): несколько инструкций исполняются одновременно.&lt;br /&gt;
* Параллелизм типа одна инструкция множество данных ([https://ru.wikipedia.org/wiki/SIMD SIMD]): одна операция применяется к множеству данных&lt;br /&gt;
* Многопоточный параллелизм: несколько независимых рабочих потоков взаимодействуют через абстракцию совместно используемой памяти.&lt;br /&gt;
* Распределенные вычисления: несколько независимых рабочих компьютеров взаимодействуют по сети. ([https://spark.apache.org/mllib/ MLlib] на Spark{{Входит в экосистему проектов Hadoop}}, [https://mahout.apache.org/ Mahout] на Hadoop)&lt;br /&gt;
&lt;br /&gt;
== Идеи используемые для ускорения вычислений в ML ==&lt;br /&gt;
=== Параллелизм для ускорения линейной алгебры. ===&lt;br /&gt;
Многие операции линейной алгебры, например, векторное сложение, произведение матриц и вычисление нормы состоят из большого количества независимых операций. Поэтому можно сильно повысить их производительность как за счёт ILP и SIMD параллелизма для маленьких данных, так и за счёт многопоточности для больших данных. От ускорения линейной алгебры особенно выигрывают нейронные сети, так как большую часть времени их работы занимает умножение матриц.&lt;br /&gt;
&lt;br /&gt;
Иногда необходимо выполнить операцию с объектам имеющими разнаю размерность, но которые можно привести к одной размерности повторением одного из объектов вдоль одной или нескольких осей. Например, если нужно прибавить к каждой строке матрицы вектор или домножить вектор на число. В таком случае можно не писать цикл в явном виде, а использовать broadcast операции. При этом задача оптимизации переходит к разработчику библиотеки, который может обеспечить лучший параллелизм операций за счет доступа к внутренностям библиотеки. &lt;br /&gt;
&lt;br /&gt;
Примеры оптимизаций:&lt;br /&gt;
* Высоко оптимизированные тензорные библиотеки для арифметики.&lt;br /&gt;
* Алгоритмы в терминах матричных операций, а не векторных операций, насколько это возможно.&lt;br /&gt;
* Broadcast операции вместо циклов.&lt;br /&gt;
* Распараллеленные реализации некоторых специальных операций (таких как свертки для [[Сверточные нейронные сети | CNN]]).&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в оптимизации гиперпараметров ===&lt;br /&gt;
Для параллельной [[Настройка гиперпараметров | оптимизации гиперпараметров]] можно использовать поиск по решётке или случайный поиск в которых мы можем оценить параметры независимо.&lt;br /&gt;
Такая оптимизации часто встречаются в библиотеках машинного обучения.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм кросс-валидации ===&lt;br /&gt;
Полная [[Кросс-валидация | кросс-валидация]], k-fold, t×k-fold, Leave-One-Out легко распараллеливаются на несколько потоков, каждый из которых работает на своем разбиении данных&lt;br /&gt;
&lt;br /&gt;
[[Файл:ParallelCrossValidation.png|500px]]&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм GPU&amp;lt;ref[https://ru.wikipedia.org/wiki/%D0%93%D1%80%D0%B0%D1%84%D0%B8%D1%87%D0%B5%D1%81%D0%BA%D0%B8%D0%B9_%D0%BF%D1%80%D0%BE%D1%86%D0%B5%D1%81%D1%81%D0%BE%D1%80]&amp;lt;/ref&amp;gt; ===&lt;br /&gt;
Графические процессоры позволяют применять одну и ту же операцию параллельно к десяткам тысяч элементов за счет большого числа потоков.&lt;br /&gt;
&lt;br /&gt;
Фреймворки машинного обучения, такие как TensorFlow, PyTorch и MxNet используют эти возможности через библиотеки от компаний производителей графических ускорителей и открытые фреймворки:&lt;br /&gt;
* [https://developer.nvidia.com/cuda-toolkit CUDA] — язык параллельного программирования/вычислительная платформа для вычислений общего назначения на графическом процессоре&lt;br /&gt;
* [https://developer.nvidia.com/cublas cuBLAS] — библиотека представляет собой реализацию BLAS (базовых подпрограмм линейной алгебры) поверх среды выполнения CUDA.&lt;br /&gt;
* [https://www.khronos.org/opencl/ OpenCL] — фреймворк для написания компьютерных программ, связанных с параллельными вычислениями на различных графических и центральных процессорах, а также FPGA&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на cuBLAS&lt;br /&gt;
  void gpu_blas_mmul(cublasHandle_t &amp;amp;handle, const float *A, const float *B, float *C, const int m, const int k, const int n) {&lt;br /&gt;
      int lda = m, ldb = k, ldc = m;&lt;br /&gt;
      const float alf = 1;&lt;br /&gt;
      const float bet = 0;&lt;br /&gt;
      const float *alpha = &amp;amp;alf;&lt;br /&gt;
      const float *beta = &amp;amp;bet;&lt;br /&gt;
      // Do the actual multiplication&lt;br /&gt;
      cublasSgemm(handle, CUBLAS_OP_N, CUBLAS_OP_N, m, n, k, alpha, A, lda, B, ldb, beta, C, ldc);&lt;br /&gt;
  }&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на PyCUDA&lt;br /&gt;
  import pycuda.gpuarray as gpuarray&lt;br /&gt;
  import numpy as np&lt;br /&gt;
  import skcuda.linalg as linalg&lt;br /&gt;
  # --- Initializations&lt;br /&gt;
  import pycuda.autoinit&lt;br /&gt;
  linalg.init()&lt;br /&gt;
   &lt;br /&gt;
  A = np.array(([1, 2, 3], [4, 5, 6])).astype(np.float64)&lt;br /&gt;
  B = np.array(([7, 8, 1, 5], [9, 10, 0, 9], [11, 12, 5, 5])).astype(np.float64)&lt;br /&gt;
   &lt;br /&gt;
  A_gpu = gpuarray.to_gpu(A)&lt;br /&gt;
  B_gpu = gpuarray.to_gpu(B)&lt;br /&gt;
   &lt;br /&gt;
  C_gpu = linalg.dot(A_gpu, B_gpu)&lt;br /&gt;
   &lt;br /&gt;
  print(np.dot(A, B))&lt;br /&gt;
  print(C_gpu)&lt;br /&gt;
&lt;br /&gt;
Наивная реализация перемножения матриц на OpenCL&lt;br /&gt;
  // First naive implementation&lt;br /&gt;
  __kernel void myGEMM1(const int M, const int N, const int K,&lt;br /&gt;
                        const __global float *A,&lt;br /&gt;
                        const __global float *B,&lt;br /&gt;
                        __global float *C) {&lt;br /&gt;
       &lt;br /&gt;
      // Thread identifiers&lt;br /&gt;
      const int globalRow = get_global_id(0); // Row ID of C (0..M)&lt;br /&gt;
      const int globalCol = get_global_id(1); // Col ID of C (0..N)&lt;br /&gt;
       &lt;br /&gt;
      // Compute a single element (loop over K)&lt;br /&gt;
      float acc = 0.0f;&lt;br /&gt;
      for (int k = 0; k &amp;lt; K; k++) {&lt;br /&gt;
          acc += A[k * M + globalRow] * B[globalCol * K + k];&lt;br /&gt;
      }&lt;br /&gt;
       &lt;br /&gt;
      // Store the result&lt;br /&gt;
      C[globalCol * M + globalRow] = acc;&lt;br /&gt;
  }&lt;br /&gt;
=== Параллелизм в стохастическом градиентном спуске ===&lt;br /&gt;
Можно запустить внешний цикл [[Стохастический градиентный спуск|стохастического градиентного спуска (SGD)]] параллельно в пуле потоков и использовать конструкции синхронизации, такие как блокировки, чтобы предотвратить состояние гонки. Однако из-за накладных расходов на синхронизацию ускорение может получиться маленьким. &lt;br /&gt;
&lt;br /&gt;
Еще более интересная идея называется асинхронным SGD или Hogwild&amp;lt;ref&amp;gt;[https://arxiv.org/abs/1106.5730 HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
SGD запускается параллельно в несколько потоков без какой-либо синхронизации. Теперь состояния гонки могут возникнуть, но во многих случаях это хорошо, потому что они просто немного изменяют шум и ошибки уже присутствующие из-за случайного выбора градиента.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе k ближайших соседей ===&lt;br /&gt;
Основное время работы [[Метрический классификатор и метод ближайших соседей|метода k ближайших соседей]] составляет поиск ближайших соседей. &lt;br /&gt;
Так как расстояния до разных объектов независимы, то можно разбить объекты на группы, параллельно решить задачу во всех группах, а потом объединить результат&amp;lt;ref&amp;gt;[http://ceres-journal.eu/download.php?file=2019_01_01.pdf Implementation of a Parallel K-Nearest Neighbor Algorithm Using MPI]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Альтернативный подход — параллельная сортировка всех объектов, например, с использованием битонной сортировки&amp;lt;ref&amp;gt;[https://users.cs.duke.edu/~nikos/reprints/knn-TR-CS-2012-03.pdf Parallel Search of k-Nearest Neighbors with Synchronous Operations]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе опорных веторов ===&lt;br /&gt;
Вычислительная сложность [[Метод опорных векторов (SVM)|метода опорных векторов]] заключается в минимизации квадратичной функции. &lt;br /&gt;
Первый вариант распараллеливания задачи — добавление параллелизма в алгоритм в явном виде, например, параллельная оптимизация большего количества переменных в SMO&amp;lt;ref&amp;gt;[https://publikationen.uni-tuebingen.de/xmlui/bitstream/handle/10900/49015/pdf/tech_21.pdf Parallel Support Vector Machines]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Второй подход — запись алгоритма через матричные операции, которые легко параллелизируемы&amp;lt;ref&amp;gt;[https://www.researchgate.net/publication/6265163_Multiplicative_Updates_for_Nonnegative_Quadratic_Programming Multiplicative Updates for Nonnegative Quadratic Programming]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Стохастический градиентный спуск]]&lt;br /&gt;
*[[Кросс-валидация]]&lt;br /&gt;
*[[Настройка гиперпараметров]]&lt;br /&gt;
*[[Метод опорных векторов (SVM)]]&lt;br /&gt;
*[[Метрический классификатор и метод ближайших соседей]]&lt;br /&gt;
== Примечания ==&lt;br /&gt;
&amp;lt;references/&amp;gt;&lt;br /&gt;
== Источники информации ==&lt;br /&gt;
# [http://www.cs.cornell.edu/courses/cs4787/2019sp/notes/lecture1.pdf Principles of Large-Scale Machine Learning]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/pdf/CUBLAS_Library.pdf cuBLAS library user guide]&lt;br /&gt;
# [https://solarianprogrammer.com/2012/05/31/matrix-multiplication-cuda-cublas-curand-thrust/ Matrix multiplication on GPU using CUDA with CUBLAS]&lt;br /&gt;
# [https://medium.com/@CIulius/a-short-notice-on-performing-matrix-multiplications-in-pycuda-cbfb00cf1450 A short notice on performing matrix multiplications in PyCUDA]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html CUDA C++ Programming Guide]&lt;br /&gt;
# [https://cnugteren.github.io/tutorial/pages/page1.html OpenCL SGEMM tuning for Kepler]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76761</id>
		<title>Многопоточность в машинном обучении</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76761"/>
				<updated>2021-01-08T06:55:29Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: Прим&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Следует выделить следующие виды параллелизма:&lt;br /&gt;
* Параллелизм на уровне инструкций ([https://ru.wikipedia.org/wiki/%D0%9F%D0%B0%D1%80%D0%B0%D0%BB%D0%BB%D0%B5%D0%BB%D0%B8%D0%B7%D0%BC_%D0%BD%D0%B0_%D1%83%D1%80%D0%BE%D0%B2%D0%BD%D0%B5_%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4 ILP]): несколько инструкций исполняются одновременно.&lt;br /&gt;
* Параллелизм типа одна инструкция множество данных ([https://ru.wikipedia.org/wiki/SIMD SIMD]): одна операция применяется к множеству данных&lt;br /&gt;
* Многопоточный параллелизм: несколько независимых рабочих потоков взаимодействуют через абстракцию совместно используемой памяти.&lt;br /&gt;
* Распределенные вычисления: несколько независимых рабочих компьютеров взаимодействуют по сети. ([https://spark.apache.org/mllib/ MLlib] на Spark{{Входит в экосистему проектов Hadoop}}, [https://mahout.apache.org/ Mahout] на Hadoop)&lt;br /&gt;
&lt;br /&gt;
== Идеи используемые для ускорения вычислений в ML ==&lt;br /&gt;
=== Параллелизм для ускорения линейной алгебры. ===&lt;br /&gt;
Многие операции линейной алгебры, например, векторное сложение, произведение матриц и вычисление нормы состоят из большого количества независимых операций. Поэтому можно сильно повысить их производительность как за счёт ILP и SIMD параллелизма для маленьких данных, так и за счёт многопоточности для больших данных. От ускорения линейной алгебры особенно выигрывают нейронные сети, так как большую часть времени их работы занимает умножение матриц.&lt;br /&gt;
&lt;br /&gt;
Иногда необходимо выполнить операцию с объектам имеющими разнаю размерность, но которые можно привести к одной размерности повторением одного из объектов вдоль одной или нескольких осей. Например, если нужно прибавить к каждой строке матрицы вектор или домножить вектор на число. В таком случае можно не писать цикл в явном виде, а использовать broadcast операции. При этом задача оптимизации переходит к разработчику библиотеки, который может обеспечить лучший параллелизм операций за счет доступа к внутренностям библиотеки. &lt;br /&gt;
&lt;br /&gt;
Примеры оптимизаций:&lt;br /&gt;
* Высоко оптимизированные тензорные библиотеки для арифметики.&lt;br /&gt;
* Алгоритмы в терминах матричных операций, а не векторных операций, насколько это возможно.&lt;br /&gt;
* Broadcast операции вместо циклов.&lt;br /&gt;
* Распараллеленные реализации некоторых специальных операций (таких как свертки для [[Сверточные нейронные сети | CNN]]).&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в оптимизации гиперпараметров ===&lt;br /&gt;
Для параллельной [[Настройка гиперпараметров | оптимизации гиперпараметров]] можно использовать поиск по решётке или случайный поиск в которых мы можем оценить параметры независимо.&lt;br /&gt;
Такая оптимизации часто встречаются в библиотеках машинного обучения.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм кросс-валидации ===&lt;br /&gt;
Полная [[Кросс-валидация | кросс-валидация]], k-fold, t×k-fold, Leave-One-Out легко распараллеливаются на несколько потоков, каждый из которых работает на своем разбиении данных&lt;br /&gt;
&lt;br /&gt;
[[Файл:ParallelCrossValidation.png|500px]]&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм GPU ===&lt;br /&gt;
Графические процессоры позволяют применять одну и ту же операцию параллельно к десяткам тысяч элементов за счет большого числа потоков.&lt;br /&gt;
&lt;br /&gt;
Фреймворки машинного обучения, такие как TensorFlow, PyTorch и MxNet используют эти возможности через библиотеки от компаний производителей графических ускорителей и открытые фреймворки:&lt;br /&gt;
* [https://developer.nvidia.com/cuda-toolkit CUDA] — язык параллельного программирования/вычислительная платформа для вычислений общего назначения на графическом процессоре&lt;br /&gt;
* [https://developer.nvidia.com/cublas cuBLAS] — библиотека представляет собой реализацию BLAS (базовых подпрограмм линейной алгебры) поверх среды выполнения CUDA.&lt;br /&gt;
* [https://www.khronos.org/opencl/ OpenCL] — фреймворк для написания компьютерных программ, связанных с параллельными вычислениями на различных графических и центральных процессорах, а также FPGA&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на cuBLAS&lt;br /&gt;
  void gpu_blas_mmul(cublasHandle_t &amp;amp;handle, const float *A, const float *B, float *C, const int m, const int k, const int n) {&lt;br /&gt;
      int lda = m, ldb = k, ldc = m;&lt;br /&gt;
      const float alf = 1;&lt;br /&gt;
      const float bet = 0;&lt;br /&gt;
      const float *alpha = &amp;amp;alf;&lt;br /&gt;
      const float *beta = &amp;amp;bet;&lt;br /&gt;
      // Do the actual multiplication&lt;br /&gt;
      cublasSgemm(handle, CUBLAS_OP_N, CUBLAS_OP_N, m, n, k, alpha, A, lda, B, ldb, beta, C, ldc);&lt;br /&gt;
  }&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на PyCUDA&lt;br /&gt;
  import pycuda.gpuarray as gpuarray&lt;br /&gt;
  import numpy as np&lt;br /&gt;
  import skcuda.linalg as linalg&lt;br /&gt;
  # --- Initializations&lt;br /&gt;
  import pycuda.autoinit&lt;br /&gt;
  linalg.init()&lt;br /&gt;
   &lt;br /&gt;
  A = np.array(([1, 2, 3], [4, 5, 6])).astype(np.float64)&lt;br /&gt;
  B = np.array(([7, 8, 1, 5], [9, 10, 0, 9], [11, 12, 5, 5])).astype(np.float64)&lt;br /&gt;
   &lt;br /&gt;
  A_gpu = gpuarray.to_gpu(A)&lt;br /&gt;
  B_gpu = gpuarray.to_gpu(B)&lt;br /&gt;
   &lt;br /&gt;
  C_gpu = linalg.dot(A_gpu, B_gpu)&lt;br /&gt;
   &lt;br /&gt;
  print(np.dot(A, B))&lt;br /&gt;
  print(C_gpu)&lt;br /&gt;
&lt;br /&gt;
Наивная реализация перемножения матриц на OpenCL&lt;br /&gt;
  // First naive implementation&lt;br /&gt;
  __kernel void myGEMM1(const int M, const int N, const int K,&lt;br /&gt;
                        const __global float *A,&lt;br /&gt;
                        const __global float *B,&lt;br /&gt;
                        __global float *C) {&lt;br /&gt;
       &lt;br /&gt;
      // Thread identifiers&lt;br /&gt;
      const int globalRow = get_global_id(0); // Row ID of C (0..M)&lt;br /&gt;
      const int globalCol = get_global_id(1); // Col ID of C (0..N)&lt;br /&gt;
       &lt;br /&gt;
      // Compute a single element (loop over K)&lt;br /&gt;
      float acc = 0.0f;&lt;br /&gt;
      for (int k = 0; k &amp;lt; K; k++) {&lt;br /&gt;
          acc += A[k * M + globalRow] * B[globalCol * K + k];&lt;br /&gt;
      }&lt;br /&gt;
       &lt;br /&gt;
      // Store the result&lt;br /&gt;
      C[globalCol * M + globalRow] = acc;&lt;br /&gt;
  }&lt;br /&gt;
=== Параллелизм в стохастическом градиентном спуске ===&lt;br /&gt;
Можно запустить внешний цикл [[Стохастический градиентный спуск|стохастического градиентного спуска (SGD)]] параллельно в пуле потоков и использовать конструкции синхронизации, такие как блокировки, чтобы предотвратить состояние гонки. Однако из-за накладных расходов на синхронизацию ускорение может получиться маленьким. &lt;br /&gt;
&lt;br /&gt;
Еще более интересная идея называется асинхронным SGD или Hogwild&amp;lt;ref&amp;gt;[https://arxiv.org/abs/1106.5730 HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
SGD запускается параллельно в несколько потоков без какой-либо синхронизации. Теперь состояния гонки могут возникнуть, но во многих случаях это хорошо, потому что они просто немного изменяют шум и ошибки уже присутствующие из-за случайного выбора градиента.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе k ближайших соседей ===&lt;br /&gt;
Основное время работы [[Метрический классификатор и метод ближайших соседей|метода k ближайших соседей]] составляет поиск ближайших соседей. &lt;br /&gt;
Так как расстояния до разных объектов независимы, то можно разбить объекты на группы, параллельно решить задачу во всех группах, а потом объединить результат&amp;lt;ref&amp;gt;[http://ceres-journal.eu/download.php?file=2019_01_01.pdf Implementation of a Parallel K-Nearest Neighbor Algorithm Using MPI]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Альтернативный подход — параллельная сортировка всех объектов, например, с использованием битонной сортировки&amp;lt;ref&amp;gt;[https://users.cs.duke.edu/~nikos/reprints/knn-TR-CS-2012-03.pdf Parallel Search of k-Nearest Neighbors with Synchronous Operations]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе опорных веторов ===&lt;br /&gt;
Вычислительная сложность [[Метод опорных векторов (SVM)|метода опорных векторов]] заключается в минимизации квадратичной функции. &lt;br /&gt;
Первый вариант распараллеливания задачи — добавление параллелизма в алгоритм в явном виде, например, параллельная оптимизация большего количества переменных в SMO&amp;lt;ref&amp;gt;[https://publikationen.uni-tuebingen.de/xmlui/bitstream/handle/10900/49015/pdf/tech_21.pdf Parallel Support Vector Machines]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Второй подход — запись алгоритма через матричные операции, которые легко параллелизируемы&amp;lt;ref&amp;gt;[https://www.researchgate.net/publication/6265163_Multiplicative_Updates_for_Nonnegative_Quadratic_Programming Multiplicative Updates for Nonnegative Quadratic Programming]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Стохастический градиентный спуск]]&lt;br /&gt;
*[[Кросс-валидация]]&lt;br /&gt;
*[[Настройка гиперпараметров]]&lt;br /&gt;
*[[Метод опорных векторов (SVM)]]&lt;br /&gt;
*[[Метрический классификатор и метод ближайших соседей]]&lt;br /&gt;
== Источники информации ==&lt;br /&gt;
# [http://www.cs.cornell.edu/courses/cs4787/2019sp/notes/lecture1.pdf Principles of Large-Scale Machine Learning]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/pdf/CUBLAS_Library.pdf cuBLAS library user guide]&lt;br /&gt;
# [https://solarianprogrammer.com/2012/05/31/matrix-multiplication-cuda-cublas-curand-thrust/ Matrix multiplication on GPU using CUDA with CUBLAS]&lt;br /&gt;
# [https://medium.com/@CIulius/a-short-notice-on-performing-matrix-multiplications-in-pycuda-cbfb00cf1450 A short notice on performing matrix multiplications in PyCUDA]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html CUDA C++ Programming Guide]&lt;br /&gt;
# [https://cnugteren.github.io/tutorial/pages/page1.html OpenCL SGEMM tuning for Kepler]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76760</id>
		<title>Многопоточность в машинном обучении</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76760"/>
				<updated>2021-01-08T06:44:44Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: ссылки&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Следует выделить следующие виды параллелизма:&lt;br /&gt;
* Параллелизм на уровне инструкций ([https://ru.wikipedia.org/wiki/%D0%9F%D0%B0%D1%80%D0%B0%D0%BB%D0%BB%D0%B5%D0%BB%D0%B8%D0%B7%D0%BC_%D0%BD%D0%B0_%D1%83%D1%80%D0%BE%D0%B2%D0%BD%D0%B5_%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4 ILP]): несколько инструкций исполняются одновременно.&lt;br /&gt;
* Параллелизм типа одна инструкция множество данных ([https://ru.wikipedia.org/wiki/SIMD SIMD]): одна операция применяется к множеству данных&lt;br /&gt;
* Многопоточный параллелизм: несколько независимых рабочих потоков взаимодействуют через абстракцию совместно используемой памяти.&lt;br /&gt;
* Распределенные вычисления: несколько независимых рабочих компьютеров взаимодействуют по сети. ([https://spark.apache.org/mllib/ MLlib] на Spark, [https://mahout.apache.org/ Mahout] на Hadoop)&lt;br /&gt;
&lt;br /&gt;
== Идеи используемые для ускорения вычислений в ML ==&lt;br /&gt;
=== Параллелизм для ускорения линейной алгебры. ===&lt;br /&gt;
Многие операции линейной алгебры, например, векторное сложение, произведение матриц и вычисление нормы состоят из большого количества независимых операций. Поэтому можно сильно повысить их производительность как за счёт ILP и SIMD параллелизма для маленьких данных, так и за счёт многопоточности для больших данных. От ускорения линейной алгебры особенно выигрывают нейронные сети, так как большую часть времени их работы занимает умножение матриц.&lt;br /&gt;
&lt;br /&gt;
Иногда необходимо выполнить операцию с объектам имеющими разнаю размерность, но которые можно привести к одной размерности повторением одного из объектов вдоль одной или нескольких осей. Например, если нужно прибавить к каждой строке матрицы вектор или домножить вектор на число. В таком случае можно не писать цикл в явном виде, а использовать broadcast операции. При этом задача оптимизации переходит к разработчику библиотеки, который может обеспечить лучший параллелизм операций за счет доступа к внутренностям библиотеки. &lt;br /&gt;
&lt;br /&gt;
Примеры оптимизаций:&lt;br /&gt;
* Высоко оптимизированные тензорные библиотеки для арифметики.&lt;br /&gt;
* Алгоритмы в терминах матричных операций, а не векторных операций, насколько это возможно.&lt;br /&gt;
* Broadcast операции вместо циклов.&lt;br /&gt;
* Распараллеленные реализации некоторых специальных операций (таких как свертки для [[Сверточные нейронные сети | CNN]]).&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в оптимизации гиперпараметров ===&lt;br /&gt;
Для параллельной [[Настройка гиперпараметров | оптимизации гиперпараметров]] можно использовать поиск по решётке или случайный поиск в которых мы можем оценить параметры независимо.&lt;br /&gt;
Такая оптимизации часто встречаются в библиотеках машинного обучения.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм кросс-валидации ===&lt;br /&gt;
Полная [[Кросс-валидация | кросс-валидация]], k-fold, t×k-fold, Leave-One-Out легко распараллеливаются на несколько потоков, каждый из которых работает на своем разбиении данных&lt;br /&gt;
&lt;br /&gt;
[[Файл:ParallelCrossValidation.png|500px]]&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм GPU ===&lt;br /&gt;
Графические процессоры позволяют применять одну и ту же операцию параллельно к десяткам тысяч элементов за счет большого числа потоков.&lt;br /&gt;
&lt;br /&gt;
Фреймворки машинного обучения, такие как TensorFlow, PyTorch и MxNet используют эти возможности через библиотеки от компаний производителей графических ускорителей и открытые фреймворки:&lt;br /&gt;
* [https://developer.nvidia.com/cuda-toolkit CUDA] — язык параллельного программирования/вычислительная платформа для вычислений общего назначения на графическом процессоре&lt;br /&gt;
* [https://developer.nvidia.com/cublas cuBLAS] — библиотека представляет собой реализацию BLAS (базовых подпрограмм линейной алгебры) поверх среды выполнения CUDA.&lt;br /&gt;
* [https://www.khronos.org/opencl/ OpenCL] — фреймворк для написания компьютерных программ, связанных с параллельными вычислениями на различных графических и центральных процессорах, а также FPGA&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на cuBLAS&lt;br /&gt;
  void gpu_blas_mmul(cublasHandle_t &amp;amp;handle, const float *A, const float *B, float *C, const int m, const int k, const int n) {&lt;br /&gt;
      int lda = m, ldb = k, ldc = m;&lt;br /&gt;
      const float alf = 1;&lt;br /&gt;
      const float bet = 0;&lt;br /&gt;
      const float *alpha = &amp;amp;alf;&lt;br /&gt;
      const float *beta = &amp;amp;bet;&lt;br /&gt;
      // Do the actual multiplication&lt;br /&gt;
      cublasSgemm(handle, CUBLAS_OP_N, CUBLAS_OP_N, m, n, k, alpha, A, lda, B, ldb, beta, C, ldc);&lt;br /&gt;
  }&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на PyCUDA&lt;br /&gt;
  import pycuda.gpuarray as gpuarray&lt;br /&gt;
  import numpy as np&lt;br /&gt;
  import skcuda.linalg as linalg&lt;br /&gt;
  # --- Initializations&lt;br /&gt;
  import pycuda.autoinit&lt;br /&gt;
  linalg.init()&lt;br /&gt;
   &lt;br /&gt;
  A = np.array(([1, 2, 3], [4, 5, 6])).astype(np.float64)&lt;br /&gt;
  B = np.array(([7, 8, 1, 5], [9, 10, 0, 9], [11, 12, 5, 5])).astype(np.float64)&lt;br /&gt;
   &lt;br /&gt;
  A_gpu = gpuarray.to_gpu(A)&lt;br /&gt;
  B_gpu = gpuarray.to_gpu(B)&lt;br /&gt;
   &lt;br /&gt;
  C_gpu = linalg.dot(A_gpu, B_gpu)&lt;br /&gt;
   &lt;br /&gt;
  print(np.dot(A, B))&lt;br /&gt;
  print(C_gpu)&lt;br /&gt;
&lt;br /&gt;
Наивная реализация перемножения матриц на OpenCL&lt;br /&gt;
  // First naive implementation&lt;br /&gt;
  __kernel void myGEMM1(const int M, const int N, const int K,&lt;br /&gt;
                        const __global float *A,&lt;br /&gt;
                        const __global float *B,&lt;br /&gt;
                        __global float *C) {&lt;br /&gt;
       &lt;br /&gt;
      // Thread identifiers&lt;br /&gt;
      const int globalRow = get_global_id(0); // Row ID of C (0..M)&lt;br /&gt;
      const int globalCol = get_global_id(1); // Col ID of C (0..N)&lt;br /&gt;
       &lt;br /&gt;
      // Compute a single element (loop over K)&lt;br /&gt;
      float acc = 0.0f;&lt;br /&gt;
      for (int k = 0; k &amp;lt; K; k++) {&lt;br /&gt;
          acc += A[k * M + globalRow] * B[globalCol * K + k];&lt;br /&gt;
      }&lt;br /&gt;
       &lt;br /&gt;
      // Store the result&lt;br /&gt;
      C[globalCol * M + globalRow] = acc;&lt;br /&gt;
  }&lt;br /&gt;
=== Параллелизм в стохастическом градиентном спуске ===&lt;br /&gt;
Можно запустить внешний цикл [[Стохастический градиентный спуск|стохастического градиентного спуска (SGD)]] параллельно в пуле потоков и использовать конструкции синхронизации, такие как блокировки, чтобы предотвратить состояние гонки. Однако из-за накладных расходов на синхронизацию ускорение может получиться маленьким. &lt;br /&gt;
&lt;br /&gt;
Еще более интересная идея называется асинхронным SGD или Hogwild&amp;lt;ref&amp;gt;[https://arxiv.org/abs/1106.5730 HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
SGD запускается параллельно в несколько потоков без какой-либо синхронизации. Теперь состояния гонки могут возникнуть, но во многих случаях это хорошо, потому что они просто немного изменяют шум и ошибки уже присутствующие из-за случайного выбора градиента.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе k ближайших соседей ===&lt;br /&gt;
Основное время работы [[Метрический классификатор и метод ближайших соседей|метода k ближайших соседей]] составляет поиск ближайших соседей. &lt;br /&gt;
Так как расстояния до разных объектов независимы, то можно разбить объекты на группы, параллельно решить задачу во всех группах, а потом объединить результат&amp;lt;ref&amp;gt;[http://ceres-journal.eu/download.php?file=2019_01_01.pdf Implementation of a Parallel K-Nearest Neighbor Algorithm Using MPI]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Альтернативный подход — параллельная сортировка всех объектов, например, с использованием битонной сортировки&amp;lt;ref&amp;gt;[https://users.cs.duke.edu/~nikos/reprints/knn-TR-CS-2012-03.pdf Parallel Search of k-Nearest Neighbors with Synchronous Operations]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе опорных веторов ===&lt;br /&gt;
Вычислительная сложность [[Метод опорных векторов (SVM)|метода опорных векторов]] заключается в минимизации квадратичной функции. &lt;br /&gt;
Первый вариант распараллеливания задачи — добавление параллелизма в алгоритм в явном виде, например, параллельная оптимизация большего количества переменных в SMO&amp;lt;ref&amp;gt;[https://publikationen.uni-tuebingen.de/xmlui/bitstream/handle/10900/49015/pdf/tech_21.pdf Parallel Support Vector Machines]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Второй подход — запись алгоритма через матричные операции, которые легко параллелизируемы&amp;lt;ref&amp;gt;[https://www.researchgate.net/publication/6265163_Multiplicative_Updates_for_Nonnegative_Quadratic_Programming Multiplicative Updates for Nonnegative Quadratic Programming]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Стохастический градиентный спуск]]&lt;br /&gt;
*[[Кросс-валидация]]&lt;br /&gt;
*[[Настройка гиперпараметров]]&lt;br /&gt;
*[[Метод опорных векторов (SVM)]]&lt;br /&gt;
*[[Метрический классификатор и метод ближайших соседей]]&lt;br /&gt;
== Источники информации ==&lt;br /&gt;
# [http://www.cs.cornell.edu/courses/cs4787/2019sp/notes/lecture1.pdf Principles of Large-Scale Machine Learning]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/pdf/CUBLAS_Library.pdf cuBLAS library user guide]&lt;br /&gt;
# [https://solarianprogrammer.com/2012/05/31/matrix-multiplication-cuda-cublas-curand-thrust/ Matrix multiplication on GPU using CUDA with CUBLAS]&lt;br /&gt;
# [https://medium.com/@CIulius/a-short-notice-on-performing-matrix-multiplications-in-pycuda-cbfb00cf1450 A short notice on performing matrix multiplications in PyCUDA]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html CUDA C++ Programming Guide]&lt;br /&gt;
# [https://cnugteren.github.io/tutorial/pages/page1.html OpenCL SGEMM tuning for Kepler]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76759</id>
		<title>Многопоточность в машинном обучении</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76759"/>
				<updated>2021-01-08T06:43:57Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Следует выделить следующие виды параллелизма:&lt;br /&gt;
* Параллелизм на уровне инструкций ([https://ru.wikipedia.org/wiki/%D0%9F%D0%B0%D1%80%D0%B0%D0%BB%D0%BB%D0%B5%D0%BB%D0%B8%D0%B7%D0%BC_%D0%BD%D0%B0_%D1%83%D1%80%D0%BE%D0%B2%D0%BD%D0%B5_%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4 ILP]): несколько инструкций исполняются одновременно.&lt;br /&gt;
* Параллелизм типа одна инструкция множество данных ([https://ru.wikipedia.org/wiki/SIMD SIMD]): одна операция применяется к множеству данных&lt;br /&gt;
* Многопоточный параллелизм: несколько независимых рабочих потоков взаимодействуют через абстракцию совместно используемой памяти.&lt;br /&gt;
* Распределенные вычисления: несколько независимых рабочих компьютеров взаимодействуют по сети. ([https://spark.apache.org/mllib/ MLlib] на Spark, [https://mahout.apache.org/ Mahout] на Hadoop)&lt;br /&gt;
&lt;br /&gt;
== Идеи используемые для ускорения вычислений в ML ==&lt;br /&gt;
=== Параллелизм для ускорения линейной алгебры. ===&lt;br /&gt;
Многие операции линейной алгебры, например, векторное сложение, произведение матриц и вычисление нормы состоят из большого количества независимых операций. Поэтому можно сильно повысить их производительность как за счёт ILP и SIMD параллелизма для маленьких данных, так и за счёт многопоточности для больших данных. От ускорения линейной алгебры особенно выигрывают нейронные сети, так как большую часть времени их работы занимает умножение матриц.&lt;br /&gt;
&lt;br /&gt;
Иногда необходимо выполнить операцию с объектам имеющими разнаю размерность, но которые можно привести к одной размерности повторением одного из объектов вдоль одной или нескольких осей. Например, если нужно прибавить к каждой строке матрицы вектор или домножить вектор на число. В таком случае можно не писать цикл в явном виде, а использовать broadcast операции. При этом задача оптимизации переходит к разработчику библиотеки, который может обеспечить лучший параллелизм операций за счет доступа к внутренностям библиотеки. &lt;br /&gt;
&lt;br /&gt;
Примеры оптимизаций:&lt;br /&gt;
* Высоко оптимизированные тензорные библиотеки для арифметики.&lt;br /&gt;
* Алгоритмы в терминах матричных операций, а не векторных операций, насколько это возможно.&lt;br /&gt;
* Broadcast операции вместо циклов.&lt;br /&gt;
* Распараллеленные реализации некоторых специальных операций (таких как свертки для [[Сверточные нейронные сети | CNN]]).&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в оптимизации гиперпараметров ===&lt;br /&gt;
Для параллельной [[Настройка гиперпараметров | оптимизации гиперпараметров]] можно использовать поиск по решётке или случайный поиск в которых мы можем оценить параметры независимо.&lt;br /&gt;
Такая оптимизации часто встречаются в библиотеках машинного обучения.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм кросс-валидации ===&lt;br /&gt;
Полная [[Кросс-валидация | кросс-валидация]], k-fold, t×k-fold, Leave-One-Out легко распараллеливаются на несколько потоков, каждый из которых работает на своем разбиении данных&lt;br /&gt;
&lt;br /&gt;
[[Файл:ParallelCrossValidation.png|500px]]&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм GPU ===&lt;br /&gt;
Графические процессоры позволяют применять одну и ту же операцию параллельно к десяткам тысяч элементов за счет большого числа потоков.&lt;br /&gt;
&lt;br /&gt;
Фреймворки машинного обучения, такие как TensorFlow, PyTorch и MxNet используют эти возможности через библиотеки от компаний производителей графических ускорителей и открытые фреймворки:&lt;br /&gt;
* [https://developer.nvidia.com/cuda-toolkit CUDA] — язык параллельного программирования/вычислительная платформа для вычислений общего назначения на графическом процессоре&lt;br /&gt;
* [https://developer.nvidia.com/cublas cuBLAS] — библиотека представляет собой реализацию BLAS (базовых подпрограмм линейной алгебры) поверх среды выполнения CUDA.&lt;br /&gt;
* [https://www.khronos.org/opencl/ OpenCL] — фреймворк для написания компьютерных программ, связанных с параллельными вычислениями на различных графических и центральных процессорах, а также FPGA&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на cuBLAS&lt;br /&gt;
  void gpu_blas_mmul(cublasHandle_t &amp;amp;handle, const float *A, const float *B, float *C, const int m, const int k, const int n) {&lt;br /&gt;
      int lda = m, ldb = k, ldc = m;&lt;br /&gt;
      const float alf = 1;&lt;br /&gt;
      const float bet = 0;&lt;br /&gt;
      const float *alpha = &amp;amp;alf;&lt;br /&gt;
      const float *beta = &amp;amp;bet;&lt;br /&gt;
      // Do the actual multiplication&lt;br /&gt;
      cublasSgemm(handle, CUBLAS_OP_N, CUBLAS_OP_N, m, n, k, alpha, A, lda, B, ldb, beta, C, ldc);&lt;br /&gt;
  }&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на PyCUDA&lt;br /&gt;
  import pycuda.gpuarray as gpuarray&lt;br /&gt;
  import numpy as np&lt;br /&gt;
  import skcuda.linalg as linalg&lt;br /&gt;
  # --- Initializations&lt;br /&gt;
  import pycuda.autoinit&lt;br /&gt;
  linalg.init()&lt;br /&gt;
   &lt;br /&gt;
  A = np.array(([1, 2, 3], [4, 5, 6])).astype(np.float64)&lt;br /&gt;
  B = np.array(([7, 8, 1, 5], [9, 10, 0, 9], [11, 12, 5, 5])).astype(np.float64)&lt;br /&gt;
   &lt;br /&gt;
  A_gpu = gpuarray.to_gpu(A)&lt;br /&gt;
  B_gpu = gpuarray.to_gpu(B)&lt;br /&gt;
   &lt;br /&gt;
  C_gpu = linalg.dot(A_gpu, B_gpu)&lt;br /&gt;
   &lt;br /&gt;
  print(np.dot(A, B))&lt;br /&gt;
  print(C_gpu)&lt;br /&gt;
&lt;br /&gt;
Наивная реализация перемножения матриц на OpenCL&lt;br /&gt;
  // First naive implementation&lt;br /&gt;
  __kernel void myGEMM1(const int M, const int N, const int K,&lt;br /&gt;
                        const __global float *A,&lt;br /&gt;
                        const __global float *B,&lt;br /&gt;
                        __global float *C) {&lt;br /&gt;
       &lt;br /&gt;
      // Thread identifiers&lt;br /&gt;
      const int globalRow = get_global_id(0); // Row ID of C (0..M)&lt;br /&gt;
      const int globalCol = get_global_id(1); // Col ID of C (0..N)&lt;br /&gt;
       &lt;br /&gt;
      // Compute a single element (loop over K)&lt;br /&gt;
      float acc = 0.0f;&lt;br /&gt;
      for (int k = 0; k &amp;lt; K; k++) {&lt;br /&gt;
          acc += A[k * M + globalRow] * B[globalCol * K + k];&lt;br /&gt;
      }&lt;br /&gt;
       &lt;br /&gt;
      // Store the result&lt;br /&gt;
      C[globalCol * M + globalRow] = acc;&lt;br /&gt;
  }&lt;br /&gt;
=== Параллелизм в стохастическом градиентном спуске ===&lt;br /&gt;
Можно запустить внешний цикл [[Стохастический градиентный спуск|стохастического градиентного спуска (SGD)]] параллельно в пуле потоков и использовать конструкции синхронизации, такие как блокировки, чтобы предотвратить состояние гонки. Однако из-за накладных расходов на синхронизацию ускорение может получиться маленьким. &lt;br /&gt;
&lt;br /&gt;
Еще более интересная идея называется асинхронным SGD или Hogwild&amp;lt;ref&amp;gt;[https://arxiv.org/abs/1106.5730 HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
SGD запускается параллельно в несколько потоков без какой-либо синхронизации. Теперь состояния гонки могут возникнуть, но во многих случаях это хорошо, потому что они просто немного изменяют шум и ошибки уже присутствующие из-за случайного выбора градиента.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе k ближайших соседей ===&lt;br /&gt;
Основное время работы [[Метрический классификатор и метод ближайших соседей|метода k ближайших соседей]] составляет поиск ближайших соседей. &lt;br /&gt;
Так как расстояния до разных объектов независимы, то можно разбить объекты на группы, параллельно решить задачу во всех группах, а потом объединить результат&amp;lt;ref&amp;gt;[http://ceres-journal.eu/download.php?file=2019_01_01.pdf Implementation of a Parallel K-Nearest Neighbor Algorithm Using MPI]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Альтернативный подход — параллельная сортировка всех объектов, например, с использованием битонной сортировки&amp;lt;ref&amp;gt;[https://users.cs.duke.edu/~nikos/reprints/knn-TR-CS-2012-03.pdf Parallel Search of k-Nearest Neighbors with Synchronous Operations]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе опорных веторов ===&lt;br /&gt;
Вычислительная сложность [[Метод опорных векторов (SVM)|метода опорных векторов]] заключается в минимизации квадратичной функции. &lt;br /&gt;
Первый вариант распараллеливания задачи — добавление параллелизма в алгоритм в явном виде, например, параллельная оптимизация большего количества переменных в SMO&amp;lt;ref&amp;gt;[https://publikationen.uni-tuebingen.de/xmlui/bitstream/handle/10900/49015/pdf/tech_21.pdf Parallel Support Vector Machines]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Второй подход — запись алгоритма через матричные операции, которые легко параллелизируемы&amp;lt;ref&amp;gt;[https://www.researchgate.net/publication/6265163_Multiplicative_Updates_for_Nonnegative_Quadratic_Programming Multiplicative Updates for Nonnegative Quadratic Programming]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
==См. также==&lt;br /&gt;
*[[Стохастический градиентный спуск]]&lt;br /&gt;
*Кросс-валидация&lt;br /&gt;
*Настройка гиперпараметров&lt;br /&gt;
*Метод опорных векторов (SVM)&lt;br /&gt;
*Метрический классификатор и метод ближайших соседей&lt;br /&gt;
== Источники информации ==&lt;br /&gt;
# [http://www.cs.cornell.edu/courses/cs4787/2019sp/notes/lecture1.pdf Principles of Large-Scale Machine Learning]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/pdf/CUBLAS_Library.pdf cuBLAS library user guide]&lt;br /&gt;
# [https://solarianprogrammer.com/2012/05/31/matrix-multiplication-cuda-cublas-curand-thrust/ Matrix multiplication on GPU using CUDA with CUBLAS]&lt;br /&gt;
# [https://medium.com/@CIulius/a-short-notice-on-performing-matrix-multiplications-in-pycuda-cbfb00cf1450 A short notice on performing matrix multiplications in PyCUDA]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html CUDA C++ Programming Guide]&lt;br /&gt;
# [https://cnugteren.github.io/tutorial/pages/page1.html OpenCL SGEMM tuning for Kepler]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76758</id>
		<title>Многопоточность в машинном обучении</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%9C%D0%BD%D0%BE%D0%B3%D0%BE%D0%BF%D0%BE%D1%82%D0%BE%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C_%D0%B2_%D0%BC%D0%B0%D1%88%D0%B8%D0%BD%D0%BD%D0%BE%D0%BC_%D0%BE%D0%B1%D1%83%D1%87%D0%B5%D0%BD%D0%B8%D0%B8&amp;diff=76758"/>
				<updated>2021-01-08T06:40:59Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: См. также&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;Следует выделить следующие виды параллелизма:&lt;br /&gt;
* Параллелизм на уровне инструкций ([https://ru.wikipedia.org/wiki/%D0%9F%D0%B0%D1%80%D0%B0%D0%BB%D0%BB%D0%B5%D0%BB%D0%B8%D0%B7%D0%BC_%D0%BD%D0%B0_%D1%83%D1%80%D0%BE%D0%B2%D0%BD%D0%B5_%D0%BA%D0%BE%D0%BC%D0%B0%D0%BD%D0%B4 ILP]): несколько инструкций исполняются одновременно.&lt;br /&gt;
* Параллелизм типа одна инструкция множество данных ([https://ru.wikipedia.org/wiki/SIMD SIMD]): одна операция применяется к множеству данных&lt;br /&gt;
* Многопоточный параллелизм: несколько независимых рабочих потоков взаимодействуют через абстракцию совместно используемой памяти.&lt;br /&gt;
* Распределенные вычисления: несколько независимых рабочих компьютеров взаимодействуют по сети. ([https://spark.apache.org/mllib/ MLlib] на Spark, [https://mahout.apache.org/ Mahout] на Hadoop)&lt;br /&gt;
&lt;br /&gt;
== Идеи используемые для ускорения вычислений в ML ==&lt;br /&gt;
=== Параллелизм для ускорения линейной алгебры. ===&lt;br /&gt;
Многие операции линейной алгебры, например, векторное сложение, произведение матриц и вычисление нормы состоят из большого количества независимых операций. Поэтому можно сильно повысить их производительность как за счёт ILP и SIMD параллелизма для маленьких данных, так и за счёт многопоточности для больших данных. От ускорения линейной алгебры особенно выигрывают нейронные сети, так как большую часть времени их работы занимает умножение матриц.&lt;br /&gt;
&lt;br /&gt;
Иногда необходимо выполнить операцию с объектам имеющими разнаю размерность, но которые можно привести к одной размерности повторением одного из объектов вдоль одной или нескольких осей. Например, если нужно прибавить к каждой строке матрицы вектор или домножить вектор на число. В таком случае можно не писать цикл в явном виде, а использовать broadcast операции. При этом задача оптимизации переходит к разработчику библиотеки, который может обеспечить лучший параллелизм операций за счет доступа к внутренностям библиотеки. &lt;br /&gt;
&lt;br /&gt;
Примеры оптимизаций:&lt;br /&gt;
* Высоко оптимизированные тензорные библиотеки для арифметики.&lt;br /&gt;
* Алгоритмы в терминах матричных операций, а не векторных операций, насколько это возможно.&lt;br /&gt;
* Broadcast операции вместо циклов.&lt;br /&gt;
* Распараллеленные реализации некоторых специальных операций (таких как свертки для [[Сверточные нейронные сети | CNN]]).&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в оптимизации гиперпараметров ===&lt;br /&gt;
Для параллельной [[Настройка гиперпараметров | оптимизации гиперпараметров]] можно использовать поиск по решётке или случайный поиск в которых мы можем оценить параметры независимо.&lt;br /&gt;
Такая оптимизации часто встречаются в библиотеках машинного обучения.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм кросс-валидации ===&lt;br /&gt;
Полная [[Кросс-валидация | кросс-валидация]], k-fold, t×k-fold, Leave-One-Out легко распараллеливаются на несколько потоков, каждый из которых работает на своем разбиении данных&lt;br /&gt;
&lt;br /&gt;
[[Файл:ParallelCrossValidation.png|500px]]&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм GPU ===&lt;br /&gt;
Графические процессоры позволяют применять одну и ту же операцию параллельно к десяткам тысяч элементов за счет большого числа потоков.&lt;br /&gt;
&lt;br /&gt;
Фреймворки машинного обучения, такие как TensorFlow, PyTorch и MxNet используют эти возможности через библиотеки от компаний производителей графических ускорителей и открытые фреймворки:&lt;br /&gt;
* [https://developer.nvidia.com/cuda-toolkit CUDA] — язык параллельного программирования/вычислительная платформа для вычислений общего назначения на графическом процессоре&lt;br /&gt;
* [https://developer.nvidia.com/cublas cuBLAS] — библиотека представляет собой реализацию BLAS (базовых подпрограмм линейной алгебры) поверх среды выполнения CUDA.&lt;br /&gt;
* [https://www.khronos.org/opencl/ OpenCL] — фреймворк для написания компьютерных программ, связанных с параллельными вычислениями на различных графических и центральных процессорах, а также FPGA&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на cuBLAS&lt;br /&gt;
  void gpu_blas_mmul(cublasHandle_t &amp;amp;handle, const float *A, const float *B, float *C, const int m, const int k, const int n) {&lt;br /&gt;
      int lda = m, ldb = k, ldc = m;&lt;br /&gt;
      const float alf = 1;&lt;br /&gt;
      const float bet = 0;&lt;br /&gt;
      const float *alpha = &amp;amp;alf;&lt;br /&gt;
      const float *beta = &amp;amp;bet;&lt;br /&gt;
      // Do the actual multiplication&lt;br /&gt;
      cublasSgemm(handle, CUBLAS_OP_N, CUBLAS_OP_N, m, n, k, alpha, A, lda, B, ldb, beta, C, ldc);&lt;br /&gt;
  }&lt;br /&gt;
&lt;br /&gt;
Пример перемножения матриц на PyCUDA&lt;br /&gt;
  import pycuda.gpuarray as gpuarray&lt;br /&gt;
  import numpy as np&lt;br /&gt;
  import skcuda.linalg as linalg&lt;br /&gt;
  # --- Initializations&lt;br /&gt;
  import pycuda.autoinit&lt;br /&gt;
  linalg.init()&lt;br /&gt;
   &lt;br /&gt;
  A = np.array(([1, 2, 3], [4, 5, 6])).astype(np.float64)&lt;br /&gt;
  B = np.array(([7, 8, 1, 5], [9, 10, 0, 9], [11, 12, 5, 5])).astype(np.float64)&lt;br /&gt;
   &lt;br /&gt;
  A_gpu = gpuarray.to_gpu(A)&lt;br /&gt;
  B_gpu = gpuarray.to_gpu(B)&lt;br /&gt;
   &lt;br /&gt;
  C_gpu = linalg.dot(A_gpu, B_gpu)&lt;br /&gt;
   &lt;br /&gt;
  print(np.dot(A, B))&lt;br /&gt;
  print(C_gpu)&lt;br /&gt;
&lt;br /&gt;
Наивная реализация перемножения матриц на OpenCL&lt;br /&gt;
  // First naive implementation&lt;br /&gt;
  __kernel void myGEMM1(const int M, const int N, const int K,&lt;br /&gt;
                        const __global float *A,&lt;br /&gt;
                        const __global float *B,&lt;br /&gt;
                        __global float *C) {&lt;br /&gt;
       &lt;br /&gt;
      // Thread identifiers&lt;br /&gt;
      const int globalRow = get_global_id(0); // Row ID of C (0..M)&lt;br /&gt;
      const int globalCol = get_global_id(1); // Col ID of C (0..N)&lt;br /&gt;
       &lt;br /&gt;
      // Compute a single element (loop over K)&lt;br /&gt;
      float acc = 0.0f;&lt;br /&gt;
      for (int k = 0; k &amp;lt; K; k++) {&lt;br /&gt;
          acc += A[k * M + globalRow] * B[globalCol * K + k];&lt;br /&gt;
      }&lt;br /&gt;
       &lt;br /&gt;
      // Store the result&lt;br /&gt;
      C[globalCol * M + globalRow] = acc;&lt;br /&gt;
  }&lt;br /&gt;
=== Параллелизм в стохастическом градиентном спуске ===&lt;br /&gt;
Можно запустить внешний цикл [[Стохастический градиентный спуск|стохастического градиентного спуска (SGD)]] параллельно в пуле потоков и использовать конструкции синхронизации, такие как блокировки, чтобы предотвратить состояние гонки. Однако из-за накладных расходов на синхронизацию ускорение может получиться маленьким. &lt;br /&gt;
&lt;br /&gt;
Еще более интересная идея называется асинхронным SGD или Hogwild&amp;lt;ref&amp;gt;[https://arxiv.org/abs/1106.5730 HOGWILD!: A Lock-Free Approach to Parallelizing Stochastic Gradient Descent]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
SGD запускается параллельно в несколько потоков без какой-либо синхронизации. Теперь состояния гонки могут возникнуть, но во многих случаях это хорошо, потому что они просто немного изменяют шум и ошибки уже присутствующие из-за случайного выбора градиента.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе k ближайших соседей ===&lt;br /&gt;
Основное время работы [[Метрический классификатор и метод ближайших соседей|метода k ближайших соседей]] составляет поиск ближайших соседей. &lt;br /&gt;
Так как расстояния до разных объектов независимы, то можно разбить объекты на группы, параллельно решить задачу во всех группах, а потом объединить результат&amp;lt;ref&amp;gt;[http://ceres-journal.eu/download.php?file=2019_01_01.pdf Implementation of a Parallel K-Nearest Neighbor Algorithm Using MPI]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Альтернативный подход — параллельная сортировка всех объектов, например, с использованием битонной сортировки&amp;lt;ref&amp;gt;[https://users.cs.duke.edu/~nikos/reprints/knn-TR-CS-2012-03.pdf Parallel Search of k-Nearest Neighbors with Synchronous Operations]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
&lt;br /&gt;
=== Параллелизм в методе опорных веторов ===&lt;br /&gt;
Вычислительная сложность [[Метод опорных векторов (SVM)|метода опорных векторов]] заключается в минимизации квадратичной функции. &lt;br /&gt;
Первый вариант распараллеливания задачи — добавление параллелизма в алгоритм в явном виде, например, параллельная оптимизация большего количества переменных в SMO&amp;lt;ref&amp;gt;[https://publikationen.uni-tuebingen.de/xmlui/bitstream/handle/10900/49015/pdf/tech_21.pdf Parallel Support Vector Machines]&amp;lt;/ref&amp;gt;. &lt;br /&gt;
Второй подход — запись алгоритма через матричные операции, которые легко параллелизируемы&amp;lt;ref&amp;gt;[https://www.researchgate.net/publication/6265163_Multiplicative_Updates_for_Nonnegative_Quadratic_Programming Multiplicative Updates for Nonnegative Quadratic Programming]&amp;lt;/ref&amp;gt;.&lt;br /&gt;
==См. также==&lt;br /&gt;
*Стохастический градиентный спуск&lt;br /&gt;
*Кросс-валидация&lt;br /&gt;
*Настройка гиперпараметров&lt;br /&gt;
*Метод опорных векторов (SVM)&lt;br /&gt;
*Метрический классификатор и метод ближайших соседей&lt;br /&gt;
== Источники информации ==&lt;br /&gt;
# [http://www.cs.cornell.edu/courses/cs4787/2019sp/notes/lecture1.pdf Principles of Large-Scale Machine Learning]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/pdf/CUBLAS_Library.pdf cuBLAS library user guide]&lt;br /&gt;
# [https://solarianprogrammer.com/2012/05/31/matrix-multiplication-cuda-cublas-curand-thrust/ Matrix multiplication on GPU using CUDA with CUBLAS]&lt;br /&gt;
# [https://medium.com/@CIulius/a-short-notice-on-performing-matrix-multiplications-in-pycuda-cbfb00cf1450 A short notice on performing matrix multiplications in PyCUDA]&lt;br /&gt;
# [https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html CUDA C++ Programming Guide]&lt;br /&gt;
# [https://cnugteren.github.io/tutorial/pages/page1.html OpenCL SGEMM tuning for Kepler]&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=76203</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=76203"/>
				<updated>2021-01-03T16:48:03Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: формат списков&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
* Сбор данных.&lt;br /&gt;
**Анкетные данные.&lt;br /&gt;
**Адреса.&lt;br /&gt;
**Интересы.&lt;br /&gt;
* Анализ достоверности данных.&lt;br /&gt;
* Индексация данных.&lt;br /&gt;
* Классификация данных.&lt;br /&gt;
* Предсказания поведения пользователей.&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]] своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей. Соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* Фамилия, имя, отчество.&lt;br /&gt;
* Контактные данные.&lt;br /&gt;
* Анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса.&lt;br /&gt;
* Геолокация.&lt;br /&gt;
* Характеристика устройства и т.д.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* Группы, в которых пользователь участвует. &lt;br /&gt;
* Их тематика. &lt;br /&gt;
* Активность пользователя в них, его сообщения. &lt;br /&gt;
* Комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* Подписчики этих страниц.&lt;br /&gt;
* Тематика страницы.&lt;br /&gt;
* Размещаемый на них контент.&lt;br /&gt;
* Фотографии и собственные видеозаписи.&lt;br /&gt;
* Комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя.&lt;br /&gt;
* Геолокация и временной пояс пользователя.&lt;br /&gt;
* Время оставляемых им сообщений.&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий поиска людей по их изображениям, перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* Посты. &lt;br /&gt;
* Комментарии. &lt;br /&gt;
* Лайки. &lt;br /&gt;
* Дизлайки. &lt;br /&gt;
* Анализируются ссылки на группу в тематических контентах. &lt;br /&gt;
* Интересы других пользователей этих групп.&lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным получившим подтверждение из независимых  источников присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу и т.д. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* Рефлексивные {{---}} это меланхолики и флегматики. &lt;br /&gt;
* Активные {{---}} это холерики и сангвиники. &lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition — предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F экстраверсии (противоположность - интроверсия)],&lt;br /&gt;
* Доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность). &lt;br /&gt;
* Добросовестности - сознательности (противоположность - несознательность). &lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC Нейротизма] (противоположный полюс {{---}} эмоциональная стабильность). &lt;br /&gt;
* Открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, Cuperman and Ickes (2009) изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно связанные с нашими конкретными задачами и интересами. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. &lt;br /&gt;
*Большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий outside.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* Положительные конструкции предложений, без частицы «не». &lt;br /&gt;
* Слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен). &lt;br /&gt;
* Сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее» и др.. &lt;br /&gt;
* Положительные формулировки и номинализации (решение, задача, умение и пр.). &lt;br /&gt;
* Глаголы с положительной окраской (получить, решить, создать, добавить, изучить и пр.). &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с ДР в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-иннов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* Негативные конструкции предложений с частицей «не». – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно». &lt;br /&gt;
* Проблемные формулировки и номинализации (проблема, сложность, затруднение и пр.). &lt;br /&gt;
* Глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать и пр.). &lt;br /&gt;
* Частые ссылки на негативный опыт и прошлое время. &lt;br /&gt;
* Критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* Конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»). &lt;br /&gt;
* Подчеркнутое использование уменьшительно-ласкательных форм. &lt;br /&gt;
* Излишняя доверчивость к внешней информации и комментариям без желания ее детализировать. &lt;br /&gt;
* Избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие и пр.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* Ссылки на себя как на источник размышлений и принятия решений. &lt;br /&gt;
* Конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»). &lt;br /&gt;
* Частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»). &lt;br /&gt;
* Модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим. &lt;br /&gt;
* Недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить. &lt;br /&gt;
* Не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми и пр.).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* Слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан). &lt;br /&gt;
* Конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»). &lt;br /&gt;
* Перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и т.д.) и последовательности (в начале, потом, в конце). &lt;br /&gt;
* Причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то и пр.).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми и пр.).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование мессенджера ФБ и ВК в качестве основного мессенджера.&lt;br /&gt;
*Использование широкого спектра функций ФБ.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* Истероидный психотип. &lt;br /&gt;
* Эпилептоидный психотип. &lt;br /&gt;
* Паранойяльный  психотип. &lt;br /&gt;
* Эмотивный  психотип. &lt;br /&gt;
* Шизоидный психотип. &lt;br /&gt;
* Гипертимный психотип. &lt;br /&gt;
* Депрессивно-печальный психотип. &lt;br /&gt;
* Тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. Компьютерный анализ текстов, поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того какой области это касается будь-то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: нейролингвистического программирования может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей;&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик;&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение, и т.д.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности характерной для этих людей в социальных сетях и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, так, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
----&lt;br /&gt;
Оценка надёжности и платёжеспособности кандидатов на получение кредитов&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (пол, наличие телефонного номера), другие — к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
* Cuperman, R., &amp;amp; Ickes, W. (2009). Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts «disagreeables». ''Journal of Personality and Social Psychology, 97'', 667—684.&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=76188</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=76188"/>
				<updated>2021-01-03T16:16:28Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
* Сбор данных&lt;br /&gt;
**анкетные данные&lt;br /&gt;
**адреса &lt;br /&gt;
**интересы&lt;br /&gt;
* Анализ достоверности данных&lt;br /&gt;
* Индексация данных&lt;br /&gt;
* Классификация данных&lt;br /&gt;
* Предсказания поведения пользователей&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]] своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей. Соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* фамилия, имя, отчество;&lt;br /&gt;
* контактные данные;&lt;br /&gt;
* анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса;&lt;br /&gt;
* геолокация;&lt;br /&gt;
* характеристика устройства и т.д.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* группы, в которых пользователь участвует, &lt;br /&gt;
* их тематика; &lt;br /&gt;
* активность пользователя в них, его сообщения;&lt;br /&gt;
* комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* подписчики этих страниц;&lt;br /&gt;
* тематика страницы;&lt;br /&gt;
* размещаемый на них контент;&lt;br /&gt;
* фотографии и собственные видеозаписи;&lt;br /&gt;
* комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя;&lt;br /&gt;
* геолокация и временной пояс пользователя;&lt;br /&gt;
* время оставляемых им сообщений;&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий поиска людей по их изображениям, перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп. &lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным получившим подтверждение из независимых  источников присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу и т.д. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* рефлексивные {{---}} это меланхолики и флегматики;&lt;br /&gt;
* активные {{---}} это холерики и сангвиники .&lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition — предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F экстраверсии (противоположность - интроверсия)],&lt;br /&gt;
* доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность); &lt;br /&gt;
* добросовестности - сознательности (противоположность - несознательность);&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC нейротизма] (противоположный полюс {{---}} эмоциональная стабильность);&lt;br /&gt;
* открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, Cuperman and Ickes (2009) изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно связанные с нашими конкретными задачами и интересами. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий outside.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* положительные конструкции предложений, без частицы «не»;	&lt;br /&gt;
* слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен);&lt;br /&gt;
* сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее» и др.;&lt;br /&gt;
* положительные формулировки и номинализации (решение, задача, умение и пр.);&lt;br /&gt;
* глаголы с положительной окраской (получить, решить, создать, добавить, изучить и пр.).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с ДР в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-иннов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* негативные конструкции предложений с частицей «не»; – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан);&lt;br /&gt;
* сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно»;&lt;br /&gt;
* проблемные формулировки и номинализации (проблема, сложность, затруднение и пр.);&lt;br /&gt;
* глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать и пр.);&lt;br /&gt;
* частые ссылки на негативный опыт и прошлое время;&lt;br /&gt;
* критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»);&lt;br /&gt;
* частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»);&lt;br /&gt;
* подчеркнутое использование уменьшительно-ласкательных форм;&lt;br /&gt;
* излишняя доверчивость к внешней информации и комментариям без желания ее детализировать;&lt;br /&gt;
* избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие и пр.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* ссылки на себя как на источник размышлений и принятия решений;&lt;br /&gt;
* конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»);&lt;br /&gt;
* частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»);&lt;br /&gt;
* модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим;&lt;br /&gt;
* недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить;&lt;br /&gt;
* не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми и пр.).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан);&lt;br /&gt;
* конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»);&lt;br /&gt;
* перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и т.д.) и последовательности (в начале, потом, в конце);&lt;br /&gt;
* причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то и пр.);&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми и пр.).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование мессенджера ФБ и ВК в качестве основного мессенджера.&lt;br /&gt;
*Использование широкого спектра функций ФБ.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* истероидный психотип;&lt;br /&gt;
* эпилептоидный психотип;&lt;br /&gt;
* паранойяльный  психотип;&lt;br /&gt;
* эмотивный  психотип;&lt;br /&gt;
* шизоидный психотип;&lt;br /&gt;
* гипертимный психотип;&lt;br /&gt;
* депрессивно-печальный психотип;&lt;br /&gt;
* тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. Компьютерный анализ текстов, поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того какой области это касается будь-то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: нейролингвистического программирования может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей;&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик;&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение, и т.д.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности характерной для этих людей в социальных сетях и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, так, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
----&lt;br /&gt;
Оценка надёжности и платёжеспособности кандидатов на получение кредитов&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (пол, наличие телефонного номера), другие — к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
* Cuperman, R., &amp;amp; Ickes, W. (2009). Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts «disagreeables». ''Journal of Personality and Social Psychology, 97'', 667—684.&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=76187</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=76187"/>
				<updated>2021-01-03T16:14:50Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
* Сбор данных&lt;br /&gt;
**анкетные данные&lt;br /&gt;
**адреса &lt;br /&gt;
**интересы&lt;br /&gt;
* Анализ достоверности данных&lt;br /&gt;
* Индексация данных&lt;br /&gt;
* Классификация данных&lt;br /&gt;
* Предсказания поведения пользователей&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]] своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей. Соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* фамилия, имя, отчество;&lt;br /&gt;
* контактные данные;&lt;br /&gt;
* анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса;&lt;br /&gt;
* геолокация;&lt;br /&gt;
* характеристика устройства и т.д.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* группы, в которых пользователь участвует, &lt;br /&gt;
* их тематика; &lt;br /&gt;
* активность пользователя в них, его сообщения;&lt;br /&gt;
* комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* подписчики этих страниц;&lt;br /&gt;
* тематика страницы;&lt;br /&gt;
* размещаемый на них контент;&lt;br /&gt;
* фотографии и собственные видеозаписи;&lt;br /&gt;
* комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя;&lt;br /&gt;
* геолокация и временной пояс пользователя;&lt;br /&gt;
* время оставляемых им сообщений;&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий поиска людей по их изображениям, перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп. &lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным получившим подтверждение из независимых  источников присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу и т.д. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* рефлексивные {{---}} это меланхолики и флегматики;&lt;br /&gt;
* активные {{---}} это холерики и сангвиники .&lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition — предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F экстраверсии (противоположность - интроверсия)],&lt;br /&gt;
* доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность); &lt;br /&gt;
* добросовестности - сознательности (противоположность - несознательность);&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC нейротизма] (противоположный полюс {{---}} эмоциональная стабильность);&lt;br /&gt;
* открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, Cuperman and Ickes (2009) изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно связанные с нашими конкретными задачами и интересами. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий outside.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* положительные конструкции предложений, без частицы «не»;	&lt;br /&gt;
* слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен);&lt;br /&gt;
* сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее» и др.;&lt;br /&gt;
* положительные формулировки и номинализации (решение, задача, умение и пр.);&lt;br /&gt;
* глаголы с положительной окраской (получить, решить, создать, добавить, изучить и пр.).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с ДР в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-иннов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* негативные конструкции предложений с частицей «не»; – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан);&lt;br /&gt;
* сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно»;&lt;br /&gt;
* проблемные формулировки и номинализации (проблема, сложность, затруднение и пр.);&lt;br /&gt;
* глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать и пр.);&lt;br /&gt;
* частые ссылки на негативный опыт и прошлое время;&lt;br /&gt;
* критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»);&lt;br /&gt;
* частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»);&lt;br /&gt;
* подчеркнутое использование уменьшительно-ласкательных форм;&lt;br /&gt;
* излишняя доверчивость к внешней информации и комментариям без желания ее детализировать;&lt;br /&gt;
* избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие и пр.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* ссылки на себя как на источник размышлений и принятия решений;&lt;br /&gt;
* конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»);&lt;br /&gt;
* частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»);&lt;br /&gt;
* модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим;&lt;br /&gt;
* недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить;&lt;br /&gt;
* не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми и пр.).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан);&lt;br /&gt;
* конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»);&lt;br /&gt;
* перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и т.д.) и последовательности (в начале, потом, в конце);&lt;br /&gt;
* причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то и пр.);&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми и пр.).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование мессенджера ФБ и ВК в качестве основного мессенджера.&lt;br /&gt;
*Использование широкого спектра функций ФБ.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: &amp;lt;br&amp;gt;'''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы (!) чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* истероидный психотип;&lt;br /&gt;
* эпилептоидный психотип;&lt;br /&gt;
* паранойяльный  психотип;&lt;br /&gt;
* эмотивный  психотип;&lt;br /&gt;
* шизоидный психотип;&lt;br /&gt;
* гипертимный психотип;&lt;br /&gt;
* депрессивно-печальный психотип;&lt;br /&gt;
* тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. Компьютерный анализ текстов, поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того какой области это касается будь-то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: нейролингвистического программирования может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей;&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик;&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение, и т.д.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности характерной для этих людей в социальных сетях и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, так, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
----&lt;br /&gt;
Оценка надёжности и платёжеспособности кандидатов на получение кредитов&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (пол, наличие телефонного номера), другие — к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
* Cuperman, R., &amp;amp; Ickes, W. (2009). Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts «disagreeables». ''Journal of Personality and Social Psychology, 97'', 667—684.&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=76186</id>
		<title>Анализ социальных сетей</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9&amp;diff=76186"/>
				<updated>2021-01-03T16:12:50Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: &lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;	Рассмотрим анализ социальных сетей в свете сбора данных про их пользователей. &lt;br /&gt;
	Правовые и морально-этические аспекты сбора и использования персональных данных в рамках данного обзора рассматриваться не будут.&lt;br /&gt;
==Задачи анализа социальных сетей==&lt;br /&gt;
* Сбор данных&lt;br /&gt;
**анкетные данные&lt;br /&gt;
**адреса &lt;br /&gt;
**интересы&lt;br /&gt;
* Анализ достоверности данных&lt;br /&gt;
* Индексация данных&lt;br /&gt;
* Классификация данных&lt;br /&gt;
* Предсказания поведения пользователей&lt;br /&gt;
&lt;br /&gt;
==Общая информация==&lt;br /&gt;
	Информация в социальных сетях  отличается от информации, полученной из баз данных, с которой обычно работают системы анализа и [[Машинное обучение | машинного обучения]] своей спецификой.&lt;br /&gt;
	Прежде всего следует учитывать, что под пользователями социальных сетей понимаются виртуальные личности, созданные реальными людьми.&lt;br /&gt;
	В связи с этим информация в социальных сетях формируется пользователем в рамках создания виртуального образа с учетом конфиденциальности и представлениях о безопасности конкретного человека.&lt;br /&gt;
	Таким образом, вопрос достоверности данных, получаемых для дальнейшего анализа становится весьма актуальным. Следовательно любые данные из социальных сетей должны обрабатываться с дополнительным параметром, характеризующим вероятность их достоверности.&lt;br /&gt;
	Хотя мы и видим настойчивые попытки владельцев и модераторов сетей идентифицировать пользователей и требовать от них доказательства их реальности, но практика показывает, что нередки случаи использования людьми сразу нескольких аккаунтов в рамках одной социальной сети. Это происходит из-за того, что пользователи стараются физически обособить свои различные интересы, по-разному раскрывающие их личность. Как правило, такие аккаунты имеют разные характеристики, интересы, круги общения.&lt;br /&gt;
	Люди иногда являются пользователями сразу нескольких соцсетей. Соответственно заводят аккаунты в каждой из них. Данные одного человека в разных соцсетях могут дополнять друг друга, тем самым дать более полную информацию о нем.&lt;br /&gt;
	Кроме того, не следует забывать о фейковых аккаунтах и ботах, создаваемых для введения в заблуждение людей и искажения статистической информации аналитических систем.&lt;br /&gt;
	Таким образом, идентификация пользователя, включающая в себя группировку разных аккаунтов одного реального человека и исключения фейков является важной задачей анализа данных социальных сетей.&lt;br /&gt;
	&lt;br /&gt;
==Сбор данных==	&lt;br /&gt;
	Первым этапом работы с соцсетями является собственно сбор данных.&lt;br /&gt;
Первое {{---}} парсинг и семантический анализ данных, оставленных в соцсетях виртуальными пользователями.&lt;br /&gt;
	Прежде всего это  личные данные: &lt;br /&gt;
* фамилия, имя, отчество;&lt;br /&gt;
* контактные данные;&lt;br /&gt;
* анкетные данные.&lt;br /&gt;
	Следует отметить, что для владельцев соцсетей есть дополнительные возможности для получения информации о пользователе, недоступные для внешних аналитиков такие как:&lt;br /&gt;
* IP-адреса;&lt;br /&gt;
* геолокация;&lt;br /&gt;
* характеристика устройства и т.д.&lt;br /&gt;
	Кроме того, важно зафиксировать кто является друзьями и подписчиками пользователя и на кого пользователь сам подписан. &lt;br /&gt;
	Анализируются:&lt;br /&gt;
* группы, в которых пользователь участвует, &lt;br /&gt;
* их тематика; &lt;br /&gt;
* активность пользователя в них, его сообщения;&lt;br /&gt;
* комментарии к чужим сообщениям.&lt;br /&gt;
	Немаловажное значение имеют данные с собственных страниц пользователя:&lt;br /&gt;
* подписчики этих страниц;&lt;br /&gt;
* тематика страницы;&lt;br /&gt;
* размещаемый на них контент;&lt;br /&gt;
* фотографии и собственные видеозаписи;&lt;br /&gt;
* комментарии пользователя и подписчиков.&lt;br /&gt;
	Сбор данных осуществляется на постоянной основе. Данные пополняются по мере появления новой информации.&lt;br /&gt;
&lt;br /&gt;
==Обработка данных== &lt;br /&gt;
	После сбора данных идет индексация и обработка данных, выделяющих существенную информацию для дальнейшей обработки. Делается это с целью уменьшения объема хранимых данных и приведения их  в вид, удобный для дальнейшей обработки и анализа.&lt;br /&gt;
	Любые личные данные, адрес и контактные данные крайне важны как для сопоставления виртуальных пользователей с реальными личностями, так и для выявления разных аккаунтов одного и того же человека.&lt;br /&gt;
Верификация этих данных происходит путем сравнения анкетных  данных, оставленных этим пользователем, с информацией из разных независимых источников.&lt;br /&gt;
	Это такие как:&lt;br /&gt;
* IP-адреса пользователя;&lt;br /&gt;
* геолокация и временной пояс пользователя;&lt;br /&gt;
* время оставляемых им сообщений;&lt;br /&gt;
&lt;br /&gt;
	Могут быть использованы существующие базы персональных данных реальных людей: базы паспортов; фотографий; прописок; автовладельцев; налоговых; имущественных.&lt;br /&gt;
	В свете появления новых технологий поиска людей по их изображениям, перспективным является анализ достоверности фотографии, представленной пользователем.&lt;br /&gt;
	Достоверность фотографии может быть подтверждена путем сравнения ее с лицами, представленными на других фотографиях и видеозаписях аккаунта. Также осуществляется поиск по фотографиям и видеозаписям, выложенным в аккаунтах друзей. Поиск точной копии фотографий в интернете может помочь избежать фейков, либо найти другие аккаунты этого же пользователя.&lt;br /&gt;
	&lt;br /&gt;
	Помимо идентификаторов и названий страниц и групп пользователя производится семантический анализ сообщений в группах с целью определения их тематики.&lt;br /&gt;
	Достоверность этой информации тем выше, чем дольше существует активность в этой группе. &lt;br /&gt;
Во внимание берутся:&lt;br /&gt;
* посты;&lt;br /&gt;
* комментарии; &lt;br /&gt;
* лайки; &lt;br /&gt;
* дизлайки; &lt;br /&gt;
* анализируются ссылки на группу в тематических контентах; &lt;br /&gt;
* интересы других пользователей этих групп. &lt;br /&gt;
	Таким образом формируется список интересов анализируемого пользователя.&lt;br /&gt;
	 Достоверность этого списка подтверждается наличием постов и комментариев на данную тематику, а также выявлением круга его знакомых, интересующихся данной тематикой.&lt;br /&gt;
	 Данным получившим подтверждение из независимых  источников присваивается коэффициент достоверности больший, чем данным, подтверждение которым пока найти не удалось.&lt;br /&gt;
	Данные, замеченные в фальсификации, получают негативный коэффициент  достоверности.	  Эти данные исключаются из дальнейшей обработки, а пользователю снижается его общий коэффициент доверия.&lt;br /&gt;
&lt;br /&gt;
	Собранные таким образом характеристики пользователей вполне пригодны для выбора целевых аудиторий для эффективного продвижения рекламы и коммерческих предложений.&lt;br /&gt;
Эта технология хоть и использует сейчас современные компьютерные методы сбора и обработки данных является по сути классическим &amp;quot;пещерным&amp;quot; маркетингом. &lt;br /&gt;
	Количество собираемых данных может быть расширено за счет анализа реакции клиентов на обращения к тем или иным темам. Например, относительное количество кликов на показанную пользователю рекламу и т.д. Это может несколько увеличить эффективность взаимодействия с пользователем.&lt;br /&gt;
	 &amp;lt;br&amp;gt;Принципиально новый подход к взаимодействию с пользователем возможен благодаря использованию более широкого анализа характеристик его личности. &lt;br /&gt;
	Фундаментальную теорию такого анализа можно почерпнуть из смежных наук таких как классическая и современная психология. &lt;br /&gt;
	На житейском уровне мы привыкли разделять характеры людей по дихотомии:&lt;br /&gt;
* рефлексивные {{---}} это меланхолики и флегматики;&lt;br /&gt;
* активные {{---}} это холерики и сангвиники .&lt;br /&gt;
&lt;br /&gt;
==Большая пятерка==&lt;br /&gt;
&lt;br /&gt;
	Академическая психология использует [https://ru.wikipedia.org/wiki/%D0%91%D0%BE%D0%BB%D1%8C%D1%88%D0%B0%D1%8F_%D0%BF%D1%8F%D1%82%D1%91%D1%80%D0%BA%D0%B0_(%D0%BF%D1%81%D0%B8%D1%85%D0%BE%D0%BB%D0%BE%D0%B3%D0%B8%D1%8F) Большую пятёрку] {{---}} диспозициональная (от англ. disposition — предрасположенность) модель [https://ru.wikipedia.org/wiki/%D0%9B%D0%B8%D1%87%D0%BD%D0%BE%D1%81%D1%82%D1%8C личности] человека, отражающей восприятие людей друг другом. В соответствии с названием, модель предполагает, что личность человека включает в себя пять общих и относительно независимых черт. &lt;br /&gt;
В ней используют показатели:&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%AD%D0%BA%D1%81%D1%82%D1%80%D0%B0%D0%B2%D0%B5%D1%80%D1%81%D0%B8%D1%8F экстраверсии (противоположность - интроверсия)],&lt;br /&gt;
* доброжелательности  - дружелюбия, способности прийти к согласию (противоположность - конфликтность); &lt;br /&gt;
* добросовестности - сознательности (противоположность - несознательность);&lt;br /&gt;
* [https://ru.wikipedia.org/wiki/%D0%9D%D0%B5%D0%B9%D1%80%D0%BE%D1%82%D0%B8%D0%B7%D0%BC нейротизма] (противоположный полюс {{---}} эмоциональная стабильность);&lt;br /&gt;
* открытости опыту (интеллект), (противоположность - замкнутость и закрытость к коммуникации и опыту).&lt;br /&gt;
&lt;br /&gt;
Значение личностных моделей во многом определяется их способностью предсказывать поведение индивида. Существует много исследований на эту тему. В частности, Cuperman and Ickes (2009) изучали поведенческие корреляты Большой пятёрки в контексте межличностного взаимодействия участников исследования. Было показано, что Большая пятёрка может предсказывать не только определённые формы поведения, но и реакции партнёра по общению. Например, было обнаружено, что с увеличением нейротизма возрастает число взглядов партнёра на такого человека. Cuperman and Ickes (2009) также показали, что личностные черты партнёров в диаде могут взаимодействовать между собой. Например, было показано, что удовлетворённость от общения зависит от степени экстраверсии (интроверсии) партнёров таким образом, что она возрастает по мере сходства партнёров по этому параметру. &lt;br /&gt;
&amp;lt;br&amp;gt;Методами машинного обучения можно выявить дополнительные закономерности для моделей Большой пятерки уже непосредственно связанные с нашими конкретными задачами и интересами. &lt;br /&gt;
&lt;br /&gt;
==Связь показателей Большой пятерки с характеристиками из социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Методы машинного обучения могут быть использованы для соотнесения пользователей сети с моделями личности Большой пятерки. Осуществляется это с использованием заранее определенных закономерностей. Рассмотрим для примера соотношение между типами характеров из Большой пятерки с характерами из социальных сетей:&lt;br /&gt;
&lt;br /&gt;
'''Высокая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Цветовые предпочтения фотографий (горячие оттенки).&lt;br /&gt;
*Большое количество групп, в которые человек вступает.&lt;br /&gt;
*Большое количество фотографий, размещенное на странице.&lt;br /&gt;
*Большое число записей на стене и комментариев, число замен аватаров , число слов в рубрике «обо мне».&lt;br /&gt;
*Большое количество друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем,&lt;br /&gt;
*Большое количество записей на стене сделанных другими пользователями.&lt;br /&gt;
*Большое количество портретов.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми. большое количество аватаров.&lt;br /&gt;
*Большое количество лайков на фото.&lt;br /&gt;
*Большое число связей (лидер мнений), частое использование соцсети (большое количество логинов).&lt;br /&gt;
*Использование в качестве основного канала переписки мессенджера ФБ.&lt;br /&gt;
*Большое количество обновления статуса.&lt;br /&gt;
*Много оставленных комментариев у других пользователей.&lt;br /&gt;
*Большое количество других людей на фотографиях.&lt;br /&gt;
*Превалирование среди друзей лиц противоположного пола.&lt;br /&gt;
*Большое количество понравившихся страниц на ФБ.&lt;br /&gt;
*Указанные контакты (тел, почта, адрес).&lt;br /&gt;
*Большое количество юмористического контента и видео.&lt;br /&gt;
*Большое количество отмеченных мест и геолокаций.&lt;br /&gt;
*Большое количество поздравлений с праздниками.&lt;br /&gt;
*Портрет/Селфи – превалирует селфи.&lt;br /&gt;
*Большое количество фотографий outside.&lt;br /&gt;
*Активная лицевая экспрессия на фото, особенно на аватаре.&lt;br /&gt;
*Большое количество непостановочных, неожиданных фотографий с активными занятиями спортом, тусовками и прочее.&lt;br /&gt;
*Большое количествр подарков в ВК.&lt;br /&gt;
&lt;br /&gt;
Лингвистика постов: &lt;br /&gt;
*Активная лингвистика cо словами, символизирующими активность, разговорчивость, энергичность, авантюризм, общение, встречи и прочее. &lt;br /&gt;
* положительные конструкции предложений, без частицы «не»;	&lt;br /&gt;
* слова с коннотациями возможности (могу, можно, возможно), желания (хочу), намерения (намереваюсь), способности (способен);&lt;br /&gt;
* сравнительные степени без негативных сравнений «лучше», «больше», «громче», «быстрее», «значительнее» и др.;&lt;br /&gt;
* положительные формулировки и номинализации (решение, задача, умение и пр.);&lt;br /&gt;
* глаголы с положительной окраской (получить, решить, создать, добавить, изучить и пр.).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая экстраверсия'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики: &lt;br /&gt;
*Абстрактные аватары.&lt;br /&gt;
*Игра в онлайн игры в соцсети.&lt;br /&gt;
*Цветовые предпочтения в фотографиях (черно-белые и холодные цвета).&lt;br /&gt;
*Малое количество групп, в которые пользователь вступил.&lt;br /&gt;
*Маленькое количество фотографий, которое пользователь разместил на странице – высчитывалось количество фотографий в год (2 и менее).&lt;br /&gt;
*Закрытый профиль и/или крайне мало заполненный профиль.&lt;br /&gt;
*Малое количество друзей и явные признаки фэйковости аккаунта.&lt;br /&gt;
*Отсутствие записей пользователя на стене и/или их крайне ограниченное количество. (репосты не считаются).&lt;br /&gt;
*Отсутствие записей других пользователей на стене, закрытая к комментариям стена.&lt;br /&gt;
*Отсутствие портретов и селфи, фотографии преимущественно неживых объектов.&lt;br /&gt;
*Редкое использование соцсети (малое количество логинов).&lt;br /&gt;
*Отсутствие комментариев на страницах друзей и интересных групп.&lt;br /&gt;
*Редкая переписка с использованием мессенджеров соцсетей.&lt;br /&gt;
*Долгий ответ на сообщения, отсутствие инициативы в сообщениях.&lt;br /&gt;
*Друзья преимущественно своего пола.&lt;br /&gt;
*Неуказанные контакты и невозможность отправить сообщение на страницу. 	Превалирующее количество технического контента в аккаунте.&lt;br /&gt;
*Пользователь не поздравляет никого с ДР в соцсети и сам мало получает таких поздравлений.&lt;br /&gt;
*Такое же относительно праздников.&lt;br /&gt;
*Неотмеченные геолокации и отсутствие чек-иннов.&lt;br /&gt;
*Большое количество фотографий в помещении, отсутствие людей на фото.&lt;br /&gt;
*Скупая и сдержанная лицевая экспрессия на лице аватара и других фото.&lt;br /&gt;
*Фотографии исключительно постановочные и отредактированные.&lt;br /&gt;
*Нет экспрессивных фотографий.&lt;br /&gt;
&lt;br /&gt;
В лингвистике часто используются:&lt;br /&gt;
* негативные конструкции предложений с частицей «не»; – слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан);&lt;br /&gt;
* сравнительные степени с негативной коннотацией «не хуже», «не плохо», «не меньше», «незначительно»;&lt;br /&gt;
* проблемные формулировки и номинализации (проблема, сложность, затруднение и пр.);&lt;br /&gt;
* глаголы с негативной окраской (избежать, избавиться, исключить, выбросить, помешать и пр.);&lt;br /&gt;
* частые ссылки на негативный опыт и прошлое время;&lt;br /&gt;
* критичные высказывания и скепсис по поводу актуальных задач, планов и решений.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*На фотографиях большое количество менее статусных людей, дети, животные, растения.&lt;br /&gt;
*Присутствие темы благотворительности и помощи.&lt;br /&gt;
*Преимущественно пастельные тона на фотографиях.&lt;br /&gt;
*Умеренное количество групп, интересов, не связанных с активным спортом и экстремальным времяпрепровождением.&lt;br /&gt;
*Отсутствие обсуждения политики и политического контента и лайкание его.&lt;br /&gt;
*Раскрытая информация о семье и родственниках.&lt;br /&gt;
 &lt;br /&gt;
Особенности лингвистики постов:&lt;br /&gt;
* конструкции с пассивным залогом и сослагательным наклонением («нас поставили в известность», «хорошо было бы, если б»);&lt;br /&gt;
* частые обращения, предполагающие ролевые и иерархичные отношения («с вашего позволения», «если Вас не затруднит», «не были бы Вы столь любезны?»);&lt;br /&gt;
* подчеркнутое использование уменьшительно-ласкательных форм;&lt;br /&gt;
* излишняя доверчивость к внешней информации и комментариям без желания ее детализировать;&lt;br /&gt;
* избегание использования повелительного наклонения и требований.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая доброжелательность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Небольшое число друзей.&lt;br /&gt;
*Значительное количество контента, связанного с агрессивностью и экстримом: бои без правил, война, насилие и пр.&lt;br /&gt;
*Большое количество политического контента.&lt;br /&gt;
*Горячие тона фотографий.&lt;br /&gt;
*Фотографии связанные со спортом и конкуренцией.&lt;br /&gt;
*Большое количество сведений, связанных с употреблением крепкого алкоголя.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики постов: &lt;br /&gt;
* ссылки на себя как на источник размышлений и принятия решений;&lt;br /&gt;
* конструкции с активным залогом и изъявительным наклонением («я решу», «я прочитаю и приму решение»);&lt;br /&gt;
* частые обращения, предполагающие ролевые и иерархичные отношения с позиции силы («Вам следовало бы», «Вы должны были сделать», «Для того, чтобы все было правильно, Вам нужно»);&lt;br /&gt;
* модальные операторы желания и возможности применительно к себе (хочу, могу, желаю) и модальные операторы долженствования и необходимости (должен, обязан, вынужден) применительно к другим;&lt;br /&gt;
* недоверие и скепсис к внешним источникам информации с постоянным желанием ее перепроверить;&lt;br /&gt;
* не стесняется использовать повелительное наклонение и прямые требования.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая добросовестность''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). 	Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми и пр.).&lt;br /&gt;
&lt;br /&gt;
Особенности лингвистики личного постинга: &lt;br /&gt;
* слова с коннотациями необходимости (нужно – не нужно), долженствования (должны – не должны) и обязательств (обязан – не обязан);&lt;br /&gt;
* конструкции с пассивным залогом и сложносочиненными предложениями («мне была предоставлена информация о том, что…», «если бы мы владели полной информацией, то решение было бы принято»);&lt;br /&gt;
* перечисления («во-первых», «во-вторых», «в-третьих»), разделения (первый шаг, второй шаг и т.д.) и последовательности (в начале, потом, в конце);&lt;br /&gt;
* причинно-следственные связи и слова-связки, указывающие на них (поэтому, следовательно, так как, исходя из, если – то и пр.);&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая добросовестность'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое количество фото с пользователя с животными, абстрактные аватары, аватары на которых изображен другой человек,&lt;br /&gt;
*Очевидно фэйковая информация в профиле (например – возраст 120 лет).&lt;br /&gt;
*Полностью скрытый профиль и отсутствие личных сведений пользователя.&lt;br /&gt;
*Большое количество агрессивного и юмористического контента.&lt;br /&gt;
*Большое количество проведенного времени в онлайн играх.&lt;br /&gt;
*Преимущественно короткие сообщение в ленте.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
 &lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Высокая частота использования стены для коммуникаций.&lt;br /&gt;
*Большое количество портретов,&lt;br /&gt;
*Большое количество фотографий пользователя с другими людьми.&lt;br /&gt;
*Фотографии преимущественно черно-белой гаммы.&lt;br /&gt;
*Частая смена аватаров.&lt;br /&gt;
*Высокое число лайков на портрет.&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество мата и бранных слов.&lt;br /&gt;
*Частая смена статуса.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкий нейротизм''' &amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Минимальное время, проведенное в соцсетях.&lt;br /&gt;
*Небольшое количество логинов.&lt;br /&gt;
*Полное отсутствие в той или иной соцсети.&lt;br /&gt;
*Присутствие в небольшом количестве преимущественно профессиональных группах и пабликах.&lt;br /&gt;
*Баланс между статусными и нестатусными фотографиями.&lt;br /&gt;
*Заполненность, но немногословность профиля.&lt;br /&gt;
*Минимальное количество загруженных фотографий в сеть, число лайков на портрет.&lt;br /&gt;
*Минимальное время, проведенное в соцсети.&lt;br /&gt;
*Указанные контакты и сведения о себе.&lt;br /&gt;
*Полностью указанный образовательный и трудовой путь.&lt;br /&gt;
*Редкая смена статуса соцсети либо его стабильное отсутствие.&lt;br /&gt;
*Гарантированное отсутствие сведений об онлайн-играх.&lt;br /&gt;
*Большое количество геотегов и чек-иннов.&lt;br /&gt;
*Большое количество информационного постинга (длинна поста более 300 знаков). Страница, с исключительно профессиональным контентом.&lt;br /&gt;
*Большое количество фотографий из семейного контекста (с семьей, с детьми и пр.).&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Высокая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:&lt;br /&gt;
*Большое число друзей.&lt;br /&gt;
*Большое количество записей на стене сделанных пользователем.&lt;br /&gt;
*Большое количество фото пользователя с другими людьми.&lt;br /&gt;
*Использование мессенджера ФБ и ВК в качестве основного мессенджера.&lt;br /&gt;
*Использование широкого спектра функций ФБ.&lt;br /&gt;
*Частая игра в онлайн игры.&lt;br /&gt;
*Высокое разнообразие контекстов на фотографиях и в постах.&lt;br /&gt;
*Большое количество групп и интересов.&lt;br /&gt;
*Большое количество отправленных комментариев.&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
&lt;br /&gt;
'''Низкая открытость опыту'''&amp;lt;br&amp;gt;&lt;br /&gt;
Характеристики:  &lt;br /&gt;
*Закрытый профиль.&lt;br /&gt;
*Малое количество друзей.&lt;br /&gt;
*Эпизодическое ведение страницы.&lt;br /&gt;
*Частое упоминание политических, межгендерных и сексуальных тем в личном постинге.&lt;br /&gt;
*Отсутствие фотографий, лайков и дополнительных сведений о пользователе&lt;br /&gt;
&lt;br /&gt;
==Музыка и характер==&lt;br /&gt;
&lt;br /&gt;
Анализ саундтреков из аккаунтов пользователей позволяет сделать выводы об их музыкальных предпочтениях. А используя наработанные коррелянты можно судить о характере пользователя. &lt;br /&gt;
&amp;lt;br&amp;gt;Например, считается: '''экстраверты''' в целом чаще слушают музыку и их музыкальные предпочтения более разнообразны, однако они более склонны к поп, хип-хоп, сценической и современной-хитовой музыке. Экстраверты мало слушают музыку, которая «старше их по возрасту»: т.е. экстраверт 1990 года рождения практически не будет слушать музыку, вышедшую раньше своего рождения. &lt;br /&gt;
&amp;lt;br&amp;gt;У '''интровертов''' это наблюдается в разы (!) чаще. Экстраверты чаще слушают музыку в качестве фона. При этом, - доказано, что экстраверты по сравнению с интровертами, чаще слушают музыку со словами, чем без слов. Интроверты практически не слушают современные хиты из топ-10, а начинают их слушать (и покупать) спустя почти год после их выхода.&lt;br /&gt;
&amp;lt;br&amp;gt;'''«Доброжелательные»''' люди имеют четко ограниченный набор любимых песен и предпочитают не расширять этот список. Кстати, так же поступают и люди с невысокими показателями «открытости опыту». Доброжелательные люди достоверно чаще предпочитают спокойную, ретро и релакс-музыку, а менее доброжелательные – панк и рэп. Удивительно, но шансон, в русском понимании этого направления, оказался, что больше связан с закрытостью к опыту, а не к сниженной доброжелательности. &lt;br /&gt;
&amp;lt;br&amp;gt;'''«Добросовестность»''' незначительно коррелирует с хитами 90-х песен на своем языке, сниженная добросовестность слабо коррелирует с прослушиванием рэпа и отсутствием музыкальных предпочтений. Более добросовестные люди достоверно реже слушают музыку.&lt;br /&gt;
&amp;lt;br&amp;gt;'''Нейротизм''', или эмоциональная неустойчивость, более характерна для людей, прослушивающих музыку печальной и негативной тематики. Уровень нейротизма несколько коррелирует со стремлением многократно слушать одно и то же музыкальное произведение. &lt;br /&gt;
&amp;lt;br&amp;gt;'''Открытость опыту''' значимо коррелирует с популярной музыкой и современными хитами. Низкие показатели открытости опыта наблюдаются у поклонников андеграунда и шансона. &lt;br /&gt;
&amp;lt;br&amp;gt; Верно и обратное. С помощью приведенных выше закономерностей на основании типов характеров пользователей возможно сделать вывод об его музыкальных предпочтениях, о музыке, которая ему будет комфортна и будет им востребована.&lt;br /&gt;
&lt;br /&gt;
==Психотипы==&lt;br /&gt;
&lt;br /&gt;
	Психотипология оперирует конкретными психотипами, такими как: &lt;br /&gt;
* истероидный психотип;&lt;br /&gt;
* эпилептоидный психотип;&lt;br /&gt;
* паранойяльный  психотип;&lt;br /&gt;
* эмотивный  психотип;&lt;br /&gt;
* шизоидный психотип;&lt;br /&gt;
* гипертимный психотип;&lt;br /&gt;
* депрессивно-печальный психотип;&lt;br /&gt;
* тревожно-мнительный психотип.&lt;br /&gt;
&lt;br /&gt;
==Предсказание поведения пользователя и оптимизация взаимодействия с ним==&lt;br /&gt;
&lt;br /&gt;
	Существуют обоснованные и детерминированные признаки для всех этих психотипов и моделей личности, согласно которым пользователи социальных сетей с достаточной степенью достоверности могут быть к ним причислены. &lt;br /&gt;
	Задача эта вполне решаема с помощью современных методов машинного обучения. Компьютерный анализ текстов, поиск в них заранее определенных паттернов и сигнатур, стиля речи и особенности общения, характерных для тех или иных психотипов пользователя, его эмоциональные реакции и комментарии на чужие тексты, внешний вид и мимика на его фотографиях с высокой достоверностью могут быть причислены к одному из вышеперечисленных психотипов. Кроме того, для каждого из этих психотипов досконально изучены их поведенческие особенности, позволяющие прогнозировать их поведение в зависимости от возникающей ситуации.&lt;br /&gt;
	Сформированные таким образом предварительные данные несут в себе достаточный потенциал для эффективного решения ставящихся перед нами задач воздействия на реальных людей. Это увеличивает вероятность положительного результата воздействия на сформированные кластеры пользователей, независимо от того какой области это касается будь-то коммерческие предложения, политология, социальные опросы или социальные исследования.&lt;br /&gt;
&lt;br /&gt;
	Эти технологии вполне современны и активно используются в данный момент.&lt;br /&gt;
	Возможности наработок смежных гуманитарных дисциплин для воздействия на людей не ограничиваются только использованием психотипов в качестве дополнительных характеристик личности. Например, использование давно отработанной технологии: нейролингвистического программирования может дать более существенные и эффективные результаты.&lt;br /&gt;
	Правда для этого следует несколько видоизменить характер сбора и анализа данных. Помимо семантического анализа текстов пользователя предполагается проведение их частотного, лингвистического и стилистического анализа. &lt;br /&gt;
	Обращение к конкретному пользователю или группам пользователей должны быть автоматически составлены с такими же характеристиками речи, с использованием их словарного запаса, стилистических оборотов и с учетом привычных для них объемов текста, завершенные конкретным призывом к действию.&lt;br /&gt;
	Особенностями вышеперечисленных методик является:&lt;br /&gt;
* Заранее определенный и ограниченный перечень возможных характеристик пользователей соцсетей;&lt;br /&gt;
* Автоматический сбор данных с целью назначения пользователю тех или иных характеристик;&lt;br /&gt;
* Прогнозирование и оптимизация реакции пользователя на наш с ним контакт.&lt;br /&gt;
	&lt;br /&gt;
	Следует отметить, что возможности машинного обучения значительно шире реализации описанных выше технологий.&lt;br /&gt;
	В частности, представляется возможным осуществление недоступных ранее схем обратной связи. Рассмотрим существующую совокупность интересных нам людей, полностью удовлетворяющих нашим требованиям. Например: покупатели, купившие наш уникальный товар, избиратели, поддержавшие наше общественное движение, и т.д.&lt;br /&gt;
	Методом машинного обучения возможен анализ активности характерной для этих людей в социальных сетях и выявление кластеров параметров, характерных этой совокупности людей.&lt;br /&gt;
	При этом, найденные кластеры могут не иметь ни вербального, ни логического обоснования и вообще их количество заранее не определено. Например, вполне может выясниться, так, что люди купившие ваш дорогой, уникальный товар по непонятной причине одновременно интересуются рыбалкой, делают одинаковые грамматические ошибки, часто используют букву “Ж”. Это совокупное свойство не имеет названия и не может быть объяснено логически, но может помочь в поиске дополнительных клиентов. Разумеется такие гипотезы, найденные компьютером нуждаются в проверке и в подтверждении.&lt;br /&gt;
&lt;br /&gt;
==Примеры использования данных социальных сетей==&lt;br /&gt;
&lt;br /&gt;
Классическим примером использования данных о пользователях является реклама и маркетинг. Предприниматели предпочитают осуществлять целевое рекламное воздействие на своих потенциальных клиентов. С этой целью выявляется группа пользователей, соответствующая определенным характеристикам. Таким как:&lt;br /&gt;
*Проявление заинтересованности в предлагаемой продукции.&lt;br /&gt;
*Соответствующая платежеспособность.&lt;br /&gt;
*Положительное реагирование на рекламные предложения.&lt;br /&gt;
----&lt;br /&gt;
Оценка надёжности и платёжеспособности кандидатов на получение кредитов&lt;br /&gt;
&lt;br /&gt;
С этой задачей ежедневно сталкиваются все банки, занимающиеся выдачей кредитов. Необходимость в автоматизации этого процесса назрела давно, ещё в 1960–1970-е годы, когда в США и других странах начался бум кредитных карт.&lt;br /&gt;
&lt;br /&gt;
Лица, запрашивающие у банка заём, – это объекты, а вот признаки будут отличаться в зависимости от того, физическое это лицо или юридическое. Признаковое описание частного лица, претендующего на кредит, формируется на основе данных анкеты, которую оно заполняет. Затем анкета дополняется некоторыми другими сведениями о потенциальном клиенте, которые банк получает по своим каналам. Часть из них относятся к бинарным признакам (пол, наличие телефонного номера), другие — к порядковым (образование, должность), большинство же являются количественными (величина займа, общая сумма задолженностей по другим банкам, возраст, количество членов семьи, доход, трудовой стаж) или номинальными (имя, название фирмы-работодателя, профессия, адрес).&lt;br /&gt;
&lt;br /&gt;
Для машинного обучения составляется выборка, в которую входят кредитополучатели, чья кредитная история известна. Все заёмщики делятся на классы, в простейшем случае их 2 – «хорошие» заёмщики и «плохие», и положительное решение о выдаче кредита принимается только в пользу «хороших».&lt;br /&gt;
&lt;br /&gt;
Более сложный алгоритм машинного обучения, называемый кредитным скорингом, предусматривает начисление каждому заёмщику условных баллов за каждый признак, и решение о предоставлении кредита будет зависеть от суммы набранных баллов. Во время машинного обучения системы кредитного скоринга вначале назначают некоторое количество баллов каждому признаку, а затем определяют условия выдачи займа (срок, процентную ставку и остальные параметры, которые отражаются в кредитном договоре). Но существует также и другой алгоритм обучения системы – на основе прецедентов.&lt;br /&gt;
&lt;br /&gt;
==См. Также==&lt;br /&gt;
* [[Кластеризация]]&lt;br /&gt;
* [[Уменьшение размерности]]&lt;br /&gt;
* [[Рекомендательные системы]]&lt;br /&gt;
==Источники Информации==&lt;br /&gt;
* Cuperman, R., &amp;amp; Ickes, W. (2009). Big Five predictors of behavior and perceptions in initial dyadic interactions: Personality similarity helps extraverts and introverts, but hurts «disagreeables». ''Journal of Personality and Social Psychology, 97'', 667—684.&lt;br /&gt;
&lt;br /&gt;
[[Категория: Машинное обучение]]&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	<entry>
		<id>http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9.&amp;diff=76182</id>
		<title>Анализ социальных сетей.</title>
		<link rel="alternate" type="text/html" href="http://neerc.ifmo.ru/wiki/index.php?title=%D0%90%D0%BD%D0%B0%D0%BB%D0%B8%D0%B7_%D1%81%D0%BE%D1%86%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D1%85_%D1%81%D0%B5%D1%82%D0%B5%D0%B9.&amp;diff=76182"/>
				<updated>2021-01-03T16:01:52Z</updated>
		
		<summary type="html">&lt;p&gt;MaximOsadchiy: Полностью удалено содержимое страницы&lt;/p&gt;
&lt;hr /&gt;
&lt;div&gt;&lt;/div&gt;</summary>
		<author><name>MaximOsadchiy</name></author>	</entry>

	</feed>