Просмотр исходного текста страницы Рекомендательные системы

'''Рекомендательные системы''' {{---}} программы, которые пытаются предсказать, какие объекты будут интересны пользователю, имея определенную информацию о его профиле.

== Обзор и постановка задачи ==

Основная задача рекомендательных систем {{---}} проинформировать пользователя о товарах или услугах, которые будут для него наиболее интересными и актуальными. Разнообразие таких систем можно проиллюстрировать основными характеристиками:

* предмет рекомендации;
* цель рекомендации;
* контекст рекомендации;
* источник рекомендации;
* степень персонализации;
* формат рекомендации;
* прозрачность рекомендации.

В центре таких систем лежит матрица предпочтений. В этой матрице одна из осей отвечает за пользователей, вторая за объекты рекомендации. Заполнена же эта матрица значениями по заданной шкале (например от <tex>1</tex> до <tex>5</tex>). Каждый клиент с малой долей вероятностью оценивал все объекты рекомендации, поэтому задача системы {{---}} это обобщение информации и предсказание: какое отношение к рекомендуемому объекту будет у пользователя. 

Пользовательские оценки, необходимые для составления матрицы предпочтений, можно получить двумя способами:

* явно (англ. ''explicit ratings'');
* неявно (англ. ''implicit ratings'').

Очевидно, что явное оценивание лучше, так как сам пользователь определяет насколько ему интересен тот или иной объект, однако из-за непостоянства в получении явных оценок от пользователей, на практике используется оба подхода. 

Формализуем задачу. Имеется множество пользователей <tex> u \in U </tex>, множество объектов <tex> i \in I </tex> и множество событий <tex> (r_{ui}, u, i,\dots) \in D </tex> (действия, которые совершают пользователи с объектами). Каждое событие задается пользователем <tex> u </tex>, объектом <tex> i </tex>, своим результатом <tex> r_{ui} </tex> и, возможно, но не обязательно, другими характеристиками. По итогу требуется:

* предсказать предпочтение: <tex> \hat{r}_{ui} = Predict(u, i,\dots) \approx r_{ui}; </tex>
* персональные рекомендации: <tex> u \mapsto (i_1,\dots, i_k) = Recommend_k(u,\dots); </tex>
* похожие объекты: <tex> u \mapsto (i_1,\dots, i_M) = Similar_M(i). </tex>

==Кластеризация пользователей==

{{Определение
|definition=
'''Коллаборативная фильтрация''' (англ. ''collaborative filtering'') {{---}} один из методов построения прогнозов (рекомендаций) в рекомендательных системах, использующий известные предпочтения (оценки) группы пользователей для прогнозирования неизвестных предпочтений другого пользователя.
}}

Основная идея метода {{---}} похожим пользователям нравятся похожие объекты.

Алгоритм можно разбить на следующие шаги:
# Выбор условной меры схожести пользователей по истории их оценок <tex> sim(u, v) </tex>.
# Объединение пользователей в группы (кластеры) так, чтобы похожие пользователи оказывались в одном кластере <tex> u \mapsto F(u) </tex>.
# Предсказание оценки пользователя: средняя оценка кластера этому объекту <tex> \hat{r}_{ui} = \dfrac{1}{|F(u)|}\sum_{u \in F(u)}{}{r_{ui}} </tex>.

Проблемы алгоритма:

* Нечего рекомендовать новым пользователям, так как их невозможно определить к какому-либо кластеру;
* Не учитывается контекст и специфика пользователя;
* Если в кластере нет оценки объекта, то предсказание невозможно.

== Холодный старт ==
{{Определение
|definition=
'''Холодный старт''' (англ. ''cold start'') {{---}} ситуация, когда ещё не накоплено достаточное количество данных для корректной работы рекомендательной системы.
}}
Данная проблема актуальна для новых объектов или объектов, которые редко покупают. Если средний рейтинг посчитан по оценкам всего трёх пользователей, такая оценка явно не будет достоверной, и пользователи это понимают. Часто в таких ситуациях рейтинги искусственно корректируют.

Первый способ {{---}} показывать не среднее значение, а сглаженное среднее (англ. ''damped mean''). Смысл таков: при малом количестве оценок отображаемый рейтинг больше тяготеет к некому безопасному «среднему» показателю, а как только набирается достаточное количество новых оценок, «усредняющая» корректировка перестает действовать.

Другой подход {{---}} рассчитывать по каждому рейтингу интервалы достоверности (англ. ''сonfidence intervals''). Математически, чем больше оценок, тем меньше вариация среднего и, значит, больше уверенность в его корректности. А в качестве рейтинга можно выводить, например, нижнюю границу интервала (англ. ''low CI bound''). При этом понятно, что такая система будет достаточно консервативной, с тенденцией к занижению оценок по новым товарам.

== User-based и item-based алгоритмы ==

Заменим жесткую кластеризацию на предположение, что фильм понравится пользователю, если он понравился его друзьям.

<tex> \hat{r}_{ui} = \bar{r}_u + \dfrac{\sum_{v \in U_i}{}{sim(u, v)(r_{vi} - \bar{r}_v)}}{\sum_{v \in {U_i}}{}{sim(u, v)}} </tex>

Однако у этого алгоритма есть недостатки: 

* Холодный старт — новые объекты никому не рекомендуются.
* Нечего рекомендовать новым/нетипичным пользователям. Для таких пользователей мы все еще не можем найти похожих.

Так же имеется абсолютно симметричный алгоритм. Теперь будем считать, что фильм понравится пользователю, если ему понравились похожие фильмы.

<tex> \hat{r}_{ui} = \bar{r}_i + \dfrac{\sum_{j \in I_u}{}{sim(i, j)(r_{uj} - \bar{r}_j)}}{\sum_{j \in {I_u}}{}{sim(i, j)}} </tex>

У такого подхода остается недостаток в виде холодного старта и при этом рекомендации становятся тривиальными.

Так же стоит отметить ресурсоемкость вычислений такими методами. Для предсказаний необходимо держать в памяти все оценки всех пользователей.

==Алгоритм SVD==

{{Определение
|definition=
'''SVD''' (англ. ''Single Value Decomposition'') {{---}} у любой матрицы <tex> A </tex> размера <tex> n \times m </tex> существует разложение на матрицы <tex> U, \Sigma, V^T </tex>: <tex> A_{n \times m} = U_{n \times n} \times \Sigma_{n \times m} \times V^T_{m \times m} </tex>.<br/>
}}

[[Файл:3.png|400px|thumb|right|SVD для рекомендательных систем.]]

Матрицы <tex> U, V </tex> ортогональные, <tex> \Sigma </tex> {{---}} диагональная:
<tex> UU^T = I_n</tex>,<tex>VV^T = I_m</tex>, <tex> \Sigma = diag(\lambda_1,\dots,\lambda_{min(n, m)})</tex>, <tex>\lambda_1 \geq \dots \geq \lambda_{min(n, m)} \geq 0 </tex> .

Обратить внимание же стоит на усеченное разложение, когда из лямбд, остаются только первые <tex> d </tex> чисел, а остальные полагаются равными нулю.

<tex> \lambda_{d+1},\dots,\lambda_{min(n,m)} = 0 </tex>

Значит у матриц <tex> U </tex> и <tex> V </tex> остаются только первые <tex> d </tex> столбцов, а матрица <tex> \Sigma </tex> становится квадратной размером <tex> d \times d </tex>.

<tex> A'_{n \times m} = U'_{n \times d} \times \Sigma'_{d \times d} \times V'^T_{d \times m} </tex>

Получаем наилучшее низкоранговое приближение с точки зрения средне-квадратичного отклонения.

Чтобы предсказать оценку пользователя <tex> U </tex> для объекта <tex> I </tex>, берём некоторый вектор <tex> p_u </tex> для данного пользователя и вектор данного объекта <tex> q_i </tex>. Получаем необходимое предсказание: <tex> \hat{r}_{ui} = \langle p_u,q_i \rangle </tex>.

Помимо предсказания оценок, алгоритм позволяет выявлять скрытые признаки объектов и интересы пользователей.

Однако есть и свои проблемы:

*<tex> R </tex> матрица оценок полностью не известна, поэтому просто взять SVD разложение не получится;
*SVD разложение не единственное, поэтому даже если какое-то разложение будет найдено, нет гарантии, что первая координата в нем будет соответствовать некоторым выбранным характеристикам пользователя.

==Решение проблемы матрицы оценок==
Для решения проблем, связанных с матрицей оценок <tex>R</tex>, воспользуемся [[Регуляризация | регуляризацией]].

Модель будет зависеть от следующих параметров: вектор пользователей и вектор объектов. Для заданных параметров возьмем вектор пользователя и вектор объекта, а затем для предсказания оценки получим их скалярное произведение:

<tex> \hat{r}_{ui}(\Theta) = p^T_uq_i </tex>

<tex> \Theta = {p_u, q_i \mid u \in U, i \in I} </tex>

Но вектора пока не известны, их нужно получить. Имеются оценки пользователей, при помощи которых можно найти оптимальные параметры, при которых модель предскажет оценки наилучшим образом:

<tex> E_{(u,i)}(\hat{r}_{ui}(\Theta) - r_{ui})^2 \to min_{\Theta} </tex>.

То есть, нужно найти такие параметры <tex> \Theta </tex>, чтобы квадрат ошибки был наименьшим. Однако ситуация следующая: оптимизация приведет к наименьшим ошибкам в будущем, но как именно оценки будут спрашивать {{---}} неизвестно. Следовательно, это нельзя оптимизировать. Однако, так как оценки, уже проставленные пользователями, известны, постараемся минимизировать ошибку на тех данных, что у нас уже есть. Также добавим регуляризатор. Получим, следующее:
<tex> \sum_{(u,i) \in D}{(\hat{r}_{ui}(\Theta) - r_{ui})^2} + \lambda \sum_{\theta \in \Theta}{\theta^2} \to min_{\Theta} </tex>

Регуляризация заключается в том, что минимизируется не только ошибка, но и некоторая функция параметров (например, норма вектора параметров). Это позволяет ограничить размер параметров в решении, уменьшает степень свободы модели.

==Численная оптимизация==
[[Файл:2.png|200px|thumb|right|Визуализация градиентного спуска.]]

<tex> J(\Theta) = \sum_{(u,i) \in D}{(r^T_u - r_{ui})^2} + \lambda (\sum_u{||p_u||^2} + \sum_i{||q_i||^2}) </tex>

Необходимо оптимизировать данный функционал. Множество параметров: для каждого объекта и пользователя есть свой вектор, который нужно оптимизировать. Дабы найти минимум функции воспользуемся градиентом {{---}} вектор из частных производных по каждому параметру.

<tex> \nabla J(\Theta) = (\dfrac{\partial J}{\partial \theta_1}, \dfrac{\partial J}{\partial \theta_2},\dots,\dfrac{\partial J}{\partial \theta_n})^T </tex>

Можно воспользоваться градиентным бустингом:

<tex> \Theta_{t+1} = \Theta_t - \eta \nabla J(\Theta) </tex>

Проблема же заключается в том, что алгоритм работает медленно, а минимумы которые он находит {{---}} локальные, а не глобальные.

==Измерение качества рекомендаций==

Было предложено измерять качество рекомендаций при помощи RMSE:

<tex> RMSE = \sqrt{\dfrac{1}{|D|} \sum_{(u,i) \in D}{(\hat{r}_{ui} - r_{ui})^2}} </tex>

Однако она также обладает недостатками, хоть и является стандартом измерения качества:

* Пользователи с большим разбросом оценок будут влиять на значение метрики больше, чем остальные;
* Ошибка в предсказании высокой оценки имеет такой же вес, что и ошибка в предсказании низкой оценки;
* Есть риск плохого ранжирования при почти идельаной RMSE и наоборот.

Существуют при этом и другие метрики {{---}} метрики ранжирования, на основе полноты и точности. Однако они не так популярны и используются значительно реже.

==См. также==
* [[Регуляризация]]
* [[Линейная регрессия]]
* [[Метод опорных векторов (SVM)]]

== Источники информации==
* [https://habr.com/ru/company/yandex/blog/241455/ Как работают рекомендательные системы.]
* [https://habr.com/ru/company/jetinfosystems/blog/453792/ Рекомендательные системы: идеи, подходы, задачи.]
* [https://neurohive.io/ru/osnovy-data-science/rekomendatelnye-sistemy-modeli-i-ocenka/ Анатомия рекомендательных систем.]
* [http://www.mathnet.ru/links/4d5ff6f460c0d9409ce16b558725408d/ista26.pdf Рекомендательные системы: обзор основных постановок и результатов.]