Изменения

Рекомендательные системы

4083 байта добавлено, 11:00, 8 января 2021

Нет описания правки

== Обзор и постановка задачи ==

Основная задача рекомендательных систем <ref>[https://ru.wikipedia.org/wiki/%D0%A0%D0%B5%D0%BA%D0%BE%D0%BC%D0%B5%D0%BD%D0%B4%D0%B0%D1%82%D0%B5%D0%BB%D1%8C%D0%BD%D0%B0%D1%8F_%D1%81%D0%B8%D1%81%D1%82%D0%B5%D0%BC%D0%B0 Рекомендательные системы]</ref> {{---}} проинформировать пользователя о товарах или услугах, которые будут для него наиболее интересными и актуальными. Разнообразие таких систем можно проиллюстрировать основными характеристиками:

* ~~Предмет~~ предмет рекомендации;* ~~Цель~~ цель рекомендации;* ~~Контекст~~ контекст рекомендации;* ~~Источник~~ источник рекомендации;* ~~Степень~~ степень персонализации;* ~~Прозрачность~~формат рекомендации;* ~~Формат~~ прозрачность рекомендации;* Алгоритмы.

В центре таких систем лежит матрица предпочтений. В этой матрице одна из осей отвечает за пользователей, вторая за объекты рекомендации. Заполнена же эта матрица значениями по заданной шкале (например от <tex>1</tex> до <tex>5</tex>). ~~Каждый клиент с малой долей вероятностью оценивал все объекты рекомендации~~Так как каждый пользователь обычно может оценить только небольшую часть объектов, ~~поэтому задача~~ то данная матрица очень разрежена. Задача системы {{---}} ~~это~~ обобщение информации и предсказание~~: какое отношение~~ отношения пользователя к ~~рекомендуемому~~ объекту ~~будет у пользователя~~(заполнение пропущенных значений матрицы).

~~Пользовательские оценки~~Данные, ~~необходимые для составления матрицы предпочтений~~сообщающие предпочтения пользователя, можно получить двумя способами:

* явно (англ. ''explicit feedback'', ''explicit ratings'');* неявно (англ. ''implicit feedback'', ''implicit ratings'').

~~Очевидно, что явное оценивание лучше~~При явном оценивании пользователь сам показывает, ~~так как сам пользователь определяет~~ насколько ему интересен тот или иной объект. Типичным примером данных, ~~однако из-за непостоянства~~ полученных при явном оценивании, являются рейтинги, проставленные пользователями объектам. На практике таких данных обычно мало.Гораздо больше имеется информации о неявных предпочтениях пользователя: просмотры, клики, добавления в ~~получении явных оценок от пользователей~~закладки. Однако по таким данным не всегда можно сделать явный вывод об отношении пользователя к объекту. Например, если пользователь посмотрел фильм, то это означает, ~~на практике используется оба~~ что до просмотра он ему был интересен, но сделать вывод о том, понравился ли ему фильм, нельзя.В большинстве рекомендательных систем эти два подходаиспользуются вместе, тем самым минимизируются недостатки каждого из них в отдельности.

Формализуем задачу. Имеется множество пользователей <tex> u \in U </tex>, множество объектов <tex> i \in I </tex> и множество событий <tex> (r_{ui}, u, i,\dots) \in D </tex> (действия, которые совершают пользователи с объектами). Каждое событие задается пользователем <tex> u </tex>, объектом <tex> i </tex>, своим результатом <tex> r_{ui} </tex> и, возможно, но не обязательно, другими характеристиками. По итогу от рекомендательной системы требуется:

* ~~предсказать~~ предсказывать предпочтениепользователя <tex> u </tex> к объекту <tex> i </tex>: <tex> \hat{r}_{ui} = Predict(u, i,\dots) \approx r_{ui}; </tex>* выдавать персональные рекомендациидля пользователя <tex> u </tex>: <tex> Recommend_k(u ~~\mapsto (i_1~~,\dots~~, i_k~~) = ~~Recommend_k~~(ui_1,\dots, i_k); </tex>* определять объекты, похожие ~~объекты~~на объект <tex>i</tex>: <tex> ~~u \mapsto~~ Similar_M(i) = (i_1,\dots, i_M~~) = Similar_M(i~~). </tex>

==Кластеризация пользователей==

Алгоритм можно разбить на следующие шаги:

* Выберем условную меру # Выбор условной меры схожести пользователей по истории их оценок <tex> sim(u, v) </tex>;.* Объединим # Объединение пользователей в группы (кластеры) так, чтобы похожие пользователи оказывались в одном кластере <tex> u \mapsto F(u) </tex>;.* Оценку # Предсказание оценки пользователя ~~предскажем как среднюю оценку~~ : средняя оценка кластера этому объекту <tex> \hat{r}_{ui} = \dfrac{1}{|F(u)|}\sum_{u \in F(u)}{}{r_{ui}} </tex>.

Проблемы алгоритма:

* ~~Нечего~~ нечего рекомендовать новым пользователям, так как их невозможно ~~определить~~ отнести к какому-~~нибудь~~ либо кластеру~~, а значит и рекомендовать им нечего~~;* Не не учитывается контекст и специфика пользователя;* ~~Если~~ если в кластере нет оценки объекта, то предсказание невозможно.

== Холодный старт ==

'''Холодный старт''' (англ. ''cold start'') {{---}} ситуация, когда ещё не накоплено достаточное количество данных для корректной работы рекомендательной системы.

}}

Данная проблема актуальна для новых объектов или объектов, ~~которые~~ с которыми пользователи редко ~~покупают~~совершают действия. Если средний рейтинг посчитан по оценкам всего трёх пользователей, такая оценка явно не будет достоверной, и пользователи это понимают. Часто в таких ситуациях рейтинги искусственно корректируют.

'''Первый способ – .''' Предлагается показывать не среднее значение, а сглаженное среднее (англ. ''~~Damped Mean~~damped mean''). Смысл таков: при малом количестве оценок отображаемый рейтинг больше тяготеет к некому безопасному «среднему» показателю, а как только набирается достаточное количество новых оценок, «усредняющая» корректировка перестает действовать.

~~Другой подход – рассчитывать по каждому рейтингу интервалы~~ '''Второй способ.''' Для объекта считается средний рейтинг, затем определяется интервал достоверности (англ. ''~~Confidence Intervals~~сonfidence interval'')этого рейтинга. Математически, чем больше оценок, тем меньше вариация среднего и, значит, больше уверенность в его корректности. А в качестве рейтинга объекта можно выводить, например, нижнюю границу интервала (англ. ''~~Low~~ low CI ~~Bound~~bound''). При этом понятно, что такая система будет достаточно консервативной, с тенденцией к занижению оценок по новым ~~товарам~~объектам.

== User-based и item-based алгоритмы ==

=== User-based алгоритм ===Заменим жесткую кластеризацию на предположение, что ~~фильм~~ объект понравится пользователю, если он понравился ~~его друзьям~~похожим пользователям.Тогда предпочтение пользователя <tex>u</tex> к объекту <tex>i</tex> можно записать следующим образом:

<tex> \hat{r}_{ui} = \bar{r}_u + \dfrac{\sum_{v \in U_i}{}{sim(u, v)(r_{vi} - \bar{r}_v)}}{\sum_{v \in {U_i}}{}{sim(u, v)}} </tex>, где <tex>\bar{r}_u</tex> {{---}} средняя оценка, проставленная пользователем <tex> u </tex>, а <tex> sim(u,v) </tex> {{---}} мера схожести пользователей <tex>u</tex> и <tex>v</tex>.

Однако у этого алгоритма есть недостатки:

* ~~Холодный~~ холодный старт.— новые объекты никому не рекомендуются;* ~~Нечего~~ нечего рекомендовать новым/нетипичным пользователям.

~~Так же~~ === Item-based алгоритм ===Также имеется абсолютно симметричный алгоритм. Теперь будем считать, что ~~фильм~~ объект понравится пользователю, если ему понравились похожие ~~фильмы~~объекты.Предпочтение пользователя <tex>u</tex> к объекту <tex>i</tex> запишется так:

<tex> \hat{r}_{ui} = \bar{r}_i + \dfrac{\sum_{j \in I_u}{}{sim(i, j)(r_{uj} - \bar{r}_j)}}{\sum_{j \in {I_u}}{}{sim(i, j)}} </tex>, где <tex>\bar{r}_i</tex> {{---}} средняя оценка, проставленная объекту <tex> i </tex>, а <tex> sim(i, j) </tex> {{---}} мера схожести объектов <tex>i</tex> и <tex>j</tex>.

У такого подхода остается недостаток в виде холодного старта и при этом рекомендации становятся тривиальными.

~~Так же стоит~~ Cтоит отметить , что ресурсоемкость вычислений такими методами~~. Для~~ высока: для предсказаний необходимо держать в памяти все оценки всех пользователей.

==Алгоритм SVD==

~~{{Определение|definition=~~'''SVD''' (англ. ''Single Value Decomposition'') {{---}} у любой матрицы <tex> A </tex> размера <tex> n \times m </tex> существует разложение на матрицы <tex> U, \Sigma, V^T </tex>: <tex> A_{n \times m} = U_{n \times n} \times \Sigma_{n \times m} \times V^T_{m \times m} </tex>.<br/>}} Попробуем воспользоваться [[~~Файл:3.png|400px|thumb|right~~Сингулярное разложение |сингулярным разложением (SVD )]] для ~~рекомендательных систем~~задачи рекомендации.]]

~~Матрицы~~ Разложим матрицу оценок <tex> ~~U, V~~ R </tex> ~~ортогональные, а~~ с использованием сингулярного разложения: <tex> R_{n \times m} = U_{n \times n} \times \Sigma_{n \times m} \times V^T_{m \~~Sigma~~ times m} </tex> ~~{{---}} диагональная~~.Применяя усеченное разложение, ~~то есть~~получим следующее:<tex> UUR'_{n \times m} = U'_{n \times d} \times \Sigma '_{d \times d} \times V'^~~T = I_n~~T_{d \times m} </tex>.Из свойств сингулярного разложения мы знаем,что матрица <tex>~~VV^T = I_m~~R'_{n \times m} </tex>, является наилучшим низкоранговым приближением с точки зрения средне-квадратичного отклонения. Несколько упростим запись выражения: запишем произведение первых двух матриц <tex> \tilde{U}_{n \times d} = U'_{n \times d} \times \Sigma ~~= diag(~~'_{d \~~lambda_1~~times d} </tex>,а матрицу <tex> V'^T_{d \~~dots,~~times m} </tex> обозначим как <tex> \~~lambda_~~tilde{~~min(n,~~ V}_{d \times m)})</tex>, . Получим формулу <tex>R'_{n \~~lambda_1~~ times m} = \~~geq~~ tilde{U}_{n \~~dots~~ times d} \~~geq~~ times \~~lambda_~~tilde{~~min(n,~~ V}_{d \times m)} ~~\geq 0~~ </tex> . Интерпретировать полученную формулу стоит следующим образом: приближенная матрица оценок может быть вычислена как произведение усеченных матриц пользователей и оценок.

~~Обратить внимание же стоит на усеченное разложение, когда~~ Благодаря использованию такого усечения можно решить одну из ~~лямбд, остаются только первые <tex> d </tex> чисел, а остальные полагаются равными нулю~~главных проблем всех ранее упомянутых алгоритмов: ресурсоемкость вычислений.

~~<tex> \lambda_{d+1},\dots,\lambda_{min(n,m)} = 0 </tex>~~[[Файл:RecommendSVD.png|450px|thumb|right|SVD для рекомендательных систем.]]

Значит у матриц <tex> U </tex> и <tex> V </tex> остаются только первые <tex> d </tex> столбцов, а матрица <tex> \Sigma </tex> становится квадратной размером <tex> d \times d </tex>. ~~<tex> A'_{n \times m} = U'_{n \times d} \times \Sigma'_{d \times d} \times V'^T_{d \times m} </tex>~~ ~~Получаем наилучшее низкоранговое приближение с точки зрения средне-квадратичного отклонения.~~ Чтобы предсказать оценку пользователя <tex> U u </tex> для объекта <tex> I i </tex>, берём некоторый вектор <tex> p_u </tex> для данного пользователя и вектор данного объекта <tex> q_i </tex>. Получаем необходимое предсказание: <tex> \hat{r}_{ui} = \langle p_u,q_i \rangle </tex>.

Помимо предсказания оценок, алгоритм позволяет выявлять скрытые признаки объектов и интересы пользователей.

Например, может так получиться, что на первой координате вектора у каждого пользователя будет стоять число, показывающее, похож ли пользователь больше на мальчика или на девочку, на второй координате — число, отражающее примерный возраст пользователя. У фильма же первая координата будет показывать, интересен ли он больше мальчикам или девочкам, а вторая — какой возрастной группе пользователей он интересен.

Однако ~~есть и свои проблемы~~данный алгоритм имеет ряд проблем: *матрица оценок <tex> R </tex> ~~матрица оценок~~ полностью не известна, поэтому просто взять SVD разложение не ~~получится~~представляется возможным;*~~SVD~~ Сингулярное разложение не единственное, поэтому даже если какое-то разложение будет найдено, нет гарантии, что первая координата в нем будет соответствовать некоторым выбранным характеристикам пользователя.

==Решение проблемы матрицы оценок==

Модель будет зависить от ногих параметров {{---}} вектора пользователей и вектора объектов. Для заданных параметров, возьмем вектор пользователя, вектор объекта и получим их скалярное произведение, чтобы предсказать оценку:

Для решения проблем, связанных с матрицей оценок <tex> ~~\hat{r}_{ui}(\Theta) = p^T_uq_i~~ R</tex>,построим модель.

Модель будет зависеть от следующих параметров: вектор пользователей и вектор объектов. Для заданных параметров <tex> u </tex> и <tex>i</tex> возьмем вектор пользователя <tex> p_u </tex> и вектор объекта <tex>q_i</tex>, затем для предсказания оценки получим их скалярное произведение, как и в алгоритме SVD:<tex> \hat{r}_{ui}(\Theta) = p^T_uq_i </tex>, где <tex> \Theta = \{p_u,q_i | \mid u \in U, i \in I\} </tex>.

Но вектора пока не известны, их нужно получить. Имеются оценки пользователей, при помощи которых ~~можно~~ можно найти оптимальные параметры, при которых модель предскажет оценки ~~наилучших~~ наилучшим образом:<tex> E_{(u,i)}(\hat{r}_{ui}(\Theta) - r_{ui})^2 \to min_{\Theta} </tex>.

~~<tex> E_{(u,i)}(\hat{r}_{ui}(\Theta) - r_{ui})^2 \to min_{\Theta} </tex>~~ То есть, нужно найти такие параметры <tex> \Theta </tex>, чтобы квадрат ошибки был наименьшим. Однако ситуация следующая: оптимизация приведет к наименьшим ошибкам в будущем, но как именно оценки будут спрашивать {{---}} неизвестно. Следовательно, это нельзя оптимизировать. Однако, так как оценки , уже проставленные пользователями , известны, постараемся минимизировать ошибку на тех данных, что у нас уже есть. ~~Так же добавим регуляризатор~~Также воспользуемся [[Регуляризация | регуляризацией]].В качестве регуляризатора будет выступать слагаемое <tex>\lambda \sum_{\theta \in \Theta}{\theta^2}</tex>. Получим следующее:<tex> \sum_{(u,i) \in D}{(\hat{r}_{ui}(\Theta) - r_{ui})^2} + \lambda \sum_{\theta \in \Theta}{\theta^2} \to min_{\Theta} </tex> ~~{{Определение|definition=~~'''Регуляризация''' (англ. ''regularization'') в статистике, машинном обучении, теории обратных задач — метод добавления некоторых дополнительных ограничений к условию с целью решить некорректно поставленную задачу или предотвратить переобучение. Чаще всего эта информация имеет вид штрафа за сложность модели.}} Регуляризация заключается в том, что минимизируется не только ошибка, но и некоторая функция параметров (например, норма вектора параметров). Это позволяет ограничить размер параметров в решении, уменьшает степень свободы модели.

==Численная оптимизация==

~~[[Файл:2.png|200px|thumb|right|Визуализация градиентного спуска.]]~~

~~<tex> J(\Theta) = \sum_{(u,i) \in D}{(r^T_u - r_{ui})^2} + \lambda (\sum_u{||p_u||^2} + \sum_i{||q_i||^2}) </tex>~~

~~Необходимо~~ Чтобы найти оптимальные параметры построенной модели необходимо оптимизировать ~~данный~~ следующий функционал~~. Множество параметров~~: для каждого объекта и пользователя есть свой вектор, который нужно оптимизировать. Дабы найти минимум функции воспользуемся градиентом {{---}} вектор из частных производных по каждому параметру.

<tex> ~~\nabla~~ J(\Theta) = (\~~dfrac~~sum_{(u,i) \~~partial J~~in D}{~~\partial \theta_1}, \dfrac~~(p^T_uq_i - r_{~~\partial J~~ui}~~{\partial \theta_2~~)^2},+ \~~dots,~~lambda (\~~dfrac~~sum_u{||p_u||^2} + \~~partial J}~~sum_i{~~\partial \theta_n~~||q_i||^2})^T </tex>.

~~Можно воспользоваться градиентным бустингом~~Множество параметров: для каждого объекта и пользователя есть свой вектор, который нужно оптимизировать. Чтобы найти минимум функции можно использовать [[ Стохастический градиентный спуск | метод градиентного спуска]]. Для этого нам понадобится градиент {{---}} вектор из частных производных по каждому параметру, который в нашем случае будет выглядеть так:

<tex> \~~Theta_~~nabla J(\Theta) = (\dfrac{~~t+1~~\partial J}{\partial \theta_1} = , \dfrac{\partial J}{\partial \theta_2},\~~Theta_t -~~ dots,\~~eta~~ dfrac{\~~nabla~~ partial J(}{\partial \~~Theta~~theta_n}) ^T </tex>.

~~Проблема же заключается в том~~Шаг градиентного спуска можно записать следующим образом: <tex> \Theta_{t+1} = \Theta_t - \eta \nabla J(\Theta) </tex>, ~~что алгоритм работает медленно, а минимумы которые он находит~~ где <tex> \eta </tex> {{---}} ~~локальные, а не глобальные~~коэффициент скорости обучения.

==Измерение качества рекомендаций==

~~Было предложено измерять~~ Зачастую качество рекомендаций ~~при помощи~~ измеряется с помощью функции ошибки [[ Оценка_качества_в_задачах_классификации_и_регрессии#.D0.9A.D0.BE.D1.80.D0.B5.D0.BD.D1.8C_.D0.B8.D0.B7_.D1.81.D1.80.D0.B5.D0.B4.D0.BD.D0.B5.D0.B9_.D0.BA.D0.B2.D0.B0.D0.B4.D1.80.D0.B0.D1.82.D0.B8.D1.87.D0.BD.D0.BE.D0.B9_.D0.BE.D1.88.D0.B8.D0.B1.D0.BA.D0.B8_.28.D0.B0.D0.BD.D0.B3.D0.BB._Root_Mean_Squared_Error.2C_RMSE.29 | RMSE]]: ~~<tex> RMSE = \sqrt{\dfrac{1}{|D|} \sum_{(u,i) \in D}{(\hat{r}_{ui} - r_{ui})^2}} </tex>~~

~~Однако она также обладает недостатками~~<tex> RMSE = \sqrt{\dfrac{1}{|D|} \sum_{(u, ~~хоть и является стандартом измерения качества:~~i) \in D}{(\hat{r}_{ui} - r_{ui})^2}} </tex>.

Данный способ, хоть и является стандартным для измерением качества, имеет ряд недостатков:* ~~Пользователи~~ пользователи с большим разбросом оценок будут влиять на значение метрики больше, чем остальные;* ~~Ошибка~~ ошибка в предсказании высокой оценки имеет такой же вес, что и ошибка в предсказании низкой оценки;* ~~Есть~~ есть риск плохого ранжирования при почти ~~идельаной~~ идеальной RMSE и наоборот.

Существуют при этом и другие метрики {{---}} метрики ранжирования, на основе полноты и точности. Однако они не так популярны и используются значительно реже.

==См. также==

* [[~~Линейная регрессия~~Кластеризация]]* [[~~Логистическая регрессия~~Регуляризация]]* [[~~Стохастический градиентный спуск~~Оценка качества в задаче кластеризации]]* [[~~Метод опорных векторов (SVM)~~Оценка качества в задачах классификации и регрессии]]== Примечания == <references/>

== Источники информации==

* [https://habr.com/ru/company/yandex/blog/241455/ Как работают рекомендательные системы.]

* [https://neurohive.io/ru/osnovy-data-science/rekomendatelnye-sistemy-modeli-i-ocenka/ Анатомия рекомендательных систем.]

* [http://www.mathnet.ru/links/4d5ff6f460c0d9409ce16b558725408d/ista26.pdf Рекомендательные системы: обзор основных постановок и результатов.]

[[Категория: Машинное обучение]]

[[Категория: Рекомендательные системы]]

MaximOsadchiy

118

правок

Изменения

Рекомендательные системы

Навигация

Персональные инструменты

Пространства имён

Варианты

Просмотры

Ещё

Поиск

Навигация

Инструменты