[发明专利]一种强化学习优化LFM的协同过滤推荐算法在审
申请号: | 202110143465.2 | 申请日: | 2021-02-02 |
公开(公告)号: | CN112948707A | 公开(公告)日: | 2021-06-11 |
发明(设计)人: | 沈学利;吴彤彤 | 申请(专利权)人: | 辽宁工程技术大学 |
主分类号: | G06F16/9536 | 分类号: | G06F16/9536;G06K9/62 |
代理公司: | 北京华夏正合知识产权代理事务所(普通合伙) 11017 | 代理人: | 韩登营;韩惠琴 |
地址: | 123000 辽*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 强化 学习 优化 lfm 协同 过滤 推荐 算法 | ||
1.一种强化学习优化LFM的协同过滤推荐算法,其特征在于,包括训练与预测两部分;
所述训练部分主要包括两步:
第一步,首先采用隐语义模型LFM对训练集进行训练,以得到LFM推荐模型;
第二步,对强化学习模型进行训练,利用马尔科夫决策过程奖惩函数式计算状态转移的奖惩值,完成强化学习Q表的更新,以用于LFM推荐评分的优化模型;
所述预测部分主要包括两步:
第一步,首先根据LFM推荐模型得到预测评分值;
第二步,通过将LFM推荐算法得到的预测评分进一步采用马尔科夫决策过程中的奖赏函数进行优化,建立推荐预测评分与马尔科夫决策过程之间的映射关系,并用强化学习Q-learning算法进行模型训练,以优化预测过程得到最终的预测评分。
2.如权利要求1所述的强化学习优化LFM的协同过滤推荐算法,其特征在于,所述LFM推荐模型的公式为:
其中两个低秩矩阵分别为user-class矩阵class-item矩阵;RUI表示预测评分;PU,K表示指用户对某一特定类别的偏好程度;QK,i表示指某一图书在特定类别中所占的权重。
3.如权利要求1所述的强化学习优化LFM的协同过滤推荐算法,其特征在于,所述马尔科夫决策过程由一个五元组S,A,P,γ,Rew表示,其中S表示状态空间,A表示动作空间,P表示状态转移概率,γ表示折扣因子,Rew表示回报函数,智能体感知当前环境中的状态信息,根据当前状态选择执行某些动作,环境根据选择的动作给智能体反馈一个奖惩信号,根据这个奖惩信号,智能体就从一个状态转移到了下一个状态。
4.如权利要求1所述的强化学习优化LFM的协同过滤推荐算法,其特征在于,所述推荐预测评分与马尔科夫决策过程之间的映射关系为:
(1)状态空间S:将用户u在时间t下对图书的评分记为状态因为数据集中用户对图书的评分是[1,5]区间的5个整数,所以的范围为[1,5],所有时间下的状态构成了状态空间S;
(2)动作空间A:用户u在时间t下看了图书并给出了评分该评分会影响其t+1时间对图书的评分所以将记为从到的动作,该过程如下:
所有时刻的动作构成了动作空间A;
状态转移概率P:用户u在状态下采取动作是由时间影响决定,动作一旦确定,则下一个状态也同时确定了,所以状态之间的转移概率也可以确定为即P=1,动作的范围为[1,5];
折扣因子γ:在模型中,每次动作会产生对应的奖励,但是同一用户观看图书的时间远近对选择下一步拟观看图书的影响也会不同,折扣因子就是反映该影响的一个因子,设置为0≤γ1;
奖惩函数Rew:奖惩函数表征了一个状态中完成某个动作所获得的奖励,奖惩函数值Rew如下:
其中:为时间t+2时用户u对图书的评分RUI表示用隐语义模型LFM算法计算出的用户u对图书i的预测评分;Rew表示用户u在状态下采取动作所获得的奖惩值,根据奖惩函数可得到对应的奖惩表。
5.如权利要求1所述的强化学习优化LFM的协同过滤推荐算法,其特征在于,所述优化模型对预测评分进行优化,所述优化模型如下:
其中,RUI表示用LFM推荐模型计算得到的用户u对第i个图书的预测评分,sut-2为用户u在看图书i之前时间t-2看图书的评分,aut-2为时间t-1看图书的评分为时间,为坐标下Q表的值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于辽宁工程技术大学,未经辽宁工程技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110143465.2/1.html,转载请声明来源钻瓜专利网。