[发明专利]一种基于强化学习框架的推荐系统离线训练方法在审
申请号: | 201910195737.6 | 申请日: | 2019-03-13 |
公开(公告)号: | CN109978660A | 公开(公告)日: | 2019-07-05 |
发明(设计)人: | 皮德常;吴致远;赵晓东 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06Q30/06 | 分类号: | G06Q30/06;G06N3/04;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 离线训练 推荐系统 强化学习 向量表示 用户兴趣 强化学习算法 计算复杂度 参考向量 动态捕捉 矩阵分解 商品集合 用户维护 去除 过滤 反馈 回报 更新 记录 | ||
1.一种基于强化学习框架的推荐系统离线训练方法,其主要特征包括以下步骤:
(1)根据所有用户的历史记录,建立N行M列的全局评分矩阵(N表示用户总数,M表示商品总数),矩阵中第i行第j列的元素ri,j表示用户ui对商品vj的评分,通过隐语义模型LFM矩阵分解,得到用户和商品的隐向量表示;
(2)使用深度Q网络DQN算法,选择相应的商品,最大化长期回报,根据用户反馈,实时捕捉用户的兴趣变化;
(3)结合用户历史信息,维护一个长度为l的时间窗口,根据该窗口中的历史信息计算用户i的参考向量ei,结合参考向量ei对商品集进行过滤,降低DQN的计算复杂度。
2.根据权利要求1所述的基于强化学习框架的推荐系统离线训练方法,其特征在于步骤(2)实时地更新用户的兴趣表示,其实现包括:
(21)计算当前商品的向量表示与用户兴趣的差异。直接计算Ui(t)和Vj(t)在各个维度上的差值,并归一化到区间[-1,1]。计算方式如式(1)所示:
D(Ui(t),Vj(t))=scale(Ui(t)-Vj(t),[-1,1]) (1)其中,Ui(t)和Vj(t)分别为用户ui和商品vj在t时刻的兴趣向量表示;D(Ui(t),Vj(t))是一个k维向量,用来衡量在t时刻,Ui(t)和Vj(t)在各个维度上的差异;scale(x)为归一化函数,即将x的值归一化到[-1,1]。也可以采用其它度量向量相似性的指标;
(22)由于用户的兴趣会随着时间变化而变化,而商品的特征一般不会改变。固定商品的向量表示V,在V的基础上增加一个很小的噪声,这样做的目的是,考虑到最初矩阵分解得到的商品向量表示,可能并不能完美地表征商品的所有信息。
从t时刻到t+1时刻(这里的时刻不是具体的时间度量,而是代表更新的周期),更新用户的兴趣表示。如果从时刻t到时刻t+1,用户ui对商品vj的Ri,j发生了变化,则通过最小化式(2)求解参数α,然后将参数α代入式(3)来更新用户状态,式(2)和式(3)如下所示:
Ui(t+1)=Ui(t)+αD(Ui(t),Vj(t)) (3)
其中,Si(t)表示对于用户ui,从时刻t到时刻t+1,使Ri,j发生了变化的任意商品vj的集合,待求解参数α表示更新的幅度。计算得到的Ui(t+1)即为在t+1时刻,用户i的状态表示s(t+1),噪声noise可以从一个高斯分布中产生。
3.根据权利要求1所述的基于强化学习框架的推荐系统离线训练方法,其特征在于步骤(3)结合参考向量ei对商品集进行过滤,降低DQN的计算复杂度,其实现包括:
(31)对于用户ui,记录用户在最近一段时间内感兴趣的l个商品的向量表示,记作(如果不满l个则用零向量填充)。为用户ui维护一个参考向量ei定义为中所有向量之和。ei的计算方式如式(4)所示:
根据式(5)计算sim(aj,ei),如果得到的sim值小于β(这里的β可以根据具体的应用场景来确定),则过滤掉当前的动作a(商品)。相较于计算Q值需要经过多层神经网络的矩阵运算,计算sim只需要经过一次向量点乘,这样减少了计算的复杂度,提高了运算效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910195737.6/1.html,转载请声明来源钻瓜专利网。