[发明专利]一种基于动态递归机制的分层强化学习的推荐系统有效

申请号：	202011564657.2	申请日：	2020-12-25
公开（公告）号：	CN112597391B	公开（公告）日：	2022-08-12
发明（设计）人：	林元国;林凡;曾文华;夏侯建兵;张志宏	申请（专利权）人：	厦门大学
主分类号：	G06F16/9535	分类号：	G06F16/9535;G06Q30/06;G06N20/00
代理公司：	厦门市精诚新创知识产权代理有限公司 35218	代理人：	何家富
地址：	361000 ***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于动态递归机制分层强化学习推荐系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于动态递归机制的分层强化学习的推荐系统，包括用户画像矫正器：采用一种动态递归机制的策略梯度方法，及引入参数动态稀疏权重以删除噪声数据来修改用户画像，其中，所述动态递归机制的策略梯度方法包括：动态基线和基于时序上下文的递归强化学习，所述动态基线为采用动态稀疏权重对总收益进行学习策略的改进；注意力机制：用于自动调整用户偏好的变化；推荐模型：用于通过注意力机制向用户推荐最相关物品。本发明的推荐系统，通过在策略梯度方法中引入一个参数动态稀疏权重，使智能体在全局最优策略下选择最优行为；其次，结合时间上下文的分层强化学习，该方法能够更可靠地收敛，从而提高模型预测的稳定性。

技术领域

本发明涉及基于分层强化学习的智能推荐技术领域，尤其涉及一种基于动态递归机制的分层强化学习的推荐系统。

背景技术

虽然分层强化学习模型(Hierarchical Reinforcement Learning,HRL)在推荐系统的应用取得了显著的进展，但其预测的不稳定性是一个关键的缺陷，主要是由强化学习的性能造成的。一方面，由于策略的随机性，每种状态下都存在若干可能的随机行为。例如，在该策略下选择的动作是随机的，导致不能一直很好地修改用户画像。另一方面，状态转移概率也是随机的(即每个当前状态都有多个可能的下一个状态)，这使得来自环境的预期收益不确定。因此，这两种随机性都会影响推荐系统的性能。

发明内容

有鉴于现有技术的缺陷(不足)，本发明提出一种基于动态递归机制的分层强化学习(Hierarchical Reinforcement Learning with Dynamic Recurrent mechanism,HRL/DR)的推荐系统，通过一种新的策略梯度方法对策略迭代进行改进，在用户画像矫正器中的分层任务中促使智能体有效地删除噪声数据，然后对用户画像矫正器和推荐系统进行联合训练，最终将最相关的物品推荐给用户。

本发明的技术方案如下：

一种基于动态递归机制的分层强化学习的推荐系统，包括用户画像矫正器、注意力机制和推荐模型；所述用户画像矫正器采用一种动态递归机制的策略梯度方法删除噪声数据来修改用户画像，其中，所述动态递归机制的策略梯度方法包括：动态基线和基于时序上下文的递归强化学习；所述动态基线为采用动态稀疏权重对总收益进行学习策略的改进；所述注意力机制用于自动调整用户偏好的变化；所述推荐模型用于通过注意力机制向用户推荐最相关的物品。

进一步的，所述用户画像矫正器采用分层的马尔可夫决策过程建模，其中：高层动作a^h∈{0,1}决定是否修改整个用户画像ε^u，而低层动作a^l∈{0,1}决定哪些交互过的物品可被删除；当高层动作根据高层策略决定修改原始用户画像时，它将根据低层策略调用低层动作迭代地删除噪声物品，智能体在执行最后一个低层动作后将得到高层延迟奖励和低层延迟奖励

进一步的，所述用户画像矫正器的建模方法包括：

步骤1：当高层任务决定按照高层策略修改原始用户画像，根据低层策略调用低层任务删除噪声数据，在执行最后一个低层动作后，智能体将得到高层延迟奖励和低层延迟奖励

步骤2：通过动态递归机制的策略梯度方法分别更新基于高层总奖励和低层总奖励的分层策略后，推荐模型基于修正后的用户画像的嵌入向量q^u进行训练，然后生成向用户推荐目标物品的概率，并将这作为下一个分幕中用户画像矫正器的附加状态；其中所述嵌入向量q^u是通过attention聚合交互过的物品的嵌入向量而成；

步骤3：执行步骤1和步骤2，进行推荐模型和用户画像矫正器联合训练，直到最后一个分幕结束，最后向用户推荐最精确的物品。

进一步的，在所述基于时序上下文的分层强化学习中，每分幕k的总奖励定义为：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于厦门大学，未经厦门大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202011564657.2/2.html，转载请声明来源钻瓜专利网。

上一篇：一种音量调节方法及电子设备
下一篇：一种基于动态注意力和分层强化学习的推荐系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于动态递归机制的分层强化学习的推荐系统有效

专利文献下载