[发明专利]基于深度强化学习的信息流推荐方法、装置、设备及介质在审
申请号: | 201910871544.8 | 申请日: | 2019-09-16 |
公开(公告)号: | CN110851699A | 公开(公告)日: | 2020-02-28 |
发明(设计)人: | 罗振煜 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9538;G06N3/04;G06N3/08 |
代理公司: | 深圳市世联合知识产权代理有限公司 44385 | 代理人: | 汪琳琳 |
地址: | 518000 广东省深圳市福田区益田路5033号*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 深度 强化 学习 信息 推荐 方法 装置 设备 介质 | ||
1.一种基于深度强化学习的信息流推荐方法,其特征在于,包括:
基于目标用户的信息流采集所述目标用户的历史点击序列;
调用预设的actor神经网络和critic神经网络;
将所述历史点击序列输入所述actor神经网络生成用户推荐列表,并向目标用户展示所述用户推荐列表,以获取所述目标用户针对所述用户推荐列表的反馈结果数据和反馈后产生的新的历史点击序列;
将历史点击序列和新的历史点击序列分别输入所述critic神经网络,以结合所述反馈结果数据计算时间差分误差;
基于所述时间差分误差更新所述critic神经网络中的参数,进而结合所述时间差分误差和所述用户推荐列表更新所述actor神经网络中的参数;
将新的历史点击序列输入更新后的actor神经网络生成新的用户推荐列表,并向目标用户展示所述新的用户推荐列表,直至无法获取到所述目标用户针对所述新的用户推荐列表的反馈结果数据和反馈后产生的新的历史点击序列为止。
2.根据权利要求1所述的基于深度强化学习的信息流推荐方法,其特征在于,所述将所述历史点击序列输入所述actor神经网络生成用户推荐列表的步骤包括:
通过所述actor神经网络提取所述历史点击序列中的隐藏特征;
将所述隐藏特征输入所述actor神经网络结合所述历史点击序列生成所述用户推荐列表。
3.根据权利要求1所述的基于深度强化学习的信息流推荐方法,其特征在于,所述将所述历史点击序列输入所述actor神经网络生成用户推荐列表的步骤还包括:
提取所述历史点击序列中的若干个历史点击项目,将所述若干个历史点击项目设为所述用户推荐列表的候选集;
通过所述actor神经网络获取用户推荐列表中每个位置的权重向量;
分别计算每个所述权重向量与所述候选集中每个历史点击项目的点积,记为排序分值;
基于所述排序分值对所述候选集中的历史点击项目进行排序,以生成所述用户推荐列表。
4.根据权利要求1所述的基于深度强化学习的信息流推荐方法,其特征在于,所述将历史点击序列和新的历史点击序列分别输入所述critic神经网络,以结合所述反馈结果数据计算时间差分误差的步骤包括:
基于所述反馈结果数据获取所述用户推荐列表的奖惩回报值R,并通过critic神经网络计算出目标用户反馈前对所述历史点击序列的评估值V(S),和目标用户反馈后对所述新的历史点击序列的评估值V(S');
调用预设的误差公式td_error=R+V(S')–V(S),基于所述误差公式计算所述时间差分误差td_error。
5.根据权利要求4所述的基于深度强化学习的信息流推荐方法,其特征在于,所述基于所述反馈结果数据获取所述用户推荐列表的奖惩回报值R的步骤之前,所述方法还包括步骤:
对目标用户的反馈状态进行回报等级划分;
基于划分的回报等级为所述用户推荐列表中每个项目的反馈状态配置对应的奖惩回报值。
6.根据权利要求5所述的基于深度强化学习的信息流推荐方法,其特征在于,所述基于所述反馈结果数据获取所述用户推荐列表的奖惩回报值R的步骤包括:
监控目标用户对所述用户推荐列表的反馈状态,以根据所述反馈状态匹配到对应的奖惩回报值。
7.根据权利要求4所述的基于深度强化学习的信息流推荐方法,其特征在于,所述基于所述时间差分误差更新所述critic神经网络中的参数,进而结合所述时间差分误差和所述用户推荐列表更新所述actor神经网络中的参数的步骤包括:
对所述时间差分误差求导得到第一梯度,通过调整所述critic神经网络中的参数调整所述第一梯度,以对所述第一梯度进行梯度下降,从而更新所述critic神经网络中的参数;
以所述时间差分误差对所述用户推荐列表求导得到第二梯度,通过调整所述actor神经网络中的参数调整所述第二梯度,以对所述第二梯度进行梯度下降,从而更新所述actor神经网络中的参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910871544.8/1.html,转载请声明来源钻瓜专利网。