[发明专利]基于强化学习的多样化推荐方法、系统及存储介质在审
申请号: | 202111249154.0 | 申请日: | 2021-10-26 |
公开(公告)号: | CN113987343A | 公开(公告)日: | 2022-01-28 |
发明(设计)人: | 高扬华;楼卫东;陆海良;郁钢 | 申请(专利权)人: | 浙江中烟工业有限责任公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/9536;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 杭州丰禾专利事务所有限公司 33214 | 代理人: | 徐金杰 |
地址: | 310008 *** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 强化 学习 多样化 推荐 方法 系统 存储 介质 | ||
1.一种基于强化学习的多样化推荐方法,其特征在于,包括如下步骤:
S1:获取训练样本,确定并初始化网络参数;
S2:执行策略生成行动;
S3:评估所述策略并优化;
S4:通过评论网络监督损失;
S5:更新探索概率。
2.根据权利要求1所述的一种基于强化学习的多样化推荐方法,其特征在于,步骤S1具体包括:
输入带标签的训练样本集合,其中包含监督样本;确定并初始化算法参数,包括确定推荐列表长度T,探索概率衰减系数ξ,监督损失函数系数λ与τ,并对各参数进行初始化。
3.根据权利要求1所述的一种基于强化学习的多样化推荐方法,其特征在于,步骤S1中,训练样本的获取方法包括:
基于LSTM的生成推荐列表,过程如下:
a)输入某用户的兴趣特征向量、候选物品集合,初始化LSTM隐状态及决策序列;
b)向LSTM输入用户兴趣向量作为状态;
c)逐个处理候选物品,计算各物品的选择概率,当最大选择概率小于探索概率时,采用随机采集方法进行采样;当最大选择概率大于等于探索概率时,采用贪心方法取最大动作概率对应物品;
d)根据LSTM网络获取输出,形成动作,计算奖赏;
e)构造新的推荐物品列表,直到达到预定数量。
4.根据权利要求1所述的一种基于强化学习的多样化推荐方法,其特征在于,步骤S3具体包括:
a)执行LSTM网络评估行动策略;
b)基于所有的候选动作计算对应状态下的梯度期望,优化行动策略;
c)使用时间差分学习方法优化状态值;
d)根据前向一步的贝尔曼期望计算评价目标,优化评价网络参数;
e)使用多样性指标计算奖赏。
5.根据权利要求1所述的一种基于强化学习的多样化推荐方法,其特征在于,步骤S4具体包括:
基于输入数据中的监督学习样本,确定最优的推荐序列,在优化Critic网络时增加pair-wise的排序损失。
6.根据权利要求1所述的一种基于强化学习的多样化推荐方法,其特征在于,步骤S5中,采用逐步衰减的∈-贪心探索方法来更新探索概率。
7.根据权利要求1所述的一种基于强化学习的多样化推荐方法,其特征在于,所述多样化推荐方法还包括步骤S6:判断算法是否收敛;
若是,则输出策略网络和值网络;
若否,则返回至步骤S3。
8.一种基于强化学习的多样化推荐系统,其特征在于,包括:
初始化单元,用于获取训练样本,确定并初始化网络参数;
行动单元,用于执行策略生成行动;
评价单元,评估所述策略并优化;
监督单元,用于增加Critic网络监督损失以提升学习效率;
结果生成单元,用于更新探索概率。
9.根据权利要求8所述的一种强化学习的多样化推荐系统,其特征在于,还包括输出单元,该输出单元用于判断算法是否收敛;若是,则输出策略网络和值网络;若否,则控制评价单元重新评估策略并优化。
10.一种存储介质,该存储介质中存储有计算机程序,其特征在于,所述计算机程序被处理执行时,实现如权利要求1-7中任一项所述的基于强化学习的多样化推荐方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江中烟工业有限责任公司,未经浙江中烟工业有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111249154.0/1.html,转载请声明来源钻瓜专利网。