[发明专利]基于强化学习的多样化推荐方法、系统及存储介质在审

专利信息
申请号: 202111249154.0 申请日: 2021-10-26
公开(公告)号: CN113987343A 公开(公告)日: 2022-01-28
发明(设计)人: 高扬华;楼卫东;陆海良;郁钢 申请(专利权)人: 浙江中烟工业有限责任公司
主分类号: G06F16/9535 分类号: G06F16/9535;G06F16/9536;G06K9/62;G06N3/04;G06N3/08
代理公司: 杭州丰禾专利事务所有限公司 33214 代理人: 徐金杰
地址: 310008 *** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 强化 学习 多样化 推荐 方法 系统 存储 介质
【权利要求书】:

1.一种基于强化学习的多样化推荐方法,其特征在于,包括如下步骤:

S1:获取训练样本,确定并初始化网络参数;

S2:执行策略生成行动;

S3:评估所述策略并优化;

S4:通过评论网络监督损失;

S5:更新探索概率。

2.根据权利要求1所述的一种基于强化学习的多样化推荐方法,其特征在于,步骤S1具体包括:

输入带标签的训练样本集合,其中包含监督样本;确定并初始化算法参数,包括确定推荐列表长度T,探索概率衰减系数ξ,监督损失函数系数λ与τ,并对各参数进行初始化。

3.根据权利要求1所述的一种基于强化学习的多样化推荐方法,其特征在于,步骤S1中,训练样本的获取方法包括:

基于LSTM的生成推荐列表,过程如下:

a)输入某用户的兴趣特征向量、候选物品集合,初始化LSTM隐状态及决策序列;

b)向LSTM输入用户兴趣向量作为状态;

c)逐个处理候选物品,计算各物品的选择概率,当最大选择概率小于探索概率时,采用随机采集方法进行采样;当最大选择概率大于等于探索概率时,采用贪心方法取最大动作概率对应物品;

d)根据LSTM网络获取输出,形成动作,计算奖赏;

e)构造新的推荐物品列表,直到达到预定数量。

4.根据权利要求1所述的一种基于强化学习的多样化推荐方法,其特征在于,步骤S3具体包括:

a)执行LSTM网络评估行动策略;

b)基于所有的候选动作计算对应状态下的梯度期望,优化行动策略;

c)使用时间差分学习方法优化状态值;

d)根据前向一步的贝尔曼期望计算评价目标,优化评价网络参数;

e)使用多样性指标计算奖赏。

5.根据权利要求1所述的一种基于强化学习的多样化推荐方法,其特征在于,步骤S4具体包括:

基于输入数据中的监督学习样本,确定最优的推荐序列,在优化Critic网络时增加pair-wise的排序损失。

6.根据权利要求1所述的一种基于强化学习的多样化推荐方法,其特征在于,步骤S5中,采用逐步衰减的∈-贪心探索方法来更新探索概率。

7.根据权利要求1所述的一种基于强化学习的多样化推荐方法,其特征在于,所述多样化推荐方法还包括步骤S6:判断算法是否收敛;

若是,则输出策略网络和值网络;

若否,则返回至步骤S3。

8.一种基于强化学习的多样化推荐系统,其特征在于,包括:

初始化单元,用于获取训练样本,确定并初始化网络参数;

行动单元,用于执行策略生成行动;

评价单元,评估所述策略并优化;

监督单元,用于增加Critic网络监督损失以提升学习效率;

结果生成单元,用于更新探索概率。

9.根据权利要求8所述的一种强化学习的多样化推荐系统,其特征在于,还包括输出单元,该输出单元用于判断算法是否收敛;若是,则输出策略网络和值网络;若否,则控制评价单元重新评估策略并优化。

10.一种存储介质,该存储介质中存储有计算机程序,其特征在于,所述计算机程序被处理执行时,实现如权利要求1-7中任一项所述的基于强化学习的多样化推荐方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江中烟工业有限责任公司,未经浙江中烟工业有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111249154.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top