[发明专利]一种基于强化学习框架的推荐系统离线训练方法在审

申请号：	201910195737.6	申请日：	2019-03-13
公开（公告）号：	CN109978660A	公开（公告）日：	2019-07-05
发明（设计）人：	皮德常;吴致远;赵晓东	申请（专利权）人：	南京航空航天大学
主分类号：	G06Q30/06	分类号：	G06Q30/06;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	210016 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开一种基于强化学习框架的推荐系统离线训练方法。包括：使用离线训练的方式，通过矩阵分解得到用户和商品的隐向量表示；通过强化学习算法，根据用户兴趣与所推荐商品的差异以及用户的反馈，对用户兴趣进行动态捕捉和更新；为用户维护一个参考向量，用来记录用户在最近一段时间内感兴趣商品的向量表示之和，并以此为依据对商品集合进行过滤，去除与计算长期回报无关的商品，降低计算复杂度，本发明可适用于大规模的基于评分的推荐系统。
搜索关键词：	离线训练推荐系统强化学习向量表示用户兴趣强化学习算法计算复杂度参考向量动态捕捉矩阵分解商品集合用户维护去除过滤反馈回报更新记录
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于强化学习框架的推荐系统离线训练方法，其主要特征包括以下步骤：(1)根据所有用户的历史记录，建立N行M列的全局评分矩阵(N表示用户总数，M表示商品总数)，矩阵中第i行第j列的元素r_i，j表示用户u_i对商品v_j的评分，通过隐语义模型LFM矩阵分解，得到用户和商品的隐向量表示；(2)使用深度Q网络DQN算法，选择相应的商品，最大化长期回报，根据用户反馈，实时捕捉用户的兴趣变化；(3)结合用户历史信息，维护一个长度为l的时间窗口，根据该窗口中的历史信息计算用户i的参考向量e_i，结合参考向量e_i对商品集进行过滤，降低DQN的计算复杂度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京航空航天大学，未经南京航空航天大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910195737.6/，转载请声明来源钻瓜专利网。

上一篇：一种请求处理方法、服务器及计算机存储介质
下一篇：一种即时通信服务器的购买方法和系统

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法；其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q30-00 商业，例如购物或电子商务
G06Q30-02 .行销，例如，市场研究与分析、调查、促销、广告、买方剖析研究、客户管理或奖励；价格评估或确定
G06Q30-04 .签单或开发票
G06Q30-06 .购买、出售或租赁交易
G06Q30-08 ..拍卖

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于强化学习框架的推荐系统离线训练方法在审

专利文献下载