[发明专利]一种基于多维分类强化学习的动态推荐系统设计方法有效

专利信息
申请号: 201811329913.2 申请日: 2018-11-09
公开(公告)号: CN109543840B 公开(公告)日: 2023-01-10
发明(设计)人: 李祥明;李翔;杨杰;叶能;雒江涛;王梦;周欣 申请(专利权)人: 北京理工大学;重庆邮电大学
主分类号: G06N3/08 分类号: G06N3/08
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 王民盛
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明涉及一种基于多维分类强化学习的动态推荐系统设计方法,属于强化学习以及推荐技术领域。包括:步骤1服务器根据所推荐物品的固有属性对所有物品进行分类,并对所有物品执行热度统计,更新热度代表物品;步骤2用户向服务器发送请求,请求服务器推荐物品;步骤3计算用户活跃度与网络权重并存储;步骤4服务器根据用户活跃度判断是否跳至步骤5;步骤5服务器依据Actor神经网络和现有的用户状态向量,对用户进行物品推荐;步骤6若用户对服务器推荐物品进行反馈则对用户状态进行更新,回到步骤3;否则无动作。本发明更加客观地反映用户物品间的联系与用户兴趣的变化;通过用户活跃度和用户登记的静态信息增强了推荐的精准度。
搜索关键词: 一种 基于 多维 分类 强化 学习 动态 推荐 系统 设计 方法
【主权项】:
1.一种基于多维分类强化学习的动态推荐系统设计方法,其特征在于:主要采用马尔可夫决策过程模型,此模型中的智能体定义为向用户推荐物品的服务器,依据物品的几方面量化特征,用户状态向量s表示为(1):s=(feature1A,feature1B,feature1C,...,featureKA,featureKB,featureKC)(1)表示该用户点击过的K个物品的特征;其中,智能体,记为Agent;其中,A、B、C表示量化特征的三个不同维度;为了保持各量化特征的权重相同,将K个物品的所有维度特征都归一化到[0,1]区间;根据用户状态的定义,动作空间定义为使智能体能够选择推荐策略的空间,状态转移函数也由此确定,给出奖赏函数的度量,即奖赏;其中,奖赏函数,记为Reward;在关注用户与推荐系统交互的基础上,奖赏R根据用户对推荐物品的点击进行定义:在每次推荐之后,相应的奖赏为用户点击被推荐物品的数量,若未发生点击,则奖赏为0;奖赏大于0时,称之为用户对于先前的推荐做出反馈;为了表征用户在过去一段时间内关注物品的总频率,避免用户未关注期间的推荐与计算,我们借助生存模型引入用户活跃度的度量,即假设任意时刻用户访问服务器的概率保持不变,从用户首次访问平台的时刻0起,用户的活跃度可以表示为(2):C(t)=C0(t)=λ0e‑λt;       (2)其中,用户活跃度,记为Activeness;C(t)表示旧用户的活跃度;λ为用户活跃度衰减系数;λ0表示旧用户活跃度的增加偏移值;λ0<1,λ<1分别为设定参数,λ0>μ0,其中,μ0为开始推荐阈值;之后用户每次向服务器请求推荐或对过去的推荐做出反应都会造成活跃度更新为C(t)=C(t)+λ0,但是最大值不超过1,对于超过的部分做向下平移的操作;一种基于多维分类强化学习的动态推荐系统设计方法,包括如下步骤:步骤1:服务器根据所推荐物品的固有特征对所有物品进行分类,并对所有物品执行热度统计,更新基于热度的代表物品,具体包括如下子步骤:步骤1.1选取线性函数使各个固有特征都均匀量化到[0,1]区间上,将物品嵌入到以特征个数为维度的高维空间,即基于物品分类和特征映射,把物品i用唯一对应的特征向量ei表示,如公式(3)所示:ei=(featureiA,featureiB,featureiC)          (3)步骤1.2对于特征的各个维度,以固定的步长δ=(δA,δB,δC)分类,此操作是将高维特征空间网格化,每个物品属于一个类型网格;步骤1.3综合当前用户状态,对各个物品最近点击次数进行统计并以此作为该物品的热度度量;步骤1.4对于每个类别以热度最高选出热度的代表物品;经过一段较长的时间T0,重复步骤1.1到步骤1.4,使新物品映射到特征空间上;同时更新基于热度的代表物品,以避免因物品新旧造成的用户偏好估计误差;步骤2:用户向服务器发送请求,请求服务器推荐物品;步骤3,计算用户活跃度与网络权重并存储;其中,用户包括新用户和旧用户;步骤3具体包括如下子步骤:步骤3.1计算并存储新用户和旧用户的用户活跃度;旧用户的活跃度通过公式(4)计算并存储:C(t)=C(t)+λ0                         (4)新用户的活跃度通过公式(2)计算并存储:步骤3.2分别计算并存储新用户和旧用户的Actor神经网络及Critic神经网络的权重;其中,Actor神经网络的权重,记为θ;Critic神经网络的权重,记为φ;其中,Actor神经网络的输入st,输出为一组权重at,如公式(5):at=(WtA,WtB,WtC)                        (5)其中,WtA,WtB,WtC分别是t时刻对应A、B、C三个维度特征的系数;因为打分策略是确定性的,即给定用户状态可以唯一地确定一组排序权重,对物品进行排序,因此把这一权重描述为at;步骤3.2具体为:3.2A对于旧用户,Actor神经网络及Critic神经网络的权重已经存在,根据当前用户给出的反馈采用策略梯度的方式更新权重向量;3.2B对于新用户,Actor神经网络及Critic神经网络尚未建立,则依据用户注册登记的静态信息,选取相似用户近期点击的物品,请新用户在其中选取K个以作为初始状态向量,并以此对Actor神经网络进行首次训练,推荐结果的反馈用于Critic神经网络的首次训练;其中,Critic神经网络依据用户状态和动作估计奖赏,用以给Actor神经网络所产生的推荐评分,具体为:Critic神经网络的输入为(st,at),输出Q(st,at)为以给Actor神经网络所产生的推荐评分;每次用户与服务器交互之后,根据返回的奖赏更新Q(st,at)网络的权重,再由此Critic神经网络对下一次交互之后的Actor神经网络给出的动作进行反馈;步骤4服务器根据用户活跃度判断是否跳至步骤5进行推荐物品,具体为:4.A若用户活跃度大于已设定阈值μ0,则进入步骤5进行物品推荐,经过t0后,重复步骤4;4.B若用户活跃度小于已设定阈值μ0,则无动作,等待用户请求或对先前的推荐进行反馈;步骤5服务器依据Actor神经网络和现有的用户状态向量,对用户进行物品推荐,具体为:步骤5.1根据当前用户的状态向量st经过Actor神经网络计算并输出一组权重,如公式(3)所示:步骤5.2采用at与物品特征向量ei内积的方式用公式(6)计算用户对于特定物品的评分scorei:其中,表示at的转置;5.3选出评分最高的M个物品进行推荐;步骤6用户对服务器推荐物品进行反馈,若用户发生反馈,则对用户状态st进行更新,回到步骤3;若未发生反馈,则无动作。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学;重庆邮电大学,未经北京理工大学;重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201811329913.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top