[发明专利]一种基于动态注意力和分层强化学习的推荐系统有效
申请号: | 202011564661.9 | 申请日: | 2020-12-25 |
公开(公告)号: | CN112597392B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 林元国;林凡;曾文华;夏侯建兵;冯世博 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06Q30/06;G06N3/04;G06N3/08 |
代理公司: | 厦门市精诚新创知识产权代理有限公司 35218 | 代理人: | 何家富 |
地址: | 361000 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 动态 注意力 分层 强化 学习 推荐 系统 | ||
1.一种基于动态注意力和分层强化学习的推荐系统,其特征在于,包括:用户画像矫正器、动态注意力机制和推荐模型;
所述用户画像矫正器用于通过删除噪声数据来修改用户画像;
所述动态注意力机制用于自动调整用户偏好的变化;
所述推荐模型用于向相关用户推荐目标物品;
所述动态注意力机制的结构包括:嵌入向量的输入层、基于注意力协同过滤方法的交互层和具有动态权重的注意力层;
所述输入层的任务为:首先,将原始数据分解为两个矩阵:用户-物品矩阵和物品标签矩阵,在用户-物品矩阵中,每个元素表示一个用户和一个物品之间的交互,即用户u在时间t时交互过的物品εu定义为一个用户画像其中tu表示用户在采样序列中交互过的物品数量,用户-物品向量是通过one-hot二进制值的格式获得;在物品标签矩阵中,让C={c1,…,c|C|}表示为一组物品,其中目标物品向量ci是通过one-hot二进制值的格式获得的;然后,将每个用户-物品向量表示为嵌入向量并且将目标物品向量ci表示为嵌入向量pi;最后,将嵌入向量与pi传递给交互层;
所述交互层的任务为:采用元素智能乘积计算交互过的物品的嵌入向量和交互层中的目标物品嵌入向量之间的相似度,所述相似度的计算公式为:
其中,⊙表示元素智能乘积,相似度被参数化为嵌入向量和pi的内积;
所述注意力层的任务为:在每次用户画像矫正器与推荐模型交互过程中自动调整相应物品的attention权重,并根据其动态系数自适应地更新attention权重,得到用户画像的嵌入向量;具体为:
采用联合嵌入向量和pi的用户画像矫正器来参数化attention函数
根据推荐阶段的物品数量,自动更新attention权重;
在相应物品的attention权重的基础上,通过聚合所有交互过的物品的嵌入向量得到用户画像的嵌入向量qu;
所述attention函数的公式为:
其中,hT表示将多层感知器的一个隐藏层投射到一个attention权重的向量,W表示权重矩阵,b表示偏差向量,权重矩阵和偏差向量是多层感知器用于参数学习,d1作为隐藏层的尺寸,d2作为物品的嵌入尺寸,δ∈(0,1)表示随机数;D为权重尺寸,和隐藏层的尺寸d1相关;ReLU表示线性整流函数,为隐藏层的激活函数;
所述attention权重的公式为:
其中,为每个推荐阶段的物品数量;
所述用户画像的嵌入向量qu被定义为:
2.如权利要求1所述的推荐系统,其特征在于,所述用户画像矫正器的任务为层次化的马尔可夫决策过程,其中高层动作ah∈{0,1}决定是否修改整个用户画像εu,低层动作决定删除哪个物品当高层动作根据高层策略决定修改整个用户画像时,它将根据低层策略调用低层动作来消除噪声物品后,智能体在执行最后一个低层动作后将收到延迟奖励。
3.如权利要求2所述的推荐系统,其特征在于,所述用户画像矫正器基于分层强化学习,所述分层强化学习的目标是获得期望收益最大化的最优策略参数,如下所示:
其中,θ表示策略的参数,τ表示采样的序列,Pθ(τ)是对应的抽样概率,R*(τ)为采样序列中遵循策略π的动作值函数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011564661.9/1.html,转载请声明来源钻瓜专利网。