[发明专利]一种基于知识感知的新闻推荐方法有效

专利信息
申请号: 201911334781.7 申请日: 2019-12-23
公开(公告)号: CN111061856B 公开(公告)日: 2022-05-27
发明(设计)人: 刘琼昕;覃明帅;宋祥;王佳升;徐建祥;卢士帅 申请(专利权)人: 北京理工大学
主分类号: G06F16/335 分类号: G06F16/335;G06F16/36;G06F16/9535;G06N3/04;G06N3/08
代理公司: 北京正阳理工知识产权代理事务所(普通合伙) 11639 代理人: 王民盛
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 知识 感知 新闻 推荐 方法
【权利要求书】:

1.一种基于知识感知的新闻推荐方法,其特征在于,包括以下步骤:

首先,从新闻文本中识别出实体,将其与知识图谱中的实体相匹配,利用知识表示学习模型得到实体和关系的向量表示;其中,提取新闻文本中实体知识信息的方法为:

步骤1:使用实体链接技术,将新闻文本中的单词与知识图谱中的实体进行链接并消歧,得到新闻实体集合;

步骤2:基于新闻实体集合,从原始的知识图谱中构造出一个知识图谱子图,并从原图中抽取所有实体之间的边;将该子图扩展一跳,即,引入所有和这些实体距离为1的实体及相关的边;

步骤3:使用知识图谱特征学习方法,从扩展的知识子图中,学习实体向量和关系向量;

步骤4:为每个实体提取其额外的上下文信息,一个实体e的上下文,是指它在知识图谱中的邻居的集合,即:

context(e)={e′|(e,r,e′)∈G∨(e′,r,e)∈G} (1)

其中,e、e′均表示实体,r表示关系,G表示知识图谱;

将实体e的上下文向量定义为它的上下文实体的向量的平均值:

其中,ei是实体e的上下文实体集合context(e)的第i个实体的向量表示;

然后,使用一种知识感知的深度网络DKPN建立推荐模型,具体地,用一个卷积神经网络来融合新闻的词向量和实体向量,从中学习新闻的综合特征;包括以下步骤:

步骤S1:构建新闻特征;

具体包括如下步骤:

步骤S1.1:对于一个新闻标题[w1,w2,...,wn],将每个单词wi与其词向量wi、实体向量ei以及实体上下文向量一一对应,若没有相应的实体向量和实体上下文向量,则用零向量替代;同时,为解决词向量和实体向量的兼容性问题,引入映射函数g():

g(e)=tanh(Me+b) (3)

其中,M∈Rd×k是一个转换矩阵,b为偏置常量,该函数将k维的实体向量和实体上下文向量映射到d维的向量空间中,与词向量一致;将词向量、映射后实体向量和映射后的实体上下文向量堆叠后,得到三通道输入W:

其中,Rd×n×3表示d×n×3的实张量空间,R为实数空间;

步骤S1.2:用一个知识感知的卷积神经网络,从W中提取新闻特征:

首先,通过卷积核h∈Rd×l×3提取卷积特征,进行卷积操作后得到相应特征

其中,*为卷积操作,b为偏置常量,f为非线性映射函数,Wi:i+l-1表示卷积核h的窗口所覆盖的部分输入;卷积核h对整个W进行卷积操作后可得一组特征

然后,对ch进行最大池化操作,从ch的分量中选取最大值作为高层特征:

对于包含m个卷积核的卷积神经网络,新闻标题t的最终特征为:

步骤S2:构建实体路径特征;

对于知识图谱中的一条包含L个实体的路径其中el是路径中的第l个实体,关系rl在路径中连接实体el和实体el+1,实体el和关系rl对应的向量分别记为el∈Rk和rl∈Rk;利用长短期记忆网络LSTM提取知识图谱中指定的两个实体之间的路径特征,LSTM接受一个向量序列作为输入;对于路径中的每个实体el,按照下式构造LSTM的第l个输入xl

其中,为连接运算符,将实体向量el和关系向量rl连接为一个2d维的向量xl;对于最后一个实体向量eL,用一个零向量与其相连接;LSTM中间层各项变量计算如下:

其中,cl∈Rd′和zl∈Rd′分别为细胞状态以及当前细胞要更新的信息,il、ol和fl分别为输入门、输出门和遗忘门;Wz∈Rd'×2d、Wf∈Rd'×2d、Wi∈Rd'×2d、Wo∈Rd'×2d和Wh∈Rd′×d′为映射矩阵,d′为隐含层的单元数量,即状态向量的维度;bz、bf、bi和bo为偏置向量;σ为Sigmoid函数,⊙为逐元素的乘法运算;

用表示LSTM网络,LSTM的最后一层输出hL作为整个路径的特征向量表示,即

步骤S3:构建用户兴趣特征;

设用户u的新闻标题点击记录为相应的新闻特征向量为其中,Nu为用户u的点击总数;用一个注意力网络,根据用户点击历史和不同的候选新闻,动态构建用户特征;给定一个候选新闻tj,为了衡量用户u点击过的新闻对tj的影响度,考虑两方面因素,一方面是和tj的特征向量和另一方面是中的实体和tj中的实体之间的路径特征;给定和tj之间的条实体路径路径特征记为

将新闻特征候选新闻特征以及路径特征拼接后,输入到一个全连接注意力网络中,输出对tj的影响权重,对权重进行归一化后得到影响因子

在预测用户u是否会点击新闻tj时,用户u的兴趣特征qu计算如下:

则总的路径特征为:

步骤S4:构建预测用户点击概率

基于用户兴趣特征qu、候选新闻特征和路径特征使用一个全连接网络来预测用户u点击新闻tj的概率:

即为模型预测函数;

步骤S5:根据训练集数据和损失函数,对模型参数进行训练更新;

其中,损失函数定义如下:

其中,(u,t)是用户-候选新闻对,是正样本集,是负样本集;

训练数据处理完毕后,输入测试集数据,用来测试模型效果;若效果指标不再提高或达到要求,停止迭代,保存结果;

对于每一个候选新闻,基于用户的浏览历史与候选新闻之间的相关性,使用一个注意力网络动态地构建用户特征;同时,考虑已点击的新闻中的实体与候选新闻中的实体之间的路径,利用长短期记忆网络来从路径中生成路径特征;

最后,以候选新闻特征、用户特征和路径特征为输入,用一个多层感知机来计算用户点击候选新闻的概率,据此向用户进行新闻推荐。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201911334781.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top