[发明专利]基于表示学习的时间知识图谱推理方法在审

专利信息
申请号: 202110922890.1 申请日: 2021-08-12
公开(公告)号: CN113742491A 公开(公告)日: 2021-12-03
发明(设计)人: 闫凤麒;周晓杰 申请(专利权)人: 上海熙业信息科技有限公司
主分类号: G06F16/36 分类号: G06F16/36;G06F40/295;G06K9/62;G06N3/04;G06N3/08
代理公司: 上海科律专利代理事务所(特殊普通合伙) 31290 代理人: 叶凤
地址: 200120 上海*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 表示 学习 时间 知识 图谱 推理 方法
【权利要求书】:

1.一种基于表示学习的时间知识图谱推理方法,其特征在于,包括:

步骤1、构建带实体描述的时间知识图谱数据集;

步骤2、构建和训练融合实体描述的时间知识图谱表示学习模型;

步骤3、知识推理应用。

2.如权利要求1所述的一种基于表示学习的时间知识图谱推理方法,其特征在于,所述步骤1中,数据集中包含关系、实体、实体描述以及表示成四元组的知识:

1.1:利用爬虫技术,从百科类网站或现有知识库中,为知识图谱中的实体爬取实体描述文本,提供给步骤1.2;

1.2:实体描述文本预处理,提供给步骤1.3;

1.2.1:移除所有标点符号,并将所有大写字母转换为小写字母;

1.2.2:删除非时间的数字,只代表年份的数字串;

1.3:利用知识抽取技术,从网络文本或现有知识库中,抽取带时间约束的知识,构建时间知识图谱,提供步骤1.4;

1.4:对知识中的关系、实体进行编号,将知识表示为四元组;其中,四元组(h,r,t,τ),表示头实体h与尾实体t之间存在关系r这一事实只有在时间范围τ=[τs,τe]下是正确的,τs和τe分别为开始时间与结束时间,提供步骤1.5;

1.5:对四元组中的时间标签预处理;根据时间区间将时间知识图谱拆分为多个静态的子图,每个子图由该时间区间下正确的四元组构成;

得到带实体描述的时间知识图谱数据集,数据集中的实体、关系编号以及四元组信息将提供给步骤2.1,实体描述信息将提供给步骤2.3。

3.如权利要求1所述的一种基于表示学习的时间知识图谱推理方法,其特征在于,所述步骤2中,融合实体描述的时间知识图谱表示学习模型的构造,包括两部分:基于HyTE的结构表示学习以及基于带注意力机制的CNN的文本表示学习;首先,利用HyTE模型来编码知识图谱的结构信息;然后利用带注意力机制的卷积神经网络编码实体的文本信息;最后使用一种机制学习两种信息的最佳权重,联合成最终的实体表示;具体步骤为:

2.1:依次从步骤1.5得到的数据集中选择一个正样本X=(h,r,t,τ),并随机替换h、r、t其中之一得到负样本X′=(h′,r′,t′,τ),将正样本与负样本提供给步骤2.2和步骤2.3;

2.2:分别计算正样本中h、r、t在时间τ下的基于结构信息的表示

其中,h,r,分别为h,r,t的原始的向量表示,d为向量的维度,表示1*d的矩阵,d为1时表示一个标量,以下同理;为时间区间τ的参数;负样本的计算过程同正样本,得到提供给步骤2.3.5和步骤2.4;

2.3:通过带注意力机制的卷积神经网络分别计算实体h,t在时间τ以及关系r这一上下文中的基于描述信息的表示;在此步骤中,对实体h和t的处理过程相同,用e表示其中任意一个实体,其描述文本的词向量序列为x1:n=[x1,x2,…,xn],表示序列中的第i个向量,d1为向量的维度,提供给步骤2.3.1;神经网络各层操作如下:

2.3.1:第一卷积层;在卷积层中,使用大小为k的卷积核对输入序列进行一维卷积;卷积层输出的第i个向量为ci=σ(W·xi:i+k-1+b);其中,是卷积核,d1为输入向量的维度,d2为输出向量的维度,在卷积层中可看作特征图的个数,为偏置项,σ是激活函数,选择ReLU作为激活函数;最终卷积层的输出为c1:m=[c1,c2,…,cm],m=n-k+1为池化层输入序列的长度;

2.3.2:最大池化层;在第一个卷积层之后,进行一次池化操作;池化层以上一个卷积层的输出序列c1:m作为输入,使用最大池化,以一个大小为l的窗口在输入序列上以步长s进行滑动,则第i个窗口的输出为pi=max(c(i-1)·s+1:(i-1)·s+l),最终池化层的输出为

2.3.3:dropout;在训练期间,dropout层通过在输入的数据中随机选取一定比例的进行丢弃(置为0),防止过拟合;对池化层的输出进行Dropout操作,并作为第二个卷积层的输入;

2.3.4:第二卷积层;本层以2.3.3的输出序列为输入,处理同步骤2.3.1,记输出为y1:o,o为输出序列的长度,输出到步骤2.3.5;

2.3.5:注意力层;以步骤2.3.4的输出y1:o作为输入,依次计算序列中每一个序列的权重,并进行加权求和;对于序列中第i个向量yi,计算其在关系r与时间τ约束下的权重将序列y1:o中所有向量根据其权重进行加权求和得到实体e在关系r与时间τ之下的基于实体描述的表示作为输出提供给步骤2.4;

2.4:联合两种实体表示得到实体的最终表示;对于实体e,在关系r与时间τ下的最终表示为其中σ为sigmoid函数,参数为实体基于结构信息的表示的权重。相应的头实体h的最终表示记为hτ,r,尾实体t的最终表示记为tτ,r

2.5:计算损失值;对于正样本X以及负样本X′,损失值loss=max(0,f(X)-f(X′)+γ),其中为f评分函数为向量的第一或第二范式,γ0为超参数,表示正负样本之间的间距;将损失值提供给步骤2.3;

2.6:优化模型参数;根据步骤2.5得到的损失值,使用梯度下降法或Adam算法调整模型参数,最小化模型整体的损失值;

2.7:如果进行一次迭代后达到停止迭代的条件(损失值小于设置的阈值或迭代次数达到最大次数),则结束训练,否则继续步骤2.1;

2.8:得到训练完的模型,提供给步骤3.1。

4.如权利要求1所述的一种基于表示学习的时间知识图谱推理方法,其特征在于,所述步骤3中,给定待预测的四元组,预测其缺失部分;具体步骤为:

3.1:在步骤2.8得到的模型中,依次将知识图谱中的所有实体(或关系)分别代入到该四元组的缺失部位中,并计算代入实体(或关系)后评分函数f的值,最后将所有实体(或关系)的评分提供给步骤3.2;

3.2:根据评分进行排序,选出评分最高的一个或多个实体(或关系)作为预测值。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海熙业信息科技有限公司,未经上海熙业信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110922890.1/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top