[发明专利]对长文本友好的知识图谱表示学习方法在审

专利信息
申请号: 202111020769.6 申请日: 2021-09-01
公开(公告)号: CN113761224A 公开(公告)日: 2021-12-07
发明(设计)人: 吴刚;武文芳;崔锴倩;李雪玉;李磊磊;韩东红 申请(专利权)人: 东北大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/35;G06F40/30;G06N3/04;G06N3/08
代理公司: 沈阳一诺君科知识产权代理事务所(普通合伙) 21266 代理人: 王建男
地址: 110000 辽宁*** 国省代码: 辽宁;21
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本 友好 知识 图谱 表示 学习方法
【权利要求书】:

1.对长文本友好的知识图谱表示学习方法,其特征在于,包括如下步骤:

步骤一:长文本友好的文本信息抽取;

1)针对三元组(h,r,t)的关系r,通过从语料库中抽取同时包含三元组中头实体h、尾实体t的全部句子,作为候选关系提及;

2)通过向量空间模型来计算其相似性,假设m表示候选关系提及集,r是对应的关系集,Vm代表提及集的空间向量表示,Vr代表关系集的向量表示,然后可以用余弦距离表示两者之间的相似度;计算方法如公式1所示:

3)在语义级别上对相似性进行进一步过滤,将CNN和Skip-gram联合起来,来对语义向量中的候选关系提及句子进行建模,使用两个并行的CNN模型来学习候选关系中提到的句子的向量表示,并使用平均词嵌入方法来学习该关系的向量表示;通过公式2计算两者之间的相似性;如果相似度超过设置的阈值ε,则将该句子作为关系的确切文本提及

sim(m,r)=cos(Vm,Vr) (2);

步骤二:BCRL的文本表示模型;

1)本文标识模型的总体框架:首先由BERT模型生成句子序列向量,然后将这些句子级别的特征向量输入到卷积神经网络中以形成最终的整体文本向量;此外,将注意力机制和位置编码添加到CNN中,以进一步丰富实体描述的文本表示形式;

2)使用基于关系的注意力机制来获得实体文本表示:公式3给出实体描述的基于关系的注意力机制;假设卷积层的输出为q,则将基于关系的注意力机制的输出定义为可以将其用作池化层的输入;

α(r)=Softmax(v1:nrd) (3);

3)实体文本表示中的句子层位置编码:将句子位置编码为位置向量γi,然后通过加法将句子向量vi组合成新的向量Ci;采用Vaswani提出的方法计算位置向量γi,如公式4和公式5所示,γi是使用不同频率的位置pos上的正弦和余弦函数生成的;pos对应于输入位置,d是位置向量的维数;

γ(pos,2i)=sinpos/100002i/d (4)

r(pos,2i+1)=cospos/100002i/d (5)

给定一个句子序列向量v1:n=v1,…,vn,其位置向量γ1n=(γ1,…,γn),添加位置信息后CNN的新输入为C1:n=(v11,…,vnn);

步骤三:基于TransE的结构化表示,给定一个三元组(头实体,关系,尾实体),将其表示为(h,r,t);三元组(h,r,t)的对应向量表示为(h,r,t);TransE旨在将实体和关系表示为低维连续向量;合法的三元组向量应满足公式h+r≈t,而错误的三元组不满足;因此,TransE定义了以下得分函数来测量三元组的质量,如公式6所示;

公式6是向量h+r与t之间的L1或L2距离;对于合理的得分函数,合法三元组的得分低于错误三元组的得分;

步骤四:结构-文本联合标识:采用Xu等提出的门机制来融合从TransE中学习的结构信息和文本信息,即将联合表示Vj当作结构表示Vs和文本表示Vd加权求和的结果;联合表示的定义如公式7、8所示;其中,gs和gd是平衡两种信息源的门,⊙为元素乘法;

Vj=gs⊙Vs+gd⊙Vd (7)

s.t.gd=1-gs;gs,gd∈[0,1] (8)

步骤五:模型训练:根据TransE,采用最大间隔方法用于训练模型;公式9给出了三元组(h,r,t)的损失函数,其中f是模型的得分函数,γ0是正例、负例之间的区间距离,D知识图谱中有效三元组集合,是不在知识图谱中的无效三元组的集合;

将关系按照两端连接实体的数目分为1-1、1-N、N-1以及N-N四种不同类型,若是1-N关系增大替换头实体的机会,若是N-1关系则增大替换尾实体的机会,这样能有效提升模型训练效果;对于每一个三元组一个有效三元组(h,r,t)相应的无效三元组定义为

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111020769.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top