[发明专利]对长文本友好的知识图谱表示学习方法在审
申请号: | 202111020769.6 | 申请日: | 2021-09-01 |
公开(公告)号: | CN113761224A | 公开(公告)日: | 2021-12-07 |
发明(设计)人: | 吴刚;武文芳;崔锴倩;李雪玉;李磊磊;韩东红 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/35;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 沈阳一诺君科知识产权代理事务所(普通合伙) 21266 | 代理人: | 王建男 |
地址: | 110000 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 友好 知识 图谱 表示 学习方法 | ||
本发明公开了对长文本友好的知识图谱表示学习方法,包括如下步骤:步骤一:长文本友好的文本信息抽取;步骤二:BCRL的文本表示模型;骤三:基于TransE的结构化表示;步骤四:结构‑文本联合标识;步骤五:模型训练。本发明提出了一种文本增强的知识图表示模型BCRL,该模型利用实体描述和关系提及来增强三元组的知识表示,该方法从文本‑句子的角度出发,解决了实体描述的不统一、关系提及表示的不准确等问题,能够更有效地捕获文本的语义信息,并且在链路预测任务方面与基准系统相比有显著的改进。
技术领域
本发明涉及对长文本友好的知识图谱表示学习方法。
背景技术
知识图谱因其强大的语义表达能力而受到学术界和工业界的广泛关注,并已广泛应用于诸如问题解答系统和网络搜索等领域。为了解决计算效率低和数据稀疏的问题,知识表示学习技术受到了广泛的关注。其主要目标是将知识图谱中的实体和关系表示到低维稠密的实值向量空间中,进而在低维空间中提高计算实体、关系及其之间的复杂语义计算的效率。
为了解决大规模知识库使用中的数据稀疏和计算开销大的问题,知识表示学习技术被广泛关注。然而,大部分已有的表示学习模型仅利用知识库中的结构信息,无法很好地处理新的实体或者关联事实极少的实体;为解决该问题,一些工作开始引入文本信息来改善知识表示;然而,之前的模型大都仅考虑到实体描述信息,忽略了实体间的关系提及信息和文本句子间、词与词之间包含的丰富语义信息。
发明内容
本发明的目的是提供对长文本友好的知识图谱表示学习方法,解决了现有学习模型仅利用知识库中的结构信息,无法很好地处理新的实体或者关联事实极少的实体的问题。
为了实现上述目的,本发明采用了如下技术方案:
对长文本友好的知识图谱表示学习方法,其特征在于,包括如下步骤:
步骤一:长文本友好的文本信息抽取;
1)针对三元组(h,r,t)的关系r,通过从语料库中抽取同时包含三元组中头实体h、尾实体t的全部句子,作为候选关系提及;
2)通过向量空间模型来计算其相似性,假设m表示候选关系提及集,r是对应的关系集,Vm代表提及集的空间向量表示,Vr代表关系集的向量表示,然后可以用余弦距离表示两者之间的相似度;计算方法如公式1所示:
3)在语义级别上对相似性进行进一步过滤,将CNN和Skip-gram联合起来,来对语义向量中的候选关系提及句子进行建模,使用两个并行的CNN模型来学习候选关系中提到的句子的向量表示,并使用平均词嵌入方法来学习该关系的向量表示;通过公式2计算两者之间的相似性;如果相似度超过设置的阈值ε,则将该句子作为关系的确切文本提及
sim(m,r)=cos(Vm,Vr) (2);
步骤二:BCRL的文本表示模型;
1)本文标识模型的总体框架:首先由BERT模型生成句子序列向量,然后将这些句子级别的特征向量输入到卷积神经网络中以形成最终的整体文本向量;此外,将注意力机制和位置编码添加到CNN中,以进一步丰富实体描述的文本表示形式;
2)使用基于关系的注意力机制来获得实体文本表示:公式3给出实体描述的基于关系的注意力机制;假设卷积层的输出为q,则将基于关系的注意力机制的输出定义为可以将其用作池化层的输入;
α(r)=Softmax(v1:nrd) (3);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111020769.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种地下工程叠合结构预留咬合面施工方法
- 下一篇:一种焊接螺母的成型方法