[发明专利]一种基于语义向量的知识图谱表示学习方法有效
申请号: | 201911344270.3 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111198950B | 公开(公告)日: | 2021-10-15 |
发明(设计)人: | 张元鸣;李梦妮;高天宇;肖刚;程振波;陆佳炜 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/28;G06F40/284;G06F40/30;G06K9/62 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 向量 知识 图谱 表示 学习方法 | ||
一种基于语义向量的知识图谱表示学习方法,包括以下步骤:1)融合文本语料库的语义向量构建;2)融合文本语料库及知识图谱上下文的语义向量构建;3)语义矩阵的构建,过程如下:以三元组和关系的语义向量作为输入,得到每个关系对应的语义矩阵;4)建模与训练,过程如下:设计了一个新的得分函数对知识图谱中实体和关系的嵌入表示进行建模,得到所述知识图谱的嵌入表示模型;使用随机梯度下降法训练所述嵌入表示模型,使得损失函数的值最小化,得到最终知识图谱中实体和关系的语义向量。本发明提出的表示学习方体能够较为对知识图谱的复杂关系进行建模,并能够提高向量表示的精确度。
技术领域
本发明涉及知识图谱、表示学习、语义信息等领域,特别给出了一种基于语义向量的知识图谱表示学习方法。
背景技术
知识图谱表示学习旨在通过构建连续低维的向量表示空间,将所有实体及关系映射到该空间并保留其原有属性,使得大批高效数值化计算与推理方法得以适用,更好地解决数据稀疏及计算低效性问题,对知识图谱补全和推理等具有重要意义。
基于翻译的表示学习模型TransE(Annual Conference on Neural InformationProcessing Systems,2013)是近年来提出的一种重要的表示学习方法,该模型将关系r看成是从头实体h翻译成尾实体t的平移向量,使得h+r≈t,模型简单高效,但是,该模型无法处理1-N、N-1和N-N的复杂关系。
在TransE模型的基础上,研究者们提出一些改进算法。TransH(AAAI Conferenceon Artificial Intelligence,2014)模型对于每个关系r,同时使用平移向量r’和以wr为法向量的超平面进行建模,并将头实体、尾实体分别映射到关系r的超平面上,事实上实体和关系不应该在同一语义空间中,而超平面的选取也仅仅简单的令r和wr近似正交,但r可能拥有很多超平面。KG2E(ACM International Conference on Information andKnowledge Management,2015)认为不同的实体和关系可能包含不同的确定性,每个实体/关系都用高斯分布表示,其中均值表示其位置,协方差可以很好地表示其确定性,它可以有效地对实体和关系的不确定性进行建模,但它没有考虑实体的类型和粒度。TEKE(International Joint Conference on Artificial Intelligence,2016)模型基于文本语料构建单词与实体的共现网络以得到实体描述信息,关系描述信息是所在三元组头实体和尾实体的描述信息交集,因此关系在不同三元组中有不同表示,解决了知识图谱复杂关系建模问题,但该方法涉及的文本单词过多,导致训练时间过长。CKGE(PatternRecognition,2018)模型用灵活的采样策略生成邻居上下文,将实体邻居上下文与词文本上下文进行类比,借助Skip-gram学习知识图谱结构信息的向量表示。KEC(Knowledge-Based Systems,2019)模型基于概念图中实体的常识性概念,将实体及实体概念共同嵌入到语义空间,将损失向量投影到概念子空间,以此度量三元组的可能性。
发明内容
为了能够对复杂的1-N、N-1和N-N关系进行向量表示,并提高向量表示的精确度,本发明提出了一种基于语义向量的表示学习方法,语义向量融合了文本描述语义和上下文语义,丰富了实体和关系的语义信息,提高了知识图谱表示的精确度。
为了解决上述技术问题本发明提供如下的技术方案:
一种基于语义向量的知识图谱表示学习方法,包括以下步骤:
1)融合文本语料库的语义向量构建,过程如下:
(1.1)语料库标注
根据待处理的知识图谱,利用实体标注工具Tagme将知识图谱中的实体与语料库中的标题进行链接,得到实体对应的文本描述信息,进一步得到关系对应的文本描述信息,为关系所在三元组中头实体、尾实体的文本描述单词交集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911344270.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于金融交易的数据分析方法及系统
- 下一篇:用户界面的兼容性测试方法及装置