[发明专利]多角度引入属性语义的知识表示学习方法和系统在审
申请号: | 202010757468.0 | 申请日: | 2020-07-31 |
公开(公告)号: | CN112036182A | 公开(公告)日: | 2020-12-04 |
发明(设计)人: | 高能;李名扬;屠晨阳;李敏;彭佳;单亦伟 | 申请(专利权)人: | 中国科学院信息工程研究所 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F40/126;G06N3/04;G06N3/08 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 邱晓锋 |
地址: | 100093 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 角度 引入 属性 语义 知识 表示 学习方法 系统 | ||
本发明涉及一种多角度引入属性语义的知识表示学习方法和系统。所述方法包括:对结点的属性语义进行表征,得到属性文本的嵌入式表示;将属性文本的嵌入式表示与结点的嵌入式表示及数字外部信息的嵌入式表示相结合,代入到融合数字外部信息的知识表示学习模型中;通过融合数字外部信息的知识表示学习模型得到实体和关系的嵌入式表示。其中,采用以下两种方式中的至少一种对结点的属性语义进行表征:利用词袋模型对属性的语义进行表征;将属性看作结点的描述性文本,利用自然语言处理工具对描述性文本的语义进行表征。本发明提供了两种引入属性语义的角度,对数字形式的外部数据进行了更充分的利用,并最终提高了表示学习效果。
技术领域
本发明涉及知识表示学习领域,特别涉及融合数字外部信息的知识表示的建模,具体涉及一种多角度引入属性语义的知识表示学习方法和系统。
背景技术
近些年,知识图谱(Knowledge Graph,KG)推动了许多知识驱动的应用,如问答和数据集成。DBpedia、Freebase、YAGO3是知识图谱中应用最广泛,也最为人们熟知的数据集。它们将知识存储在包含两个实体及其关系的三元组中。面向知识图谱的表示学习是知识工程领域中十分重要的一项工作,这项工作促进了一些下游任务的开展,如链路预测和实体分类等。
知识表示学习(KG representation Learning)也称为知识嵌入学习(KGEmbedding),目的是将知识图谱的元素编码为低维的嵌入式表示。这些量化的嵌入式表示可以捕获全局模式(也称为基于结构的信息),并使计算给定三元组的存在性成为可能。
目前,基于实体和关系之间连接关系(结构信息)的知识表示学习方法可以分为基于翻译的模型、基于语义匹配的模型和基于神经网络的模型三类。TransE及其引申模型等基于翻译的模型把关系看作两个实体之间的翻译操作,并以此作为训练的目标。语义匹配模型,如RESCAL、DistMult、ComplEx,利用三维矩阵来表示图谱,此矩阵中的值代表是否存在该三元组,他们通过矩阵分解来得到实体和关系的表示。ConvE和ConvKB等神经网络模型则是引入神经网络作为其核心结构。
近年来,越来越多的工作试图在传统的包含结构信息的数据库中添加额外的信息,以更详细地描述实体或关系。这些外部信息往往通过具体的属性与实体或关系进行连接。根据这些外部信息的数据类型,模型可分为四类:基于文本外部信息的模型(DKRL,KDCoE),基于图像外部信息的模型(IKRL),基于数字外部信息的模型(LiteralE,MT-KGNN,KBLRN)以及基于多模态外部信息的模型(EAKGAE,MKBE)。它们对这些外部信息进行编码,并将它们与实体或关系的嵌入式表示相结合,得到了更佳的实体表示。如在融合图像信息的工作中,IKRL为现有知识图谱中的实体添加相应的图片,利用CNN或注意力模型对图片信息进行表征,并将其与实体表征结合,利用TransE的思想学习实体和关系的向量表示,该工作将图片中的包含关系或是视觉上的相似关系加入到知识图谱表示当中;在融合文本的工作中,DKRL利用自然语言处理方法对文本数据进行表征并与结点表征进行融合,同样在TransE的框架下对三元组的表征进行学习;在融合数字外部信息的工作中,LiteralE对结点的数字描述依据其属性构造表征向量,并同样与结点表征进行融合输入到表示学习框架中(该方法将会在方法原理部分作细致说明)。但是已有的引入数字外部信息的方法仅将属性作为构造表示向量时维度划分的依据,而忽略了属性本身的语义。
因此,属性语义信息的编码以及语义信息同数字外部信息的融合是十分必要的工作。这将会使得外部数据信息得到充分利用,并提升表示学习效果,从而为下游任务提供帮助。
发明内容
本发明的主要目的在于提供两种引入属性语义信息的角度,即通过不同的方法对语义信息进行编码,并利用两种方式将其与结点的嵌入式表示以及数字外部信息的嵌入式表示进行结合。这两个角度都对先前的数字形式的外部数据进行了更充分的利用,并最终提高了表示学习效果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院信息工程研究所,未经中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010757468.0/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种固熔Ti(C,N)免烧硅莫砖及其制备方法
- 下一篇:一种手机管控平台