[发明专利]一种面向大规模知识库的快速学习方法有效
申请号: | 201910431538.0 | 申请日: | 2019-05-22 |
公开(公告)号: | CN110275959B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 程良伦;陈柯棠;张凡龙 | 申请(专利权)人: | 广东工业大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/28;G06F40/30;G06F40/211;G06F40/289 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 510006 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 大规模 知识库 快速 学习方法 | ||
本发明涉及一种面向大规模知识库的快速学习方法,所述方法包括以下步骤:S1:知识提取:从异源异构的数据中进行知识数据的提取,知识数据为事实三元组,包括:实体和关系;S2:知识表示:构建TransH模型,利用TransH模型,把知识数据中的所有实体和关系嵌入到低维向量空间中,从而实现知识数据的知识表示;S3:知识融合:通过RLCD模型对经S2知识表示之后的知识数据进行融合,并将融合后的知识数据存入知识图谱;S4:知识推理:从知识图谱中提取S3融合后的知识数据进行推理,并将推理后的知识数据存入知识图谱;获得更新的知识和结论;本发明可实现知识库的快速学习。
技术领域
本发明涉及人工智能领域,更具体地,涉及一种面向大规模知识库的快速学习方法。
背景技术
如何从无结构型或半结构型的互联网信息中获取大规模结构型的知识,有机融合构建知识库,对知识库的推广和应用有着十分重要的意义;在构建知识库的过程中,知识表示学习是知识获取与应用的基础,因此,知识表示学习在知识库构建中扮演者重要的角色。
目前知识图谱主要使用(entity1,relation,entity2)的三元组形式来表示知识,这种方法可以较好的表示大规模的事实性知识;然而,人类的知识类型复杂多样,当面对大量的复杂知识时,比如人们的购物记录信息,新闻事件等,它们往往包含着大量实体和实体之间的复杂关系,三元组就束手无策了;为此,很多研究人员针对不同场景设计不同的知识表示方法。
知识表示是知识图谱构建与应用的基础,如何合理设计表示方案,更好地涵盖人类不同类型的知识,是知识图谱的重要研究问题;目前已经提出各种知识获取方法,并已经成功抽取大量有用的知识;但是在抽取知识的准确率、覆盖率和效率等方面,都仍不尽人意,因而仍有极大的提升空间;而且,来自不同数据的抽取知识可能存在大量噪音和冗余,或者使用了不同的语言;如何将这些知识有机融合起来,建立更大规模的知识库,是实现大数据智能的必由之路。
表示学习旨在将研究对象的语义信息表示为稠密低维实值向量;在该低维向量空间中,2个对象距离越近则说明其语义相似度越高;通常将研究对象表示为向量:实体e表示为Le;关系r表示为Lr;通过欧氏距离或余弦距离等方式计算任意2个对象之间的语义相似度。
知识表示学习是面向知识库中实体和关系的表示学习;通过将实体或关系投影到低维向量空间,我们能够实现对实体和关系的语义信息的表示,进而能高效地计算实体、关系及其之间的复杂语义关联。这对知识库的构建、推理与应用均有重要意义。
知识表示学习实现了对实体和关系的分布式表示,它具有以下主要优点:
1.显著提升计算效率。知识库的三元组表示实际就是基于独热表示的。如前所分析的,在这种表示方式下,需要设计专门的图算法计算实体间的语义和推理关系,计算复杂度高、可扩展性差。而表示学习得到的分布式表示,则能够高效地实现语义相似度计算等操作,显著提升计算效率。
2.有效缓解数据稀疏。由于表示学习将对象投影到统一的低维空间中,使每个对象均对应一个稠密向量,从而有效缓解数据稀疏问题,这主要在2个方面体现。一方面,每个对象的向量均为稠密有值的,因此可以度量任意对象之间的语义相似程度。而基于独热表示的图算法,由于受到大规模知识图谱稀疏特性的影响,往往无法有效计算很多对象之间的语义相似度。另一方面,将大量对象投影到统一空间的过程,也能够将高频对象的语义信息用于帮助低频对象的语义表示,提高低频对象的语义表示的精确性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东工业大学,未经广东工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910431538.0/2.html,转载请声明来源钻瓜专利网。