[发明专利]一种基于游离状态节点的知识图谱重构方法及装置在审
申请号: | 201910764615.4 | 申请日: | 2019-08-19 |
公开(公告)号: | CN110457491A | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 郑丽敏;齐珊珊 | 申请(专利权)人: | 中国农业大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图谱 重构 三元组集合 存储空间 大数据量 二维关系 二维数组 关系存储 建立关联 节点分配 实体关系 实体文件 图谱重构 选择目标 游离状态 语义分析 知识文档 指针指向 可视化 三元组 构建 数组 主语 过滤 抽取 存储 指针 查询 人群 重复 展示 | ||
本发明提出一种基于游离状态节点的知识图谱重构方法,该方法包括:构建本体;对知识文档进行语义分析和实体关系抽取,并过滤,得到无重复的RDF三元组集合和实体与所属本体间的关系;将所有三元组的主语、谓语存储成一个实体文件E,将所有关系存储成二维关系数组R,并将E中的每个实体作为节点进行展示;为每个节点分配一个指针,每个指针指向另一个二维数组r;在每个节点与该节点所属的本体之间建立关联关系,并根据不同需求,选择目标节点或子知识图谱,以及连接它们的关系,重构知识图谱。本方法能够根据不同人群、不同情境下的需要重构出不同的知识图谱,还能够节省大量的存储空间,加快查询、可视化速度,大数据量下的效果更加明显。
技术领域
本发明涉及人工智能和计算机技术领域,具体涉及一种基于游离状态节点的知识图谱重构方法及装置。
背景技术
目前网络数据量成指数形式增长,包含了越来越多的信息,这些信息涉及各个领域,形式复杂多样,构成了人们了解各种知识、事件的主要途径,也成为了公司企业等生存发展的关键部分。但是面对大规模的网络信息,人们通过关键词在各大搜索网站上进行搜索后,得到的知识文档往往包含了大量重复内容、广告、一些无意义的描述等。这些都对人们迅速了解知识文档的主要内容,把握知识的主要脉络,及时作出决策产生着消极影响。而知识图谱的构建通过对各类知识进行收集、处理,得到结构化的知识后再进行存储和管理,将知识高度概括并进行可视化展示,可以清晰的看到各个主体之间的关系脉络,对于梳理文档知识具有很大帮助。
现有的知识图谱构建过程,主要分为两步:数据模式层的构建(本体构建)和实体层的学习。由于缺乏开放链接数据和开放知识库,中文的在线百科类数据不如英文百科类数据丰富,中文中没有完整的词典用于辅助构建知识图谱,中文语言结构复杂多变等自然特性,导致中文文本的处理难度增大,中文知识图谱的构建存在困难。为了解决这些问题,人们常采用由顶向下和自底向上相结合的方法来从各个方面寻找可以复用的资源,以减少数据处理、应用的工作量,加快构建效率,减少构建成本。
但是由于网络数据量巨大,处理后仍然得到的是大规模的数据量,如果利用传统的知识图谱构建方法将这些数据全部存储并可视化后得到的知识图谱,会占据很大内存,影响计算机性能,降低查询速度,对于人们只想快速得到某条感兴趣的知识链仍不够直观。此外,不同人群对同一知识图谱的关注点会不同,同一人群在不同情境下对知识图谱的需求也会不同,所以在不同知识体系,不同角度下对知识图谱的需求是动态变化的。为了解决这些问题,需要一种知识图谱重构方法,能够动态重新构建知识图谱,有效的解决上述问题。
因此,目前针对知识图谱的不同需求,缺乏能够应对不同需求,节省存储空间、查询速度快、直观展示目标节点和关系的方法。
发明内容
为了解决目前针对知识图谱提出的不同需求,缺乏能够应对不同需求,节省存储空间、查询速度快、直观展示目标节点和关系的方法,本发明提供了一种基于游离状态节点的知识图谱重构方法,包括:
构建本体,所述本体包括各个本体之间的关系;
对知识文档进行语义分析和实体关系抽取,并过滤,得到无重复的RDF三元组集合以及实体与所属本体间的关系,所述知识文档包括半结构化和非结构化的文档,所述RDF三元组集合中的每个三元组都包括主语、关系和谓语,所述实体与所属本体间的关系在所述构建的本体中;
将所述所有三元组的所述主语、谓语存储成一个实体文件E,将所述所有关系存储到二维关系数组R,所述每个实体、关系均有可唯一标识的编码,并将所述E中的每个所述实体作为节点进行展示,所述R的行为所述主语的节点编码,所述R的列为所述宾语的节点编码,所述R的数组元素为所述关系的名称,所述关系均可被唯一的所述行列组合编码标识,所述实体包括所述主语和谓语,所述节点由所述实体可视化得到;
为所述每个节点分配一个指针,所述每个指针指向另一个二维数组r,所述r为所述R的子数组,包含连接该所述节点与其他所述节点的所有关系;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业大学,未经中国农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910764615.4/2.html,转载请声明来源钻瓜专利网。