[发明专利]一种基于游离状态节点的知识图谱重构方法及装置在审
申请号: | 201910764615.4 | 申请日: | 2019-08-19 |
公开(公告)号: | CN110457491A | 公开(公告)日: | 2019-11-15 |
发明(设计)人: | 郑丽敏;齐珊珊 | 申请(专利权)人: | 中国农业大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F17/27 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 图谱 重构 三元组集合 存储空间 大数据量 二维关系 二维数组 关系存储 建立关联 节点分配 实体关系 实体文件 图谱重构 选择目标 游离状态 语义分析 知识文档 指针指向 可视化 三元组 构建 数组 主语 过滤 抽取 存储 指针 查询 人群 重复 展示 | ||
1.一种基于游离状态节点的知识图谱重构方法,其特征在于,包括:
构建本体,所述本体包括各个本体之间的关系;
对知识文档进行语义分析和实体关系抽取,并过滤,得到无重复的RDF三元组集合以及实体与所属本体间的关系,所述知识文档包括半结构化和非结构化的文档,所述RDF三元组集合中的每个三元组都包括主语、关系和谓语,所述实体与所属本体间的关系在所述构建的本体中;
将所述所有三元组的所述主语、谓语存储成一个实体文件E,将所述所有关系存储到二维关系数组R,所述每个实体、关系均有可唯一标识的编码,并将所述E中的每个所述实体作为节点进行展示,所述R的行为所述主语的节点编码,所述R的列为所述宾语的节点编码,所述R的数组元素为所述关系的名称,所述关系均可被唯一的所述行列组合编码标识,所述实体包括所述主语和谓语,所述节点由所述实体可视化得到;
为所述每个节点分配一个指针,所述每个指针指向另一个二维数组r,所述r为所述R的子数组,包含连接该所述节点与其他所述节点的所有关系;
在所述每个节点与所述该节点所属的本体之间建立关联关系,并根据不同需求,选择目标节点或子知识图谱,以及连接它们的关系,重构知识图谱。
2.根据权利要求1所述的一种基于游离状态节点的知识图谱重构方法,其特征在于,所述语义分析和实体关系抽取涉及分词、词性标注、命名实体识别、依存句法分析等操作。
3.根据权利要求1所述的一种基于游离状态节点的知识图谱重构方法,其特征在于,过滤操作包括:
删除RDF三元组集合中重复的三元组;
删除以代词作为主语、宾语的三元组;
删除主语,或者谓语,或者宾语不完整的三元组;
删除错误的三元组。
4.根据权利要求1所述的一种基于游离状态节点的知识图谱重构方法,其特征在于,所述为所述每个节点分配一个指针,所述每个指针指向另一个二维数组r,所述r为所述R的子数组,其中所述r的行由所述R的行中的与所述节点间存在关系的若干行元素组成,所述r的列由所述R的列中的与所述节点间存在关系的若干列元素组成,元素为与所述节点相关的所有关系名称。
5.根据权利要求1所述的一种基于游离状态节点的知识图谱重构方法,其特征在于,所述在所述每个节点与所述该节点所属的本体之间建立关联关系,并根据不同需求,选择目标节点或子知识图谱,以及连接它们的关系,重构知识图谱,包括:
在所述节点的所述二维数组r中添加所述节点与所述该节点所属的本体之间建立的关联关系,将所述节点归类到相应的所述所属的本体中;
选中所述目标节点,通过所述指针查询并展示所述节点与其他节点之间的所有关系构成的所述二维数组r;
选中所述二维数组r中的若干条关系,展示所述的若干条关系和与所述若干条关系连接的节点;
继续选中所述若干条关系连接的其他节点及关系,不断扩展,形成子知识图谱;
用同样的方式在子知识图谱的基础上进行扩展,或生成其他的子知识图谱后将各子知识图谱连接,直到将所有想展示出来的节点和关系形成知识脉络并可视化,生成最终的知识图谱。
6.根据权利要求1所述的一种基于游离状态节点的知识图谱重构方法,其特征在于,所述方法还包括:
在所述本体中动态增加新本体;
抽取所述知识文档中属于所述增加的新本体的语义知识和实体关系;
将所述新抽取的实体和关系分别添加到所述实体文件E和所述关系数组R、r中;
将所述新抽取的实体和关系归类到所述新增加的本体中;
可视化所述重构的知识图谱。
7.一种基于游离状态节点的知识图谱重构装置,其特征在于,所述装置由不同模块构成,包括:
构建模块,用于构建预先定义的本体结构,所述本体结构包括各本体和各本体之间的关系;
抽取模块,用于对知识文档进行自然语言处理,生成抽取器以抽取语义信息和所述知识文档中包含的实体关系三元组;
过滤模块,用于删除所述实体关系三元组中的重复三元组、以代词作为主语或宾语的三元组、不完整的三元组和错误的三元组;
存储模块,用于将所述实体关系三元组中的所述主语、宾语存储成实体文件E,将所述实体关系三元组中的所述关系存储到二维关系数组R中,将与所述实体文件E中的每个实体相关的所述关系分别存储到所述二维关系数组R的子数组r中,并用指针指向所述r;
可视化模块,用于将重构的知识图谱进行可视化,所述知识图谱的节点为所述实体文件E中的每个实体,所述知识图谱的边为所述二维数组r中的元素,通过所述指针查询所述关系和与所述关系连接的所述节点,展示不同需求下所述知识图谱的脉络关系图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业大学,未经中国农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910764615.4/1.html,转载请声明来源钻瓜专利网。