[发明专利]一种材料领域知识图谱的实体标签聚类方法及装置在审

专利信息
申请号: 202111258392.8 申请日: 2021-10-27
公开(公告)号: CN114090784A 公开(公告)日: 2022-02-25
发明(设计)人: 付冬梅;宋广轩 申请(专利权)人: 北京科技大学
主分类号: G06F16/36 分类号: G06F16/36;G06K9/62
代理公司: 北京市广友专利事务所有限责任公司 11237 代理人: 张仲波
地址: 100083*** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 材料 领域 知识 图谱 实体 标签 方法 装置
【说明书】:

发明提供了一种材料领域知识图谱的实体标签聚类方法及装置,涉及计算机技术。包括:获取三元组形式的材料领域知识图谱;统计节点和关系信息;构造标签分类树,拆分成标签分类子树;获得材料领域知识图谱聚类信息。本发明可完成对材料领域相对开放的静态知识图谱或未提供本体的材料领域静态知识图谱数据集在无先验知识情况下的实体标签聚类,具有一定的容错能力,可以用于知识图谱本体层标签确定、知识图谱标签异常检测。

技术领域

本发明涉及计算机技术领域,特别是指一种材料领域知识图谱的实体标签聚类方法及装置。

背景技术

知识图谱是一种结构化的语义知识库。知识图谱中包含了大量的现实世界中的结构化信息,例如百科网站中的信息或材料领域金属加工工艺知识。知识图谱通常将基本事实抽象为实体,将基本事实之间的联系抽象为关系,进一步将实体抽象为节点,将关系抽象为边,则知识图谱可以转化为图结构数据,从而被计算机高效利用。知识图谱因其具有图特性,能显式表征事物属性及事物之间的联系,近几年得到研究人员的广泛关注。

对于材料领域,知识图谱的构建往往需要从开放领域语料中抽取,该抽取过程面向实例层,因此本体层的构建比较困难;或者一些研究者共享材料领域知识图谱数据时,可能以三元组形式共享数据,缺乏本体层信息。对知识图谱实体按标签聚类往往能够确定知识图谱的本体层,本体层能够帮助设计者认识所构建的知识图谱,对依赖知识图谱的下游任务而言,例如基于知识图谱的问答、知识图谱实体补全等任务,本体层能够为任务提供充分的信息。但受到知识图谱实体抽取技术的限制以及现有知识图谱构建方法的局限性,大规模知识图谱实体标签的建立十分困难,因此实体聚类工作十分重要,但获得实体标签往往比较困难。

现有的自动化方法往往需要引入额外的知识辅助分类,而人工标注成本极高,有时即使通过自动化技术或人工进行了实体标签标注,也很难对其准确性进行进一步的验证。

发明内容

针对现有技术中需要额外的知识辅助分类,且人工标注成本高又难以保证准确性的问题,本发明提出了一种材料领域知识图谱的实体标签聚类方法及装置。

为解决上述技术问题,本发明提供如下技术方案:

一方面,提供了一种材料领域知识图谱的实体标签聚类方法,包括:

S1:获取三元组形式的材料领域知识图谱;得到知识图谱中的节点实体、节点实体集合以及节点实体的关系信息;

S2:基于所述节点实体集合创建标签分类树根结点;

S3:基于谓词逻辑,遍历所有所述节点实体,将所述节点实体插入所述标签分类树,并记录支持交集结点存在的节点实体数量为证据数量;

S4:根据所述证据数量的阈值,将所述标签分类树拆分成标签分类子树;得到所述标签分类子树中根结点所记录的入边关系集合和出边关系集合;

S5:根据所述标签分类子树中根结点所记录的所述入边关系集合和出边关系集合,将每个所述节点实体归入所述标签分类子树代表的标签类别中,得到节点实体类别标签,完成材料领域知识图谱的实体标签聚类。

可选地,步骤S1中,获取三元组形式的材料领域知识图谱;得到知识图谱中的节点实体、节点实体集合以及节点实体的关系信息,包括:

S11:若材料领域知识图谱是以三元组数据模型存储,则将三元组数据模型加载进入系统内存;若否,则先将所述材料领域知识图谱转化为三元组形式,再加载进入系统内存;

S12:遍历所述三元组,将所述三元组中的头实体和尾实体作为节点实体,添加至节点实体集合;

S13:根据添加的所述节点实体在所述三元组中的位置和所述三元组中包含的关系,确定所述关系与所述节点实体的进出关系;将所述关系添加至所述节点实体集合中,记作对应节点实体的入边关系或出边关系记录。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202111258392.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top