[发明专利]一种行业工艺领域知识图谱构建方法及装置有效
申请号: | 202010210748.X | 申请日: | 2020-03-24 |
公开(公告)号: | CN111444351B | 公开(公告)日: | 2023-09-12 |
发明(设计)人: | 何炜琪;董世元;刘娜;吴志杰;刘毅 | 申请(专利权)人: | 清华苏州环境创新研究院;清华大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06F40/30;G06Q10/0631;G06Q50/04 |
代理公司: | 苏州创元专利商标事务所有限公司 32103 | 代理人: | 范晴;丁浩秋 |
地址: | 215000 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 行业 工艺 领域 知识 图谱 构建 方法 装置 | ||
1.一种行业工艺领域知识图谱构建方法,其特征在于,包括以下步骤:
S01:获取某行业工艺领域的开放数据源,建立原始资料数据库,所述原始资料数据库划分为结构化、半结构化和非结构化资料;
S02:根据结构化和半结构化资料提取工艺技术知识信息,构建知识图谱数据层;所述步骤S02中提取工艺技术知识信息包括,从结构化、半结构化资料中,按照字段直接抽取字段名称,以及对应字段中包含的知识单元,并标注工艺领域知识信息的实体、关系以及实体属性,根据结构化和半结构化资料的层级结构将抽取的知识单元按照三元组格式进行存储;
S03:结合专家知识和行业调研,根据知识图谱数据层的知识信息,建立知识图谱模式层,并建立知识图谱模式层和数据层之间的映射关系;
所述步骤S03中建立知识图谱模式层包括:
通过专家知识和行业调研,将步骤S02中得到的三元组信息划分为七个基本类,所述七个基本类包括工艺介绍、工艺特点、工艺流程、污染水平、能源利用、投资成本、资料来源;
将每一个基本类划分若干个子类概念,将工艺介绍划分为工艺名称、工艺原理和工艺概念,将工艺流程划分为原材料生产、原材料加工、半成品生成、半成品加工、成品生成,将工艺特点划分为适用条件、工艺特点、工艺水平、工艺普及率,将污染水平划分为污染物排放类型、污染物排放量,将能源利用划分为能源消耗、能源利用率,将投资成本划分为投资估算、运行费用、投资回收期,将资料来源划分为网页、国家标准、行业标准、论文文献、国家政策、百科类资料;
建立关系,包括建立工艺概念在语义上的上下位关系Part-of,工艺领域概念的层级关系Kind-of,工艺领域对象与类的关系Instance-of,工艺领域某一概念是另一概念的属性Attribute-of;
S04:将构建的知识图谱数据层作为样本库,利用自监督学习方法提取原始资料数据库中非结构化资料中包含的实体、关系及实体属性信息,并依据建立的知识图谱数据层和模式层之间的映射关系,补充知识图谱数据层;
S05:对知识图谱数据层进行知识融合,对知识融合后的数据进行知识推理,得到领域知识图谱;
所述步骤S05中知识融合包括以下步骤:
S51:根据实体、关系、实体属性进行语义相似度计算,并根据相似度构建实体、关系、实体属性的概念集合;
S52:根据同义、包含关系,分别对抽取的关系三元组与知识图谱中的关系三元组进行语义相似度计算;
S53:确定最优的概念匹配和关系匹配,实现知识融合;
所述步骤S05中知识推理包括,根据步骤S51建立的念集合,得到新增的关系链接,将新增的关系链接更新到知识图谱中。
2.根据权利要求1所述的行业工艺领域知识图谱构建方法,其特征在于,所述步骤S04中利用自监督学习方法提取原始资料数据库中非结构化资料中包含的实体、关系及实体属性信息,包括:
S41:利用训练的词向量,将样本库利用神经网络模型转化为词向量;并将词向量放入长短期记忆神经网络LSTM输入层,每个输入神经元对应一个字的词向量,构建实体标签特征、关系标签特征、属性标签特征,构建监督学习模型;
S42:将非结构化文本转化为词向量,并利用构建的监督学习模型,抽取实体、关系、实体属性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华苏州环境创新研究院;清华大学,未经清华苏州环境创新研究院;清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010210748.X/1.html,转载请声明来源钻瓜专利网。