[发明专利]面向化工领域的多层次知识图谱构建方法及系统有效

专利信息
申请号: 202010523776.7 申请日: 2020-06-10
公开(公告)号: CN111694966B 公开(公告)日: 2023-07-21
发明(设计)人: 孙涛;王琦;翟娇娇 申请(专利权)人: 齐鲁工业大学
主分类号: G06F16/36 分类号: G06F16/36;G06F16/951
代理公司: 济南圣达知识产权代理有限公司 37221 代理人: 黄海丽
地址: 250353 山东*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 面向 化工 领域 多层次 知识 图谱 构建 方法 系统
【权利要求书】:

1.面向化工领域的多层次知识图谱构建方法,包括:

获取化工过程影响生产状态的不同层面数据;

对获取的数据进行关系抽取得到三元组数据;

将抽取的三元组数据构建单层次知识图谱;

对单层次知识图谱进行整合得到多层次知识图谱;

所述将抽取的三元组数据构建单层次知识图谱步骤之后,所述对单层次知识图谱进行整合得到多层次知识图谱步骤之前,还包括多源数据融合,对获取的不确定性知识,利用多源数据融合算法进行融合,选择可信度高于设定阈值的知识融入单层次确定性知识图谱中,将可信度低于设定阈值的知识进行舍弃,得到补充后的单层次知识图谱;

所述利用多源数据融合算法进行融合的具体步骤包括:

(1)以各个层面的实体关键字为依据将不同来源的数据进行分块聚合,作为候选匹配知识;

(2)将同一分块中的候选匹配知识,利用多源数据融合系数W与原有知识图谱的知识进行匹配,若W大于设定的阈值,则认为候选匹配知识为正确的知识,能够添加到知识图谱中;

多源数据融合系数W定义如下:

W由两部分组成,其中confidence为置信度评分,为实体相似度和关系相似度的平均值,其中confidence由两部分组成QcfQ为数据来源的置信度,其Q值较高,cf是基于实体与实体,实体与关系之间的距离,为每两个实体组合计算的一个置信度;

置信度公式根据句子成分间相互依存和被依存的现象进行依存句法分析,句子经过分词后,识别出实体和关系后,从右往左依次将关系和实体的位置进行标记,分别为0,1,2……,公式中L表示实体位置,R表示关系位置,表示实体1和实体2的距离; Li-R表示实体1和关系的距离;

Entity_sim为实体间的文本相似度计算,Relationship_sim为关系相似度计算,取两者平均作为该知识的相似度,对应的相似度大于设定的阈值0.5,则该知识较为可信;

Entity_sim计算方法为:

对文本进行分词,采用word2vec获取的词向量对文本进行建模,利用余弦相似度来计算两个文本向量夹角的余弦值来度量相似性;

Relationship_sim计算方法为:

根据候选匹配实体对中的关系,以实体为中心遍历同一分块的知识库,看知识库中是否存在与候选匹配实体对中关系相似度较高的关系;

若不存在,遍历整个知识库看是否存在,若还是不存在,Relationship_sim为0;

若存在,计算知识库中实体到匹配关系的距离L,方法是每隔一个三元组距离加1,Relationship_sim1/L ;

经过多源数据融合模型后,将选择可信度高于设定阈值的知识融入知识图谱中,将可信度低于设定阈值的知识进行舍弃;

所述多层次知识图谱构建方法还包括,对多层次知识图谱进行补全操作,具体步骤包括: 将已知的正确的多层次知识图谱中,每个层次的知识图谱三元组分为N份,N为正整数,将每个层面的N-1份三元组归为一个数据集作为训练集,每个层面的1份三元组归为一个数据集作为测试集,基于训练数据训练考虑语义信息的ProjE模型的评分函数,挖掘其隐式知识,然后利用测试数据集验证其准确性,得到训练好的考虑语义信息的ProjE模型,基于训练好的考虑语义信息的ProjE模型对多层次知识图谱进行补全操作;

所述多层次知识图谱构建方法还包括,对多层次知识图谱进行质量评估,如果质量评估合格,则当前多层次知识图谱为合格的知识图谱,否则,返回获取化工过程不同层面的数据步骤,具体步骤包括:将已知三元组的其中一个实体去掉;使用考虑语义信息的ProjE模型来对三元组进行缺失实体预测,如果预测出来的实体与原有的实体一致,则表示知识图谱质量高,否则,表示知识图谱质量低,依此来判定知识图谱中知识的质量。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010523776.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top