[发明专利]面向化工领域的多层次知识图谱构建方法及系统有效
申请号: | 202010523776.7 | 申请日: | 2020-06-10 |
公开(公告)号: | CN111694966B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 孙涛;王琦;翟娇娇 | 申请(专利权)人: | 齐鲁工业大学 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/951 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 黄海丽 |
地址: | 250353 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 化工 领域 多层次 知识 图谱 构建 方法 系统 | ||
1.面向化工领域的多层次知识图谱构建方法,包括:
获取化工过程影响生产状态的不同层面数据;
对获取的数据进行关系抽取得到三元组数据;
将抽取的三元组数据构建单层次知识图谱;
对单层次知识图谱进行整合得到多层次知识图谱;
所述将抽取的三元组数据构建单层次知识图谱步骤之后,所述对单层次知识图谱进行整合得到多层次知识图谱步骤之前,还包括多源数据融合,对获取的不确定性知识,利用多源数据融合算法进行融合,选择可信度高于设定阈值的知识融入单层次确定性知识图谱中,将可信度低于设定阈值的知识进行舍弃,得到补充后的单层次知识图谱;
所述利用多源数据融合算法进行融合的具体步骤包括:
(1)以各个层面的实体关键字为依据将不同来源的数据进行分块聚合,作为候选匹配知识;
(2)将同一分块中的候选匹配知识,利用多源数据融合系数W与原有知识图谱的知识进行匹配,若W大于设定的阈值,则认为候选匹配知识为正确的知识,能够添加到知识图谱中;
多源数据融合系数W定义如下:
W由两部分组成,其中
置信度公式根据句子成分间相互依存和被依存的现象进行依存句法分析,句子经过分词后,识别出实体和关系后,从右往左依次将关系和实体的位置进行标记,分别为0,1,2……,公式中
对文本进行分词,采用
根据候选匹配实体对中的关系,以实体为中心遍历同一分块的知识库,看知识库中是否存在与候选匹配实体对中关系相似度较高的关系;
若不存在,遍历整个知识库看是否存在,若还是不存在,
若存在,计算知识库中实体到匹配关系的距离
经过多源数据融合模型后,将选择可信度高于设定阈值的知识融入知识图谱中,将可信度低于设定阈值的知识进行舍弃;
所述多层次知识图谱构建方法还包括,对多层次知识图谱进行补全操作,具体步骤包括: 将已知的正确的多层次知识图谱中,每个层次的知识图谱三元组分为N份,N为正整数,将每个层面的N-1份三元组归为一个数据集作为训练集,每个层面的1份三元组归为一个数据集作为测试集,基于训练数据训练考虑语义信息的ProjE模型的评分函数,挖掘其隐式知识,然后利用测试数据集验证其准确性,得到训练好的考虑语义信息的ProjE模型,基于训练好的考虑语义信息的ProjE模型对多层次知识图谱进行补全操作;
所述多层次知识图谱构建方法还包括,对多层次知识图谱进行质量评估,如果质量评估合格,则当前多层次知识图谱为合格的知识图谱,否则,返回获取化工过程不同层面的数据步骤,具体步骤包括:将已知三元组的其中一个实体去掉;使用考虑语义信息的ProjE模型来对三元组进行缺失实体预测,如果预测出来的实体与原有的实体一致,则表示知识图谱质量高,否则,表示知识图谱质量低,依此来判定知识图谱中知识的质量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于齐鲁工业大学,未经齐鲁工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010523776.7/1.html,转载请声明来源钻瓜专利网。