[发明专利]一种基于最大熵模型的规则知识图谱构建方法及系统有效
申请号: | 202011604545.5 | 申请日: | 2020-12-29 |
公开(公告)号: | CN112612906B | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 林尔迅;吴智海;林海;梁保华;余永奎;蔡春元;陈仁威;黄唯佳;苏轩;陈嘉俊 | 申请(专利权)人: | 广东电网有限责任公司中山供电局 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/295;G06N3/08;G06N3/04 |
代理公司: | 广州粤高专利商标代理有限公司 44102 | 代理人: | 林丽明 |
地址: | 528400 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 最大 模型 规则 知识 图谱 构建 方法 系统 | ||
1.一种基于最大熵模型的规则知识图谱构建方法,其特征在于,包括以下步骤:
S1:导入非结构化数据;
S2:根据现有的人工标注的数据和设置的规则将输入的非结构化数据生成标注数据集;
S3:利用现有的深度学习算法训练标注数据集生成规则模型;
S4:利用规则模型提取需求的字段,并通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱;
所述通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱具体过程为:
S401:输入提取的字段对应的实体概念及其相互联系的文本数据;
S402:构建实体之间的关系值,实体间通过关系相互连结,形成网状知识结构;
S403:利用最大熵算法计算实体之间的关系值得到知识图谱;
S5:利用寻径算法模型生成简化知识图谱;
所述利用寻径算法模型生成简化知识图谱具体过程为:
S501:基于有向图寻径算法和历史数据,计算知识图谱中的数据内容实体间联系的相似或差异程度;
S502:检查所有输入的知识图谱中的数据之间的关系,然后建立数据间的关系,然后将数据之间的关系表达成一个图;
S503:应用最大连通子图方法对图谱进行最大程度的简化,得到简化知识图谱;
S6:将待处理的非结构化数据通过校验规则匹配后依次执行步骤S2-S5得计算结果。
2.根据权利要求1所述的一种基于最大熵模型的规则知识图谱构建方法,其特征在于,所述非结构化数据包括有:网页、文本、PDF文档。
3.根据权利要求1所述的一种基于最大熵模型的规则知识图谱构建方法,其特征在于,所述深度学习算法为卷积神经网络算法或生成对抗神经网络算法。
4.一种基于最大熵模型的规则知识图谱构建系统,其特征在于,包括:数据对接模块、校验规则标注模块、校验规则训练模块、知识图谱生成模块、校验规则匹配模块,
所述数 据对接模块用于代入非结构化数据;
所述校验规则标注模块用于根据现有的人工标注的数据和设置的规则将输入的非结构化数据生成标注数据集;
所述校验规则训练模块利用现有的深度学习算法训练标注数据集生成规则模型;
所述知识图谱生成模块用于利用规则模型提取需求的字段,并通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱,利用寻径算法模型生成简化知识图谱;
所述通过融合多特征的最大熵汉语命名实体识别模型,生成知识图谱具体过程为:
输入提取的字段对应的实体概念及其相互联系的文本数据;
构建实体之间的关系值,实体间通过关系相互连结,形成网状知识结构;
利用最大熵算法计算实体之间的关系值得到知识图谱;
所述利用寻径算法模型生成简化知识图谱具体过程为:
基于有向图寻径算法和历史数据,计算知识图谱中的数据内容实体间联系的相似或差异程度;
检查所有输入的知识图谱中的数据之间的关系,然后建立数据间的关系,然后将数据之间的关系表达成一个图;
应用最大连通子图方法对图谱进行最大程度的简化,得到简化知识图谱;
所述校验规则匹配模块用于校验待处理的非结构化数据。
5.根据权利要求4所述的一种基于最大熵模型的规则知识图谱构建系统,其特征在于,所述非结构化数据包括有:网页、文本、PDF文档。
6.根据权利要求4所述的一种基于最大熵模型的规则知识图谱构建系统,其特征在于,所述深度学习算法为卷积神经网络算法或生成对抗神经网络算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东电网有限责任公司中山供电局,未经广东电网有限责任公司中山供电局许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011604545.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种消息队列堆积检测方法以及相关装置
- 下一篇:游戏地形生成方法及装置