[发明专利]一种基于知识图谱增强档案实体关联度的方法及系统在审
申请号: | 202010599169.9 | 申请日: | 2020-06-28 |
公开(公告)号: | CN111753099A | 公开(公告)日: | 2020-10-09 |
发明(设计)人: | 雷洁;赵瑞雪;鲜国建;寇远涛;侯希闻;仲晓春;刘杉;许怡然;程思梦 | 申请(专利权)人: | 中国农业科学院农业信息研究所 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/31;G06F16/335;G06F16/35;G06F16/28;G06F40/289;G06F40/30 |
代理公司: | 北京三聚阳光知识产权代理有限公司 11250 | 代理人: | 刘静 |
地址: | 100081 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 知识 图谱 增强 档案 实体 关联 方法 系统 | ||
1.一种基于知识图谱增强档案实体关联度的方法,其特征在于,包括:
获取档案文本类数据;
利用实体识别模型识别档案文本类数据,生成已定义实体的实例数据;
利用关系抽取模型识别已定义实体的实例数据,生成知识图谱中最小的单元;
利用知识融合模型对知识图谱中最小的单元进行去重预处理,建立分区索引分文档,依据文本相似性或者结构相似度来查找匹配的实体,利用预设实体对齐算法进行知识融合,增强档案实体的关联度。
2.根据权利要求1所述的基于知识图谱增强档案实体关联度的方法,其特征在于,所述利用实体识别模型识别文本类数据,生成已定义实体的实例数据的步骤,包括:
利用中文分词工具识别文本类数据,结合领域叙词表,生成中文文本分词数据;
利用条件随机场模型识别中文文本分词数据,生成中文文本分词标注数据;
利用二次验证模型识别中文文本分词数据、中文文本分词标注数据,生成已定义实体的实例数据。
3.根据权利要求2所述的基于知识图谱增强档案实体关联度的方法,其特征在于,所述利用二次验证模型识别中文文本分词数据、中文文本分词标注数据,生成已定义实体的实例数据的步骤,包括:
获取中文文本分词数据、中文文本分词标注数据;
利用特征提取器识别档案知识图谱模型中的数据及中文文本分词标注数据,生成特征提取数据;
对中文文本分词数据及特征提取数据进行交叉验证,生成第一验证结果;
利用名词词频统计工具识别中文文本分词标注数据,结合叙词表、领域本体进行人工标注作为训练数据,并利用训练数据训练分类器,将特征提取数据输入训练好的分类器,生成分类数据;
根据分类数据及第一验证结果进行交叉验证,生成第二验证结果,将第二验证结果作为已定义实体的实例数据。
4.根据权利要求1所述的基于知识图谱增强档案实体关联度的方法,其特征在于,所述利用关系抽取模型识别已定义实体的实例数据,生成知识图谱中最小的单元的步骤,包括:
利用分类标志识别文本类数据,生成文本类分句数据;
基于预设聚类算法,分析匹配文本类数据、文本类分句数据,生成档案实体和相应句子的聚类结果;
利用实体组构建模型识别已定义实体的实例数据和聚类结果,生成实体组的实体类型;
根据实体组的实体类型、实体间语义关系,同时利用人工校验确定档案实体的语义关系类型;
利用关系抽取模型中的档案实体语义关系类型,生成知识图谱中最小的单元。
5.根据权利要求1所述的基于知识图谱增强档案实体关联度的方法,其特征在于,所述获取档案文本类数据,包括:采用模式识别技术对档案科研过程文档PDF附件、财务EXCEL报表、实验图片、会议音频视频进行预处理转化为档案文本类数据。
6.根据权利要求1所述的基于知识图谱增强档案实体关联度的方法,其特征在于,档案文本类数据,包括:结构化数据、半结构化数据、非结构化数据。
7.一种基于知识图谱增强档案实体关联度的系统,其特征在于,包括:
数据获取模块,用于获取文本类数据;
实体识别模块,用于利用实体识别模型识别档案文本类数据,生成已定义实体的实例数据;
关系抽取模块,用于利用关系抽取模型识别已定义实体的实例数据,生成知识图谱中最小的单元;
知识融合模块,用于利用知识融合模型对知识图谱中最小的单元进行去重预处理,建立分区索引分文档,依据文本相似性或者结构相似度来查找匹配的实体,利用预设实体对齐算法进行知识融合,增强档案实体的关联度。
8.一种终端,其特征在于,包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1-6任一所述的基于知识图谱增强档案实体关联度的方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使所述计算机执行权利要求1-6任一所述的基于知识图谱增强档案实体关联度的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业科学院农业信息研究所,未经中国农业科学院农业信息研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010599169.9/1.html,转载请声明来源钻瓜专利网。