[发明专利]用于电力领域的基于知识图谱的文档查重方法在审

专利信息
申请号: 202110253322.7 申请日: 2021-03-05
公开(公告)号: CN112988968A 公开(公告)日: 2021-06-18
发明(设计)人: 黄鑫;陈毅波;黄巍;向行;蒋破荒;张祖平;田建伟;陈远扬;何智强;祝视 申请(专利权)人: 国网湖南省电力有限公司;国网湖南省电力有限公司信息通信分公司;国家电网有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/36;G06F40/194;G06N3/04;G06N3/08
代理公司: 长沙永星专利商标事务所(普通合伙) 43001 代理人: 周咏;米中业
地址: 410004 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 用于 电力 领域 基于 知识 图谱 文档 方法
【权利要求书】:

1.一种用于电力领域的基于知识图谱的文档查重方法,包括如下步骤:

S1.构建训练集;

S2.抽取文档中的实体,从而构建实体共现图;

S3.对步骤S2构建的实体共现图进行概念检测;

S4.按照概念,对句子进行分组,计算概念之间边的权重,从而构建概念交互图;

S5.对句子进行编码,并合并编码后的向量;

S6.匹配与每个概念相关的两个文档之间的句子集,并将局部匹配结果聚合为最终的匹配分数;

S7.根据步骤S6得到的匹配分数,对两个文档进行查重判定。

2.根据权利要求1所述的用于电力领域的基于知识图谱的文档查重方法,其特征在于步骤S1所述的构建训练集,具体为采用回译和人工修正的方式构建正样本集,并采用剔除低于设定阈值的样本从而构建负样本集。

3.根据权利要求2所述的用于电力领域的基于知识图谱的文档查重方法,其特征在于所述的回译,具体为采用TextBolb方法进行回译。

4.根据权利要求2所述的用于电力领域的基于知识图谱的文档查重方法,其特征在于所述的剔除,具体为采用TF-IDF法进行剔除。

5.根据权利要求1~4之一所述的用于电力领域的基于知识图谱的文档查重方法,其特征在于步骤S2所述的抽取文档中的实体,从而构建实体共现图,具体为对于目标文档,首先基于电力知识领域图谱,通过TextRank方式,抽取目标文档的关键字;然后根据找到的关键字集合,构建关键字共现图,在关键字共现图中,每个关键字都是关键字共现图中的一个顶点,同时若两个关键字同时在同一个句子中,则将该两个关键字通过边进行连接;最后,通过执行共同引用解析和同义词分析,合并具有相同含义的关键字;最终得到实体共现图。

6.根据权利要求5所述的用于电力领域的基于知识图谱的文档查重方法,其特征在于步骤S3所述的对步骤S2构建的实体共现图进行概念检测,具体为概念的定义为:若关键字的子集的相关度高于设定的阈值,则关键字的子集在实体共现图中形成了一个紧密连接的子图,该紧密连接的子图就是概念;通过在构造的实体共现图中,采用社区检测算法提取概念:社区检测算法将实体共现图划分为一组社区K={K1,K2,...,KC},其中每个社区Ki均包含某个概念的关键字;然后通过使用重叠的社区检测算法和基于中间性中心度评分的算法,对实体共现图进行概念检测。

7.根据权利要求6所述的用于电力领域的基于知识图谱的文档查重方法,其特征在于步骤S4所述的按照概念,对句子进行分组,具体为计算每个句子和每个概念之间的余弦相似度,其中句子和概念用TF-IDF向量表示;然后将每个句子分配给与该句子最相似的概念,从而完成句子的分组。

8.根据权利要求7所述的用于电力领域的基于知识图谱的文档查重方法,其特征在于步骤S4所述的计算概念之间边的权重,从而构建概念交互图,具体为对于每个顶点,将其句子集表示为与其相连的句子的串联,并计算任意两个顶点之间的边权重,作为它们的句子集之间的TF-IDF相似度。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网湖南省电力有限公司;国网湖南省电力有限公司信息通信分公司;国家电网有限公司,未经国网湖南省电力有限公司;国网湖南省电力有限公司信息通信分公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110253322.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top