[发明专利]用于电力领域的基于知识图谱的文档查重方法在审
申请号: | 202110253322.7 | 申请日: | 2021-03-05 |
公开(公告)号: | CN112988968A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 黄鑫;陈毅波;黄巍;向行;蒋破荒;张祖平;田建伟;陈远扬;何智强;祝视 | 申请(专利权)人: | 国网湖南省电力有限公司;国网湖南省电力有限公司信息通信分公司;国家电网有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/36;G06F40/194;G06N3/04;G06N3/08 |
代理公司: | 长沙永星专利商标事务所(普通合伙) 43001 | 代理人: | 周咏;米中业 |
地址: | 410004 湖南*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 电力 领域 基于 知识 图谱 文档 方法 | ||
1.一种用于电力领域的基于知识图谱的文档查重方法,包括如下步骤:
S1.构建训练集;
S2.抽取文档中的实体,从而构建实体共现图;
S3.对步骤S2构建的实体共现图进行概念检测;
S4.按照概念,对句子进行分组,计算概念之间边的权重,从而构建概念交互图;
S5.对句子进行编码,并合并编码后的向量;
S6.匹配与每个概念相关的两个文档之间的句子集,并将局部匹配结果聚合为最终的匹配分数;
S7.根据步骤S6得到的匹配分数,对两个文档进行查重判定。
2.根据权利要求1所述的用于电力领域的基于知识图谱的文档查重方法,其特征在于步骤S1所述的构建训练集,具体为采用回译和人工修正的方式构建正样本集,并采用剔除低于设定阈值的样本从而构建负样本集。
3.根据权利要求2所述的用于电力领域的基于知识图谱的文档查重方法,其特征在于所述的回译,具体为采用TextBolb方法进行回译。
4.根据权利要求2所述的用于电力领域的基于知识图谱的文档查重方法,其特征在于所述的剔除,具体为采用TF-IDF法进行剔除。
5.根据权利要求1~4之一所述的用于电力领域的基于知识图谱的文档查重方法,其特征在于步骤S2所述的抽取文档中的实体,从而构建实体共现图,具体为对于目标文档,首先基于电力知识领域图谱,通过TextRank方式,抽取目标文档的关键字;然后根据找到的关键字集合,构建关键字共现图,在关键字共现图中,每个关键字都是关键字共现图中的一个顶点,同时若两个关键字同时在同一个句子中,则将该两个关键字通过边进行连接;最后,通过执行共同引用解析和同义词分析,合并具有相同含义的关键字;最终得到实体共现图。
6.根据权利要求5所述的用于电力领域的基于知识图谱的文档查重方法,其特征在于步骤S3所述的对步骤S2构建的实体共现图进行概念检测,具体为概念的定义为:若关键字的子集的相关度高于设定的阈值,则关键字的子集在实体共现图中形成了一个紧密连接的子图,该紧密连接的子图就是概念;通过在构造的实体共现图中,采用社区检测算法提取概念:社区检测算法将实体共现图划分为一组社区K={K1,K2,...,KC},其中每个社区Ki均包含某个概念的关键字;然后通过使用重叠的社区检测算法和基于中间性中心度评分的算法,对实体共现图进行概念检测。
7.根据权利要求6所述的用于电力领域的基于知识图谱的文档查重方法,其特征在于步骤S4所述的按照概念,对句子进行分组,具体为计算每个句子和每个概念之间的余弦相似度,其中句子和概念用TF-IDF向量表示;然后将每个句子分配给与该句子最相似的概念,从而完成句子的分组。
8.根据权利要求7所述的用于电力领域的基于知识图谱的文档查重方法,其特征在于步骤S4所述的计算概念之间边的权重,从而构建概念交互图,具体为对于每个顶点,将其句子集表示为与其相连的句子的串联,并计算任意两个顶点之间的边权重,作为它们的句子集之间的TF-IDF相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网湖南省电力有限公司;国网湖南省电力有限公司信息通信分公司;国家电网有限公司,未经国网湖南省电力有限公司;国网湖南省电力有限公司信息通信分公司;国家电网有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110253322.7/1.html,转载请声明来源钻瓜专利网。