[发明专利]一种基于语义分析的文档查重方法及系统在审
申请号: | 202010103483.3 | 申请日: | 2020-02-19 |
公开(公告)号: | CN111325015A | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 刘文松;林峰;胡竹青;张锦辉;路小俊;刘雪菁;张志鹏;朱泐;杨燕吉;邵瑞 | 申请(专利权)人: | 南瑞集团有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30;G06F40/284 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 史俊军 |
地址: | 211106 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 分析 文档 方法 系统 | ||
1.一种基于语义分析的文档查重方法,其特征在于:包括,
对待查重文档进行切分,构建查询语句集合;
遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率;
根据各查询语句的重复率,计算待查重文档的重复率。
2.根据权利要求1所述的一种基于语义分析的文档查重方法,其特征在于:选出查询语句若干候选查重语句的过程为,
采用BM25算法,计算查询语句与预设查重语句集合中各查重语句的关联度;
选择关联度大于阈值的查重语句为该查询语句的候选查重语句。
3.根据权利要求1所述的一种基于语义分析的文档查重方法,其特征在于:获得查询语句重复率的过程为,
采用语义Jaccard方法,计算查询语句与各相应候选查重语句的语义相似性,选语义相似性最大值作为查询语句的重复率。
4.根据权利要求3所述的一种基于语义分析的文档查重方法,其特征在于:采用语义Jaccard方法,计算查询语句与各相应候选查重语句语义相似性的过程为,
获取查询语句分词集合的词向量{wi}和候选查重语句分词集合的词向量{wsi};
计算wi对{wsi}中各词向量的余弦相似度CSimi,构建{wi}对{wsi}的相似度集合;
将相似度集合带入Jaccard公式,计算查询语句与候选查重语句的语义相似性。
5.根据权利要求4所述的一种基于语义分析的文档查重方法,其特征在于:计算待查重文档重复率的公式为,
其中,DSim为待查重文档的重复率,Simj为第j个查询语句的重复率,Lj为第j个查询语句的长度。
6.一种基于语义分析的文档查重系统,其特征在于:包括,
查重文档切分模块:对待查重文档进行切分,构建查询语句集合;
遍历计算模块:遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率;
重复率计算模块:根据各查询语句的重复率,计算待查重文档的重复率。
7.根据权利要求6所述的一种基于语义分析的文档查重系统,其特征在于:遍历计算模块包括候选查重语句模块,候选查重语句模块包括,
关联度计算模块:采用BM25算法,计算查询语句与预设查重语句集合中各查重语句的关联度;
选择模块:选择关联度大于阈值的查重语句为该查询语句的候选查重语句。
8.根据权利要求6所述的一种基于语义分析的文档查重系统,其特征在于:遍历计算模块包括,
查询语句重复率模块:采用语义Jaccard方法,计算查询语句与各相应候选查重语句的语义相似性,选语义相似性最大值作为查询语句的重复率。
9.根据权利要求8所述的一种基于语义分析的文档查重方法,其特征在于:查询语句重复率模块包括语义相似性计算模块,语义相似性计算模块包括,
词向量获取模块:获取查询语句分词集合的词向量{wi}和候选查重语句分词集合的词向量{wsi};
相似度集合构建模块:计算wi对{wsi}中各词向量的余弦相似度CSimi,构建{wi}对{wsi}的相似度集合;
Jaccard模块:将相似度集合带入Jaccard公式,计算查询语句与候选查重语句的语义相似性。
10.一种存储一个或多个程序的计算机可读存储介质,其特征在于:所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行根据权利要求1至5所述的方法中的任一方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南瑞集团有限公司,未经南瑞集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010103483.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:智能预警方法与系统
- 下一篇:一种菌壳聚糖复合处理富营养化海水的方法