[发明专利]一种基于语义分析的文档查重方法及系统在审
申请号: | 202010103483.3 | 申请日: | 2020-02-19 |
公开(公告)号: | CN111325015A | 公开(公告)日: | 2020-06-23 |
发明(设计)人: | 刘文松;林峰;胡竹青;张锦辉;路小俊;刘雪菁;张志鹏;朱泐;杨燕吉;邵瑞 | 申请(专利权)人: | 南瑞集团有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30;G06F40/284 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 史俊军 |
地址: | 211106 江苏省南*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 语义 分析 文档 方法 系统 | ||
本发明公开了一种基于语义分析的文档查重方法,包括对待查重文档进行切分,构建查询语句集合;遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率;根据各查询语句的重复率,计算待查重文档的重复率。同时公开了相应的系统。本发明基于关联度进行查询语句和查重语句的匹配,缩小重复率计算范围,基于义相似性获得查询语句的重复率,从而获得查重文档的重复率,可对直接复制、词语变换、句式变换、段落变换等重复形式给出较好的关联结果。
技术领域
本发明涉及一种基于语义分析的文档查重方法及系统,属于文本分析技术领域。
背景技术
文档查重在文章发表、项目申报、奖励评审等方面有广泛应用,协助管理人员在初选阶段完成形式审查。形式审查针对直接复制、变换词语、变换句式、变换段落等重复方式进行分析,主要为了避免低水平的重复。在此基础上,再邀请同行专家进行深入的内容审查,评选出高质量的文章、项目或奖项。
文档查重属于文本相似性分析的技术范畴,包括单词相似性、单句相似性、文档相似性。就单词相似性,主要包括词形匹配(判断组成单词的字符一致性)、词义相似(判断单词涵义一致性,具体包括知网法、同义词林法、词向量法)。就单句相似性,主要包括形式相似(Jaccad/Dice、编辑距离法)、语义相似(词级语义相似、句向量法)。就文档相似性,这里文档指多个段落组成的文档全文,主要包括特征法(关键词或主题)、文本向量法。
面对海量文档库,特别是针对中文文档,需要查重方法具备一定程度的语义分析,用以对直接复制、词语变换(特别是同义词变换)、句式变换、段落变换等重复形式,可以给出较好的关联结果,但是现在还没有相应的方法。
发明内容
本发明提供了一种基于语义分析的文档查重方法及系统,解决了背景技术中披露的问题。
为了解决上述技术问题,本发明所采用的技术方案是:
一种基于语义分析的文档查重方法,包括,
对待查重文档进行切分,构建查询语句集合;
遍历查询语句集合,根据查询语句与预设查重语句集合的关联度,选出各查询语句的若干候选查重语句,根据查询语句与相应候选查重语句的语义相似性,获得各查询语句的重复率;
根据各查询语句的重复率,计算待查重文档的重复率。
选出查询语句若干候选查重语句的过程为,
采用BM25算法,计算查询语句与预设查重语句集合中各查重语句的关联度;
选择关联度大于阈值的查重语句为该查询语句的候选查重语句。
获得查询语句重复率的过程为,
采用语义Jaccard方法,计算查询语句与各相应候选查重语句的语义相似性,选语义相似性最大值作为查询语句的重复率。
采用语义Jaccard方法,计算查询语句与各相应候选查重语句语义相似性的过程为,
获取查询语句分词集合的词向量{wi}和候选查重语句分词集合的词向量{wsi};
计算wi对{wsi}中各词向量的余弦相似度CSimi,构建{wi}对{wsi}的相似度集合;
将相似度集合带入Jaccard公式,计算查询语句与候选查重语句的语义相似性。
计算待查重文档重复率的公式为,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南瑞集团有限公司,未经南瑞集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010103483.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:智能预警方法与系统
- 下一篇:一种菌壳聚糖复合处理富营养化海水的方法