[发明专利]一种网络查重方法及系统有效

专利信息
申请号: 201610019274.4 申请日: 2016-01-13
公开(公告)号: CN105701085B 公开(公告)日: 2018-05-22
发明(设计)人: 夏峰;洪学文;曾文斌 申请(专利权)人: 湖南通远网络科技有限公司
主分类号: G06F17/27 分类号: G06F17/27;G06F17/30
代理公司: 北京冠和权律师事务所 11399 代理人: 朱健;陈国军
地址: 410000 湖南省长沙市芙蓉区荷*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 网络 方法 系统
【权利要求书】:

1.一种网络查重系统,其特征在于,包括:

对比库,用于收录用作对比对象的素材;所述对比库进一步包括书籍库、论文库、专利库、公式库、谚语俗语库、谚语库、名人名言库、诗词库子库;所述对比库中不同子库采用分布式方式存储于不同的站点位置;访问对比库时根据不同子库所存放的站点位置分别进行访问;

分词库,用于收录分词及对应词性;分词库中针对每一分词进行唯一编号,使用W_ID表示某一分词在分词库中的唯一编号;所述分词库保存的分词词性类别为名词、动词、形容词、数词、量词、代词、副词、介词、连词、助词、叹词和拟声词;

分词模块,用于对各素材进行分词,并将分词结果保存至对比库中;分词模块将分词结果与分词库保存的词性进行比对,确定分词结果的词性;

分词特征值生成模块统计每一个分词在对应素材中出现的数量,生成每一个分词对应的分词词性特征值WCCV=[W_ID,W_N,W_CHAR],WCV=[W_ID,W_N],其中W_ID表示该分词在分词库中的唯一编号,W_N表示该分词在该素材中出现的总次数;W_CHAR表示该分词的词性;

分词自由向量维数确定模块根据素材的分词结果确定分词自由向量维数WFV;所述分词自由向量维数WFV等于对特定素材进行分词后得到的不同分词的数量;

分词精简向量维数生成模块,用于对每个素材的分词自由向量维数WFV进行精简,生成分词精简向量维数RWV;

分词特征向量生成模块,用于根据分词精简向量维数RWV提取每个素材中所述分词精简向量维数RWV对应的特征值生成分词特征向量WVE_RWV;

WVE_RWV=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV,W_NRWV]

其中W_IDi表示分词在分词库中的唯一编号,W_Ni,表示该分词在该素材中出现的总次数,将该次数作为该分词的特征值;

用户访问方式检测模块,用于提示用户上传待鉴定文档;

用户检测模式确定模块,用于判断当前用户检测模式为普通抄袭鉴定模式时,待鉴定文档分词模块用于对待鉴定文档进行分词,得到分词结果;

待鉴定文档分词自由向量维数确定模块,用于根据待鉴定文档的分词结果确定分词自由向量维数WFV_TBI;

待鉴定文档分词精简向量维数生成模块,用于对待鉴定文档的分词自由向量维数WFV_TBI进行精简;生成待鉴定文档分词精简向量维数RWV_TBI;

待鉴定文档分词特征向量生成模块,根据分词精简向量维数RWV_TBI提取每个待鉴定文档中与所述待鉴定文档分词精简向量维数RWV_TBI对应的特征值生成待鉴定文档分词特征向量WVE_RWV_TBI,其中

WVE_RWV_TBI=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV_TBI,W_NRWV_TBI]

其中W_IDi表示分词在分词库中的唯一编号,W_Ni表示该分词在该待鉴定文档中出现的总次数,将该次数作为该分词的特征值;

用户检测模式确定模块判断当前用户检测模式为普通抄袭鉴定模式时,进行相似度比对时,待鉴定文档分词特征向量生成模块生成待鉴定文档的分词特征向量WVE_RWV_TBI;WVE_RWV_TBI=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV_TBI,W_NRWV_TBI],待鉴定文档的分词特征向量的维数为RWV_TBI;分词特征向量生成模块生成对比库中素材的分词特征向量WVE_RWV;WVE_RWV=[W_ID1,W_N1,...,W_IDi,W_Ni,...,W_IDRWV,W_NRWV];其中,待鉴定文档的分词特征向量的维数RWV_TBI等于分词特征向量的维数RWV;

待鉴定文档特征向量调整模块,用于将分词特征向量WVE_RWV_TBI中的所有特征值对应的W_IDi值按照分词库中的编号进行升序或降序排列,并将缺少的W_IDi值插入,插入的分词编号W_IDi所对应的特征值为0;得到扩展的待鉴定文档分词特征向量WVE_RWV_TBI_EXT=[W_ID TBI_EXT_1,W_N TBI_EXT_1,...,W_ID TBI_EXT_i,W_NTBI_EXT_i,...,W_ID TBI_EXT_RWV_TBI,W_NTBI_EXT_RWV_TBI,...,W_ID W,W_N W];

素材特征向量调整模块,用于将分词特征向量WVE_RWV中的所有特征值对应的W_IDi值按照分词库中的编号进行升序或降序排列,并将缺少的W_IDi值插入,插入的分词编号W_IDi所对应的特征值为0;得到扩展的分词特征向量WVE_RWV_EXT=[W_ID EXT_1,W_N EXT_1,...,W_ID EXT_i,W_N EXT_i,...,W_ID EXT_RWV,W_N EXT_RWV,...,W_ID W,W_N W];

普通抄袭鉴定相似度计算模块,计算待鉴定文档与对比库中的任一素材的之间的相似度;通过以下公式计算:

S i m ( W V E _ R W V _ T B I , W V E _ R W V ) = S i m ( W V E _ R W V _ T B I _ E X T , W V E _ R W V _ E X T ) = 2 Σ i = 1 w W _ N T B I _ E X T _ i × W _ N E X T _ i Σ i = 1 w W _ N T B I _ E X T _ i 2 × Σ i = 1 w W _ N E X T _ i 2 + Σ i = 1 w W _ N T B I _ E X T _ i 2 × Σ i = 1 w W _ N E X T _ i 2 ]]>

当待鉴定文档与所有素材对比完成后,提取所有疑似素材,将待鉴定文档与疑似素材采用滑动窗口进行进一步对比;

所述将待鉴定文档与疑似素材采用滑动窗口进行进一步对比具体为:步骤S0:开始;S1:滑动窗口设置模块初始化相似窗口计数器CT1=0、滑动歩长计数器CT2=0;步骤S2:滑动窗口设置模块设置待鉴定文档与疑似素材的滑动窗口均位于文档起始位置;步骤S3:滑动窗口对比模块对比待鉴定文档的滑动窗口与疑似素材的滑动窗口,统计其中相同的实词分词的数量;步骤S4:滑动窗口对比模块判断相同的实词分词的数量是否大于或等于门限值THW;当大于或等于门限值时计数器值加一、即CT1=CT1+1,并记录鉴定文档的滑动窗口与疑似素材的滑动窗口当前的位置及滑动窗口内的内容;步骤S5:滑动窗口设置模块设置疑似素材的滑动窗口滑动一个滑动步长;步骤S6:滑动窗口设置模块判断是否位于文档结束位置处;如果不是结束位置,则返回步骤S3:如果是结束位置,则去往步骤S11;步骤S11:滑动窗口设置模块判断待鉴定文档的滑动窗口是否位于文档结束位置处;如果不是结束位置,则去往步骤S12,如果是结束位置,则去往步骤S13;步骤S12:滑动窗口设置模块设置疑似素材的滑动窗口回到文档起始位置;待鉴定文档的滑动窗口滑动一个滑动步长,CT2=CT2+1去往步骤S3;步骤S13:滑动窗口对比模块计算相似窗口计数器CT1数值与滑动歩长计数器CT2数值的比值M;S14:滑动窗口对比模块判断比值M是否大于或等于预设门限值THm,当M≥THM时,则认为该待鉴定文档与该疑似素材相似;当M<THM时,则认为该待鉴定文档与该疑似素材不相似;S15:滑动窗口对比模块判断是否还有疑似素材需要对比,如果有,则返回步骤S1;如果没有则去往步骤S16;步骤S16:对比报告生成模块生成并输出对比报告,所述对比报告中包含该鉴定文档与所有相似的疑似素材的相似窗口计数器CT1数值,滑动歩长计数器CT2数值,以及两者的比值,该鉴定文档与相似的疑似素材相似部分的具体位置以及具体内容;步骤S17:对比结束。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南通远网络科技有限公司,未经湖南通远网络科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610019274.4/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top