[发明专利]一种基于分组最小值作为指纹计算相似度的方法有效

专利信息
申请号: 201610019243.9 申请日: 2016-01-13
公开(公告)号: CN105718430B 公开(公告)日: 2018-05-04
发明(设计)人: 袁鑫攀;何频捷;张澎;汪灿飞;向一平;高灿 申请(专利权)人: 湖南工业大学
主分类号: G06F17/22 分类号: G06F17/22;G06F17/27
代理公司: 广州粤高专利商标代理有限公司44102 代理人: 任重,冯振宁
地址: 412000 湖*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 分组 最小值 作为 指纹 计算 相似 方法
【说明书】:

技术领域

本发明涉及一种基于分组最小值作为指纹计算相似度的方法。

背景技术

WEB正经历着爆炸性增长,越来越多的文献资料开始在网上公布,这种趋势使得网络上文档资源成几何级数增长,为人类共享知识和创造财富提供了前所未有的便利,也对我国的现代化建设有着积极的推动作用。然而,这些数字化资源给人们提供帮助的同时,资源的易获性也使得文档的非法复制、抄袭、剽窃等行为越来越猖獗,使得在各种论文和项目申请书等中,可能存在比较严重的抄袭现象。同时,随着国家对教育科研的大量投入,提供了各种教育和科技项目的资助,如:国家自然科学基金项目、教育部的博士点项目,各省市的基金项目、各种科技计划等。由于这些项目属于不同的职能部门单位分管,这就使得项目申请书存在着多次申报和多头申报的现象。申请书的抄袭、多次申报和多头申报现象严重影响了项目审批的客观性和公平性,对国家科研经费的合理分配产生不良的影响,造成科学研究经费可能得不到高效利用。为防止抄袭剽窃,端正学术风气,进行文档相似性检测技术的研究非常有意义。由此,世界各地的搜索引擎、图书馆、基金会、论文库、知识产权部门等都投入巨大的人力、物力和财力,正努力地在文档相似性检测上摸索和探究,以期尽快突破相似性检测的关键科学问题,为论文、项目申请书、奖励申报书、专利的查重或搜索引擎的网页去重等提供了良好的解决方案。

相似性检测数据具有海量性的特点,以国家自然科学基金申请书为例,目前就2013年申请量来说,申请书数量达17万份以上,每年还将以较快的速度增长。又如,近几年中国每年高校毕业生人数约为700万,其中大部分的毕业论文都需要进行相似性检测,每年5月份论文检测量达到高峰,日均在几万份以上,相似性检测不但要和当年的数据进行查重,还需要和历史数据进行检测,而如此海量的文档,光靠常规检测方式是根本行不通的,因此迫切需要建立一套精度和效率俱优的检测机制,实现对海量文档的相似性比对技术。

Minwise哈希及其变种的估计子的构建基础在于随机排列,Minwise哈希及其变种的基本原理为:

令全集Ω={0,1,...,D-1},通过shingling文档d得到相关shingles集合Sd。文档S1和S2的相似度定义为:其中f1=|S1|,f2=|S2|,a=|S1∩S2|。假定一个在全集Ω上的随机独立排列:π.Ω→Ω,Ω={0,1,...,D-1},通过k个独立随机的排列π12,...,πk,就把任意一个文档d的shingles集合转换为:

Minwise哈希的相似度估计子R为:

式(1)中,函数min{π(X)}就是Minwise哈希函数。

而R的无偏估计的测量式为:

估计的方差为:

其中,k为样本大小(或者实验次数)。

如式(2)所示,k是实验的次数,k个π可获得k个指纹,从而比对指纹相等的比例来近似求解相似度。其中,k对于估计算有着极大的意义,k越大则估计的方差越小,估计的准确率和召回率越高;k越小,估计的方差越大,估计的准确率和召回率越低,因此实际系统中往往要求k>1000,方差一般才能降低到用户可以接受的范围。

无论是生成随机排列还是使用随机排列,都需要大量计算时间,这是因为随机排列范围是对全集[0,232)进行排列。如此大的排列在实际系统中一般都不可用。一般采用近似排列,对[0,232)进行了更小的值域取模,提升效率有限,还降低了精度,更何况仍需要生成k>1000个随机排列,计算用时仍旧很长。

上述哈希指纹技术是一种常用的技术,但由于其随机排列的限制,导致其生成的指纹低效,进而导致相比性检测的准确性不高。

发明内容

为了克服上述现有技术的问题,本发明提出一种基于分组最小值的指纹相似度方法,采用该方法可以突破随机排列的限制,即是一种无需随机排列的指纹生成方法。

为了解决上述技术问题,本发明的技术方案为:

提供一种基于分组最小值的指纹相似度方法,包括以下步骤:

S1.文本特征提取:用于提取文本特征集合Sd

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南工业大学,未经湖南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201610019243.9/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top