[发明专利]一种基于分组最小值作为指纹计算相似度的方法有效
申请号: | 201610019243.9 | 申请日: | 2016-01-13 |
公开(公告)号: | CN105718430B | 公开(公告)日: | 2018-05-04 |
发明(设计)人: | 袁鑫攀;何频捷;张澎;汪灿飞;向一平;高灿 | 申请(专利权)人: | 湖南工业大学 |
主分类号: | G06F17/22 | 分类号: | G06F17/22;G06F17/27 |
代理公司: | 广州粤高专利商标代理有限公司44102 | 代理人: | 任重,冯振宁 |
地址: | 412000 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 分组 最小值 作为 指纹 计算 相似 方法 | ||
技术领域
本发明涉及一种基于分组最小值作为指纹计算相似度的方法。
背景技术
WEB正经历着爆炸性增长,越来越多的文献资料开始在网上公布,这种趋势使得网络上文档资源成几何级数增长,为人类共享知识和创造财富提供了前所未有的便利,也对我国的现代化建设有着积极的推动作用。然而,这些数字化资源给人们提供帮助的同时,资源的易获性也使得文档的非法复制、抄袭、剽窃等行为越来越猖獗,使得在各种论文和项目申请书等中,可能存在比较严重的抄袭现象。同时,随着国家对教育科研的大量投入,提供了各种教育和科技项目的资助,如:国家自然科学基金项目、教育部的博士点项目,各省市的基金项目、各种科技计划等。由于这些项目属于不同的职能部门单位分管,这就使得项目申请书存在着多次申报和多头申报的现象。申请书的抄袭、多次申报和多头申报现象严重影响了项目审批的客观性和公平性,对国家科研经费的合理分配产生不良的影响,造成科学研究经费可能得不到高效利用。为防止抄袭剽窃,端正学术风气,进行文档相似性检测技术的研究非常有意义。由此,世界各地的搜索引擎、图书馆、基金会、论文库、知识产权部门等都投入巨大的人力、物力和财力,正努力地在文档相似性检测上摸索和探究,以期尽快突破相似性检测的关键科学问题,为论文、项目申请书、奖励申报书、专利的查重或搜索引擎的网页去重等提供了良好的解决方案。
相似性检测数据具有海量性的特点,以国家自然科学基金申请书为例,目前就2013年申请量来说,申请书数量达17万份以上,每年还将以较快的速度增长。又如,近几年中国每年高校毕业生人数约为700万,其中大部分的毕业论文都需要进行相似性检测,每年5月份论文检测量达到高峰,日均在几万份以上,相似性检测不但要和当年的数据进行查重,还需要和历史数据进行检测,而如此海量的文档,光靠常规检测方式是根本行不通的,因此迫切需要建立一套精度和效率俱优的检测机制,实现对海量文档的相似性比对技术。
Minwise哈希及其变种的估计子的构建基础在于随机排列,Minwise哈希及其变种的基本原理为:
令全集Ω={0,1,...,D-1},通过shingling文档d得到相关shingles集合Sd。文档S1和S2的相似度定义为:其中f1=|S1|,f2=|S2|,a=|S1∩S2|。假定一个在全集Ω上的随机独立排列:π.Ω→Ω,Ω={0,1,...,D-1},通过k个独立随机的排列π1,π2,...,πk,就把任意一个文档d的shingles集合转换为:
Minwise哈希的相似度估计子R为:
式(1)中,函数min{π(X)}就是Minwise哈希函数。
而R的无偏估计的测量式为:
估计的方差为:
其中,k为样本大小(或者实验次数)。
如式(2)所示,k是实验的次数,k个π可获得k个指纹,从而比对指纹相等的比例来近似求解相似度。其中,k对于估计算有着极大的意义,k越大则估计的方差越小,估计的准确率和召回率越高;k越小,估计的方差越大,估计的准确率和召回率越低,因此实际系统中往往要求k>1000,方差一般才能降低到用户可以接受的范围。
无论是生成随机排列还是使用随机排列,都需要大量计算时间,这是因为随机排列范围是对全集[0,232)进行排列。如此大的排列在实际系统中一般都不可用。一般采用近似排列,对[0,232)进行了更小的值域取模,提升效率有限,还降低了精度,更何况仍需要生成k>1000个随机排列,计算用时仍旧很长。
上述哈希指纹技术是一种常用的技术,但由于其随机排列的限制,导致其生成的指纹低效,进而导致相比性检测的准确性不高。
发明内容
为了克服上述现有技术的问题,本发明提出一种基于分组最小值的指纹相似度方法,采用该方法可以突破随机排列的限制,即是一种无需随机排列的指纹生成方法。
为了解决上述技术问题,本发明的技术方案为:
提供一种基于分组最小值的指纹相似度方法,包括以下步骤:
S1.文本特征提取:用于提取文本特征集合Sd;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南工业大学,未经湖南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610019243.9/2.html,转载请声明来源钻瓜专利网。