[发明专利]一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法有效

专利信息
申请号: 201510887828.8 申请日: 2015-12-04
公开(公告)号: CN105373521B 公开(公告)日: 2018-06-29
发明(设计)人: 袁鑫攀;何频捷;彭成;曹阳 申请(专利权)人: 湖南工业大学
主分类号: G06F17/22 分类号: G06F17/22;G06F17/27
代理公司: 长沙市融智专利事务所 43114 代理人: 龚燕妮
地址: 412000 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 文本相似度 比对 过滤策略 文档集合 阈值过滤 相似度 上界 文档 下界 过滤 重复 工作量 输出
【说明书】:

本发明提供了一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法,该方法将比对过程划分为多个比对点,并设置各比对点的动态阈值,过滤相似度低于下界阈值TL(k)的文档,输出相似度高于上界阈值TU(k)的文档。这种提前过滤的方法减少了后续的比对次数,降低了工作量。针对数据的各种情况,对于文档集合全部都是重复的极端情况,基于文本相似度上界阈值的过滤策略会非常有效;对于文档集合全部都是不重复的极端情况,基于文本相似度下界阈值的过滤策略则会非常有效。

技术领域

本发明属于信息检索领域,特别涉及一种基于Minwise Hash动态多阈值过滤计算文本相似度的方法。

背景技术

WEB正经历着爆炸性增长,越来越多的文献资料开始在网上公布,这种趋势使得网络上文档资源成几何级数增长,为人类共享知识和创造财富提供了前所未有的便利,也对我国的现代化建设有着积极的推动作用。然而,这些数字化资源给人们提供帮助的同时,资源的易获性也使得文档的非法复制、抄袭、剽窃等行为越来越猖獗,使得在各种论文和项目申请书等中,可能存在比较严重的抄袭现象。同时,随着国家对教育科研的大量投入,提供了各种教育和科技项目的资助,如:国家自然科学基金项目、教育部的博士点项目,各省市的基金项目、各种科技计划等。由于这些项目属于不同的职能部门单位分管,这就使得项目申请书存在着多次申报和多头申报的现象。申请书的抄袭、多次申报和多头申报现象严重影响了项目审批的客观性和公平性,对国家科研经费的合理分配产生不良的影响,造成科学研究经费可能得不到高效利用。为防止抄袭剽窃,端正学术风气,进行文档相似性检测技术的研究非常有意义。由此,世界各地的搜索引擎、图书馆、基金会、论文库、知识产权部门等都投入巨大的人力、物力和财力,正努力地在文档相似性检测上摸索和探究,以期尽快突破相似性检测的关键科学问题,为论文、项目申请书、奖励申报书、专利的查重或搜索引擎的网页去重等提供了良好的解决方案。

相似性检测数据具有海量性的特点,以国家自然科学基金申请书为例,目前就2013年申请量来说,申请书数量达17万份以上,每年还将以较快的速度增长。又如,近几年中国每年高校毕业生人数约为700万,其中大部分的毕业论文都需要进行相似性检测,每年5月份论文检测量达到高峰,日均在几万份以上,相似性检测不但要和当年的数据进行查重,还需要和历史数据进行检测,而如此海量的文档,光靠常规检测方式是根本行不通的,因此迫切需要借助哈希估计技术,建立一套精度和效率俱优的检测机制,实现对海量文档的相似性比对技术。文本相似度度量这一概念及相关技术也应运而生。一个好的文本相似度度量方法在相似性检测、自动问答系统、智能检索、网页去重、自然语言处理等研究领域具有重要的意义。

文本相似度是指两个或者多个文本之间的匹配程度的一个度量参数,相似度越高,表示两个文本之间的相似程度越大,反之越低。传统的文本相似度度量方法是向量空间模型(VSM)通过计算待查文档与数据集中某一篇文档带有权重的频率向量内积,得到两篇文档的相似度。算法需要存储大量的特征词汇、比对速度慢、准确率低等缺点,无法应用于海量数据中相似度度量。基于Minwise相似性度量算法作为最主流、成熟的相似性检测方法,通过将相似度问题转换为一个事件的发生概率问题,将文本词汇集合映射到hash值集合中,将字符串比对问题转化为特征指纹比对问题,适用于海量数据相似度度量。

基于Minwise相似性度量算法及其变种算法具有较高的估计精度,被大多数的文本相似性度量技术借鉴,广泛应用于计算机的各个领域中,有了相当多的理论和实验方法的创新和发展。目前,在海量数据的环境下对于Minwise哈希估计算法的研究趋势,集中在以下四个方面:1)降低存储空间,2)三者相似性估计,3)提高估计精度,4)提高算法效率。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南工业大学,未经湖南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510887828.8/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top