[发明专利]基于局部敏感哈希技术的多标记文件近邻查询方法在审
申请号: | 201510150666.X | 申请日: | 2015-03-31 |
公开(公告)号: | CN104778234A | 公开(公告)日: | 2015-07-15 |
发明(设计)人: | 胡海峰;邵燕;吴建盛 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 南京知识律师事务所 32207 | 代理人: | 汪旭东 |
地址: | 210003 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 局部 敏感 技术 标记 文件 近邻 查询 方法 | ||
技术领域
本发明涉及一种基于局部敏感哈希技术的多标记文件近邻查询方法,属于数据挖掘的技术领域。
背景技术
目前我们已经进入了以信息技术为主导的时代,在网络、科学、能源、生物、商业、地理信息等诸多领域每天都会产生海量数据,对这些海量数据的处理又称为大数据问题(Big Data Problem)。而对大数据问题,计算机基础结构正在面临挑战,即:网络带宽的提高和处理器速度的增加速度远远低于数据量的增速。
在海量文件系统中,目前主要是根据特定属性进行分类查询,面对多样化的文件查询时,传统的一次文件查询往往需要从查询系统的不同区域抽取文件,这样就会带来三个主要问题:(1)从不同的区域查询海量文件,增加了文件查询访问的查询刷量;(2)样本数量大,从而大大降低了文件的查询搜索效率。
由于高维数据的“维度灾难”问题,算法的复杂度呈指数级上升,算法性能会急剧下降。为了进行更好的数据处理和分析,一种典型的方法就是降维。在很多应用环境下,一组近似的结果也可以很好地满足用户的查询需求。因而,人们提出了近似相似性查询的技术(Approximate Similarity Search)。近似相似性查询通过快速地返回查询近似结果,来折中查询的效果和效率。
局部敏感哈希(Locality Sensitive Hashing,简称LSH)作为近似相似性查询目前最有效的技术,获得了广泛的研究和应用。因此被广泛应用于许多场景,包括基于内容的图像检索、音频检索、视频拷贝检测以及DNA序列相似性比对等。LSH是一种概率方法,采用过滤-验证的框架(Filter-and-Refine Framework)。在过滤阶段,LSH利用哈希技术把非相似、不可能成为结果的数据对象过滤掉,过滤之后的数据对象作为候选集(Candidate Set),使得相似的数据对象以很高的概率留存在候选集合中,进而在候选集合上进行实际的距离或者相似性度量计算。由于在过滤阶段非相似的数据对象大部分被过滤掉,候选集合的大小远小于原始数据集,因而极大地缩短了查询计算时间,提高了效率。
虽然位置敏感哈希技术具有坚实的理论基础,且在多个领域的相似性查询方面取得了很好的应用效果,但高维数据嵌入到低维空间时,为了保证嵌入的质量,所需的维度仍然比较高。随着机器学习理论与应用研究的深入,多标记学习已成为机器学习领域的热点研究方向之一,该方法可以在低维的空间进行相似性查询。
在传统的监督学习框架中,待学习的样本具有明确的单一的语义标记,即每个样本示例只属于一个类别,在这个监督学习框架下已经提出多种算法并取得良好的效果。然而,在很多现实世界的应用中,研究对象其语义标记通常是不唯一的,往往存在一个样本可被分配一组多重标记的情况。例如,在文本分类中,一篇新闻报道可能涵盖某个事件的多个方面,因此,应该被分配给多个主题,比如,政治和经济;在生物信息学中,一个基因序列可以与多个功能相联系,比如,在一个细胞生命周期中表明了基因序列功能的新陈代谢和蛋白质合成;在图像注释中,一幅图像可以被多个主题词注释,比如,能够表明图像内容的城市、楼房和马路。这就使得对于只考虑明确、单一的语义的传统监督学习框架难以取得好的效果。为了使多义性对象中含有的多种语义信息能够直观地反映,一种显而易见的方式就是为该对象明确地赋予具有合适类别标记的标记子集。基于以上分析,一种针对多义性对象的学习建模工具,多标记学习框架由此而产生。在多标记学习框架下,样本由一个示例和对应的多个标记构成,学习的目标是将多个适当的标记赋予未知的示例。
随着机器学习理论与应用研究的深入,多标记学习中分类问题已成为人工智能领域的热点研究方向。由于多标记分类与现实应用紧密相关,针对多标记分类问题的研究具有重要的理论和应用价值。多标记学习是一个具有挑战性的研究课题,过去主要在文本分类领域进行研究,而现在引起了越来越多的研究人员的兴趣,并应用到很多新的领域,如音乐分类、蛋白质功能分类、Web挖掘、互联网海量数据信息检索以及图像和视频的语义分类等。多标记学习重点研究对多义性对象进行建模和学习的方法,具有重大理论意义和应用前景。而本发明能够很好地解决上面的问题。
发明内容
本发明目的在于针对海量文件查询时遇到的问题,提出了一种基于局部敏感哈希技术的多标记文件近邻查询方法,该方法将基于多标记学习与LSH(即:局部敏感哈希)相似性查询相结合,解决了文件查询时遇到的问题,提高了文件查询效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510150666.X/2.html,转载请声明来源钻瓜专利网。