[发明专利]对有缺失的数据进行近似查询的方法、系统及存储介质有效
申请号: | 202011133501.9 | 申请日: | 2020-10-21 |
公开(公告)号: | CN112214534B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 吴佳雯;谢鲲;裴书玉;李肯立;文吉刚 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/22 |
代理公司: | 长沙正奇专利事务所有限责任公司 43113 | 代理人: | 马强;王娟 |
地址: | 410083 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 缺失 数据 进行 近似 查询 方法 系统 存储 介质 | ||
本发明公开了一种对有缺失的数据进行近似查询的方法、系统及存储介质,快速地对存在缺失的数据进行近似查询。对于存在缺失和冗余的数据,首先用深度学习算法对其进行特征提取,然后再使用提取后的数据利用距离敏感布鲁姆过滤器进行近似查找,最终返回查询结果。本发明在高速网络中资源定位、计算机图像搜索等产生大量数据、需要进行近似查询的应用领域,可以解决数据存在缺失的问题,降低资源消耗,适应网络环境。
技术领域
本发明涉及计算机网络、计算机系统存储领域,特别是一种对有缺失的数据进行近似查询的方法、系统及存储介质。
背景技术
近年来,随着计算机的飞速发展,数据库,网络和其他应用中的集合规模呈几何增长。传统的精确匹配已经不能够完全满足新兴的网络应用需求,这些网络应用要求我们可以对数据进行近似匹配(AMQ),所谓近似匹配就是指当给定集合中存在一个元素与查询数据在小范围内近似时,我们就认为该数据近似于该集合,结果返回true,如果集合中不存在元素在小范围内与查询数据相接近,则认为该数据不近似于给定集合,结果返回false。在AMQ中只要求确定查询数据是否是集合的近似成员,但不要求实际找到查询数据与集合中的哪些数据相近。近似查询经常出现在网络中,如信息中心网络,用户的查询数据若是与一台服务器存储的内容高度近似,那么该服务器通常需要进行正向反馈,这就需要网络中的路由器可以做到近似成员匹配,才可以将查询数据正确路由到存储有所需内容的服务器中。在图像处理中,判断一图像是否和已有的图像库中某一图像相似。例如商标近似查询,申请商标注册前,申请人应先进行商标查询,查询主要为检索在先是否存在冲突的商标注册权,若是存在冲突则应更换商标。若是申请前没有进行商标近似查询,在审查阶段若是发现有类似商标,那么申请可能会被驳回,以上是近似查询的广泛的应用场景之一。但是现有的近似查询算法并不支持对带有缺失的数据进行近似查找,所以迫切需要提出一种可对缺失数据进行近似查询的存储数据结构。
现实中的数据大多数是带有缺失并且存在一定程度的冗余的,但是现有的查询算法并不支持对存在缺失的数据进行查询,这里的存在缺失是数据的某些维度存在缺失,所以本发明提出了一种可对有缺失的数据进行近似查找的布鲁姆过滤器结构。当数据存在缺失时,就意味着其维度不对齐,在处理缺失时,如果只是简单地将该缺失维度的数据填充为一个确定值,无疑是会对数据分布有影响,那么如何在保证数据分布情况下,对缺失值进行处理,使得带有缺失的数据也能够进行近似查询是研究的重点。
布鲁姆过滤器(Bloom Filter)(如图1)是一种空间节俭、查询高效的数据结构,它可以满足现如今生活中高效资源交互需求及查找需求,能够有效的表示数据集合。布鲁姆过滤器自1970年由B.Bloom提出以来,就被广泛应用于各种各样的计算机系统之中,用来表示庞大的数据集合,提高查询效率。布鲁姆过滤器结构实质是将集合中元素通过k个哈希函数映射到位向量中。布鲁姆过滤器在达到其高效表示集合的同时,进行元素查询时却存在一定的假阳性(某元素不属于集合而误判为属于集合中)误判率,而不存在假阴性(某元素属于集合而误判为不属于集合中)误判。
传统的布鲁姆过滤器仅仅只能支持元素是否存在于集合的精确查询。如果元素为key,那么只能支持key是否存在于集合的精确查询,而无法支持集合中存在高度近似于key的元素的近似查询。而近些年出现的近似查询布鲁姆过滤器一般是将结构中传统的哈希函数变为距离敏感哈希函数,但这也无法支持对缺失数据的近似查询。于是我们使用自编码机来对缺失数据进行降维。自编码器(如图2)是一种能够通过无监督学习,学到输入数据高效表示的人工神经网络。输入层到中间层的这一高效表示称为编码(encoder),中间层到输出层的这一高效表示称为解码(decoder),由于中间层维度一般远小于输入数据,使得自编码器可用于降维。更重要的是,自编码器是种作为强大的特征检测器。将自编码机运用到我们的方案中,这样既可以处理缺失、保存数据的重要信息,还可以消除数据中的冗余。
发明内容
本发明所要解决的技术问题是,针对现有技术不足,提供一种对有缺失的数据进行近似查询的方法、系统及存储介质,使得缺失数据的近似查询成为可能,并降低资源消耗。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011133501.9/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置