[发明专利]基于演化树的哈希学习方法及其无监督的在线哈希学习方法在审

专利信息
申请号: 201910088472.X 申请日: 2019-01-30
公开(公告)号: CN109829549A 公开(公告)日: 2019-05-31
发明(设计)人: 寿震宇;钱江波;杨安邦;袁明汶 申请(专利权)人: 宁波大学
主分类号: G06N20/00 分类号: G06N20/00;G06K9/62
代理公司: 宁波诚源专利事务所有限公司 33102 代理人: 徐雪波;邓青玲
地址: 315211 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 哈希 数据点 最佳匹配点 叶子节点 海明码编码 损失函数 无监督 分裂 学习 编码复杂度 查询性能 路径编码 数据集中 初始化 根节点 除根 优化
【说明书】:

发明涉及一种基于演化树的哈希学习方法,通过数据集中的数据点对演化树进行训练,得到训练完成的演化树,对训练完成的演化树中除根节点外的所有节点进行初始化的海明码编码,使用贪心的路径编码策略对整棵演化树的保相似性损失函数进行优化,将保相似性损失函数最小值所对应的海明码编码作为演化树的每个叶子节点的哈希编码;计算某一数据点在演化树中的最佳匹配点,找到从根节点分裂出该数据点的最佳匹配点所对应的叶子节点的分裂路径,将该数据点的最佳匹配点分裂路径中对应的叶子节点的哈希编码进行有序组合,将其作为该数据点的哈希编码。还公开了一种无监督的在线哈希学习方法。该哈希方法能降低编码复杂度,具有较好的查询性能。

技术领域

本发明涉及数据处理领域,特别涉及一种基于演化树的哈希学习方法及其无监督的在线哈希学习方法。

背景技术

随着互联网以及各类电子设备的快速发展,各类数据,例如文本、图像和视频正在飞速增长。在很多应用场景下,人们都需要从这样的大规模数据中检索相关内容。然而,在大规模数据中,查找给定查询点的精确最近邻所花费的计算时间是无法让人接受的。为了解决这个问题,最近有大量的研究已经致力于相似最近邻(Approximate NearestNeighbor,ANN)搜索,在大规模数据中,ANN检索的效果可以代替于精确最近邻检索,而且速度非常快。基于哈希学习的ANN检索是众多ANN检索技术中较为知名的一种,它结合机器学习机制将数据点映射到海明空间,用海明距离代替原始数据的欧式距离,在保证准确率的同时,大幅度的减少检索时间和存储代价。在近些年来,涌现出了许多优秀的哈希学习算法,根据学习模型是否利用样本的标签信息,可以分为无监督模型和监督模型。考虑到获取标签信息需要巨大的人工成本,因此无监督哈希学习算法得到了更广泛的应用。

一般来讲,目前主流的哈希算法分为两类:数据独立哈希和数据依赖哈希。在数据独立哈希中,哈希函数族的生成独立于数据集,其典型代表为局部敏感哈希(LocalitySensitive Hashing,LSH),它利用一组随机的哈希函数来建立哈希表,使得相似的数据点能够以较大的概率被映射到相似的哈希桶中,但其缺点是索引的建立过程是数据独立的,在实际大规模数据集的检索中,效果较差。数据依赖哈希又称为哈希学习,通过机器学习机制将数据映射为保相似性的二进制编码,是机器学习技术在数据检索领域一个典型的应用,哈希学习最重要的目的是实现哈希编码的保相似性,具体来说,在原始空间中距离较小的两个数据点在被映射到海明空间之后,仍然能保持较小的海明距离,对于距离远的数据点,在被映射之后,海明距离仍然保持较大。近些年来,许多哈希学习算法相继被提出,根据学习模型是否利用样本的标签信息,可以分为无监督哈希算法和带监督哈希算法。无监督哈希算法的著名代表有主成分哈希(Principal Component Analysis Hashing,PCAH)、迭代量化(Iterative Quantization,ITQ)、K均值哈希(K-Means Hash,KMH)等,其中PCAH使用主成分分析将输入数据空间投影到低维空间中,再将低维数据映射为哈希编码,ITQ试图寻找一种对原始数据最优的旋转方式,将原始数据映射为二进制编码时,量化损失最小,KMH从聚类的角度设计哈希编码,基本思想是,将数据聚成K类,类内数据采用矢量量化策略,统一量化为聚类中心点的值,此外,根据保相似性原则对每个聚类中心点进行编码。在查询阶段,将数据点x,y之间的距离近似为对应聚类中心的哈希码的汉明距离。带监督哈希算法主要包括RBM、BRE、MFH、IMH、MLH,虽然监督哈希显示出比无监督哈希法更高的搜索准确性,但是,他们的训练都需要标签信息,在海量数据时代,数据规模大,更新速度快,获取数据标签的获取常常需要巨大的人工成本,因此无监督哈希在实际应用更具有意义。然而绝大多数的无监督哈希算法需要一次性加载所有的数据,会占用大量的内存,无法适用于流式数据,并且相关研究较少。

发明内容

本发明所要解决的第一个技术问题是针对现有技术的现状,提供一种能够使演化树稳定收敛且降低编码复杂度的基于演化树的哈希学习方法。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波大学,未经宁波大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910088472.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top