[发明专利]基于监督学习的分布式图像搜索方法有效
申请号: | 201910609588.3 | 申请日: | 2019-07-08 |
公开(公告)号: | CN110489585B | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 胡海峰;熊键 | 申请(专利权)人: | 南京邮电大学 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06F16/51;G06F16/2458;G06V10/764 |
代理公司: | 南京苏科专利代理有限责任公司 32102 | 代理人: | 陈栋智 |
地址: | 210023 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 监督 学习 分布式 图像 搜索 方法 | ||
本发明公开了基于监督学习的分布式图像搜索方法,首先在各个节点的数据库中对图像、视频、文件进行分类标记,初始化分类矩阵,编码矩阵,哈希码矩阵和对应的拉格朗日乘子,然后引入最小化分类误差和重构误差构建目标函数,求解上述目标函数,更新参数矩阵;数据节点与中心节点进行通信,并判断各节点的转换矩阵是否趋于一致,更新拉格朗日乘子,最后进行近似性搜索过程;本发明解决了大规模数据在存储,计算时所需规模过大,集中式地训练算法模型已不再适合的问题;而且数据节点与中心节点通信不交换原始信息,能有效解决传输通信过大的问题,同时节点上的数据保持独立性。
技术领域
本发明涉及一种图像搜索方法,具体的说是一种分布式图像搜索方法,属于机器学习领域。
背景技术
随着社交网络、电子商务、移动互联网等的不断发展,数据需要存储、处理的规模越来越大,单机系统已无法满足日益增长的需求。Google、Alibaba等互联网公司成功催生了云计算和大数据这两大热门领域,云计算和大数据都是构建在分布式存储之上的应用。云存储的核心是后端的大规模分布式存储系统,大数据不仅需要存储海量的数据,还要通过合适的框架和工具对这些数据进行分析,得到其中有用的部分,如果没有分布式的存储就谈不上对大数据进行分析。虽然分布式系统的研究已经进行了很多年,但直到近些年,互联网大数据的兴起才使得分布式系统大规模地应用在工程实践中。分布式系统是利用多台计算机协同解决单台计算机所不能解决的计算、存储问题,分布式系统与单机系统最大的区别就在于问题的规模。它是由多个节点组成的系统,往往将一台服务器或者服务器上的一个进程称为一个节点,这些节点一般不是孤立的,而是通过网络来互相通信,传递信息。另外,由于智能手机等移动终端的快速发展,智能手机存储了大量的图片、文本和视频等信息,智能手机也可以看作是一个独立的节点,智能手机之间通过基站或者相互之间通过分布式协作来提高数据处理能力。
监督学习(Supervised learning),是一类机器学习中的算法,可以由训练资料中学到或建立一个模式,并依此模式推测新的实例。训练资料是由输入物件(通常是向量)和预期输出所组成。函数的输出可以是一个连续的值(称为回归分析),或是预测一个分类标签。机器学习中还有一大类算法,叫做非监督学习(Unsupervised learning),是直接对没有标记的训练数据进行建模学习,注意在这里的数据是没有标记的数据,与监督学习的最基本的区别是建模的数据一个有标签一个是没有标签的。相比于非监督学习,监督学习的优点就是可以充分利用已知的标记信息,融合更多信息到构建的模型中,有效增加模型的可靠性。
另外,随着互联网的广泛普及和多媒体技术的发展,各行各业的数据急剧增加,现代信息技术基础设施不得不处理庞大的数据库。事实上,与存储成本相比,在大规模数据库中检索相关内容是一项更具挑战性的任务,特别是在搜索多媒体数据,例如音频,图像和视频内容的检索是一项更具挑战性的任务。传统的最近邻算法在处理大规模图像检索问题时,样本数据的特征维度可达成千上万维,如此的“维度灾难”会导致存储空间消耗大和检索速度慢的问题。近年来,哈希算法作为一种代表性的最近邻检索技术,可以满足大规模检索中对存储空间和检索时间的特殊要求。哈希算法的目的是将图像表示成为一组固定长度的二值编码,即哈希码,通常使用-1/1或者0/1表示其中的比特。哈希算法解决了传统检索问题对于大规模数据存储空间和检索时间的不合理要求,使得其对于存储空间和检索时间的需求大幅度降低,同时有能够取得不错的检索效果,因此成为了处理大数据问题的利刃,受到了计算机视觉领域的广泛关注。然而当前大多数哈希算法都是集中式的,存在单个节点计算量大等诸多问题,如何在分布式场景中应用哈希算法是一个有趣的问题。
综上所述,现有技术中对于如何利用监督哈希算法实现分布式图像搜索问题尚没有公开的披露。
发明内容
本发明的目的在于提供一种基于监督学习的分布式图像搜索方法,主要用于解决图像,视频,文本等样本数目大,无法精确的找到语义近邻,如果集中在一起训练,传输量和计算量过大的问题,本方法的主要目的是通过分布式训练,以较低的计算开销训练得到全局优化的编码矩阵,同时保护分布式训练中各节点的数据独立性,并实现查询样本的近邻搜索。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京邮电大学,未经南京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910609588.3/2.html,转载请声明来源钻瓜专利网。