[发明专利]基于映射字典学习的跨模态哈希检索方法有效
申请号: | 201710496980.2 | 申请日: | 2017-06-27 |
公开(公告)号: | CN107256271B | 公开(公告)日: | 2020-04-03 |
发明(设计)人: | 姚涛;孔祥维;付海燕 | 申请(专利权)人: | 鲁东大学 |
主分类号: | G06F16/953 | 分类号: | G06F16/953;G06N20/00 |
代理公司: | 烟台双联专利事务所(普通合伙) 37225 | 代理人: | 梁翠荣 |
地址: | 264000 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 映射 字典 学习 跨模态哈希 检索 方法 | ||
本发明公开了一种基于映射字典学习的跨模态哈希检索方法。其通过网络收集图像和文本样本建立跨媒体检索数据集,并将数据集分为训练集和测试集;利用BOW算法提取图像和文本的特征;利用映射字典学习分别为图像和文本模态学习一个共享子空间,并同时学习各模态的哈希函数;通过学习一个正交旋转矩阵,最小化量化误差;利用图像和文本模态的哈希函数和正交旋转矩阵计算测试样本的哈希码;将一个模态的测试样本集作为查询,另一模态的训练集作为被检索数据集,计算查询样本与被检索样本的汉明距离并排序,返回排序靠前的样本。本发明具有检索的准确率高,容易应用于大规模数据集,并且实现简单等特点,因此有广阔的应用前景和巨大的市场价值。
技术领域:
本发明涉及跨模态哈希检索方法,尤其涉及基于映射字典学习的跨模态哈希检索方法。
背景技术:
随着计算机网络和信息技术的快速发展,网络上的媒体数据量急剧增长,媒体的表示形式也呈现出多模态性(图像,文本,声音,视频等)。例如:在微博上传照片时,通常会同时上传一段文字描述照片的内容或用一些标签标注图像的内容;在微信的朋友圈分享时,往往也是图文并茂;购物网站,例如淘宝,京东等,在描述产品信息时通常既用图片,又用文字。这些多模态数据虽然表现形式不同,但它们之间存在语义关联。跨媒体检索的目的就是挖掘不同媒体之间存在的语义关系,并按语义关系进行排序,返回跟查询存在较强语义关系的不同模态的数据。随着媒体数据量的急速增长和模态的多样化,传统的检索方法已经不能满足当前跨媒体检索的需求。如何在海量数据中检索不同模态的数据成为一个巨大的挑战。
哈希方法是解决大数据问题的一种有效的方法,它不仅能大大节省存储空间,而且计算效率也大幅提高。例如一张图片用5,000维的BOW(Bag Of Words)表示,假设每维用double数据类型表示,即每维占用8Bytes的存储空间,则需要5,000×8Bytes=40,000Bytes的存储空间。而哈希方法是把样本映射汉明空间,例如用32bits(8bits=1Byte)来表示一张图片,仅需要4Bytes的存储空间,大大节省了存储空间,占用的存储空间仅为原始特征空间的万分之一。在检索过程中,因为样本用二值码表示,因此在计算样本间的距离时,只需要做简单的异或操作即可,大大提升了计算的效率,使检索的时间复杂度远低于传统方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鲁东大学,未经鲁东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710496980.2/2.html,转载请声明来源钻瓜专利网。