[发明专利]一种基于多任务学习深度语义哈希的快速图像检索方法、模型及模型构建方法有效
申请号: | 201810851990.8 | 申请日: | 2018-07-30 |
公开(公告)号: | CN109063112B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 李宏亮;马雷 | 申请(专利权)人: | 成都快眼科技有限公司 |
主分类号: | G06F16/58 | 分类号: | G06F16/58;G06F16/51;G06F16/55 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 郭彩红 |
地址: | 610200 四川省成都市双*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 任务 学习 深度 语义 快速 图像 检索 方法 模型 构建 | ||
1.一种基于多任务学习深度语义哈希的快速图像检索模型构建方法,具体方法包括,
S1,收集大量的训练图片,并进行图片类别标注;调整所有图片的大小到一个固定尺寸;将整个数据库随机划分成三个集合:查询集、数据库集和训练集;
S2:构建一个哈希学习网络,对所构建的哈希学习网络进行参数初始化;在哈希学习网络的最后添加损失层网络的损失函数J定义如下:
J=NJcl+λJre
其中N代表训练集图像的总数,λ表示超参数以平衡用于分类任务的COCO损失Jcl及检索任务的成对损失Jre;对于单标签情形,采用下面的损失函数形式用于分类任务哈希码的学习:
其中ui表示网络最后一层经过tanh(·)激活函数的输出,Y表示训练样本的标签矩阵,L表示类别数目,ck表示第k类的中心;对于多标签情形,采用下面的损失函数形式用于分类任务哈希码的学习:
其中C=[c1,c2,…,cL]表示在单标签情形下的原类别中心,表示给定的第i张图片的新的语义中心;针对检索任务,采用下面的成对损失形式:
其中S∈{-1,1}N×N表示相似性矩阵,表示两张图片的汉明相似性;
S3,将训练图片的RGB三个通道分别减去一个恒定的值作归一化处理;将归一化后的图片输入网络,经过最后tanh(·)激活函数的输出得到近似二值码的特征表示其中K表示哈希码的码长;对于单标签情形,计算损失函数对ui的偏导数
其中对于多标签情形,计算损失函数对ui的偏导数
其中
利用反向传播算法,求得损失函数对网络参数Θ的偏导数;网络参数的更新使用梯度下降算法;对于语义中心的更新,分成单标签情形与多标签情形两种情况进行讨论;对于单标签情形,语义中心C=[c1,c2,…,cL]的更新,写成如下闭式解形式:
对于多标签情形,语义中心C=[c1,c2,…,cL],可以采用如下加权平均的方式:
S4,网络模型训练完成后,将数据库集图片按照S3归一化后输入训练好的哈希网络;将哈希网络最后的损失层替换成逐元素的sign(·)函数层,输出最终数据库图像的哈希码:
bd=sign(F(xd;Θ))=sign(ud)
利用训练集作为查询图片,计算查询的平均精度;按照交叉验证的原则,调整学习率、超参数λ的数值;按照调整后的参数,重复S2和S3对哈希网络进行重新训练。
2.根据权利要求1所述的图像检索模型构建方法,所述方法还包括,将查询集图片按照S3归一化后,输入经过参数调优后的哈希网络,得到查询集图像的哈希码;计算查询的平均精度。
3.一种基于多任务学习深度语义哈希的快速图像检索模型,在权利要求1或2所述的图像检索模型构建方法上构建实现,包括,
图像检索输入接口,接收要进行检索的图片;
检索图像归一化处理模块,将检索图像的RGB三个通道分别减去设定的恒定的值作归一化处理;
深度语义称哈希处理,对归一化处理后的图像进行深度语义称哈希处理,得到图像的哈希码。
4.一种基于多任务学习深度语义哈希的快速图像检索方法,在权利要求3所述的图像检索模型的基础上实现,包括,
输入要检索的图片,将检索图像的RGB三个通道分别减去设定的恒定的值作归一化处理;对归一化处理后的图像进行深度语义哈希处理,得到图像的哈希码。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都快眼科技有限公司,未经成都快眼科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810851990.8/1.html,转载请声明来源钻瓜专利网。