[发明专利]一种面向数字人文的移动视觉检索方法有效
申请号: | 201810474540.1 | 申请日: | 2018-05-17 |
公开(公告)号: | CN108733801B | 公开(公告)日: | 2020-06-09 |
发明(设计)人: | 曾子明;秦思琪 | 申请(专利权)人: | 武汉大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06K9/46;G06K9/62;G06N3/04 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 王琪 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 数字 人文 移动 视觉 检索 方法 | ||
1.一种面向数字人文的移动视觉检索方法,其特征在于,包含以下步骤:
步骤1,构建基于深度哈希的图像语义提取模型,该模型总共分为九个处理层:包括五个卷积层、两个全连接层、一个哈希层和一个输出层;
步骤2,对模型进行预训练,使用预训练模型参数作为各处理层的初始化参数;
步骤3,构造基于深度哈希的图像语义提取模型的损失函数;
所述步骤3中,构造基于深度哈希的图像语义提取模型的损失函数,定义如下:
L=Lp+Lr+φ(θ)
该损失函数包含预测损失项Lp、排序损失项Lr和正则项φ(θ)三个部分;
其中,预测损失项Lp计算模型对样本的预测值与真实值之间的误差,定义如下:
对于属于类别Ci的样本x,模型输出为f(x)=(x1,...,xC),xi表示该样本属于类别i的得分值,C为类别总数,即表示该样本属于实际类别Ci的概率,xmaxi为模型预测的最大概率值,-log为计算对数损失;
排序损失项主要考虑到语义排序问题,将排序因素计入损失项中,排序损失项Lr定义如下:
其中,即正样本得分排在负样本前面的概率;Lr排序损失可理解为:对于实际属于Ci类的单个样本x,理想结果是且趋近于1、xi趋近于0,此时Lr=0;若正样本预测得分小于负样本,则需要计入排序损失项;
正则项的主要作用是提高模型的领域泛化性,定义如下:
其中,λ为正则项系数,调节正则项与其他损失项的比重,n为模型训练过程中每批训练集的样本数,1/2便于梯度计算过程中的求导,w为模型中各节点的连接权重值;
步骤4,采集图像样本,构建模型训练集和验证集;
步骤5,图像预处理,减少图像光照、大小对模型的影响;
步骤6,使用步骤3中构建的损失函数和步骤4构建的训练集对模型进行训练,优化模型参数;
步骤7,利用步骤6中训练完成的模型提取图像语义特征,使用步骤4中的验证集作为图像检索集,训练集作为目标集,计算图像间的距离,并根据距离大小进行排序,返回图像检索结果。
2.根据权利要求1所述的一种面向数字人文的移动视觉检索方法,其特征在于:所述步骤2中,使用ImageNet数据集对模型进行预训练。
3.根据权利要求1所述的一种面向数字人文的移动视觉检索方法,其特征在于:所述步骤4中,采集的图像数据样本为数字人文领域,先对样本进行分类,然后构建模型训练集和验证集,且训练集和验证集相互独立。
4.根据权利要求1所述的一种面向数字人文的移动视觉检索方法,其特征在于:所述步骤5中,采用对比度归一化方法对图像进行预处理,方法如下:
其中,图像为标准RGB格式,表示为X∈Rr×c×3,r×c为图像像素大小,数字3即RGB格式的红、绿、蓝三个颜色通道,则Xm,n,k表示第m行第n列第k个颜色通道的像素值,其中1为红色、2为绿色,3为蓝色通道;为整个图像的平均值;设置为一个极小值以防止出现分母为0的情况。
5.根据权利要求1所述的一种面向数字人文的移动视觉检索方法,其特征在于:所述步骤6中,采用小批量梯度下降方法对模型训练过程进行优化,模型训练和优化的参数是各处理层的连接权重值和偏置值,通过模型训练使得模型中各个处理层得到最优参数值。
6.根据权利要求1所述的一种面向数字人文的移动视觉检索方法,其特征在于:所述步骤7中使用欧式距离度量图像间的距离。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810474540.1/1.html,转载请声明来源钻瓜专利网。