[发明专利]基于CRBM和Fisher网络的移动视觉搜索框架在审

专利信息
申请号: 201711493995.X 申请日: 2017-12-31
公开(公告)号: CN108108770A 公开(公告)日: 2018-06-01
发明(设计)人: 纪荣嵘;林贤明;黄晨 申请(专利权)人: 厦门大学
主分类号: G06K9/62 分类号: G06K9/62;G06K9/46;H04N1/32
代理公司: 厦门南强之路专利事务所(普通合伙) 35200 代理人: 马应森
地址: 361005 *** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 局部特征 全局特征 图像检索 网络构建 移动视觉 自适应 算法 聚合 紧凑 搜索 受限玻尔兹曼机 图像特征信息 非高斯分布 一致性检验 自适应算法 标量量化 检索阶段 特征算法 特征信息 网络带宽 网络结构 选择传输 粗匹配 候选集 移动端 子空间 匹配 网络 移动 全局
【权利要求书】:

1.基于CRBM和Fisher网络的移动视觉搜索框架,其特征在于包括以下步骤:

1)连续受限玻尔兹曼机网络构建与训练;

2)Fisher layer网络构建与训练。

2.如权利要求1所述基于CRBM和Fisher网络的移动视觉搜索框架,其特征在于在步骤1)中,所述连续受限玻尔兹曼机网络构建与训练的具体方法如下:

(1)构建方法:构建3层连续受限玻尔兹曼机网络,第一层包含128个单元,第二层包含64个单元,第三层包含32个单元;前一层单元为可视单元,后一层单元为隐藏单元;可视单元和隐藏单元通过全连接相连,连接权重为{w};连续受限玻尔兹曼机在RBM网络中的可视层sigmoid函数中添加一个均值为0的高斯噪声连续随机单元,其结构与RBM一样,包括一个可视层与一个隐层,层间单元相互连接,在网络进行训练以及使用时信息会在两个方向上流动,且两个方向的权值是相同的,即wij=wji;设sj为神经元j的输出,输入神经元状态为{si},隐藏层状态hj用sj表示,可视层状态vi用si表示:

其中

Nj(0,1)表示均值为0,方差为1的高斯随机变量;常数σ和Nj(0,1)的乘积产生一个高斯噪声输入分量nj=σ·Nj(0,1),其概率分布为:

p ( n j ) = 1 σ 2 π exp ( - n j 2 2 σ 2 ) ]]>

是一个sigmoid函数,θL和θH分别为sigmoid函数的下渐近线和上渐近线;参数aj控制sigmoid函数的斜率;aj从小变大时,单元可以从无噪声的确定性状态向二进制随机状态平滑过渡;如果aj在噪声范围内让sigmoid函数变为线性,那么sj将会服从均值为且方差为σ2的高斯分布;

(2)训练方法:

采用最小化对比散度权重更新算法来训练CRBM网络参数,只需进行简单的加法和乘法运算;MCD训练准则更新权值{ωij},以及sigmoid函数的斜率控制参数{aj}:

Δw i j = η w ( < s i s j > - < s ^ i s ^ j > ) ]]>

其中,表示神经元j的一次采样状态,<·>运算表示在训练集上的均值;公式简化为:

简化后的aj更新算法:

Δ a ^ j = η a a j 2 ( < s j 2 > - < s j 2 ^ > ) ]]>

(3)监督微调:

CRBM使用对比散度算法后获得的权值已经迫近全局最优解,采用反向传播算法进行微调;期望输出目标{V′i}与输入数据{Vi}相等;利用计算模型输出与输入之间的误差对各权值梯度进行调整,直至误差收敛;需要调整的参数有:层之间的连接权值、每一层的偏置权值、sigmoid斜率参数aj;目标函数为:

J ( W , b , a ; x ) = 1 2 | | x - F W , b , a ( x ) | | 2 ]]>

其中,x是网络输入数据值,FW,b,a(x)为网络输出值;对于第L层即输出层的每个输出神经元i,残差如下:

δ i L = ∂ ∂ z ι ( L ) J ( W , b , a ; x ) = - ( x i - s i L ) × f ′ ( z i ( L ) ) ]]>

l=L-1,...,2的各层,各层中的第i个神经元节点的残差为:

δ i l = ∂ ∂ z i ( l ) J ( W , b , a ; x ) = ( Σ j = 1 N l + 1 w j i l δ j l + 1 ) × f ′ ( z i ( l ) ) ]]>

f(zi)为神经元激活函数:

f ( z i ) = θ L + ( θ H - θ L ) · 1 1 + exp ( - z i ) ]]>

对于l=L-1,...,2的各层,连接权值参数、偏置参数、斜率控制参数的偏导数分别为:

▿ W l J ( W , b , a ) = δ ( l + 1 ) ( s l ) T a l ]]>

▿ b l J ( W , b , a ) = δ ( l + 1 ) a l ]]>

▿ a l J ( W , b , a ) = δ ( l + 1 ) ( h l + 1 ) T ]]>

其中:

hl=Wl-1×sl-1+bl-1+σN(0,1)

zl=al-1×hl

sl=f(zl)

所求梯度是在数据集中单个样本进行的梯度更新,对于整个数据集训练,只要将每个梯度相加求平均梯度即可;求出所有参数的梯度值之后,使用拟牛顿优化算法对每个参数进行优化。

3.如权利要求1所述基于CRBM和Fisher网络的移动视觉搜索框架,其特征在于在步骤2)中,所述Fisher layer网络构建与训练的具体方法如下:

将混合高斯模型进行两点简化,假设:

(1)假设GMM中每个高斯函数权重相等,即ωk=1;

(2)简化uk(x)的公式成以下形式:

u k ( x ) = 1 ( 2 π ) D / 2 exp { - 1 2 ( x - μ k ) T Σ k - 1 ( x - μ k ) } ]]>

相当于假设协方差矩阵具有相同的行列式值;简化后γj(k):

γ j ( k ) = u k ( x i j ) Σ n = 1 K u n ( x i j ) = exp { - 1 2 ( x i j - μ k σ k ) T ( x i j - μ k σ k ) } Σ n = 1 K exp { - 1 2 ( x i j - μ n σ n ) T ( x i j - μ n σ n ) } ]]>

假设wk=1/σk,bk=-μk,最终fisher layer的形式如下:

其中,⊙为元素运算;γj(k)的计算公式是一个softmax函数,wk,bk是GMM第k个高斯函数的参数;γj(k)的计算公式包含共同计算部分wn⊙(xij+bn)是微分的,其他计算是线性或者平方操作,是可求导的;通过方向传播算法来学习参数;

经过简化后的Fisher Vector算法为线性运算,因此网络训练可以用梯度下降法,采用误差反向传播的方式计算误差函数对全部权值和偏置值的梯度;CDVS主要解决的是大规模图像检索和图片匹配问题,在大规模图像检索问题中,自适应全局二值特征作用于检索流程的第一阶段,用全局特征在服务器端的数据库中进行汉明距离匹配,获得候选集,选择交叉商损失函数:

L o s s ( s i , y i ) = - Σ c = 1 C { y i c log σ ( s i c ) + ( 1 - y i c ) log ( 1 - σ ( s i c ) ) } ]]>

其中,si=[si1,...,siC]T表示图像Xi的得分向量;yi=[yi1,...,yiC]T表示标签向量;C是数据集中类的数量;σ(x)是sigmoid函数,即:

σ(x)=1/(1+exp(-x))。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711493995.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top