[发明专利]一种结合深度波尔兹曼机的三维对象检测方法在审
申请号: | 201611127852.2 | 申请日: | 2016-12-09 |
公开(公告)号: | CN106780594A | 公开(公告)日: | 2017-05-31 |
发明(设计)人: | 纪荣嵘;郭锋;刘伟 | 申请(专利权)人: | 厦门大学 |
主分类号: | G06T7/593 | 分类号: | G06T7/593;G06K9/62 |
代理公司: | 厦门南强之路专利事务所(普通合伙)35200 | 代理人: | 马应森 |
地址: | 361005 *** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 一种结合深度波尔兹曼机的三维对象检测方法,涉及三维对象。采用三维深度传感器沿着重力方向获取一组RGB‑D数据;在3D空间采用滑动窗口对输入的RGB‑D三维点云进行处理;将3D滑动窗口中的对象进行投影,采用R‑CNNs方法得到在RGB通道和深度图通道的特征fm和fd,然后再不断地将分别在RGB通道和深度通道中的特征添加到双模态深度波尔兹曼机中进行特征学习,从而获取基于彩色图像特征和深度特征的联合特征表示f;采用Exemplar‑SVMs对联合特征f进行分类,得到对应的每个3D窗口盒子的分数;再设计分类器正负样本;对每个3D窗口框架进行非最大值抑制。计算速度快,强鲁棒性,准确性高。 | ||
搜索关键词: | 一种 结合 深度 波尔兹曼 三维 对象 检测 方法 | ||
【主权项】:
一种结合深度波尔兹曼机的三维对象检测方法,其特征在于包括以下步骤:1)采用三维深度传感器沿着重力方向获取一组RGB‑D数据;2)在3D空间采用滑动窗口对输入的RGB‑D三维点云进行处理;3)将3D滑动窗口中的对象进行投影,采用R‑CNNs方法得到在RGB通道和深度图通道的特征fm和fd,然后再不断地将分别在RGB通道和深度通道中的特征添加到双模态深度波尔兹曼机中进行特征学习,从而获取基于彩色图像特征和深度特征的联合特征表示f;采用Exemplar‑SVMs对联合特征f进行分类,得到对应的每个3D窗口盒子的分数;再设计分类器正负样本,具体方法如下:正样本选择条件:保证样本数据足够多;每个CAD模型必须从不同的视角和3D空间位置进行渲染;对于每个类别,每次CAD模型渲染都要进行Exemplar‑SVMs训练,将得到的向量机都用于组装建立一个3D检测器;负样本选择条件:建立能够完整覆盖真实值得负样本集;双模态特征学习:通过高斯伯努利限制波尔兹曼机,得出高斯伯努利限制波尔兹曼机能量函数;由于深度波尔兹曼机是个对称偶联的随机二进制单元,它包含了一组可见单元集v∈{0,1}D以及一个隐藏层单元的序列其中,v∈{0,1}D表示向量v是一个长度为D维的向量,而向量的元素都是由0或者1构成的;h(1)表示第一个隐藏层,{0,1}F1表示向量h(1)是一个长度为F1维的向量其中的每一个元素的值只能是0或者1,h(2)∈{0,1}F2表示第二个隐藏层向量h(2)是一个长度为F2维的向量其中的每一个元素的值只能是0或者1,h(L)∈{0,1}FL表示第二个隐藏层向量h(L)是一个长度为FL维的向量其中的每一个元素的值只能是0或者1;与RBM不同之处在于各层之间的链接分别存在于各个隐藏层之间以及第一个隐藏层和可见层之间;考虑到建立RGB‑D数据的包含有三个隐藏单元层的高斯伯努利深度波尔兹曼机,输入的数据为实数型数据,对应的RGB图像通道对应的高斯伯努利深度玻尔兹曼机的能量函数在经过{vm,hm}被定义为式(1),其中vm和hm分别代表任意的可见层和隐藏层:E(vm,bm;θm)=-Σi=1DΣj=1F1mvi(m)σi(m)Wij(1m)hj(1m)-Σj=1F1mΣl=1F2mWjl(2m)hj(1m)hl(2m)-Σl=1F2mΣp=1F3mWlp(3m)hl(2m)hp(3m)+Σi=1D(vi(m)-bi(m))22σi(m)2-Σj=1F1mbj(1m)hj(1m)-Σl=1F2mbl(2m)hl(2m)-Σp=1F3mbp(3m)hp(3m),---(1)]]>式(1)中,σi表示对应的高斯模型的方差,θm是深度波尔兹曼机的参数向量,E(vm,hm;θm)表示以vm,hm,θm为变量的函数,其中hj(1m)表示第1m隐藏层h1m的第j个节点,Wij(1m)表示第1m层参数矩阵W(1m)的第i行第j列的节点值;因此,基于能量的概率模型的联合分布如下所示:P(vm;θm)=1Z(θm)Σhmexp(-E(vm,bm;θm)),---(2)]]>式(2)中,Z(θm)是分拆函数;同样,对应的RGB‑D数据中深度通道的对应的模型表示类似;经过上述推导,得出建立RGB‑D数据的包含有三个隐藏单元层的高斯伯努利深度波尔兹曼机的模型;其中,{vm,vd}表示RGB图像通道和深度通道的可见层的实数高斯变量,{h(1m),h(2m),h(1c),h(2c),h(3)}表示二进制随机隐藏单元;和是RGB图像通道的两个隐藏单元层,和是深度通道的两个隐藏单元层;双模态高斯伯努利深度波尔兹曼机经过{v,h}被定义如下:E(v,b;θ)=-Σi=1DΣj=1F1mvi(m)σi(m)Wij(1m)hj(1m)-Σj=1F1mΣl=1F2mWjl(2m)hj(1m)hl(2m)-Σl=1F2mΣp=1F3Wlp(3m)hl(2m)hp(3m)+Σi=1D(vi(m)-bi(m))22σi(m)2-Σj=1F1mbj(1m)hj(1m)-Σl=1F2mbl(2m)hl(2m)-Σi=1KΣj=1F1dvi(d)σi(d)Wij(1d)hj(1d)-Σj=1F1dΣl=1F2dWjl(2d)hj(1d)hl(2d)-Σl=1F2dΣp=1F3Wlp(3c)hl(2d)hp(3)+Σi=1K(vi(d)-bi(d))22σi(d)2-Σj=1F1dbj(1d)hj(1d)-Σl=1F2dbl(2d)hl(2d)-Σp=1F3bp(3)hp(3).---(3)]]>因此,对应的联合概率模型如下所示:学习双模态深度波尔兹曼机的任务是对模型参数结合式(4)进行最大似然学习;4)对每个3D窗口框架进行非最大值抑制,具体方法如下:采用平均场理论推断和基于随机逼近的马尔科夫链蒙特卡洛方法进行估计学习,在推测的过程中,后验概率估计通过完全因式分解近似于无阻隐藏单元的分布;对于每个训练样本,学习过程主要包括以下步骤:首先,一个贪婪的逐层预测训练方案被用于初始化模型参数,它是一个通过学习改进的RBMs的堆栈实现;其次,查找一个能够最大化变分下界为当前的固定模型参数的变分参数μ;最后,结合该变分参数μ,用基于随机逼近的马尔科夫链蒙特卡洛方法更新DBM模型参数;结合DBM模型参数得到基于彩色图像特征和深度特征的联合特征表示,采用Exemplar‑SVMs对联合特征f进行分类,得到对应的每个3D窗口盒子中对象特征的分数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201611127852.2/,转载请声明来源钻瓜专利网。
- 上一篇:一种彩色深度图像的获取方法、获取设备
- 下一篇:一种全景图片的识别方法和装置