[发明专利]一种基于深度学习的立体图像视觉显著性检测方法有效

专利信息
申请号: 201910349084.2 申请日: 2019-04-28
公开(公告)号: CN110210492B 公开(公告)日: 2020-12-01
发明(设计)人: 周武杰;吕营;雷景生;张伟;何成;王海江 申请(专利权)人: 浙江科技学院
主分类号: G06K9/46 分类号: G06K9/46;G06N3/04;G06N3/08
代理公司: 宁波奥圣专利代理事务所(普通合伙) 33226 代理人: 周珏
地址: 310023 浙*** 国省代码: 浙江;33
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于深度学习的立体图像视觉显著性检测方法,其构建卷积神经网络,包含输入层、隐层、输出层,输入层包括RGB图输入层和深度图输入层,隐层包括编码框架、中间层框架和解码框架,编码框架由RGB图通道和深度图通道组成;将训练集中的每幅立体图像的左视点图像和深度图像输入到卷积神经网络中进行训练,得到训练集中的每幅立体图像的显著性图像;计算训练集中的每幅立体图像的显著性图像与真实人眼注视图像之间的损失函数值,重复执行多次后得到卷积神经网络训练模型;待测试的立体图像的左视点图像和深度图像输入到卷积神经网络训练模型中,预测得到显著性预测图像;优点是其具有较高的视觉显著性检测准确性。
搜索关键词: 一种 基于 深度 学习 立体 图像 视觉 显著 检测 方法
【主权项】:
1.一种基于深度学习的立体图像视觉显著性检测方法,其特征在于包括训练阶段和测试阶段两个过程;所述的训练阶段过程的具体步骤为:步骤1_1:选取N幅宽度为W且高度为H的原始的立体图像;然后将选取的所有原始的立体图像及所有原始的立体图像各自的左视点图像、深度图像和真实人眼注视图像构成训练集,将训练集中的第n幅原始的立体图像记为{In(x,y)},将{In(x,y)}的左视点图像、深度图像和真实人眼注视图像对应记为{Dn(x,y)}、其中,N为正整数,N≥300,W和H均能够被2整除,n为正整数,n的初始值为1,1≤n≤N,1≤x≤W,1≤y≤H,In(x,y)表示{In(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值,Dn(x,y)表示{Dn(x,y)}中坐标位置为(x,y)的像素点的像素值,表示中坐标位置为(x,y)的像素点的像素值;步骤1_2:构建卷积神经网络:该卷积神经网络包含输入层、隐层、输出层,输入层包括RGB图输入层和深度图输入层,隐层包括编码框架、中间层框架和解码框架,编码框架由RGB图通道和深度图通道组成,RGB图通道由依次设置的第1个神经网络块、第3个神经网络块、第5个神经网络块、第7个神经网络块、第9个神经网络块、第11个神经网络块、第13个神经网络块构成,深度图通道由依次设置的第2个神经网络块、第4个神经网络块、第6个神经网络块、第8个神经网络块、第10个神经网络块、第12个神经网络块、第14个神经网络块构成,中间层框架由依次设置的第15个神经网络块和第16个神经网络块构成,解码框架由依次设置的第1个反卷积块、第17个神经网络块、第2个反卷积块、第18个神经网络块、第3个反卷积块、第19个神经网络块、第4个反卷积块、第20个神经网络块构成;对于RGB图输入层,其输入端接收一幅训练用左视点图像,其输出端输出训练用左视点图像给隐层;其中,要求训练用左视点图像的宽度为W且高度为H;对于深度图输入层,其输入端接收RGB图输入层的输入端接收的训练用左视点图像对应的训练用深度图像,其输出端输出训练用深度图像给隐层;其中,训练用深度图像的宽度为W且高度为H;对于编码框架,第1个神经网络块的输入端接收RGB图输入层的输出端输出的训练用左视点图像,第1个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P1;第2个神经网络块的输入端接收深度图输入层的输出端输出的训练用深度图像,第2个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P2;对P1中的所有特征图和P2中的所有特征图进行Element‑wise Summation操作,Element‑wise Summation操作后输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E1;第3个神经网络块的输入端接收E1中的所有特征图,第3个神经网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P3;第4个神经网络块的输入端接收P2中的所有特征图,第4个神经网络块的输出端输出64幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P4;第5个神经网络块的输入端接收P3中的所有特征图,第5个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P5;第6个神经网络块的输入端接收P4中的所有特征图,第6个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P6;对P5中的所有特征图和P6中的所有特征图进行Element‑wise Summation操作,Element‑wise Summation操作后输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E2;第7个神经网络块的输入端接收E2中的所有特征图,第7个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P7;第8个神经网络块的输入端接收P6中的所有特征图,第8个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P8;第9个神经网络块的输入端接收P7中的所有特征图,第9个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P9;第10个神经网络块的输入端接收P8中的所有特征图,第10个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P10;对P9中的所有特征图和P10中的所有特征图进行Element‑wise Summation操作,Element‑wise Summation操作后输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E3;第11个神经网络块的输入端接收E3中的所有特征图,第11个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P11;第12个神经网络块的输入端接收P10中的所有特征图,第12个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P12;第13个神经网络块的输入端接收P11中的所有特征图,第13个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P13;第14个神经网络块的输入端接收P12中的所有特征图,第14个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P14;对P13中的所有特征图和P14中的所有特征图进行Element‑wise Summation操作,Element‑wise Summation操作后输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E4;对于中间层框架,第15个神经网络块的输入端接收E4中的所有特征图,第15个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P15;第16个神经网络块的输入端接收P15中的所有特征图,第16个神经网络块的输出端输出1024幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P16;对于解码框架,第1个反卷积块的输入端接收P16中的所有特征图,第1个反卷积块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为F1;对E4中的所有特征图和F1中的所有特征图进行Element‑wise Summation操作,Element‑wise Summation操作后输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E5;第17个神经网络块的输入端接收E5中的所有特征图,第17个神经网络块的输出端输出512幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P17;第2个反卷积块的输入端接收P17中的所有特征图,第2个反卷积块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为F2;对E3中的所有特征图和F2中的所有特征图进行Element‑wise Summation操作,Element‑wise Summation操作后输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E6;第18个神经网络块的输入端接收E6中的所有特征图,第18个神经网络块的输出端输出256幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P18;第3个反卷积块的输入端接收P18中的所有特征图,第3个反卷积块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为F3;对E2中的所有特征图和F3中的所有特征图进行Element‑wise Summation操作,Element‑wise Summation操作后输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为E7;第19个神经网络块的输入端接收E7中的所有特征图,第19个神经网络块的输出端输出128幅宽度为且高度为的特征图,将输出的所有特征图构成的集合记为P19;第4个反卷积块的输入端接收P19中的所有特征图,第4个反卷积块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为F4;对E1中的所有特征图和F4中的所有特征图进行Element‑wise Summation操作,Element‑wise Summation操作后输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为E8;第20个神经网络块的输入端接收E8中的所有特征图,第20个神经网络块的输出端输出64幅宽度为W且高度为H的特征图,将输出的所有特征图构成的集合记为P20;对于输出层,其输入端接收P20中的所有特征图,其输出端输出一幅训练用左视点图像对应的立体图像的显著性图像;其中,显著性图像的宽度为W且高度为H;步骤1_3:将训练集中的每幅原始的立体图像的左视点图像作为训练用左视点图像,并将训练集中的每幅原始的立体图像的深度图像作为训练用深度图像,输入到卷积神经网络中进行训练,得到训练集中的每幅原始的立体图像的显著性图像,将{In(x,y)}的显著性图像记为其中,表示中坐标位置为(x,y)的像素点的像素值;步骤1_4:计算训练集中的每幅原始的立体图像的显著性图像与真实人眼注视图像之间的损失函数值,将之间的损失函数值记为采用均方误差损失函数获得;步骤1_5:重复执行步骤1_3和步骤1_4共V次,得到卷积神经网络训练模型,并共得到N×V个损失函数值;然后从N×V个损失函数值中找出值最小的损失函数值;接着将值最小的损失函数值对应的权值矢量和偏置项对应作为卷积神经网络训练模型的最优权值矢量和最优偏置项,对应记为Wbest和bbest;其中,V>1;所述的测试阶段过程的具体步骤为:步骤2_1:令表示待测试的宽度为W'且高度为H'的立体图像,将的左视点图像和深度图像对应记为其中,1≤x'≤W',1≤y'≤H',表示中坐标位置为(x',y')的像素点的像素值,表示中坐标位置为(x',y')的像素点的像素值,表示中坐标位置为(x',y')的像素点的像素值;步骤2_2:将输入到卷积神经网络训练模型中,并利用Wbest和bbest进行预测,得到的显著性预测图像,记为其中,表示中坐标位置为(x',y')的像素点的像素值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江科技学院,未经浙江科技学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201910349084.2/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top