[发明专利]一种基于卷积神经网络的全景图像视觉显著性预测方法在审
申请号: | 202011335330.8 | 申请日: | 2020-11-25 |
公开(公告)号: | CN112488122A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 高攀;陈新浪;张鹏伟;魏明强 | 申请(专利权)人: | 南京航空航天大学 |
主分类号: | G06K9/46 | 分类号: | G06K9/46;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 李淑静 |
地址: | 210016 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 卷积 神经网络 全景 图像 视觉 显著 预测 方法 | ||
本发明提出了一种基于卷积神经网络的全景图像视觉显著性预测方法。所述方法包括:对全景图像进行等尺寸映射,将一张全景图像映射成若干块相同尺寸的2D图像块,并且保留像素点在球面上的坐标;将2D图像块输入卷积神经网络模型,通过计算和预测输出对应的尺寸相同的显著图,其中所述卷积神经网络模型加入全景图像的像素球面坐标值进行训练,并且使用定制的损失函数;根据所保留的像素点球面坐标将所得显著图进行拼接,得到完整的全景图像显著图,完成全景图像的视觉显著性预测。采用本发明的方法,可以明显地观察到显著图预测效果的提升。
技术领域
本发明属于数字图像处理领域,具体涉及基于卷积神经网络的视觉显著性预测方法。
背景技术
随着虚拟现实技术的飞速发展,了解全景图像中的视觉注意力已引起人们极大的兴趣。不同于传统的图像,全景图像可以给用户提供沉浸式和交互式的视觉体验。用户可以通过头戴式显示器自由移动他们的头观看视角场范围在360°×180°内的内容。换句话说,人们可以自由的转动他们的头观看全景图像中最吸引人们视觉注意力的区域。因此,头部注视点对于探索和建模全景图像中的视觉注意力是至关重要的。由于缺乏足够的大型全景图像显著性数据集,将现有的显著性预测方法从传统的2D图像扩展到全景图像并不容易。此外,现有方法将2D图像显著性预测方法直接用到全景图显著性预测方法中,忽略了全景图在极点处的扭曲和拉伸,而扭曲和拉伸将会极大地影响人眼的视觉注意力,从而会导致预测准确性不佳。
发明内容
发明目的:为克服现有技术的不足,本发明提出一种基于卷积神经网络的全景图像视觉显著性预测方法,能够得到更加准确的全景显著图。
技术方案:本发明提出的一种基于卷积神经网络的全景图像视觉显著性预测方法,包括以下步骤:
1)对全景图像进行等尺寸的投影,将一张全景图像投影成若干块相同尺寸的2D图像块,并且保留像素点对应在球面上的坐标;
2)将2D图像块输入卷积神经网络模型,通过计算和预测输出对应的尺寸相同的显著图,其中所述卷积神经网络模型通过预先训练获得,在训练时加入全景图像的像素球面坐标值进行训练,并且使用定制的损失函数;
3)根据所保留的像素点球面坐标将所得若干显著图进行拼接,得到完整的全景图像显著图。
其中,所述步骤1)中在进行全景图像投影时,通过旋转映射将球面上的像素映射到2D平面,公式为:
其中x、y为2D图像的像素坐标,sw、sh分别为2D图像的宽、高,θ、Ф为全景图像像素的球面坐标,θ是纬度,Ф是经度。
进一步地,所述卷积神经网络模型包括基础网络和增强网络,所述基础网络主要用于粗略的显著图的估计,其输入为从全景图像中投影出来的2D图像块,输出为一张尺寸相同的一通道灰度显著图;所述增强网络主要用于对基础网络输出的显著图进行更加精细的估计,其输入为一个三通道的维度,是通过将步骤1)中生成的二维球面坐标和基础网络的一维输出显著图像做级联操作而形成的一个三通道的输入,坐标的维度和图像尺寸相同,输出为一张尺寸相同的一通道灰度显著图。
进一步地,所述卷积神经网络模型在训练时,使用如下损失函数:
其中表示所述卷积神经网络模型的损失函数,是模型预测的显著图,yden是真实的人眼所观察到的显著图,yfix是真实的二值化显著图,是和yden的KL离散度,是和yden的线性相关系数,是和yfix的归一化扫描路径显著性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京航空航天大学,未经南京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011335330.8/2.html,转载请声明来源钻瓜专利网。