[发明专利]基于双目融合网络与两步训练框架立体视频质量评价方法在审
申请号: | 202011110071.9 | 申请日: | 2020-10-16 |
公开(公告)号: | CN112437290A | 公开(公告)日: | 2021-03-02 |
发明(设计)人: | 李素梅;刘安琪;马帅 | 申请(专利权)人: | 天津大学 |
主分类号: | H04N17/00 | 分类号: | H04N17/00;H04N13/106;G06N3/08;G06N3/04;G06K9/62 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘国威 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 双目 融合 网络 训练 框架 立体 视频 质量 评价 方法 | ||
本发明属于视频和图像处理领域,为提出立体视频质量评价方法,更加准确高效,且贴合人眼对立体视觉的感知,本发明:基于双目融合网络与两步训练框架立体视频质量评价方法,首先通过计算立体视频的时间显著性与空间显著性,对立体视频的每一帧生成显著性图片,得到的顺序排列的显著性图片称为左视频的时空显著性特征流与右视频的时空显著性特征流,并将其作为双目融合网络的两个输入;其次,分两步训练双目融合网络,即局部回归和全局回归,在第一步中,通过添加全连接层,用小块标签预训练所提网络的左通道CNN以及右通道CNN;在第二步中,基于第一步的权重模型,使用MOS值对整个网络进行训练。本发明主要应用于视频和图像处理场合。
技术领域
本发明属于视频和图像处理领域,涉及到视频时空显著性的计算,不同失真块的质量分数的计算,以及深度学习在立体视频质量评价中的应用。具体涉及基于双目融合网络与两步训练框架立体视频质量评价方法。
背景技术
目前,立体视频已经广泛地应用在人类生活的各个领域。与此同时,也产生了一系列立体视频处理技术。但任何处理技术都可能对立体内容造成不同程度的失真,从而影响人们对立体视频的感知。因此,找到一个有效的立体视频质量评价方法是非常有必要的。一个有效的立体视频质量评价方法不仅可以衡量立体视频的失真程度,还可以为当代3D技术的发展提供技术支持。
到目前为止,立体视频质量评价方法可以分为三类:传统方法,基于稀疏表示的方法和基于深度学习的方法。在传统方法中,最近的文章都类似于[1]-[5]。不同的空间特征,时间特征和深度特征被提取,通过不同方式结合后获得立体视频的质量。但是传统的方法手动提取特征,而未被提取的特征就此丢失。因此,一些研究人员使用稀疏表示的方法来使立体视频中的信息得到充分利用。例如,[6]将从稀疏字典和堆叠自动编码器中提取的特征输入给支持向量机,以获得最终的质量分数。然而,传统方法和稀疏表示的方法都不符合大脑分层提取视觉信息的事实[7]。因此,开始有研究人员选择使用深度学习来完成立体视频质量评价任务,如[8][9]。深度学习可以分层次地提取综合特征,并通过深化网络层来获得更好的结果。
在深度学习的方法中,文献[8]设计了深层双流神经网络来分别评价左视图和右视图的质量。通过组合左右视图的质量以获得立体视频质量。文献[9]通过搭建3D卷积神经网络(CNN)来自动提取立体视频中的时空信息。简而言之,[8]在最后一步结合了左右视图的质量,而[9]首先对左右视图点进行简单的融合或提取差异,然后再对2D视频再进行处理。这些处理方式看起来稍微有些简单,而且忽略了左右视图之间的相关性。同样,无论是传统方法还是稀疏表示方法,对两个视图都有类似的处理方式,文章[6]首先融合了左右视图,文章[1][2][3][4]在最后一步中结合了左右视图的质量,且忽视了大脑的视觉融合机制。
虽然目前在医学中成像机制尚不清楚,但已有文献表明,立体视觉感知是大脑长期处理的结果,并且在低级和高级视觉区域均存在融合感知。当大脑在处理立体视觉信号时,双目视差首先在初级视觉皮层V1区域形成[10]。进一步地,在次级皮层区域V2中选择性增强深度感知。然后,3D视觉刺激导致视觉皮层V3区域激活[11]。V4视觉区域在3D成像中也起着至关重要的作用[12]。所以,在本发明中,为了尽可能地模仿这种医学机制,采用了从低层到高层的多重融合。此外,双目竞争还涉及V1,V2,V3和V4区域神经元活性的增强[13]。并且当发生双目竞争时,应通过分配不同的权重来融合左右视图信号[15][16]。这表明每个视觉区域都存在双目竞争以及双目融合。因此,本发明将“加权模块”嵌入到融合网络中来尽可能地模仿双目竞争。“加权模块”由文献[14]中的挤压和激励(SE)模块来实现,用以对来自不同视点的特征图进行加权。
此外,考虑到不同的视图,不同的框架以及不同的区域可能有不同的质量,本发明采取两步训练框架。在先前的深度学习方法中,研究人员将同一平均意见值(MOS值)分配给立体视频中的所有块,再将它们输入到网络中进行训练。这对于具有对称失真的立体视频可能是合理的。但是对于非对称失真,在训练网络时使用相同的标签来标记同一立体视频的不同视图和不同区域是不合理的。这也是难以准确评价非对称失真的原因。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011110071.9/2.html,转载请声明来源钻瓜专利网。