[发明专利]基于多模态学习的无参考合成视频质量评价方法在审
申请号: | 202211058103.4 | 申请日: | 2022-08-30 |
公开(公告)号: | CN115423769A | 公开(公告)日: | 2022-12-02 |
发明(设计)人: | 彭宗举;金充充;陈晔曜;陈芬;陈小松;王玲 | 申请(专利权)人: | 重庆理工大学 |
主分类号: | G06T7/00 | 分类号: | G06T7/00;G06N3/08;G06N3/04 |
代理公司: | 重庆博凯知识产权代理有限公司 50212 | 代理人: | 张乙山 |
地址: | 400054 重*** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多模态 学习 参考 合成 视频 质量 评价 方法 | ||
1.基于多模态学习的无参考合成视频质量评价方法,其特征在于,包括:
S1:获取待评价的虚拟视点视频;
S2:基于光流估计将待评价的虚拟视点视频分解成若干个时空域的图像;
S3:将各个时空域的图像输入至预训练的卷积神经网络学习模型,提取虚拟视点视频的深度特征;
S4:将各个时空域的图像输入至经过训练的稀疏字典学习模型,提取虚拟视点视频的稀疏特征;
S5:基于虚拟视点视频的深度特征和稀疏特征进行加权回归,进而计算对应的虚拟视点质量评价分数作为待评价虚拟视点视频的质量评价结果。
2.如权利要求1所述的基于多模态学习的无参考合成视频质量评价方法,其特征在于:步骤S2中,基于光流估计将虚拟视点视频分解成空间域、垂直时域和水平时域三个时空域的图像;
其中,虚拟视点视频表示为宽度为W、高度为H、帧长为N的三维数据;
空间域的图像表示由N幅W×H大小的图像组成;
垂直时域的图像表示由WVD幅N×H大小的图像组成;
水平时域的图像表示由HHD幅W×N大小的图像组成。
3.如权利要求2所述的基于多模态学习的无参考合成视频质量评价方法,其特征在于:步骤S2中,通过如下步骤确定垂直时域和水平时域的图像位置和图像数量:
S201:估计空间域中第1帧和第k帧的光流图、第k+1帧和第2k帧的光流图、第2k+1帧和第3k帧的光流图,依次类推得到若干张光流图;其中,k表示前后帧重复的自适应帧间隔阈值;
S202:计算每张光流图中的最大像素值,并基于各张光流图中最大像素值的坐标(x,y)分别定位垂直时域中第x张图像和水平时域中第y张图像的图像位置;
S203:基于空间域的图像数量N和自适应帧间隔阈值k确定垂直时域的图像数量WVD和水平时域的图像数量HHD;其中,WVD=HHD=N/k。
4.如权利要求2所述的基于多模态学习的无参考合成视频质量评价方法,其特征在于:步骤S3中,将预训练的ResNet-50网络作为预训练的卷积神经网络学习模型;
将空间域、垂直时域和水平时域的图像输入预训练的ResNet-50网络中,分别提取得到空间域的深度特征、垂直时域的深度特征和水平时域的深度特征。
5.如权利要求4所述的基于多模态学习的无参考合成视频质量评价方法,其特征在于:通过如下公式表示空间域的深度特征FSD,de、垂直时域的深度特征FVD,de和水平时域的深度特征FHD,de:
式中:N、WVD、HHD分别表示空间域、垂直时域和水平时域的图像数量;表示第t1张图像的第2048个卷积神经元,t1为空间域中的图像数量索引,t1=1,2,...,N;表示第t2张图像的第2048个卷积神经元,t2为垂直时域中的图像数量索引,t2=1,2,...,WVD;表示第t3张图像的第2048个卷积神经元,t3为水平时域中的图像数量索引,t3=1,2,...,HHD。
6.如权利要求2所述的基于多模态学习的无参考合成视频质量评价方法,其特征在于:步骤S4中,通过如下步骤训练稀疏字典学习模型:
S401:获取自然视频作为训练样本;
S402:将训练样本分解成空间域、垂直时域和水平时域三个时空域的训练图像;
S403:分别将空间域、垂直时域和水平时域三个时空域的训练图像划分为图像块进行字典训练,得到空间域字典、垂直时域字典和水平时域字典并构成稀疏字典学习模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆理工大学,未经重庆理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211058103.4/1.html,转载请声明来源钻瓜专利网。