[发明专利]基于内容的比特流层视频质量评价模型有效
申请号: | 201810024449.X | 申请日: | 2018-01-10 |
公开(公告)号: | CN108184117B | 公开(公告)日: | 2021-11-26 |
发明(设计)人: | 李晨昊;张美娜 | 申请(专利权)人: | 北京工业大学 |
主分类号: | H04N19/154 | 分类号: | H04N19/154;H04N17/00 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 沈波 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了基于内容的比特流层视频质量评价模型,属于多媒体技术领域。压缩域模型可以直接从码流中提取视频参数,用于实时非侵入式的质量监控。模型主要针对H.264视频编码标准,用于编码失真的质量评估。建立感知质量和量化参数QP之间的基本关系。考虑到感知质量对于视频内容的明显依赖性,视频内容被定义为不同时间复杂度和空间复杂度的组合。本发明使用小尺寸预测块所占比例SPM_Ratio,I帧中平均每个4×4块所包含DCT非零数的比例Ave_Coef,同时来描述视频的空间复杂度。使用码流中运动矢量信息后缀长度平均值归一化参数Ave_Mvlen来描述视频的空间复杂度。所有信息都可直接从码流中提取出来,而不需要进行解码操作。 | ||
搜索关键词: | 基于 内容 比特流 视频 质量 评价 模型 | ||
【主权项】:
1.基于内容的比特流层视频质量评价模型,其特征在于:该模型的实施包括以下步骤:S1.感知质量与量化参数由于H.264是基于块的DCT压缩方法,块失真是最主要的编码失真,在H.264/AVC编码标准中有52个量化步长Qstep值,通过量化参数QP索引,每隔6个QP,Qstep就增长一倍;Qstep=2(Qp‑4)/6 (1)Qstep是由QP决定的,因此,QP是反映编码失真的关键参数,选取四组标准测试视频序列,用恒定QP进行编码;通过改变QP值,获得对应的MOS分数值;该关系可以被描述为一个倒S的曲线,在QP较小时MOS下降不大,之后MOS快速下降,而最后趋于平滑且取值接近;不同的视频形状各不相同;四组标准测试视频序列分别为足球,电影,工头,母女;即Football,Mobile,Foreman,mother_daugher;具有更高纹理丰富度即空间信息和运动剧烈度即时间信息的视频,Football,Mobile在相同QP条件下,具有相对较高的感知质量;相应地,Mother_daugher的运动剧烈度和纹理丰富度较低,在相同QP条件下感知质量较低;而Foreman具有中等的时间和空间复杂度,以及中等的感知分数;这种差异符合HVS的掩蔽效应,视频内容在影响感知质量中扮演重要角色;将视频内容特征的影响加入到视频质量评价中去;充分利用视频内容的两个主要特征因素:空间复杂度和时间复杂度;S2.空间复杂度H.264编解码主要分为5个部分:帧内和帧间预测Estimation,变换Transform和反变换,量化Quantization和反量化,环路滤波LoopFilter,熵编码;H.264采用了更多有效的帧内与帧间预测模式,对于帧内预测编码,H.264提供了9种模式的4×4预测模式,适用于带有大量细节的图像编码,以及4种16×16预测模式,适用于平坦区域的图像编码;对于帧间预测编码,H.264支持7种宏块分割模式,分别是16×16、16×8、8×8、8×4、4×8和4×4,每个分割块或者子宏块都有独立的运动补偿,大的分割尺寸对应平坦区域,小尺寸对应细节较多的区域;因此,小尺寸的预测模式可以反映纹理细节较多的区域;为此,定义帧间8×8、8×4、4×8、4×4以及帧内4×4为小尺寸预测模式SPM(Small Prediction Mode);所以小尺寸预测块的个数总和记为SPM_total,所有预测块的个数总和记为Prdmode_total;则小尺寸预测块占所有预测块总数的比例SPM_Ratio,就能说明视频序列包含的细节丰富程度;其值越大,证明视频纹理越丰富,即空间复杂度越高,感知质量越高,反之则越小;4×4块数据经过预测、变换、量化后的数据表现出如下特性:非零系数主要集中在低频部分,包括了图像的大部分内容;而高频系数大部分是零;因此,DCT系数很大程度上反映了视频纹理丰富度;为此,定义了I帧中平均每个4×4块包含的非零数比例,用来表示纹理的丰富程度;其中,Coeff_Token是所有4×4块非零个数的总和,Inum是I帧的数目,BLKnum是每帧4×4块数目,16是归一化的系数,即非零数最大值;AVE_Coef越大,则说明视频序列所对应的纹理丰富度越高,感知质量越高,反之则越低;S3.时间复杂度在H.264编码标准从功能上分为视频编码层VCL和网络提取层NAL,其中对VCL数据传输或存储之前,先被映射或封装进NAL单元中,H.264比特率由一系列NALU单元构成,每个NALU包括一个对应于视频编码数据的NAL头信息和原始字节序列载荷RBSP;NAL头信息指示当前NAL的优先级,并指明当前NALU中的RBSP的数据类型;RBSP是NALU的数据部分的封装格式,可以是序列参数集SPS、图像参数集PPS或者一个编码片数据;编码片又可以分为片头和编码片数据,片头指明第一个宏块的地址,片类型,片所引用的序号以及片的解码顺序等等;编码片数据包含一系列编码宏块及跳过编码数据,每个MB又包含头单元和残差数据;MB的头单元包括宏块类型、预测模式、残差编码方案;其中,宏块层数据中的帧内预测模式表明当前宏块的预测模式,残差系数包含了预测残差能量,而运动矢量残差则包含了视频运动信息;运动矢量残差采用有符号指数哥伦布码进行编码;运动矢量残差v到带编码code_mum的映射关系如下:code_num指数哥伦布码的码字由三部分组成,表示为[M zeros][1][INFO],其中M个零称为前缀,对应的INFO是一个M位的信息后缀;指数哥伦布码字是一种具有规则结构的变长码,编码实现简单,不需要浪费空间存储映射码表,每个码字code_num的M和INFO值通过公式(5)、(6)计算得到:M=floor(log2[code_num+1]) (5)INFO=code_num+1‑2M (6)因此,运动矢量残差的幅值与码字前缀的M值以及后缀的INFO值均有关系,而运动矢量残差的符号只由后缀INFO的最后一位比特决定;定义运动矢量的信息后缀平均长度为Ave_Mvlen,通过公式(7)计算得到;其中Infolen_tot是信息后缀长度的总和,Infonum是运动矢量的总个数,6是归一化系数,即信息后缀长度最大值;Ave_Mvlen的值越大,表明视频序列时间复杂度越高,反之亦然;S4.模型建立在得到QP、时间复杂度、空间复杂度与视频感知质量的影响关系之后,本发明最终给出了客观质量分数的计算公式;根据之前提到的每个MOS‑QP的关系图,给出感知质量的公式如下:其中,η、ω、是经验参数,QP是每个视频序列的量化参数平均值;然而,视频感知质量很大程度上取决于视频内容,因此上式对于具有不同时间和空间复杂度的视频具有不同的结果;使用最小二乘法进行拟合,一旦η、ω的最佳拟合值被确定,公式(8)中的可以重新训练以获得与视频复杂度的关系;由于与视频复杂度是正相关的关系,因此在简洁而不失准确性的情况下,表示为:其中,α、β、γ、μ是通过最小二乘法训练获得;但是,如果应用于其它视频数据库,则它们的取值需要调整;将公式(9)带入到公式(8)中,客观视频质量计算公式可表示为:到此为止,所提出的基于内容的比特流层视频质量评价模型完全可用于评估H.264/AVC编码失真的视频;除量化参数外,视频的时间和空间复杂度都在所提模型中被考虑到,以获得更精准的结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810024449.X/,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法