[发明专利]一种基于两层模型的多声道音频质量评价方法在审
申请号: | 201710228454.8 | 申请日: | 2017-04-10 |
公开(公告)号: | CN107170468A | 公开(公告)日: | 2017-09-15 |
发明(设计)人: | 王晶;谢湘;刘继月;刘敏;费泽松 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G10L25/69 | 分类号: | G10L25/69;G10L25/60;G10L25/27;G10L19/008 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙)11639 | 代理人: | 唐华 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 模型 多声道 音频 质量 评价 方法 | ||
技术领域
本发明属于多声道音频质量评价技术领域,涉及一种基于两层模型的多声道音频质量评价方法。
背景技术
近年来,随着多媒体技术的日益发展,多声道音频逐渐走入人们的日常生活。和传统的双声道立体声相比,多声道音频能够给听众提供更佳的音质体验和更好的临场感受,因此被广泛的应用于多种场景,例如立体电影,3D游戏,实时视频会议等等。这使得人们对多声道音频处理技术提出了更高的标准。为了对音频技术的效果进行评价,通常采用的方法是评估经过处理后的音频信号,通过对比处理前后音频文件的质量差异,从而获得相应技术的效果评价,这种方法即为多声道音频质量评价方法。
根据评价主体的不同,多声道音频质量评价方法主要分为两大类:主观评价方法和客观评价方法。主观评价方法是通过大量听音人员对技术处理前后的三维音频信号进行对比测听后,按照实验设计方案中规定的标尺对处理后的音频信号进行质量等级划分,从而得到待测音频信号的主观分数。目前通用的主观评价方法主要是由国际电信联盟无线电通信组(ITU-R)颁布的一系列标准,包括适用于中等损伤程度的带隐藏参考和基准的多激励测试(MUSHRA),即ITU-R BS.1534标准,以及适用于小损伤的带隐藏参考的三次听音双盲听评法,即ITU-R BS.1116标准等。在实验设计及人员选择合理的前提下,主观评价可以提供更为可靠的结果。但主观评价方法也有其局限性:其操作往往需要大量的听音人员,并且需要严苛的环境条件,耗时耗力。
鉴于主观评价的诸多困难,人们希望能够有一种方便快捷的客观手段对多声道音频质量进行评价。PEAQ(Perceptual Evaluationof Audio Quality)方法是ITU-R在BS.1387中提出的一种客观音频质量评估方法,也是目前唯一的音频客观评价国际标准。PEAQ通过模拟人耳听觉特性,可以较准确地得到待测音频质量的得分,但在用于计算多声道音频质量时,PEAQ方法的准确度却不尽如人意,即PEAQ方法得出的客观评价评分与主观评价方法得出的评分相关性低。这是由于PEAQ在计算多声道音频质量时,往往将每一个声道分开处理,再将得到的结果取平均值,从而导致声道间信息的缺失。
针对于现存的多声道音频客观评价标准评分与主观得分相关系低的问题,很多研究都致力于改进客观方法在应用于多声道音频场景下的准确度,但客观方法中的模型只设计了一层结构,通过输入待测音频(需要评价的多声道音频信号)和参考音频(原始无失真的多声道音频信号)直接得出客观得分,忽略了中间可能影响整体音质得分的因素。我国授权公开号为CN 102867518 B的专利“3D音频中水平方位参数的编解码性能评价方法”,公开了一种3D音频中水平方位参数的编码性能评价方法,用于评估待测编码后音频的主观感知失真,从而评价编解码器的水平方位参数的主观感知失真,但此方法主要用于评价3D音频中水平方位参数的编码性能,并不适用于经过其他音频处理技术处理的多声道音频。
发明内容
本发明的目的是为了解决现有的多声道音频质量客观评价结果与主观评价得分相关性过低的问题,提供一种基于两层模型的多声道音频质量评价方法,提高了客观评价方法的准确性。
为了实现上述目的,本发明方法的基本思路是:首先待测音频和参考音频经过第一层中的两个模型,即客观基本音质模型和客观空间质量模型,分别计算出客观的基本音质得分和空间质量得分;然后将其作为输入自变量,通过第二层的整体客观模型,最终得到待测音频的整体客观分数。其中,第一层的客观基本音质模型和客观空间质量模型,以及第二层的整体客观模型都是通过主观听音测试结果训练得到的。所用主观听音测试评分方法优选为MUSHRA法或者带隐藏参考的三次听音双盲听评法。在所述的主观听音测试训练中,对训练音频进行评分的指标包括:基本音质(代表多声道音频综合每一路声道信号基础音质的感受)、空间质量(代表多声道音频信号的在空间范围内的扩散和环绕感)以及整体质量(代表多声道音频信号在基本音质和空间质量上的综合感受)。
本发明方法的实施步骤包括:
(a)、将待测音频和参考音频输入到第一层中的客观基本音质模型中,计算得到基本音质得分。
所述的客观基本音质模型是通过主观基本音质得分训练得到的。作为优选的方案是:首先将训练所用的多声道音频信号经过PEAQ算法计算出每一个声道的音质得分,然后利用数据拟合工具将其拟合到对应的主观音质得分,从而得到客观基本音质模型。作为优选,这里的数据拟合工具采用多元线性回归(MLR,Multiple Linear Regression)方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710228454.8/2.html,转载请声明来源钻瓜专利网。