[发明专利]用于使用扩散分量进行与基于DirAC的空间音频编码有关的编码、解码、场景处理和其他过程的装置、方法和计算机程序在审
申请号: | 201980091648.5 | 申请日: | 2019-12-06 |
公开(公告)号: | CN113439303A | 公开(公告)日: | 2021-09-24 |
发明(设计)人: | 纪尧姆·福克斯;奥利弗·蒂尔加特;斯里坎特·科塞;斯特凡·朵拉;马尔库斯·穆特鲁斯;法比安·库奇;亚历山德拉·博塞翁;安德里亚·艾森瑟;斯特凡·拜耳 | 申请(专利权)人: | 弗劳恩霍夫应用研究促进协会 |
主分类号: | G10L19/008 | 分类号: | G10L19/008;H04S7/00 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋融冰 |
地址: | 德国*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 使用 扩散 分量 进行 基于 dirac 空间 音频 编码 有关 解码 场景 处理 其他 | ||
一种用于从包括一个或多个声道的输入信号产生声场描述的装置,包括用于从输入信号获取扩散性数据的输入信号分析器(600);声音分量发生器(650),用于从输入信号产生第一组声场分量的一个或多个声场分量,对于每一个声场分量,所述第一组声场分量具有直达分量和扩散分量,并且用于从所述输入信号产生第二组声场分量,所述第二组声场分量仅具有直达分量,其中所述声音分量发生器被配置成当产生所述第一组声场分量时执行能量补偿,所述能量补偿取决于所述扩散性数据、以及所述第二组声场分量中的声场分量的数量、所述第一组声场分量中的扩散分量的数量、所述第一组声场分量的声场分量的最大阶和所述第二组声场分量的声场分量的最大阶中的至少一个。
技术领域
本发明涉及音频编码,并且特别涉及使用一个或多个声音分量生成器从输入信号产生声场描述。
背景技术
方向性音频编码(Directional Audio Coding,DirAC)技术(参考文献[1])是一种分析和再现空间声音的有效方法。DirAC使用基于到达方向(direction of arrival,DOA)和针对每频带测量的扩散性的声场的知觉激励表示。它是基于这样的假设,即在一个时刻和在一个关键频带,听觉系统的空间分辨率受限于对用于方向的一个提示和用于耳间连贯性的另一提示进行解码。然后,空间声音通过交叉衰减的两个流在频域中呈现,这两个流是非方向扩散流和方向非扩散流。
DirAC最初用于录制B格式声音,但是也可以延伸用于匹配特定扬声器设置(例如5.1(参考文献[2]))或者任何麦克风阵列的配置(参考文献[5])的麦克风信号。在最新的案例中,通过录制中间格式的信号而不是录制用于特定扬声器设置的信号可以实现更多的灵活性。
已在实际中良好建立的这种中间格式是通过(高阶)球形环绕声(参考文献[3])来呈现的。可以从球形环绕声信号产生每一个期望的扬声器设置的信号,包括用于耳机再现的双耳信号。这要求使用线性球形环绕声渲染器(参考文献[3])或者参数渲染器(例如方向性音频编码(DirAC)),将特定的渲染器(renderer)应用于球形环绕声信号。
球形环绕声信号可以呈现为多声道信号,其中每一个声道(称为球形环绕声分量)等效于所谓的空间基函数的系数。以这些空间基函数的加权和(利用对应于这些系数的权值),可以重建在录制位置中的原始声场(参考文献[3])。因此,空间基函数系数(即,球形环绕声分量)表示录制位置中的声场的紧凑描述。存在有不同类型的空间基函数,例如球形谐波(spherical harmonics,SH)(参考文献[3])或者圆柱谐波(cylindrical harmonics,CH)(参考文献[3])。当描述在2D空间中的声场时(例如,用于2D声音再现),可以使用CH,而SH可以用来描述在2D与3D空间中的声场(例如,用于2D与3D声音再现)。
例如,从特定方向到达的音频信号f(t)产生空间音频信号该空间音频信号可以通过扩展球形谐波直到截断阶H,以球形环绕声格式呈现:
其中是阶l和模m的球形谐波,并且φlm(t)是扩展系数。通过增加截断阶H,该扩展产生更精确的空间表示。在图1a中,针对阶n和模m示出具有球形环绕声声道编号(Ambisonics Channel Numbering,ACN)索引的直到阶H=4的球形谐波。
DirAC已经扩展用于从第一阶球形环绕声信号(first order Ambisonicssignal)(FOA,称为B格式)或者从不同的麦克风阵列递送更高阶的球形环绕声信号(参考文献[5])。这份文件着重于一种更有效率的方法,用于从DirAC参数和参考信号来合成高阶球形环绕声信号。在这份文件中,该参考信号,也称为降混(down-mix)信号,被视为更高阶的球形环绕声信号的子集或者该球形环绕声分量的子集的线性组合。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于弗劳恩霍夫应用研究促进协会,未经弗劳恩霍夫应用研究促进协会许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980091648.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:间歇性监测
- 下一篇:车辆用控制装置及车辆用控制方法