[发明专利]用于处理声音的装置、方法及程序有效
申请号: | 201680034827.1 | 申请日: | 2016-06-09 |
公开(公告)号: | CN107710790B | 公开(公告)日: | 2021-06-22 |
发明(设计)人: | 山本优树;知念彻;辻实 | 申请(专利权)人: | 索尼公司 |
主分类号: | H04S5/02 | 分类号: | H04S5/02;G10L19/008 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 杜诚;王鹏 |
地址: | 日本*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 处理 声音 装置 方法 程序 | ||
本技术涉及能够获取更高质量的声音的用于处理声音的装置、方法和程序。该获取单元获取对象的音频信号和元数据。该向量计算单元基于指示声像的扩展且包括在对象的元数据中的水平方向角和竖直方向角来计算表示指示声像的扩展的区域内的位置的扩展向量。该增益计算单元基于扩展向量通过VBAP来计算每个扬声器的音频信号的VBAP增益。该特征可以应用于声音处理装置。
技术领域
本技术涉及音频处理装置、方法及程序,并且更具体地涉及通过其能够获得更高质量的声音的音频处理装置、方法及程序。
背景技术
通常,作为使用多个扬声器来控制声像的定位的技术,已知VBAP(基于向量的幅值相移)(例如,参考NPL 1)。
在VBAP中,通过从三个扬声器输出声音,声像可以被定位在由这三个扬声器限定的三角形的内侧的一个任意点处。
然而,在现实世界中,认为声像不是定位于一个点处,而是定位于具有一定扩散程度的部分空间中。例如,当从声带产生人声时,认为声音的振动传播到脸部、身体等,因此认为声音是从作为整个人体的部分空间发出的。
作为如上所述将声音定位在这种部分空间中的技术,即,作为延伸声像的技术,通常已知MDAP(多方向幅值相移)(例如,参考NPL 2)。此外,MDAP也用于MPEG-H 3D(运动图像专家组-高质量三维)音频标准的渲染处理单元(例如,参考NPL 3)。
[引用列表]
[非专利文献(NPL)]
[NPL 1]
Ville Pulkki,“Virtual Sound Source Positioning Using VectorBaseAmplitude Panning”,美国电化学协会期刊,第45卷,第6期,第456-466页,1997年
[NPL 2]
Ville-Pulkki,“Uniform Spreading of Amplitude Panned Virtual Sources”,会议记录1999,关于信号处理对于音频和声学的应用的IEEE研讨会,新帕尔茨,纽约,1999年10月17-20日
[NPL 3]
ISO/IEC JTC1/SC29/WG11N14747,2014年8月,札幌,日本,“Text ofISO/IEC23008-3/DIS,3D Audio”
发明内容
[技术问题]
然而,上述技术不能获得足够高质量的声音。
例如,在MPEG-H 3D音频标准中,指示声像的扩散程度的信息(被称为扩展)包括在音频对象的元数据中,并且基于该扩展执行用于延伸声像的处理。然而,在延伸声像的处理中,存在声像的扩散相对于音频对象的位置的中心在上下方向和左右方向上对称的约束。因此,不能执行考虑到来自音频对象的声音的方向性(径向方向)的处理,从而不能获得足够高质量的声音。
鉴于上述情况作出了本技术,使得可以获得更高质量的声音。
[问题的解决方案]
根据本技术的一个方面的音频处理装置包括:获取单元,被配置成获取包括指示音频对象的位置的位置信息和由至少二维或更多维的向量构成并表示声像距该位置的扩散的声像信息的元数据;向量计算单元,被配置成基于表示由声像信息确定的声像的扩散的区域的水平方向角和竖直方向角来计算指示该区域中的位置的扩展向量;以及增益计算单元,被配置成基于扩展向量来计算提供给位于由位置信息指示的位置附近的两个或更多个声音输出单元的音频信号中的每个音频信号的增益。
向量计算单元可以基于水平方向角与竖直方向角之间的比率来计算扩展向量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于索尼公司,未经索尼公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680034827.1/2.html,转载请声明来源钻瓜专利网。