[发明专利]三维音频信号编码方法、装置和编码器在审
申请号: | 202110536631.5 | 申请日: | 2021-05-17 |
公开(公告)号: | CN115376529A | 公开(公告)日: | 2022-11-22 |
发明(设计)人: | 高原;刘帅;王宾;王喆;曲天书;徐佳浩 | 申请(专利权)人: | 华为技术有限公司;北京大学 |
主分类号: | G10L19/008 | 分类号: | G10L19/008 |
代理公司: | 北京中博世达专利商标代理有限公司 11274 | 代理人: | 吴瑜 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 三维 音频 信号 编码 方法 装置 编码器 | ||
本申请公开了一种三维音频信号编码方法、装置和编码器,涉及多媒体领域。该方法包括:编码器根据三维音频信号的当前帧、候选虚拟扬声器集合和投票轮数确定第一数量个虚拟扬声器和第一数量个投票值后,根据第一数量个投票值,从第一数量个虚拟扬声器中选取第二数量个当前帧的代表虚拟扬声器,进而,根据第二数量个当前帧的代表虚拟扬声器对当前帧进行编码,得到码流,达到了高效数据压缩的目的。
技术领域
本申请涉及多媒体领域,尤其涉及一种三维音频信号编码方法、装置和编码器。
背景技术
随着高性能计算机和信号处理技术的飞速发展,收听者对语音、音频体验提出了越来越高的要求,浸入式音频能够满足人们在这方面的需求。例如,三维音频技术在无线通信(例如4G/5G等等)语音、虚拟现实/增强现实和媒体音频等方面得到了广泛应用。三维音频技术是对真实世界中的声音和三维声场信息进行获取、处理、传输和渲染回放的音频技术,使声音具有强烈的空间感、包围感及沉浸感,给收听者以“身临其境”的非凡听觉体验。
通常,采集设备(如:麦克风)采集大量的数据记录三维声场信息,向回放设备(例如扬声器,耳机等)传输三维音频信号,以便于回放设备播放三维音频。由于三维声场信息的数据量较大,导致需要大量的存储空间存储数据,以及传输三维音频信号的带宽需求较高。为了解决上述问题,可以对三维音频信号进行压缩,存储或传输压缩数据。目前,编码器可以采用预先配置的多个虚拟扬声器对三维音频信号进行压缩。但是,编码器对三维音频信号进行压缩编码的计算复杂度较高。因此,如何降低对三维音频信号进行压缩编码的计算复杂度是一个亟待解决的问题。
发明内容
本申请提供了三维音频信号编码方法、装置和编码器,由此可以降低对三维音频信号进行压缩编码的计算复杂度。
第一方面,本申请提供了一种三维音频信号编码方法,该方法可以由编码器执行,具体包括如下步骤:编码器根据三维音频信号的当前帧、候选虚拟扬声器集合和投票轮数确定第一数量个虚拟扬声器和第一数量个投票值后,根据第一数量个投票值,从第一数量个虚拟扬声器中选取第二数量个当前帧的代表虚拟扬声器,进而,根据第二数量个当前帧的代表虚拟扬声器对当前帧进行编码,得到码流。其中,第二数量小于第一数量,表示第二数量个当前帧的代表虚拟扬声器是候选虚拟扬声器集合中的部分虚拟扬声器。可理解的,虚拟扬声器与投票值一一对应。例如,第一数量个虚拟扬声器包括第一虚拟扬声器,第一数量个投票值包括第一虚拟扬声器的投票值,第一虚拟扬声器与第一虚拟扬声器的投票值对应。第一虚拟扬声器的投票值用于表征对当前帧进行编码时使用第一虚拟扬声器的优先级。候选虚拟扬声器集合包括第五数量个虚拟扬声器,第五数量个虚拟扬声器包括第一数量个虚拟扬声器,第一数量小于或等于所述第五数量,投票轮数为大于或等于1的整数,且投票轮数小于或等于第五数量。
目前,在虚拟扬声器搜索过程中,编码器依据待编码的三维音频信号和虚拟扬声器之间的相关计算的结果作为虚拟扬声器的选择衡量指标。而且,若编码器对每一个系数传输一个虚拟扬声器,则无法达到高效数据压缩的目的,会对编码器造成沉重的计算负担。本申请实施例提供的选择虚拟扬声器的方法,编码器利用较少数量的代表系数代替当前帧的全部系数对候选虚拟扬声器集合中每个虚拟扬声器进行投票,依据投票值选取当前帧的代表虚拟扬声器。进而,编码器利用当前帧的代表虚拟扬声器对待编码的三维音频信号进行压缩编码,不仅有效地提升了对三维音频信号进行压缩编码的压缩率,而且降低了编码器搜索虚拟扬声器的计算复杂度,从而降低了对三维音频信号进行压缩编码的计算复杂度以及减轻了编码器的计算负担。
第二数量用于表征编码器选取的当前帧的代表虚拟扬声器的数量。第二数量越大表示当前帧的代表虚拟扬声器的数量越大,三维音频信号的声场信息越多;第二数量越小表示当前帧的代表虚拟扬声器的数量越小,三维音频信号的声场信息越少。因此,可通过设置第二数量控制编码器选取的当前帧的代表虚拟扬声器的数量。例如,第二数量可以是预设的,又如,第二数量可以是根据当前帧确定的。示例地,第二数量的取值可以是1、2、4或8。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司;北京大学,未经华为技术有限公司;北京大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110536631.5/2.html,转载请声明来源钻瓜专利网。