[发明专利]一种基于先进音频编码器的心理声学模型的处理方法有效

专利信息
申请号: 200710127660.6 申请日: 2007-06-20
公开(公告)号: CN101308659B 公开(公告)日: 2011-11-30
发明(设计)人: 吴晟;邱小军;黎家力;陈强 申请(专利权)人: 中兴通讯股份有限公司
主分类号: G10L19/02 分类号: G10L19/02;G10L19/00
代理公司: 深圳鼎合诚知识产权代理有限公司 44281 代理人: 宋鹰武
地址: 518057 广东省深*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 先进 音频 编码器 心理声学 模型 处理 方法
【说明书】:

技术领域

发明涉及先进音频编码器,具体地说涉及一种基于先进音频编码器 的心理声学模型的处理方法。

背景技术

先进音频编码(Advanced Audio Coding,AAC)属于一种变换域有损 感知音频编码。有损感知音频编码可以获得很高的压缩比,但它的编码误 差(量化噪声)不可避免的较高。为了降低量化噪声的影响,有损感知音 频编码通过研究人耳的心理声学效应来控制编码误差的分布,从而使得由 量化误差产生的噪声难以被察觉。这一过程在有损感知编码里通过心理声 学模型来实现。

心理声学模型控制量化误差的分布利用了人耳的听觉掩蔽现象。掩蔽 现象是一种常见的心理声学现象,它是由人耳对声音的频率分辨机制和时 间分辨机制决定的,指的是在一个较强的声音附近,相对较弱的声音将不 被人耳察觉,即被强音掩蔽,这时的强音称作掩蔽者(Masker),弱音叫被 掩蔽者(Maskee)。掩蔽效应分为同时掩蔽(Simultaneous Masking,SM) 和异时掩蔽(Heterochronous Masking,HM)。同时掩蔽是指掩蔽现象发生 在掩蔽者和被掩蔽者同时存在时,也称作频域掩蔽;异时掩蔽的掩蔽效应 发生在掩蔽者和被掩蔽者不同时存在时,也称作时域掩蔽。异时掩蔽根据 掩蔽者发生的前后顺序又分为前掩蔽(Forward Masking,FM)和后掩蔽 (Backward Masking,BM)。若掩蔽效应发生在掩蔽者开始之前的某个时间, 则为前掩蔽,之后发生则称之为后掩蔽。

传统心理声学模型为编码器提供两个重要的参数,一个是感知熵,它代 表信号考虑人耳的听觉掩蔽效应,去除了人的感知冗余后的信息量的大小, 它可以用来估计编码的比特分配,也可以用以判断编码的块类型;另一个 是编码器阈值,它是每个编码子带最大可容忍噪声,可用以进行量化器的 失真控制。使用传统心理声学模型的AAC编码器一般采用的量化算法是基 于编码器阈值的速率失真控制算法(Rate-Distortion,R-D),这种算法有 双嵌套循环搜索算法(Two Loop Search,TLS),格形框架算法 (Trellis-Based)和级联格形框架算法(Cascaded Trellis-Based),其 中后两种是双嵌套循环搜索算法的衍生。AAC编码器中的量化器是非均匀 的量化器,它的熵编码是变长霍夫曼编码。但因为非均匀量化器的使用, 使得编码器无法根据感知容忍噪声来指定足够优化的编码器参数,并且因 为变长熵编码导致比特消耗数只能通过量化结果计算获得,这些因素使得 传统心理声学模型所提供的参数并不能很好的用以控制信号的量化和编 码,这造成了目前的码率失真控制算法的复杂与低效。

抛弃传统的两层内嵌迭代的比特分配和失真控制算法,利用子带比特 分配比例预测同时完成码率控制和失真控制的码率失真控制,可以得到更 高的计算效率,其编码音质将取决于子带比特分配比例预测的足够优化。 子带比特消耗预测数可由公式:子带比特消耗预测数=子带感知熵×当前 帧可用的比特数/所有子带感知熵和获得。其中,如编码是定比特率编码 (CBR),那么当前帧可用的比特数是一个定值,等于比特率×1024/采样 率;如果是随着使用情况变化,那么就是可变比特率编码(VBR),这种情 况下的当前帧可用的比特数一般由帧间比特控制算法提供。可以看出,子 带比特消耗预测数仅仅是通过归一化的感知熵与当前帧可用比特数的乘积 得到,准确性不高,进而影响到码率失真控制的效率。并且,由于传统心 理声学模型仅考虑了人耳的同时掩蔽效应,忽视了异时掩蔽效应,编码器 不能够利用异时掩蔽来提高编码质量,一旦前掩蔽失效,量化噪声不可掩 蔽而发生预回声时,音质会大幅降低。虽然AAC标准中提供了瞬时噪声整 形(Temporal Noise Shaping,TNS)以削弱预回声的影响,但实际的测试 表明使用该模块会更加恶化音质。

发明内容

本发明就是为了解决上述技术问题,提出了一种基于先进音频编码器 的心理声学模型的处理方法,充分考虑了时域掩蔽和频域掩蔽,从而输出 准确的编码子带比特消耗预测数,提高了编码器进行量化编码的编码质量 和效率。

为了实现上述目的,本发明采用了如下技术方案:

一种基于先进音频编码器的心理声学模型的处理方法,包含如下处理 过程:

A、由待编码码流的心理声学子带谱能量,通过掩蔽扩散矩阵计算获得 编码子带的感知熵和掩蔽阈值;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/200710127660.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top