[发明专利]一种基于先进音频编码器的心理声学模型的处理方法有效

申请号：	200710127660.6	申请日：	2007-06-20
公开（公告）号：	CN101308659B	公开（公告）日：	2011-11-30
发明（设计）人：	吴晟;邱小军;黎家力;陈强	申请（专利权）人：	中兴通讯股份有限公司
主分类号：	G10L19/02	分类号：	G10L19/02;G10L19/00
代理公司：	深圳鼎合诚知识产权代理有限公司 44281	代理人：	宋鹰武
地址：	518057 广东省深***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于先进音频编码器心理声学模型处理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明涉及先进音频编码器，具体地说涉及一种基于先进音频编码器的心理声学模型的处理方法。

背景技术

先进音频编码(Advanced Audio Coding，AAC)属于一种变换域有损感知音频编码。有损感知音频编码可以获得很高的压缩比，但它的编码误差(量化噪声)不可避免的较高。为了降低量化噪声的影响，有损感知音频编码通过研究人耳的心理声学效应来控制编码误差的分布，从而使得由量化误差产生的噪声难以被察觉。这一过程在有损感知编码里通过心理声学模型来实现。

心理声学模型控制量化误差的分布利用了人耳的听觉掩蔽现象。掩蔽现象是一种常见的心理声学现象，它是由人耳对声音的频率分辨机制和时间分辨机制决定的，指的是在一个较强的声音附近，相对较弱的声音将不被人耳察觉，即被强音掩蔽，这时的强音称作掩蔽者(Masker)，弱音叫被掩蔽者(Maskee)。掩蔽效应分为同时掩蔽(Simultaneous Masking，SM) 和异时掩蔽(Heterochronous Masking，HM)。同时掩蔽是指掩蔽现象发生在掩蔽者和被掩蔽者同时存在时，也称作频域掩蔽；异时掩蔽的掩蔽效应发生在掩蔽者和被掩蔽者不同时存在时，也称作时域掩蔽。异时掩蔽根据掩蔽者发生的前后顺序又分为前掩蔽(Forward Masking，FM)和后掩蔽 (Backward Masking，BM)。若掩蔽效应发生在掩蔽者开始之前的某个时间，则为前掩蔽，之后发生则称之为后掩蔽。

传统心理声学模型为编码器提供两个重要的参数，一个是感知熵，它代表信号考虑人耳的听觉掩蔽效应，去除了人的感知冗余后的信息量的大小，它可以用来估计编码的比特分配，也可以用以判断编码的块类型；另一个是编码器阈值，它是每个编码子带最大可容忍噪声，可用以进行量化器的失真控制。使用传统心理声学模型的AAC编码器一般采用的量化算法是基于编码器阈值的速率失真控制算法(Rate-Distortion，R-D)，这种算法有双嵌套循环搜索算法(Two Loop Search，TLS)，格形框架算法 (Trellis-Based)和级联格形框架算法(Cascaded Trellis-Based)，其中后两种是双嵌套循环搜索算法的衍生。AAC编码器中的量化器是非均匀的量化器，它的熵编码是变长霍夫曼编码。但因为非均匀量化器的使用，使得编码器无法根据感知容忍噪声来指定足够优化的编码器参数，并且因为变长熵编码导致比特消耗数只能通过量化结果计算获得，这些因素使得传统心理声学模型所提供的参数并不能很好的用以控制信号的量化和编码，这造成了目前的码率失真控制算法的复杂与低效。

抛弃传统的两层内嵌迭代的比特分配和失真控制算法，利用子带比特分配比例预测同时完成码率控制和失真控制的码率失真控制，可以得到更高的计算效率，其编码音质将取决于子带比特分配比例预测的足够优化。子带比特消耗预测数可由公式：子带比特消耗预测数＝子带感知熵×当前帧可用的比特数/所有子带感知熵和获得。其中，如编码是定比特率编码 (CBR)，那么当前帧可用的比特数是一个定值，等于比特率×1024/采样率；如果是随着使用情况变化，那么就是可变比特率编码(VBR)，这种情况下的当前帧可用的比特数一般由帧间比特控制算法提供。可以看出，子带比特消耗预测数仅仅是通过归一化的感知熵与当前帧可用比特数的乘积得到，准确性不高，进而影响到码率失真控制的效率。并且，由于传统心理声学模型仅考虑了人耳的同时掩蔽效应，忽视了异时掩蔽效应，编码器不能够利用异时掩蔽来提高编码质量，一旦前掩蔽失效，量化噪声不可掩蔽而发生预回声时，音质会大幅降低。虽然AAC标准中提供了瞬时噪声整形(Temporal Noise Shaping，TNS)以削弱预回声的影响，但实际的测试表明使用该模块会更加恶化音质。

发明内容

本发明就是为了解决上述技术问题，提出了一种基于先进音频编码器的心理声学模型的处理方法，充分考虑了时域掩蔽和频域掩蔽，从而输出准确的编码子带比特消耗预测数，提高了编码器进行量化编码的编码质量和效率。

为了实现上述目的，本发明采用了如下技术方案：

一种基于先进音频编码器的心理声学模型的处理方法，包含如下处理过程：

A、由待编码码流的心理声学子带谱能量，通过掩蔽扩散矩阵计算获得编码子带的感知熵和掩蔽阈值；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司，未经中兴通讯股份有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/200710127660.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L19-00 用于冗余度下降情形
G10L19-02 .利用频谱分析，例如变换声码器或子频带声码器
G10L19-04 .利用预测技术
G10L19-06 ..例如短期预测系数的频谱特征的确定或编码
G10L19-08 ..激励函数的确定或编码；长期预测参数的确定或编码
G10L19-14 ..不包括在G10L 19/06至G10L 19/12组中的零部件，例如增益编码、后置滤波设计或声码器结构

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于先进音频编码器的心理声学模型的处理方法有效

专利文献下载