[发明专利]具备背景噪声再现的语音编码无效
申请号: | 99810944.4 | 申请日: | 1999-09-10 |
公开(公告)号: | CN1318187A | 公开(公告)日: | 2001-10-17 |
发明(设计)人: | I·约翰松;J·斯维德贝里;A·乌夫利登 | 申请(专利权)人: | 艾利森电话股份有限公司 |
主分类号: | G10L19/00 | 分类号: | G10L19/00;G10L19/14 |
代理公司: | 中国专利代理(香港)有限公司 | 代理人: | 陈霁,李亚非 |
地址: | 瑞典斯*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 具备 背景 噪声 再现 语音 编码 | ||
本发明通常涉及语音编码,特别的,涉及语音编码中背景噪声的再现。
在线性预测型语音编码器,如码激励线性预测(CELP)语音编码器中,流入的原始语音信号通常被划分成称为帧的块。典型的帧长度为20毫秒或160个样本,其帧长度通常用于,例如,传统的电话频带蜂窝应用中。这些帧通常被进一步划分成子帧,这些子帧长度通常为5毫秒或40个样本。
在如上面提到的传统语音编码器中,描述声道,音调和其它特征的参数在语音编码过程中从原始语音信号中提取出来。变化很慢的参数在帧-帧的基础上计算。这种较慢变化的参数的例子包括所谓的短时预测(STP)参数,该参数描述声道信息。STP参数定义了线性预测语音编码器中合成滤波器的滤波器系数。变化很快的参数,例如,音调,以及新的形状和新的增益参数通常为每个子帧计算。
在参数被计算之后,它们被量化。STP参数常常转换为更适于量化的表示形式,例如,线谱频率(LSF)表示。在该技术领域将STP参数转换成LSF表示也是众所周知的。
一旦参数被量化,在参数信息交叉存取和调制之前,误差控制编码和校验和信息被加入其中。然后,参数信息通过通信信道传送给接收机,在此,语音解码器基本上执行上面描述的语音编码过程的反过程以便合成非常近似原始语音信号的语音信号。在语音解码器中,通常对合成语音信号进行后滤波以增强信号的感知质量。
使用线性预测模型例如CELP模型的语音编码器一般很好地适用于语音编码,因此,在这种编码器中,非语音信号如背景噪声的合成或再现常常很差。在很差的信道条件下,例如,当量化参数信息被信道误差扭曲时,背景噪声的再现恶化的更厉害。即使在清晰的信道条件下,背景噪声通常被接收机处的听者感知为波动而不稳定的噪声。在CELP编码器中,这个问题的原因主要是均方误差(MSE)准则,该准则通常在通过合成分析环与目标信号和合成信号之间很差的相关组合中使用。在很差的信道条件下,如上面提到的,该问题甚至更糟,因为,背景噪声电平波动的很大。听者会感觉非常吵,因为背景噪声被期望变化的很慢。
在清晰和吵闹的信道条件下,都能改进背景噪声感知质量的一个方法可以包括使用声音活动检测器(VADs),该检测器做出关于正在编码的信号是语音或非语音的硬判断(例如是或非)。基于该硬判断,不同的处理技术可以应用于解码器。例如,如果判断是非语音,那麽解码器会假设信号是背景噪声,并且可以平滑背景噪声中的频谱变化。然而,该硬判断技术的不利之处是允许听者听到的语音处理操作和非语音处理操作之间的解码器切换。
除了前面提到的问题,在较低的比特率下(例如低于8kb/s),背景噪声的再现甚至恶化的更厉害。在很低的比特率下以及很坏的信道条件下,背景噪声常常被听作波动效果,该效果是解码背景噪声电平的不自然变化造成的。
因此,理想的是,在线性预测语音解码器如CELP解码器中再现背景噪声,同时避免前面提到的不期望的背景噪声的听者感知效果。
本发明给出背景噪声的改善的再现。解码器能够逐渐的(即平缓的)增加或降低对正在重构的信号所施加的能量包络平滑。这样,背景噪声再现的问题可以通过平滑能量包络解决,而不会感知到能量包络平滑操作的使能/禁止。
附图简要描述
图1给出传统线性预测语音编码器的有关部分。
图2给出根据本发明线性预测语音编码器的有关部分。
图3详细描述图2的修正装置。
图4以流程图的形式说明了可以由图2和图3的语音解码器执行的示例操作。
图5给出根据本发明的通讯系统。
图6给出根据本发明的混合因子和平稳性测量值之间的图形关系。
图7详细给出图2和图3的语音重构装置的一部分。
详细描述
示例图1给出传统线性预测语音解码器如CELP解码器的有关部分,这将有利于对本发明的理解。在图1的传统解码器部分,参数确定装置11从语音编码器接收(通过没有给出的传统通讯信道)一些表示参数的信息,这些参数可以被解码器用来尽可能好的重构原始语音信号。根据编码器信息,参数确定装置11为当前帧或子帧确定能量参数和其它参数。在图1中,能量参数被表示为EnPar(i),其它参数(在13表示)表示为OtherPar(i),I为当前子帧(或帧)的子帧(或帧)的索引。这些参数被输入到语音重构装置15,该重构装置根据能量参数和其它参数合成或重构原始语音,背景噪声的近似值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于艾利森电话股份有限公司,未经艾利森电话股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/99810944.4/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种十一肽及其制备方法和用途
- 下一篇:彩色显像管