[发明专利]改进时域编码与频域编码之间的分类有效
申请号: | 201811099395.X | 申请日: | 2015-07-23 |
公开(公告)号: | CN109545236B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 高扬 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | G10L19/125 | 分类号: | G10L19/125;G10L19/22 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 改进 时域 编码 之间 分类 | ||
一种改进时域编码与频域编码之间的分类的方法,用于在对包括音频数据的数字信号进行编码之前处理语音信号,该方法包括:基于将用于对所述数字信号进行编码的编码比特率和所述数字信号的短基音周期检测来选择频域编码或时域编码。
技术领域
本发明大体上涉及信号编码领域。具体而言,本发明涉及改进时域编码与频域编码之间的分类的领域。
背景技术
语音编码是指一种降低语音文件的比特率的过程。语音编码是一种对包含语音的数字音频信号进行数据压缩的应用。语音编码通过使用音频信号处理技术使用特定语音参数估计来建模语音信号,结合通用数据压缩算法以小型比特流表示所得的建模参数。语音编码的目的是:通过减少每个样本的比特数来实现所需内存存储空间、传输带宽和传输功率的节省,使得在感知上难以区分已解码(已压缩)语音和原始语音。
然而,语音编码器是有损编码器,即,已解码信号不同于原始信号。因此,语音编码中的其中一个目标是:在给定比特率下使失真(或可感知的损失)最小化,或者使比特率最小化以达到给定的失真。
语音编码与音频编码的不同之处在于语音比多数其它音频信号简单地多,而且关于语音属性的统计信息更多。因此,与音频编码相关的一些听觉信息在语音编码上下文中可以是不必要的。在语音编码中,最重要的标准是语音的可懂度和“愉悦度”,该语音具有限量的传输数据。
语音的可懂度除了包括实际文字内容,还包括说话者标识、情绪、语调、音色,所有这些对于完美可懂度都很重要。恶化语音的愉悦度这个较抽象概念是一个不同于可懂度的属性,因为恶化语音有可能是完全可懂的,但是主观上却不能愉悦听众。
传统上,所有参数语音编码方法利用语音信号内在的冗余度来减少必须发送的信息量以及在短的间隔内估计信号的语音样本的参数。这种冗余主要来自语音波形以准周期性速率重复,以及语音信号的缓慢变化的频谱包络。
可以参考若干不同类型的语音信号,例如浊音和清音信号,来考虑语音波形的冗余。浊音,例如‘a’、‘b’基本上是由于声带的振动,而且是振荡的。因此,在短时间内,它们通过正弦等周期性信号的和来很好地建模。换言之,浊音语音信号基本上是周期性的。然而,这种周期性在语音片段的持续时间内可能是变化的,而且周期性波的形状通常逐片段变化。这种周期性研究可大大有利于低比特率语音编码。这种周期性研究可大大有利于时域语音编码。浊音周期还被称为基音,基音预测通常被称为长期预测(Long-TermPrediction,LTP)。相比之下,‘s’、‘sh’等清音更似噪声。这是因为清音语音信号更像一种随机噪声,并且可预测性较小。
在任一情况下,参数编码可以用于通过将语音信号的激励分量与以较低速率发生变化的频谱包络分量分离来减少语音片段的冗余,。缓慢变化的频谱包络可以通过线性预测编码(Linear Prediction Coding,LPC),也称为短期预测(Short-Term Prediction,STP)来表示。这种短期预测研究也可大大有利于低比特率语音编码。编码优点来自于参数变化时的低速率。然而,这些参数在几毫秒内保持的值明显不同是很少见的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811099395.X/2.html,转载请声明来源钻瓜专利网。