[发明专利]一种基于方差和时域峰值的多级音频暂稳态判决方法在审
申请号: | 201710051981.6 | 申请日: | 2017-01-23 |
公开(公告)号: | CN107068155A | 公开(公告)日: | 2017-08-18 |
发明(设计)人: | 张涛;唐伟;丁碧云 | 申请(专利权)人: | 天津大学 |
主分类号: | G10L19/00 | 分类号: | G10L19/00;G10L25/45;G10L25/60;G10L25/69;G10L25/84 |
代理公司: | 天津市北洋有限责任专利代理事务所12201 | 代理人: | 杜文茹 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 方差 时域 峰值 多级 音频 稳态 判决 方法 | ||
技术领域
本发明涉及一种音频暂稳态判决方法。特别是涉及一种基于方差和时域峰值的多级音频暂稳态判决方法。
背景技术
现有的大部分音频编码标准都是基于心理声学模型,利用人耳的掩蔽效应,对原始音频信号进行压缩编码,即所谓的音频感知编码。如世界范围内广泛使用的AC-3、AAC、MPEG-2以及拥有我国自主知识产权的AVS和DRA。在目前主流的音频编码标准中,一般采用窗函数的方法对信号进行处理,通过窗函数将信号分成一个一个的数据块,然后对每个数据块单独进行处理,通过量化、熵编码,形成最终的输出比特流。
在基于分块的音频编码技术中,预回声一直是很难解决的问题。预回声产生的根本原因在于音频信号中存在的暂态信息,当它从时域变换到频域后,会存在大量的高频分量,在输出码率一定的情况下,必然会产生量化噪声,量化噪声经反变换到时域后会扩散,由于声音的前向掩蔽的作用时间非常短,将有部分噪声不能被掩蔽掉,往往造成在低能量采样段出现人耳能明显感知的噪声,从而严重影响信号的音质。
随着生活水平逐渐提高,人们对于数字音视频的要求也在不断的提高,而在预回声的产生在解码时表现为在人耳可识别的嚓嚓声,严重影响整个信号的音质,这与人们对声音质量不断提高的需求是完全相反的,因而难以被接受。另一方面,新的音频标准对于音频信号细节的描述也更加明显,这就要求更加精确的算法来区分信号的暂稳态。研究能够准确区分暂态、稳态信号,并且能够准确确定暂态位置与强度的算法,对于整个音频信号的编码过程具有十分重要的意义。
解决预回声的方法之一就是自适应窗切换技术,也就是在编码前对音频信号进行判决,对于不同类型的信号采用不同的窗函数。对于自适应窗切换技术,能够准确地检测瞬态信号是前提。所以能够准确区分暂态、稳态信号,并且能够准确确定暂态位置与强度的方法是十分有意义的。
在MPEG中采用了基于感知熵的瞬态信号检测方法,该方法的原理如下:如果信号是暂态的,变换后的频谱中就会包含有大量的高频分量。高频分量会导致信号的感知熵值增大。当感知熵的值大于一个阈值(MPEG系列中参考值为1800)时,就可以判定当前帧中包含了暂态分量,属于瞬态帧。
AVS编码标准采用了基于时域能量和频域不可预测度的暂稳态检测算法对音频信号进行瞬态特性检测。该算法采用了时域能量和频域不可预测性作为判决指标。
目前的暂稳态判决方法都存在着不足之处:基于感知熵的瞬态信号检测结果中会存在较多的冗余判决;其次,它的算法复杂,编码效率低;基于时域能量和频域不可预测度的暂稳态判决方法存在着较高能量的前一帧信号会影响下一帧信号的准确检测的问题,造成误检。
发明内容
本发明所要解决的技术问题是,提供一种可以避免检测能量较低的信号,提高检测准确率的基于方差和时域峰值的多级音频暂稳态判决方法。
本发明所采用的技术方案是:一种基于方差和时域峰值的多级音频暂稳态判决方法,包括如下步骤:
1)对原始音频信号以1024个采样点为单位进行分帧;
2)对每帧信号分别计算均值和方差,并与已设定的方差阈值进行比较,方差小于等于所述方差阈值的信号帧,则设定所述信号帧的判决标志为1,输出稳态帧标志,否则进入下一步骤;
3)对方差大于所述方差阈值的信号帧,采用峰值检测算法进行判定;
4)对峰值检测算法的判定结果进行判决,如果判决标志为1,则输出稳态帧标志,如果判决标志为0,则输出暂态帧标志。
2.根据权利要求1所述的一种基于方差和时域峰值的多级音频暂稳态判决方法,其特征在于,步骤3)包括:
(1)对每一帧信号的1024个采样点,按照长度为256个采样点进行第一级块分割,得到4个数据块;
(2)分别计算每个数据块的最大峰值,并与已设定的安静阈值进行比较,如果所有数据块的最大峰值都小于等于所述安静阈值,则设定所述数据块对应的信号帧的判决标志为1,否则进入下一步骤;
(3)对同一帧信号按照长度为128个采样点进行第二级块分割,得到8个数据块;
(4)分别计算8个数据块之间的最大峰值变化率,并与已设定的最大峰值变化率第一阈值进行比较,如果所有数据块的最大峰值变化率都小于等于所述最大峰值变化率第一阈值,则设定所述数据块对应的信号帧的判决标志为1,否则进入下一步骤;
(5)对同一帧信号按照长度为64个采样点进行第三级块分割,得到16个数据块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710051981.6/2.html,转载请声明来源钻瓜专利网。