[发明专利]一种实时语音端点检测方法及装置有效
申请号: | 201811491292.8 | 申请日: | 2018-12-07 |
公开(公告)号: | CN109545188B | 公开(公告)日: | 2021-07-09 |
发明(设计)人: | 张虎 | 申请(专利权)人: | 深圳市友杰智新科技有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L25/03;G10L25/21;G10L25/51;G10L25/78 |
代理公司: | 深圳市深可信专利代理有限公司 44599 | 代理人: | 刘昌刚 |
地址: | 518000 广东省深圳市南山区招商*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及语音技术领域,具体地说,涉及一种实时语音端点检测方法及装置,方法包括以下步骤:信号分帧、加重;去脉冲处理;去除直流成分;计算每帧信号的短时能量和过零率;加窗处理;减谱处理;计算谱熵;计算变换平滑谱熵;语音帧和噪声帧初步判断;变换平滑谱熵与阈值的处理;语音段起始帧、结束帧判断;本发明根据信号是根据何种条件判断出来以及判断的结果,加权更新减谱阈值、变换平滑谱熵、相应的短时能量、相应的短时平均能量、减谱功率谱等参数的阈值,以使各阈值越来越准确,最终判断出的语音起始帧、结束帧也越来越准确;本发明能高效、准确地实时检测语音。 | ||
搜索关键词: | 一种 实时 语音 端点 检测 方法 装置 | ||
【主权项】:
1.一种实时语音端点检测方法,其特征在于:包括以下步骤:一、信号分帧、加重;二、去脉冲处理;三、去除直流成分;四、计算每帧信号的短时能量和过零率;五、加窗处理;六、减谱处理;七、计算谱熵,将功率谱的一半频带,取一个有效频带,将有效频带的功率谱按照设定数目的频点作为一个子带,平均分成若干个子带,设每个子带频点数为Np,则子带个数为:floor(Nvald/Np);其中,floor函数表示向下取整,Nvald/Np表示有效频带频点数除以子带频点数;设结果是Nb个;计算每个子带的功率值占总功率的概率,设为p;根据这些子带的功率谱概率,自适应重新划分子带,调整子带的频点个数和频带个数,得到自适应划分子带的谱熵值;谱熵的计算公式为;
其中,SP为谱熵,m为子带个数,p(i)为第i个子带概率;八、计算变换平滑谱熵,先做一定的平滑处理,平滑处理后,平滑谱熵取相反数后平移,得到一个新的参数,将取值区间映射为合适的值,并且使语音帧的参数值比较大,噪声帧的参数值比较小,新的参数为变换平滑谱熵;设平滑谱熵为SPm,平移值设为n,变换平滑谱熵为SPt,则计算公式为:SPt=‑SPm+n;九、语音帧和噪声帧初步判断:根据当前帧的短时能量是否超过设置的语音帧能量阈值以及其过零率是否在设置阈值范围内,若是,初步判断当前帧是语音帧,若否,则是噪声帧;A、若是语音帧,则再分析判断其谐波特性以及高频段的功率谱特性:1)谐波特性分析:a、考查当前帧的功率谱,在前述有效频带内搜寻前8个有效峰值位置;b、根据这些峰值的位置,即对应频点序号,判断这些位置之间是否存在近似谐波倍数关系,第一个峰值位置是基频位置,判断后面每个位置是否对其有近似2倍、3倍、4倍、5倍、6倍、7倍和8倍关系,近似关系可以通过设置一个浮动区间实现,如果有则计有一个谐波,计算出这一帧信号的谐波个数;c、对谐波个数设置阈值,当谐波个数超过阈值即满足要求,继续分析高频段特性;2)高频段特性分析:取当前帧的一定频点以后的功率谱,求其峰值,和基频信号功率值的一定比例做比较,若峰值大,则认为此帧不是语音帧,否则认为是语音帧;3)当前帧通过上述谐波特性和高频段功率谱特性判断后,如果是语音帧,则用其变换平滑谱熵来更新当前变换平滑谱熵阈值,更新方式是通过加权因子处理,并用当前帧的能量更新当前语音帧能量阈值,同样是加权因子方式得到,利用加权因子更新当前阈值的表达式如下:设更新因子为a,当前阈值为Th,用来更新的变量值为x,则更新后的阈值为:Th=(1‑a)*Th+a*x;如果不是语音帧,则也通过当前帧的变换平滑谱熵更新当前变换平滑谱熵阈值,采用不同的加权因子;同时也用当前帧的能量更新当前噪声帧能量阈值,同样采用加权因子更新;B、若是噪声帧,则同样采用不同的加权因子更新当前变换平滑谱熵阈值,以及更新当前减谱去噪的功率谱阈值、当前噪声帧能量阈值;十、计算当前帧的变换平滑谱熵和调整当前变换平滑谱熵阈值、当前语音帧能量阈值以及当前噪声帧能量阈值后,根据当前帧的变换平滑谱熵和当前变换平滑谱熵阈值之间的关系,对变换平滑谱熵阈值进行处理,即,若当前帧变换平滑谱熵值大于一定值,且减去当前变换平滑谱熵阈值的差值大于一定值,则判定当前变换平滑谱熵阈值过小,采用当前帧变换平滑谱熵值加权更新当前变换平滑谱熵阈值;反之,若当前帧变换平滑谱熵值小于一定值,且当前变换平滑谱熵阈值减去当前帧变换平滑谱熵值的差值大于一定值,则判定当前变换平滑谱熵阈值过大,采用当前帧变换平滑谱熵值加权更新当前变换平滑谱熵阈值;十一、语音段起始帧、结束帧判断:1)以帧号为顺序,设置搜寻标志,交替搜寻起始帧和结束帧;2)判断起始帧:a、初步判定语音段起始帧:以当前帧和之前一定数目的帧为一段,将这一段的变换平滑谱熵和当前变换平滑谱熵阈值比较,若大于阈值的帧数达到一定数目,则初步判定当前帧为语音段起始帧,进行步骤b;若没达到一定数目,从下一帧信号继续判断;b、第二次判断:对当前帧的其他特性进行判断,所述其他特性为谱熵、短时能量、过零率、谐波特性和特定噪声特性;若当前帧不满足所述其他特性阈值要求,则判定当前帧为不是语音起始帧,从下一帧信号继续判断;若当前帧满足所述其他特性阈值要求,则进行步骤c;c、第三次判断:在当前帧及向前推一定帧的帧段内,统计谱熵值小于阈值的帧数、具备谐波特性的帧数、过零率在阈值范围内的帧数和具备特定噪声特性的帧数,对所有这些帧数设定一些阈值,当任意一个帧数不满足这些阈值时,或者当上述帧段内平均能量均值小于起始帧段平均能量阈值,则排除当前帧是语音起始帧,即判断为非语音帧,从下一帧信号继续判断;反之则为语音段起始帧,并进行步骤d;d、用当前帧的变换平滑谱熵值再次更新当前变换平滑谱熵阈值,用当前帧的能量再次更新当前语音帧能量阈值,用当前帧之前一定帧段内的平均能量更新当前起始帧段平均能量阈值;3)若经过上述2)的判断,任何一步判断出当前帧不是语音帧,则采用当前帧的功率谱加权更新当前减谱阈值,用当前帧的能量值加权更新当前噪声帧能量阈值以及语音帧能量阈值;4)判断结束帧:搜寻到起始帧后,设置间隔一定的帧数之后才开始搜寻结束帧,这个间隔为最小语音段长度;当检测出语音起始帧后,进入的帧数累计超过最小语音段长度的帧数,即开始判断结束帧,方法为:考查当前帧向前推一定帧数的帧段,统计变换平滑谱熵值小于阈值的帧数、谱熵值大于阈值的帧数、无谐波特性的帧数、过零率不在阈值范围内的帧数和有特定噪声特性的帧数,对这些帧数设置阈值,若任意一个帧数超过阈值,或者这一帧段的平均能量小于结束帧段平均能量阈值,则判定当前帧为结束帧;将搜寻标志设置成搜寻起始帧标志,从下一帧起开始判断起始帧;如果当前帧对于上个起始帧已经过去一定帧数,可设置一个较长帧数,在这个较长的帧段内,将每一帧的变换平滑谱熵值、短时能量值、每一帧的对应的变换平滑谱熵阈值和语音帧能量阈值都保存,则在这个较长的时间段内进行判断,若变换平滑谱熵值比阈值小的帧数太多或者太少,则认为是谱熵阈值自适应调整方式已经不适合,这时应给出结束帧,将阈值参数设置成初始值;若这一帧段的谱熵和变换平滑谱熵值参数都符合阈值,但是平均能量异常,这时也给出结束帧,将阈值参数设置成初始值;若时间太久,可设置一个最长语音段,超过这个时间直接给出结束帧;5)若经过4)对当前帧进行结束帧判断,判断出不是结束帧,即当前帧仍是语音帧,则根据当前帧的变换平滑谱熵值加权更新当前变换平滑谱熵阈值,利用当前帧的能量值更新当前语音帧能量阈值,以及利用当前帧之前一定帧段的平均能量更新结束帧段平均能量阈值;若判断出是结束帧,则可以根据不同的情况,加权更新变换平滑谱熵阈值、噪声帧能量阈值、减谱功率谱阈值以及结束帧段平均能量阈值。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市友杰智新科技有限公司,未经深圳市友杰智新科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201811491292.8/,转载请声明来源钻瓜专利网。
- 上一篇:一种显示控制方法及终端
- 下一篇:一种基于机器学习的口语发音检错与纠正系统