[发明专利]声音判断装置及声音判断方法有效
申请号: | 201110375314.6 | 申请日: | 2011-11-23 |
公开(公告)号: | CN102479504A | 公开(公告)日: | 2012-05-30 |
发明(设计)人: | 山边孝朗 | 申请(专利权)人: | JVC建伍株式会社 |
主分类号: | G10L11/00 | 分类号: | G10L11/00 |
代理公司: | 中原信达知识产权代理有限责任公司 11219 | 代理人: | 谢丽娜;关兆辉 |
地址: | 日本神*** | 国省代码: | 日本;JP |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 声音 判断 装置 方法 | ||
技术领域
本发明涉及一种检测输入信号的声音区间的声音判断装置及声音判断方法。
背景技术
在作为收录声音而生成的信号的输入信号中,存在含有声音的声音区间、及因会话间隙、喘息等而不含有声音的非声音区间。例如在声音识别装置中,通过确定声音区间和非声音区间,来实现声音识别率的提高、及声音识别处理的高效化。并且,在利用了移动电话、无线设备等的移动体通信中,通过在声音区间和非声音区间切换输入信号的编码处理,可保持音质的同时,提高压缩率、传送效率。在该移动体通信中,因要求实时性,所以希望抑制声音区间的判断处理造成的声音的延迟。
作为抑制这种延迟的声音区间的判断处理,例如提出了以下方案:通过表示输入信号的帧的频率分布的平坦程度的数值是否为阈值以上,来检测声音区间(例如专利文献1),或对输入信号的帧使用倒频谱法,导出作为表示含有最多泛音成分的基波的信息的谐波信息,通过该谐波信息、及表示该帧的能量是否为阈值以上的功率信息是否分别具有声音的特征,来检测出声音区间(例如专利文献2)。
专利文献1:特开2004-272052号公报
专利文献2:特开2009-294537号公报
发明内容
但是,上述专利文献1、2等现有的声音区间的检测技术在噪声较小的环境下有效,但当噪声变大时,输入信号的帧的频率分布的平坦性(峰值的频率)、音高(pitch)等声音性质埋没于噪声中,易产生声音区间的误测。
并且,倒频谱法需要进行二次傅立叶变换,频率区域上的处理负荷较高,耗电变大。因此,特别在移动体通信这样以蓄电池驱动为前提的情况下,当使用倒频谱法时,为对应耗电,需要增大蓄电池的容量,会导致高成本化、大型化。
因此,本发明鉴于该课题,其目的在于提供一种无论噪声等级大小均可测出输入信号的声音区间的、声音判断装置及声音判断方法。
为解决上述课题,本发明的声音判断装置的特征在于具有:帧化部,以具有预先确定的时长的帧单位截取输入信号,生成帧化输入信号;频谱生成部,将上述帧化输入信号从时间区域变换为频率区域,生成集中了每个频率的频谱的频谱图;峰值检测部,判断上述频谱图的各频谱与多个分割频带中含有频谱的分割频带中的各频带能量之间的能量比是否超过预先确定的第1阈值,其中上述多个分割频带是通过预先确定的带宽分割的频带;声音判断部,根据上述峰值检测部的判断结果,判断上述帧化输入信号是否是声音;频率平均部,导出上述频谱图的各分割频带中的频谱的频率方向的平均能量;以及时间平均部,按照每个上述分割频带,分别导出上述各频带能量,即上述平均能量的时间方向的平均。
声音判断部,也可以在能量比超过第1阈值的频谱为预先确定的个数以上时,判断帧化输入信号是声音。
时间平均部,也可以基于将包括能量比超过第1阈值的频谱的分割频带的平均能量、或包括能量比超过第1阈值的频谱的帧化输入信号的所有分割频带的平均能量乘以1以下的调整值而得到的能量,按照每个分割频带,导出各频带能量。
频率平均部,也可以排除能量比超过第1阈值的频谱、或排除能量比超过第1阈值的频谱及与频谱相邻的频谱,导出平均能量。
时间平均部,也可以将包括能量比超过第1阈值的频谱的分割频带的平均能量、或包括能量比超过第1阈值的频谱的帧化输入信号的所有分割频带的平均能量,不反映到时间方向的平均中。
也可以设置用于判断是否将平均能量反映到时间方向的平均中的、与第1阈值不同的第2阈值,时间平均部,将包括能量比超过第2阈值的频谱的分割频带的平均能量、或包括能量比超过第2阈值的频谱的帧化输入信号的所有分割频带的平均能量,不反映到时间方向的平均中。
频谱生成部也可以至少生成200Hz到700Hz的频谱图。
预先确定的带宽也可以是100Hz到150Hz的带宽。
为解决上述课题,本发明的声音判断方法的特征在于,以具有预先确定的时长的帧单位截取输入信号,生成帧化输入信号,将帧化输入信号从时间区域变换为频率区域,生成集中了每个频率的频谱的频谱图,在频谱图的各频谱与多个分割频带中含有频谱的分割频带中的各频带能量之间的能量比超过了预先确定的第1阈值时,判断上述帧化输入信号是声音,其中上述多个分割频带通过预先确定的带宽分割的频带,导出频谱图的各分割频带中的频谱的频率方向的平均能量,按照每个分割频带,分别导出各频带能量,即平均能量的时间方向的平均。
如上所述,在本发明中,无论噪声等级大小均可测出输入信号的声音区间。
附图说明
图1是表示声音的时间波形图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于JVC建伍株式会社,未经JVC建伍株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201110375314.6/2.html,转载请声明来源钻瓜专利网。