[发明专利]语音活性检测方法、相关装置和设备有效
申请号: | 201711178373.8 | 申请日: | 2017-11-22 |
公开(公告)号: | CN107731223B | 公开(公告)日: | 2022-07-26 |
发明(设计)人: | 刘继忠 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04;G10L25/78 |
代理公司: | 广州三环专利商标代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 活性 检测 方法 相关 装置 设备 | ||
本发明公开了一种语音活性检测方法,包括:接收语音数据;语音数据包括多帧语音信号;计算一帧语音信号的能量以及谱熵;将语音信号的能量开根号,或者将语音信号的谱熵开根号;并根据开根号后的能量或者开根号后的谱熵,计算语音信号的谱熵能量根;在语音信号的谱熵能量根小于第一预设阈值的情况下,判断出语音信号为非语音帧;或者在语音信号的谱熵能量根不小于第一预设阈值的情况下,判断出语音信号为语音帧本发明还公开了一种语音活性检测装置和语音活性检测设备,解决了现有技术基于短时能量和谱熵的方案阀值设置受录音环境影响大,或基于谱熵能量积的方案不能有效的反应语音帧的特性,造成不能准确检测语音段的技术问题。
技术领域
本发明涉及计算机领域,尤其涉及语音活性检测方法、语音活性检测装置和语音活性检测设备。
背景技术
语音识别是一门交叉学科。近二十年来,语音识别技术取得显著进步,开始从实验室走向市场。随着语音识别技术的发展,语音识别技术将进入工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域。
语音活性检测(Voice Activity Detection,VAD)又称语音活动检测、语音端点检测、语音边界检测等等,是用于语音处理的技术,用于检测语音信号是否存在。VAD是语音识别技术的标配。
现有技术中,VAD算法是根据每个语音帧计算出来的特征(例如短时能量,谱熵,谱熵能量积等)与阀值进行比较,从而来判断该语音帧是不是语音帧。然而,基于短时能量和谱熵的方案,其阀值不好设置;不同的设备,不同的录音环境对阀值的影响很大;基于谱熵能量积的方案往往不能有效的反应语音帧的特性,不能准确检测语音段。
发明内容
本发明实施例所要解决的技术问题在于,提供一种语音活性检测方法、一种语音活性检测装置、一种语音活性检测设备以及一种计算机可读存储介质,解决现有技术基于短时能量和谱熵的方案阀值设置受录音环境影响大,或基于谱熵能量积的方案不能有效的反应语音帧的特性,造成不能准确检测语音段的技术问题。
为了解决上述技术问题,本发明实施例第一方面公开了一种语音活性检测方法,包括:
接收语音数据;所述语音数据包括多帧语音信号;
计算一帧语音信号的能量以及谱熵;
将所述语音信号的能量开根号,或者将所述语音信号的谱熵开根号;并根据开根号后的能量或者开根号后的谱熵,计算所述语音信号的谱熵能量根;
在所述语音信号的谱熵能量根小于第一预设阈值的情况下,判断出所述语音信号为非语音帧;或者在所述语音信号的谱熵能量根不小于第一预设阈值的情况下,判断出所述语音信号为语音帧。
本发明实施例第二方面公开了一种语音活性检测装置,包括用于执行上述第一方面的方法的单元。
本发明实施例第三方面公开了一种语音活性检测设备,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储应用程序代码;所述处理器被配置用于调用所述程序代码,执行上述第一方面的方法。
本发明实施例第四方面公开了一种计算机可读存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如上述第一方面的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711178373.8/2.html,转载请声明来源钻瓜专利网。