[发明专利]一种语音检测的方法及其装置有效
申请号: | 202010339292.7 | 申请日: | 2020-04-26 |
公开(公告)号: | CN111613243B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 关海欣 | 申请(专利权)人: | 云知声智能科技股份有限公司;厦门云知芯智能科技有限公司 |
主分类号: | G10L25/51 | 分类号: | G10L25/51;G10L25/60;G10L25/84 |
代理公司: | 北京冠和权律师事务所 11399 | 代理人: | 陈国军 |
地址: | 100000 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 检测 方法 及其 装置 | ||
本发明提供了一种语音检测的方法及其装置。获取语音数据,并导入训练好的深度学习模型,预测语音数据的时频掩蔽值;其中,所述时频掩蔽值包括时间序列表征和频带表征;根据所述频带表征,对所述语音数据的掩蔽值进行降采样,确定谐波乘积谱;根据所述谐波乘积谱的峰值和位置判定所述语音和噪音。本发明的有益效果在于:本发明基于深度学习技术,预测语音信号时频点的掩蔽值时,利用掩蔽值根据语音特有的谐波结构(基频的二次谐波、三次谐波等位置会出现峰值)计算多阶函数的谐波乘积谱,即利用了深度学习良好的数据建模能力,又结合了语音的结构信息,可有效提高语音检测的性能。
技术领域
本发明涉及语音检测技术领域,特别涉及一种语音检测的方法及其装置。
背景技术
现有技术中,语音检测是指检测出语音信号中的语音起止点信息,标志出噪声与信号区间,在语音交互中具有十分重要的意义,可以有效的减少误唤醒和误识别,同时大幅降低语音交互系统计算量。近场、安静或平稳噪声的环境下,语音检测性能已经比较理想,但在远场、非平稳噪声环境下语音检测性能急剧下降,基于深度学习的语音检测技术发展后,非平稳噪声下语音检测性能有所改善,但依然没有彻底解决该问题,其本质上来说深度学习虽然拥有强大的建模能力,但没有合理利用语音中有效的先验结构信息,比如语音所具备的谐波结构信息,在传统的语音信号处理中使用谐波乘积谱可以在较强噪声下将语音和噪声区分开,但谐波乘积谱也有其缺点,就是各个频带能量不均衡,造成阈值划定困难,不同场景泛化能力不足。
发明内容
本发明提供语音检测的方法及其装置,用以解决语音检测不准确的情况。
一种语音检测的方法,其特征在于,包括:
获取语音数据,并导入训练好的深度学习模型,预测语音数据的时频掩蔽值;其中,
所述时频掩蔽值包括时间序列表征和频带表征;
根据所时频掩蔽值述频带表征,对所述语音数据的掩蔽值进行降采样,确定谐波乘积谱;
根据所述谐波乘积谱峰值和峰值分布,判断所述语音数据为语音或噪音。
作为本发明的一种实施例:所述获取语音数据,并导入训练好的深度学习模型,预测语音数据的时频掩蔽值,包括:
预设干净语音数据库和噪声数据库;
根据所述噪声数据库,对所述干净语音数据库进行加噪处理,生成带噪语音;
通过分帧、加窗、STFT计算带噪语音幅度谱|Y|和对应干净语音频谱|S|,并计算出对应的掩膜M=|S|/|Y|;
根据所述带噪语音幅度谱|Y|,提取所述带噪语音的的语音特征;
将所述带噪语音的语音特征和掩膜带入深度学习网络得到网络模型;
获取所述语音数据,并通过分帧、加窗、STFT计算语音数据的幅度谱特征并导入网络模型的神经网络计算得到时频掩蔽值。
作为本发明的一种实施例:所述根据所述时频掩蔽值,对所述语音数据的掩蔽值进行降采样,确定谐波乘积谱,包括:
通过所述频带表征,将所述语音数据的进行分帧;
获取分帧后语音数据的掩蔽值;
对所述分帧后语音数据的每一帧语音数据的掩蔽值进行降采样,得到降采样后的序列;
根据所述每一帧语音数据的掩蔽值的序列,计算所述语音数据的谐波乘积谱;其中,
当所述掩蔽值的序列为n时,所述谐波乘积谱如下式:
Y(k)=X(k)*X2(k)*……Xn(k);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司;厦门云知芯智能科技有限公司,未经云知声智能科技股份有限公司;厦门云知芯智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010339292.7/2.html,转载请声明来源钻瓜专利网。
- 上一篇:柔性机壳与电子设备
- 下一篇:界面展示方法、界面展示装置及存储介质