[发明专利]语音检测的方法和装置有效
申请号: | 201880000470.4 | 申请日: | 2018-03-26 |
公开(公告)号: | CN110537223B | 公开(公告)日: | 2022-07-05 |
发明(设计)人: | 郭红敬;李国梁;王鑫山;杨柯;朱虎 | 申请(专利权)人: | 深圳市汇顶科技股份有限公司 |
主分类号: | G10L25/78 | 分类号: | G10L25/78 |
代理公司: | 北京龙双利达知识产权代理有限公司 11329 | 代理人: | 孙涛;毛威 |
地址: | 518045 广东省深*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 检测 方法 装置 | ||
一种语音检测的方法和装置,该方法包括:确定待处理数据中的第一数据块的N个分组中的每个分组的能量,其中,N为正整数(S110);根据N个分组的能量,确定初始的候选噪声集合和初始的候选语音集合,其中,初始的候选噪声集合中的分组的最大能量小于初始的候选语音集合中的分组的最小能量(S120);根据初始的候选噪声集合中的每个分组的能量,确定初始的噪声门限(S130);根据初始的候选语音集合以及初始的噪声门限,确定第一次迭代处理的候选噪声集合和第一次迭代处理的候选语音集合,其中,第一次迭代处理的候选噪声集合中的分组的能量均小于或等于初始的噪声门限,第一次迭代处理的候选语音集合中的分组的能量均大于初始的噪声门限(S140)。
技术领域
本申请涉及语音检测领域,并且更具体地,涉及一种语音检测的方法和装置。
背景技术
随着移动物联网技术、人机交互技术、人工智能等技术的快速发展,各种类型的智能音响、智能穿戴设备、语音助手产品层出不穷,人们对语音质量、产品体验的要求也越来越高,这同时也给语音识别、语音增强、语音交互的要求提出巨大的挑战。
语音活动性检测(Voice Activity Detection,VAD),也称为语音端点检测,通常是根据语音和噪声的特征不同,在复杂噪声背景环境下,从连续音频信号中检测出实际语音片段的起始点和终止点,从而提取出有效的语音片段,排除噪声等其他非语音信号的干扰。
现有的语音活动性检测算法可以包括三类:第一类:基于语音和噪声统计特性的判决方法,使用的判决准则多为最大似然准则,这一类方法计算量相对较小,但是,语音检测性能一般;第二类:基于统计模型和模式分类的方法,这类方法计算复杂度高,性能比较好;第三类:基于神经网络、深度学习的方法,这类方法性能比较好,但是计算量比较大且需要大量的训练数据。
因此,需要一种语音检测算法,能够保证在低复杂度、低计算量的情况下,具有良好的检测性能。
发明内容
本申请实施例提供一种语音检测的方法和装置,能够保证在低复杂度、低计算量的情况下,具有良好的检测性能。
第一方面,提供了一种语音检测的方法,包括:
确定待处理数据中的第一数据块的N个分组中的每个分组的能量,其中,所述N为正整数;
根据所述的N个分组能量,确定初始的候选噪声集合和初始的候选语音集合,其中,所述初始的候选噪声集合中的分组的最大能量小于所述初始的候选语音集合中的分组的最小能量;
根据所述初始的候选噪声集合中的每个分组的能量,确定初始的噪声门限;
根据所述初始的候选语音集合以及所述初始的噪声门限,确定第一次迭代处理的候选噪声集合和第一次迭代处理的候选语音集合,其中,所述第一次迭代处理的候选噪声集合中的分组的能量均小于或等于所述初始的噪声门限,所述第一次迭代处理的候选语音集合中的分组的能量均大于所述初始的噪声门限。
因此,本申请实施例的语音检测的方法,使用分组的能量作为特征参数,能够平滑噪声减小虚警概率,相对于现有的采用单帧能量进行语音检测而言,有利于提升语音检测的精度,同时,与采用其他参数进行语音检测相比,有利于降低计算的复杂度。
在一种可能的实现方式中,所述方法还包括:
根据第k次迭代处理的候选噪声集合中的每个分组的能量,确定第k次迭代处理的噪声门限,其中,所述k为1,2,......;
根据第k次迭代处理的候选语音集合以及所述第k次迭代处理的噪声门限,确定第k+1次迭代处理的候选噪声集合和第k+1次迭代处理的候选语音集合。
在一种可能的实现方式中,所述方法还包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市汇顶科技股份有限公司,未经深圳市汇顶科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880000470.4/2.html,转载请声明来源钻瓜专利网。