[发明专利]语音起点和终点检测方法、装置、计算机设备及存储介质有效
申请号: | 201810587380.1 | 申请日: | 2018-06-08 |
公开(公告)号: | CN108962227B | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 李超;朱唯鑫 | 申请(专利权)人: | 百度在线网络技术(北京)有限公司 |
主分类号: | G10L15/05 | 分类号: | G10L15/05;G10L15/06;G10L15/16 |
代理公司: | 北京鸿德海业知识产权代理事务所(普通合伙) 11412 | 代理人: | 袁媛 |
地址: | 100085 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 起点 终点 检测 方法 装置 计算机 设备 存储 介质 | ||
本发明公开了语音起点和终点检测方法、装置、计算机设备及存储介质,其中方法包括:获取待检测的语音数据;将语音数据分割为语音片段,语音片段数大于一;基于预先训练得到的语音活动检测模型,分别确定出各语音片段的语音状态;根据语音状态确定出语音数据的起点和终点。应用本发明所述方案,能够提高检测结果的准确性等。
【技术领域】
本发明涉及语音处理技术,特别涉及语音起点和终点检测方法、装置、计算机设备及存储介质。
【背景技术】
随着技术的发展,出现了各种具有语音交互功能的产品,如智能音箱、智能电视、智能冰箱等。
语音交互中很重要的一点,就是能够检测出语音的起点和终点。
检测起点的必要性在于:可以将真正的语音提取出来,比如,智能音箱一直处于待机状态,时刻监听着环境中的语音,如果每一帧语音数据均进行语音识别的处理,无疑会给系统带来很大的功耗,语音起点的检测,可以让系统只关注有人说话的片段,而对其它如噪声段不作处理。
检测终点的必要性在于:当用户说出了他的请求,系统需要快速给出反应,若有延迟可能用户就会抱怨“系统反应太慢”等,比如,用户说出了他的请求“北京今天的天气”,用户希望在说出请求之后,系统能够及时告诉他“北京今天多云”等。
现有技术中提出了各种语音起点和终点检测方法,如基于信号处理的方法、利用分类模型进行检测的方法等。但这些方法都比较容易出现检测错误,如出现起点的误报和漏报以及终点的误报和漏报等。
其中,起点的误报包括:将噪声段分类成了语音,从而将噪声传给了后台的语音识别器,进而增加了系统的功耗,如果后台服务在云端,还会增加流量。
起点的漏报包括:语音的起点没有检测到,因此没有任何语音被传递到后台的语音识别器,这种情况时有发生,比如用户说话的声音很小,从而错误地将用户的小声说话当做背景噪声来处理,进而使得后台的语音识别器接收不到任何语音。
终点的误报包括:提前截止,即用户还没有说完话,就认为语音结束了,这种情况多出现在用户说话“虎头蛇尾”的时候,如声音越说越小,或者,用户具有较长时间的停顿,如用户说出“北京今天的天气”之后,喘了口气,再接着说“适合外出爬山吗”,如果终点检测过于敏感,就会分成两句话来处理。
终点的漏报包括:长时间不截止,这种情况多出现在环境比较嘈杂的时候,用户虽然说话结束,但由于背景噪声比较大,就不会截断,造成的后果就是,用户说完了“北京今天天气怎么样”,然后一直在等待系统给出反应。
无论是出现了误报还是漏报,均降低了检测结果的准确性。
【发明内容】
有鉴于此,本发明提供了语音起点和终点检测方法、装置、计算机设备及存储介质。
具体技术方案如下:
一种语音起点和终点检测方法,包括:
获取待检测的语音数据;
将所述语音数据分割为语音片段,所述语音片段数大于一;
基于预先训练得到的语音活动检测模型,分别确定出各语音片段的语音状态;
根据所述语音状态确定出所述语音数据的起点和终点。
根据本发明一优选实施例,至少相邻两个语音片段之间存在重叠。
根据本发明一优选实施例,所述语音活动检测模型包括:卷积神经网络模型。
根据本发明一优选实施例,所述基于预先训练得到的语音活动检测模型,分别确定出各语音片段的语音状态包括:
利用所述语音活动检测模型对所述语音片段进行分类;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于百度在线网络技术(北京)有限公司,未经百度在线网络技术(北京)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810587380.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于检测语音的端点的方法和装置
- 下一篇:模型训练方法和装置