[发明专利]语音起点和终点检测方法、装置、计算机设备及存储介质有效

申请号：	201810587380.1	申请日：	2018-06-08
公开（公告）号：	CN108962227B	公开（公告）日：	2020-06-30
发明（设计）人：	李超;朱唯鑫	申请（专利权）人：	百度在线网络技术（北京）有限公司
主分类号：	G10L15/05	分类号：	G10L15/05;G10L15/06;G10L15/16
代理公司：	北京鸿德海业知识产权代理事务所(普通合伙) 11412	代理人：	袁媛
地址：	100085 北京***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音起点终点检测方法装置计算机设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了语音起点和终点检测方法、装置、计算机设备及存储介质，其中方法包括：获取待检测的语音数据；将语音数据分割为语音片段，语音片段数大于一；基于预先训练得到的语音活动检测模型，分别确定出各语音片段的语音状态；根据语音状态确定出语音数据的起点和终点。应用本发明所述方案，能够提高检测结果的准确性等。

【技术领域】

本发明涉及语音处理技术，特别涉及语音起点和终点检测方法、装置、计算机设备及存储介质。

【背景技术】

随着技术的发展，出现了各种具有语音交互功能的产品，如智能音箱、智能电视、智能冰箱等。

语音交互中很重要的一点，就是能够检测出语音的起点和终点。

检测起点的必要性在于：可以将真正的语音提取出来，比如，智能音箱一直处于待机状态，时刻监听着环境中的语音，如果每一帧语音数据均进行语音识别的处理，无疑会给系统带来很大的功耗，语音起点的检测，可以让系统只关注有人说话的片段，而对其它如噪声段不作处理。

检测终点的必要性在于：当用户说出了他的请求，系统需要快速给出反应，若有延迟可能用户就会抱怨“系统反应太慢”等，比如，用户说出了他的请求“北京今天的天气”，用户希望在说出请求之后，系统能够及时告诉他“北京今天多云”等。

现有技术中提出了各种语音起点和终点检测方法，如基于信号处理的方法、利用分类模型进行检测的方法等。但这些方法都比较容易出现检测错误，如出现起点的误报和漏报以及终点的误报和漏报等。

其中，起点的误报包括：将噪声段分类成了语音，从而将噪声传给了后台的语音识别器，进而增加了系统的功耗，如果后台服务在云端，还会增加流量。

起点的漏报包括：语音的起点没有检测到，因此没有任何语音被传递到后台的语音识别器，这种情况时有发生，比如用户说话的声音很小，从而错误地将用户的小声说话当做背景噪声来处理，进而使得后台的语音识别器接收不到任何语音。

终点的误报包括：提前截止，即用户还没有说完话，就认为语音结束了，这种情况多出现在用户说话“虎头蛇尾”的时候，如声音越说越小，或者，用户具有较长时间的停顿，如用户说出“北京今天的天气”之后，喘了口气，再接着说“适合外出爬山吗”，如果终点检测过于敏感，就会分成两句话来处理。

终点的漏报包括：长时间不截止，这种情况多出现在环境比较嘈杂的时候，用户虽然说话结束，但由于背景噪声比较大，就不会截断，造成的后果就是，用户说完了“北京今天天气怎么样”，然后一直在等待系统给出反应。

无论是出现了误报还是漏报，均降低了检测结果的准确性。

【发明内容】

有鉴于此，本发明提供了语音起点和终点检测方法、装置、计算机设备及存储介质。

具体技术方案如下：

一种语音起点和终点检测方法，包括：

获取待检测的语音数据；

将所述语音数据分割为语音片段，所述语音片段数大于一；

基于预先训练得到的语音活动检测模型，分别确定出各语音片段的语音状态；

根据所述语音状态确定出所述语音数据的起点和终点。

根据本发明一优选实施例，至少相邻两个语音片段之间存在重叠。

根据本发明一优选实施例，所述语音活动检测模型包括：卷积神经网络模型。

根据本发明一优选实施例，所述基于预先训练得到的语音活动检测模型，分别确定出各语音片段的语音状态包括：

利用所述语音活动检测模型对所述语音片段进行分类；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于百度在线网络技术（北京）有限公司，未经百度在线网络技术（北京）有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201810587380.1/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L15-00 语音识别
G10L15-02 .语音识别的特征提取；识别单位的选择
G10L15-04 .分段或字极限检测
G10L15-06 .创建基准模板；训练语音识别系统，例如对说话者声音特征的适应
G10L15-08 .语音分类或检索
G10L15-20 .专门适用于不利环境

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]语音起点和终点检测方法、装置、计算机设备及存储介质有效

专利文献下载