[发明专利]语音端点检测方法和装置在审
申请号: | 202011213344.2 | 申请日: | 2020-11-03 |
公开(公告)号: | CN112489692A | 公开(公告)日: | 2021-03-12 |
发明(设计)人: | 刘羽辰;李健;武卫东;陈明 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G10L25/87 | 分类号: | G10L25/87;G10L25/84;G10L25/24;G10L25/27 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 端点 检测 方法 装置 | ||
本申请实施例涉及一种语音端点检测方法和装置,所述方法包括:对待检测语音进行语音特征提取,得到多个特征帧,分别计算预先训练的语音模型和预先训练的非语音模型与每一个所述特征帧的语音似然值和非语音似然值来判断每一个所述特征帧为语音帧或非语音帧,基于所述语音帧和所述非语音帧分别对所述语音模型和所述非语音模型进行自适应更新,使用更新后的模型判断待检测语音的端点。本申请的语音端点检测方法使用较少的具体的场景下的数据量调整后,就能够精准检测具体场景下得语音和非语音。
技术领域
本申请实施例涉及声音识别技术领域,具体而言,涉及一种语音端点检测方法和装置。
背景技术
端点检测,也叫语音活动检测(Voice Activity Detection,VAD)它的目的是对语音和非语音的区域进行区分。通俗来理解,端点检测就是为了从带有噪声的语音中准确的定位出语音的开始点和结束点(开始点和结束点也称为端点),去掉静音的部分,去掉噪声的部分,找到一段语音真正有效的内容。
端点检测时语音识别的重要环节之一,是其不可或缺的一部分,并且其好坏会直接影响到语音识别的准确率。一个表现好且优秀的端点检测技术,既不能检测过少,也不能检测过多。检测的少了,会使得语音信息丢失,造成漏识别;检测的多了,会使得语音首位包含噪声,在可能造成误识别或多识别的同时也会增加语音识别的实时率。由此可见端点检测对于语音识别的整体流程是至关重要的。
现有的语音的端点检测一般是提取语音的特征对提取得到的特征进行判断进而判断其中的语音或者非语音,或者建立声学模型对声音进行二分类或者进行解码得到的全局信息来判断其中的语音或者非语音。但是这两种方法都只能对单一场景的环境噪音和语音进行判断,无法将其应用于其他场景,当变换场景时就需要重新对所使用模型进行训练,以适应场景中变化的噪音。
发明内容
基于上述问题,本申请实施例提供一种语音端点检测方法和装置,旨在解决现有语音端点检测方法检测结果不准确和普适性差的缺点。
本申请实施例第一方面提供一种语音端点检测方法,所述方法包括:
对待检测语音进行语音特征提取,得到多个特征帧;
计算预先训练的语音模型与每一个所述特征帧的语音似然值以及计算预先训练的非语音模型与每一个所述特征帧的非语音似然值;
基于所述语音似然值和所述非语音似然值计算得到每一个所述特征帧的信噪似然比;
基于所述信噪似然比判断每一个所述特征帧对应在所述待检测语音中的帧为语音帧或非语音帧;
基于所有所述语音帧对所述语音模型进行自适应更新,以及基于所有所述非语音帧对所述非语音模型进行自适应更新;
使用更新后语音模型和更新后非语音模型分别计算每一个所述特征帧的最终语音似然值和最终非语音似然值;
基于所述最终语音似然值和所述最终非语音似然值计算得到每一个所述特征帧的最终信噪似然比,基于所述最终信噪似然比检测所述待检测语音的端点。
可选地,基于所有所述语音帧对所述语音模型进行自适应更新,以及基于所有所述非语音帧对所述非语音模型进行自适应更新,包括:
满足条件时,停止对所述语音模型和非语音模型的自适应更新;
所述条件包括以下至少一者:
直到所述特征帧的信噪似然比的结果稳定;
直到所述语音模型或所述非语音模型的更新误差小于预设阈值。
可选的,计算预先训练的语音模型与每一个所述特征帧的语音似然值以及计算预先训练的非语音模型与每一个所述特征帧的非语音似然值是通过以下任一算法计算的,所述算法包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011213344.2/2.html,转载请声明来源钻瓜专利网。