[发明专利]一种自适应嘈杂环境下语音端点检测的方法和装置有效
申请号: | 201510394437.2 | 申请日: | 2015-07-03 |
公开(公告)号: | CN105070287B | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 郑战海 | 申请(专利权)人: | 广东小天才科技有限公司 |
主分类号: | G10L15/04 | 分类号: | G10L15/04 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 邓猛烈;胡彬 |
地址: | 523860 广东省东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自适应 嘈杂 环境 语音 端点 检测 方法 装置 | ||
本发明公开了一种自适应嘈杂环境下语音端点检测的方法和装置。该方法,包括:录制多个连续的语音片;语音片中初始的若干语音片采集为样本语音;计算样本语音中每个语音片的语音平均能量值和所有语音片的平均能量值;根据语音平均能量值和平均能量值的大小关系判断样本语音是否包含目标语音;当样本语音包含目标语音时,样本语音的起点检测为目标语音的起点;当样本语音不包含目标语音时,将第一特定语音片的起点检测为目标语音的起点;将第二特定语音片的起点检测为目标语音的终点。通过以语音片的方式对声音进行录制,对初始的若干时间片进行采样和能量计算,根据能量的计算结果判断语音的起点和终点,自适应环境检测语音的端点。
技术领域
本发明涉及语音处理领域,尤其涉及一种自适应嘈杂环境下语音端点检测的方法和装置。
背景技术
很多学习机和移动终端都有很多涉及到检测语音端点的应用,因为在嘈杂环境下和安静环境下的差异,经常无法判断准确,不能正确的截取有用的语音信息,有的做法就是让用户用手按住按键或屏幕,说完话就自动放开的形式,来代替自动语音端点的检测。还有一种做法是让用户自己设定当前环境模式为嘈杂环境还是安静环境。但在一些低龄的孩子学习类应用中,就显得对孩子比较约束,不能自然的实现与机器的对话。
发明内容
本发明提供了一种自适应嘈杂环境下语音端点检测的方法和装置,其通过以语音片的方式对声音进行录制,对初始的若干时间片进行采样和能量计算,根据能量的计算结果判断语音的起点和终点,使之适应嘈杂环境和安静环境下的不同参数检测标准,从而自适应环境检测语音的端点。
为实现上述设计,本发明采用以下技术方案:
一方面采用一种自适应嘈杂环境下语音端点检测的方法,包括:
录制多个连续的语音片;所述语音片中初始的若干语音片采集为样本语音;
计算样本语音中每个语音片的语音平均能量值和所有语音片的平均能量值;
根据所述语音平均能量值和平均能量值的大小关系判断所述样本语音是否包含目标语音;
当所述样本语音包含目标语音时,所述样本语音的起点检测为目标语音的起点;
当所述样本语音不包含目标语音时,将第一特定语音片的起点检测为目标语音的起点;所述第一特定语音片及之后的第一连续预设个数的语音片的语音平均能量值超出起点溢出值;
将第二特定语音片的起点检测为目标语音的终点;所述第二特定语音片及之后的第二连续预设个数的语音片的语音平均能量值低于终点溢出值。
其中,所述根据所述语音平均能量值和平均能量值的大小关系判断所述样本语音是否包含目标语音,包括:
若所述样本语音中语音片的语音平均能量值与所述平均能量值的差值超出第一阈值,将该语音片从样本语音中排除;
计算样本语音中剩余语音片的有效平均能量值;
若所述有效平均能量值低于能量阈值,判断所述样本语音不包含目标语音;否则判断所述样本语音包含目标语音。
其中,所述录制多个连续的语音片之前,还包括:
预设背景噪音能量值;
所述计算样本语音中剩余语音片的有效平均能量值之后,还包括:
将所述背景噪音能量值更新为所述有效平均能量值。
其中,所述起点溢出值S1=Q1+W1;所述终点溢出值S2=Q1+W2;
其中,Q1为背景噪音能量值;W1为第一修正值;W2为第二修正值。
其中,W1=Q1*K1(0<K1<1);W2=Q1*K2(0<K2<1);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东小天才科技有限公司,未经广东小天才科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510394437.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:循环水能发电装置
- 下一篇:网络数据传输方法及系统