[发明专利]语音端点检测方法、装置、计算机设备和存储介质有效
申请号: | 201810048223.3 | 申请日: | 2018-01-18 |
公开(公告)号: | CN108198547B | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 黄石磊;刘轶;王昕 | 申请(专利权)人: | 深圳市北科瑞声科技股份有限公司 |
主分类号: | G10L15/02 | 分类号: | G10L15/02;G10L15/08;G10L19/038;G10L21/0216;G10L25/87 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 谢曲曲 |
地址: | 518051 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 端点 检测 方法 装置 计算机 设备 存储 介质 | ||
本申请涉及一种语音端点检测方法、装置、计算机设备和存储介质。该方法包括:获取带噪语音信号,提取所述带噪语音信号对应的声学特征和频谱特征;对所述声学特征和频谱特征进行转换,得到对应的声学特征向量和频谱特征向量;获取分类器,将所述声学特征向量和频谱特征向量输入至所述分类器,得到添加语音标签的声学特征向量和添加语音标签的频谱特征向量;对所述添加语音标签的声学特征向量和添加语音标签的频谱特征向量进行解析,得到对应的语音信号;根据所述语音信号的时序确定所述语音信号对应的起始点和终止点。采用本方法能够有效提高语音端点检测的准确性。
技术领域
本申请涉及信号处理技术领域,特别是涉及一种语言端点检测方法、装置、计算机设备和存储介质。
背景技术
随着语音技术的不断发展,语音端点检测技术在语音识别技术中占有十分重要的地位。语音端点检测是从一段连续的噪声语音中检测出语音部分的起始点和终止点,从而能够有效地识别出语音。
传统的语音端点检测方式有两种,一种是根据语音和噪声信号的时域和频域的特征不同,提取每一段信号的特征,将每一段信号的特征与设定的阈值进行比较,从而进行语音端点检测。但这种方式仅适用于平稳噪声条件下检测,噪声鲁棒性差,很难区分纯净语音和噪声,导致语音端点检测的准确性较低。。另一种则是基于神经网络的方式,通过利用训练模型对语音信号进行端点检测。然而大多模型的输入向量只含有带噪语音的特征,使得噪声鲁棒性差,从而导致语音端点检测的准确性较低。因此,如何有效提高语音端点检测的准确性成为目前需要解决的技术问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够有效提高语音端点检测的准确性的语音端点检测方法、装置、计算机设备和存储介质。
一种语音端点检测方法,包括:
获取带噪语音信号,提取所述带噪语音信号对应的声学特征和频谱特征;
对所述声学特征和频谱特征进行转换,得到对应的声学特征向量和频谱特征向量;
获取分类器,将所述声学特征向量和频谱特征向量输入至所述分类器,得到添加语音标签的声学特征向量和添加语音标签的频谱特征向量;
对所述添加语音标签的声学特征向量和添加语音标签的频谱特征向量进行解析,得到对应的语音信号;
根据所述语音信号的时序确定所述语音信号对应的起始点和终止点。
在其中一个实施例中,在所述提取所述带噪语音信号对应的声学特征和频谱特征之前,还包括:
将所述带噪语音信号转换为带噪语音频谱;
对所述带噪语音频谱进行时域分析和/或频域分析和/或变换域分析,得到所述带噪语音信号对应的声学特征。
在其中一个实施例中,在所述提取所述带噪语音信号对应的声学特征和频谱特征之前,还包括:
将所述带噪语音信号转换为带噪语音频谱,根据所述带噪语音频谱计算带噪语音幅度谱;
根据所述带噪语音幅度谱对所述带噪语音频谱进行动态噪声估计,得到噪声幅度谱;
根据所述带噪语音幅度谱和所述噪声幅度谱估计纯净语音信号的语音幅度谱;
利用所述带噪语音幅度谱、所述噪声幅度谱和所述语音幅度谱生成所述带噪语音信号对应的频谱特征。
在其中一个实施例中,所述对所述声学特征和频谱特征进行转换包括:
提取所述声学特征和所述频谱特征中当前帧的前后预设数量帧;
通过利用当前帧的前后预设数量帧计算当前帧对应的均值矢量和/或方差矢量;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市北科瑞声科技股份有限公司,未经深圳市北科瑞声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810048223.3/2.html,转载请声明来源钻瓜专利网。