[发明专利]语音端点检测方法、装置、设备及存储介质在审
申请号: | 202010762893.9 | 申请日: | 2020-07-31 |
公开(公告)号: | CN111816218A | 公开(公告)日: | 2020-10-23 |
发明(设计)人: | 张之勇;王健宗;贾雪丽;程宁 | 申请(专利权)人: | 平安科技(深圳)有限公司 |
主分类号: | G10L25/87 | 分类号: | G10L25/87;G10L25/30;G10L25/18;G10L25/24 |
代理公司: | 北京市京大律师事务所 11321 | 代理人: | 刘挽澜 |
地址: | 518033 广东省深圳市福田区福*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 端点 检测 方法 装置 设备 存储 介质 | ||
本发明涉及人工智能技术领域,公开了一种语音端点检测方法、装置、设备及存储介质,用于提高语音端点检测的准确性。语音端点检测方法包括:对待识别语音信息进行预处理,得到预处理后的语音信息;从预处理后的语音信息中提取帧级别的语音频谱特征信息;对预处理后的语音信息进行信息处理,得到目标说话人的声学特征信息;对语音频谱特征信息和声学特征信息进行特征融合,得到已融合的语音特征信息;将已融合的语音特征信息输入至已训练的深度神经网络中进行语音端点检测处理,得到检测结果,并按照检测结果确定目标说话人语音类型、非目标说话人语音类型和背景噪声类型。此外,本发明还涉及区块链技术,待识别语音信息可存储于区块链节点中。
技术领域
本发明涉及人工智能技术的语音信号处理领域,尤其涉及一种语音端点检测方法、装置、设备及存储介质。
背景技术
语音端点检测(voice activity detection,VAD)是语音信号处理的重要组成部分,目的是区分出连续语音流中的语音和非语音部分,通过对语音部分起始点的准确定位,有效滤除非语音噪声片段,从而更有效的处理语音流信息,其已被广泛应用于语音识别、说话人分离和识别及其他辅助任务,如情感识别、性别识别和语种识别等。
一般情况,在低噪音条件下,端点检测相对容易,传统基于能量或谱熵的检测方法就能得到较高的检测精度。而在高噪音条件下,端点检测的困难显著提高。基于谐波规则的检测方法,通过利用人声的谐波特性,可以有效区分语音和非语音片段,在高噪音场景具有很好的鲁棒性,已广泛应用于语音信号处理系统,但是由于同样具有谐波特性的背景噪声,如音乐声、咳嗽声和汽车喇叭声这类噪声的存在,导致基于谐波规则的端点检测方法不可避免的会引进很多误识别。
近年来,随着深度神经网络技术(deep neural network,DNN)在信号处理领域的巨大成功,基于DNN的端点检测算法愈来成为研究热点,由于很难获得精确的语音识别对齐信息,使得基于DNN的端点检测具有一定的混淆性,一些无谐波特性的背景噪声也有可能被误识别成语音。因此,采用传统的语音端点检测算法,无法区分出目标说话人和非目标说话人,导致语音端点检测的准确性低。
发明内容
本发明的主要目的在于解决传统的语音端点检测算法,无法区分出目标说话人和非目标说话人,导致语音端点检测的准确性低的问题。
为实现上述目的,本发明第一方面提供了一种语音端点检测方法,包括:获取待识别语音信息,并对所述待识别语音信息进行预处理,得到预处理后的语音信息;从所述预处理后的语音信息中提取帧级别的语音频谱特征信息;对所述预处理后的语音信息进行特征处理,得到目标说话人的声学特征信息;对所述语音频谱特征信息和所述声学特征信息进行特征融合,得到已融合的语音特征信息,所述已融合的语音特征信息为段级或句子级的特征信息;将所述已融合的语音特征信息输入至已训练的深度神经网络模型中进行语音端点检测处理,得到检测结果,并按照所述检测结果确定目标说话人语音类型、非目标说话人语音类型和背景噪声类型。
可选的,在本发明第一方面的第一种实现方式中,所述获取待识别语音信息,并对所述待识别语音信息进行预处理,得到预处理后的语音信息,包括:接收待识别语音信息,并对所述待识别语音信息进行采样,得到已采样的语音信息;对所述已采样的语音信息依次进行预加重、分帧和加窗处理,得到预处理后的语音信息。
可选的,在本发明第一方面的第二种实现方式中,所述从所述预处理后的语音信息中提取帧级别的语音频谱特征信息,包括:从所述预处理后的语音信息中提取每帧语音信号;对所述每帧语音信号进行傅里叶变换,得到对应的频谱信息;对所述对应的频谱信息进行梅尔滤波器组处理,得到过滤器组fbank特征信息,并将所述fbank特征信息设置为帧级别的语音频谱特征信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安科技(深圳)有限公司,未经平安科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010762893.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种感应电磁式外骨骼接地装置
- 下一篇:一种雨伞储存除湿柜