[发明专利]语音端点检测方法、装置、设备及存储介质在审

申请号：	201910521084.6	申请日：	2019-06-17
公开（公告）号：	CN110335593A	公开（公告）日：	2019-10-15
发明（设计）人：	魏韬;马骏;王少军	申请（专利权）人：	平安科技（深圳）有限公司
主分类号：	G10L15/05	分类号：	G10L15/05;G10L15/06;G10L25/78
代理公司：	北京市京大律师事务所 11321	代理人：	刘挽澜
地址：	518033 广东省深圳市福田区福***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	语音帧输入语音语音端点检测语音帧检测第二检测检测结果检测计算机可读存储介质语音人工智能技术时序存储介质谐波能量准确率分帧预置输出
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及人工智能技术领域，公开了一种语音端点检测方法，包括以下步骤：获取待检测的输入语音以及预置语音帧检测模型；对所述输入语音进行分帧处理，得到多个带时序的语音帧；依次将所述输入语音的各语音帧输入所述语音帧检测模型进行检测，输出各语音帧对应的第一检测结果；依次对所述输入语音的各语音帧进行谐波能量检测，得到各语音帧对应的第二检测结果；基于所述第一检测结果与所述第二检测结果，确定各语音帧对应的帧类别；基于各语音帧对应的帧类别，确定所述输入语音的语音开始端点与语音结束端点。本发明还公开了一种语音端点检测装置、设备及计算机可读存储介质。本发明提升了语音端点检测的准确率。

技术领域

本发明涉人工智能技术领域，尤其涉及一种语音端点检测方法、装置、设备及存储介质。

背景技术

现有语音识别技术中经常需要语音端点检测，也即检测语音的起始位置和结束位置，目前语音端点检测算法通常仅适用于相对安静场景下的语音和别，此种方法对于较稳定的噪声(如白噪声，汽笛声等)效果较好，但对于嘈杂环境(如较多人说话的公共场合)效果较差，其原因在于此类情景下的噪声也具备语音的特性，因而很难准确将噪声与语音区分开来，进而导致语音识别率不高。

发明内容

本发明的主要目的在于提供一种语音端点检测方法、装置、设备及存储介质，旨在解决现有语音端点检测效果差而导致语音识别准确率不高的技术问题。

为实现上述目的，本发明提供一种语音端点检测方法，所述语音端点检测方法包括以下步骤：

获取待检测的输入语音以及预置语音帧检测模型；

对所述输入语音进行分帧处理，得到多个带时序的语音帧；

依次将所述输入语音的各语音帧输入所述语音帧检测模型进行检测，输出各语音帧对应的第一检测结果；

依次对所述输入语音的各语音帧进行谐波能量检测，得到各语音帧对应的第二检测结果；

基于所述第一检测结果与所述第二检测结果，确定各语音帧对应的帧类别，所述帧类别包括有效语音帧、噪声帧；

基于各语音帧对应的帧类别，确定所述输入语音的语音开始端点与语音结束端点。

可选地，所述语音帧检测模型包括：语音模型和噪声模型；在所述获取待检测的输入语音以及预置语音帧检测模型的步骤之前，还包括：

以正常语音数据为训练样本，采用预设第一机器学习算法进行训练，构建语音模型，以供用于检测有效语音帧；

以真实环境噪声为训练样本，采用预设第二机器学习算法进行训练，构建噪声模型，以供用于检测噪声帧。