[发明专利]一种联合语音增强的语音活动检测方法在审
申请号: | 202110292283.1 | 申请日: | 2021-03-18 |
公开(公告)号: | CN113113049A | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 张晓雷;谭旭;陈益江 | 申请(专利权)人: | 西北工业大学;西北工业大学深圳研究院 |
主分类号: | G10L25/78 | 分类号: | G10L25/78;G10L25/84;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 西北工业大学专利中心 61204 | 代理人: | 金凤 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 联合 语音 增强 活动 检测 方法 | ||
本发明公开了一种联合语音增强的语音活动检测方法,首先在Conv‑TasNet全卷积网络基础上构建联合网络模型,联合网络模型整体分为三个部分:编码器、时间卷积网络和解码器;针对语音增强SE任务和语音活动检测VAD任务采用两个单独的解码器,而共用同一组编码器与TCN网络;TCN网络输出掩码与编码器输出点乘后作为两个解码器的输入;采用mSI‑SDR及交叉熵的联合损失函数在训练阶段对结果进行评估;最终采用Adam优化器对网络进行训练,训练完成的网络能够较好地实现语音活动检测。本发明通过将语音增强和语音端点检测联合训练,提高了语音端点检测的鲁棒性,使其在复杂的噪声环境,特别是人声干扰剧烈的环境中依然能够保持较高的性能。
技术领域
本发明属于语音识别技术领域,具体涉及一种语音活动检测方法。
背景技术
语音活动检测(voice activity detection,VAD)旨在区分音频记录中的语音段和噪声段。对于许多与语音相关的应用(例如语音识别和说话者识别)是重要的前端。近年来,基于深度学习的VAD带来了显着的性能提升。特别是将时域信号直接带入深度网络的端到端VAD是最近的研究趋势。
尽管基于深度学习的VAD已显示出其效果,但如何在低信噪比(signal-to-noiseratio,SNR)环境中进一步提高其性能却是长期利益。单个VAD很难满足要求。一个自然的想法是将语音增强(speech enhancement,SE)引入VAD。最早的方法使用基于深度学习的方法间语音增强网络初始化VAD。也有方法使用语音增强网络首先对语音进行降噪,然后使用降噪后的语音作为VAD的输入,对增强网络和VAD进行联合微调。但当SE模块的性能很差时,使用增强结果作为VAD的输入可能会对VAD造成损害。针对此问题的现有解决方法有:使用先进的语音增强方法来提取VAD的去噪特征;使用U-Net同时估计干净的语音频谱和噪声频谱,然后使用增强的语音频谱图通过阈值直接进行VAD;使用基于降噪变分自编码器的SE模块的输出和潜在变量作为VAD的输入;将基于卷积循环网络的SE提取的嘈杂声特征和增强的声学特征串联起来,作为基于残差卷积神经网络的VAD的输入等。此外,还有方法提出了多目标网络来联合训练SE和VAD以提高它们的性能,其中VAD和SE共享相同的网络,并且具有不同的损失函数。但是以上方法对VAD的性能提升有限。
发明内容
为了克服现有技术的不足,本发明提供了一种联合语音增强的语音活动检测方法,首先在Conv-TasNet全卷积网络基础上构建联合网络模型,联合网络模型整体分为三个部分:编码器、时间卷积网络和解码器;针对语音增强SE任务和语音活动检测VAD任务采用两个单独的解码器,而共用同一组编码器与TCN网络;TCN网络输出掩码与编码器输出点乘后作为两个解码器的输入;采用mSI-SDR及交叉熵的联合损失函数在训练阶段对结果进行评估;最终采用Adam优化器对网络进行训练,训练完成的网络能够较好地实现语音活动检测。本发明通过将语音增强和语音端点检测联合训练,提高了语音端点检测的鲁棒性,使其在复杂的噪声环境,特别是人声干扰剧烈的环境中依然能够保持较高的性能。
本发明解决其技术问题所采用的技术方案包括以下步骤:
步骤1:给定时间长度为T的音频数据x,其中x∈R1×T,将音频数据x划分为N帧信号,音频数据x为纯净语音信号s与噪声n的混合信号,表示为:
x=s+n (1)
步骤2:联合网络模型设计;
步骤2-1:在Conv-TasNet全卷积网络基础上增加一个解码器,网络体系结构包含三个部分:编码器、分离网络TCN以及两个解码器,两个解码器分别为SE解码器和VAD解码器;语音增强SE任务和语音活动检测VAD任务共享同一个编码器和分离网络;语音增强SE任务使用SE解码器生成增强的语音,语音活动检测VAD任务使用VAD解码器生成软预测评分;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学;西北工业大学深圳研究院,未经西北工业大学;西北工业大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110292283.1/2.html,转载请声明来源钻瓜专利网。