[发明专利]一种基于Transformer改进的语音增强方法、系统、装置在审
申请号: | 202210102210.6 | 申请日: | 2022-01-27 |
公开(公告)号: | CN114495957A | 公开(公告)日: | 2022-05-13 |
发明(设计)人: | 周健;郭玉成 | 申请(专利权)人: | 安徽大学 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L25/30 |
代理公司: | 合肥市泽信专利代理事务所(普通合伙) 34144 | 代理人: | 潘飞 |
地址: | 230601 安徽省*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 transformer 改进 语音 增强 方法 系统 装置 | ||
本发明属于语音处理领域,具体涉及一种基于Transformer改进的语音增强方法、系统、装置。该方法包括如下步骤:S1:对标准Transformer网络进行改良得到用于执行语音增强任务的序列模型。S2:在序列模型的输入和输出端分别增加线性处理层,进而得到语音增强模型。S3:获取不含噪音的标准语音信号,并与随机噪音信号进行混合得到混沌语音信号;进而构成模型训练的数据集。S4:完成语音增强模型的初始化,设置损失函数和训练参数对语音增强模型进行训练和验证。S5:获取待处理的单通道语音信号,将其输入到完成训练的语音增强模型中,转换成语音增强后的清晰语音。本发明解决了现有的Transformer模型顺序建模能力较弱、训练速度慢,训练阶段难以收敛的问题。
技术领域
本发明属于语音处理领域,具体涉及一种基于Transformer改进的语音增强方法、系统、装置。
背景技术
语音增强技术是一种利用增强算法去除混合信号中的噪声成分,以提高目标语音的听觉质量和可懂度的新兴技术。语音增强技术在移动通信、语音识别和助听设备等诸多系统中具有广阔的应用前景。近年来,得益于海量数据处理和高性能计算的快速发展,基于数据驱动的语音增强方法成为研究热点。基于数据驱动的语音增强技术的本质上都是通过构建神经网络,在含噪语音和目标语音之间建立映射关系;进而将含噪语音转换为不含噪音或降低噪音干扰的目标语音。目前在语音增强领域广泛应用的神经网络包括深度神经网络(DNN)、卷积神经网络(CNN)和循环神经网络(RNN)等。
目前通用的三种神经网络虽然在语音增强处理方面均表现出良好的性能,但是仍存在一些缺陷。例如基于DNN的语音增强模型很难学习语音的局部特征。而CNN虽然可以更准确地捕捉输入语音的局部信息,但是理论上,RNN比CNN更适合处理语音帧间相关性;然而基于RNN的模型仍然存在如下问题:(1)RNN模型很容易造成梯度消失和爆炸问题,这严重影响了性能;(2)在RNN中,上一步的输出将被用作当前步的输入,因此模型无法进行并行化序列计算过程。这些缺点限制了RNN模型的实时处理能力。
为了可以克服以上三种网络模型的缺点,技术人员将研究方向转移到了Transformer模型上。Transformer是一种新兴的序列信息建模模型,广泛应用于自然语言处理的各个领域,并且都取得了不错的成绩。作为基于自注意力机制的序列到序列模型,Transformer可以更有效地捕获全局信息。它在多种序列学习任务中,都有比RNN更好的表现。此外,Transformer模型的训练可以实现跨时间并行化,因此,与RNN等模型相比,速度更快,这符合语音增强在实际应用中的实时性要求。
但是经典的Transformer模型也存在固有的缺陷。例如:Transformer模型中的位置嵌入机制不能有效地执行语音处理任务中的序列建模;而在语音处理任务中单个位置含有的数据信息较少,这导致语音处理任务往往对网络模型的顺序建模能力要求会更高。此外,由于Transformer模型在处理过程中是同时对整个序列进行注意力计算的,该模型还存在难以收敛、训练速度普遍较慢的问题。
发明内容
为了解决现有的Transformer模型在语音增强处理任务中顺序建模能力较弱、模型的训练速度较慢,模型在训练阶段难以收敛的问题;本发明提供一种基于Transformer改进的语音增强方法、系统、装置
本发明采用以下技术方案实现:
一种基于Transformer改进的语音增强方法,该方法包括如下步骤:
S1:对标准Transformer网络进行改良得到用于执行语音增强任务的序列模型,序列模型的构建方法包括:
S11:获取经典的Transformer网络,将Transformer网络中的位置嵌入模块替换为LocalLSTM模块,LocalLSTM模块用于提取输入的语音信号序列中的局部特征。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210102210.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于IBC加密体系的车载网联设备、系统及其通信方法
- 下一篇:显示装置
- 基于Transformer+LSTM神经网络模型的商品销量预测方法及装置
- 一种基于Transformer模型自然场景文字识别方法
- 一种深度Transformer级联神经网络模型压缩算法
- 点云分割方法、系统、介质、计算机设备、终端及应用
- 基于Transformer的中文智能对话方法
- 一种基于改进Transformer模型的飞行器故障诊断方法和系统
- 一种基于Transformer模型的机器翻译模型优化方法
- 基于Transformer和增强交互型MPNN神经网络的小分子表示学习方法
- 基于U-Transformer多层次特征重构的异常检测方法及系统
- 基于EfficientDet和Transformer的航空图像中的飞机检测方法