[发明专利]一种基于Transformer改进的语音增强方法、系统、装置在审

专利信息
申请号: 202210102210.6 申请日: 2022-01-27
公开(公告)号: CN114495957A 公开(公告)日: 2022-05-13
发明(设计)人: 周健;郭玉成 申请(专利权)人: 安徽大学
主分类号: G10L21/02 分类号: G10L21/02;G10L25/30
代理公司: 合肥市泽信专利代理事务所(普通合伙) 34144 代理人: 潘飞
地址: 230601 安徽省*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 transformer 改进 语音 增强 方法 系统 装置
【权利要求书】:

1.一种基于Transformer改进的语音增强方法,其特征在于,包括如下步骤:

S1:对标准Transformer网络进行改良得到用于执行语音增强任务的序列模型,所述序列模型的构建方法包括:

S11:获取经典的Transformer网络,将Transformer网络中的位置嵌入模块替换为LocalLSTM模块,所述LocalLSTM模块用于提取输入的语音信号序列中的局部特征;

S12:保留标准Transformer网络中的多头注意力模块,用于对LocalLSTM模块的输出执行多次并行注意力计算,将每次输出结果连接起来并再次进行投影;

S13:采用2层一维卷积模块作为Transformer网络中的卷积部分,并使用ReLU函数作为激活函数,所述卷积模块用于对多头注意力模块的输出进行卷积处理;

S14:将标准Transformer网络中各模块间的标准残差连接替换为加权残差连接,并取消各模块间的层归一化模块;

S2:在所述序列模型的输入和输出端分别增加一个前线性处理层和后线性处理层,进而得到所需的语音增强模型;所述前线性处理层用于将输入的语音信号的幅度谱转换为序列模型的多维特征向量进行输入;所述后线性处理层用于将序列模型输出的多维特征向量转换为语音增强后的幅度谱进行输出;

S3:获取若干单通道的不含噪音的标准语音信号,并将所述标准语音信号与随机噪音信号进行混合,得到含有噪音的混沌语音信号;以混沌语音信号作为样本数据构成用于进行模型训练的数据集,并将数据集分为训练集和验证集;

S4:完成语音增强模型的初始化,并设置损失函数和训练参数,利用训练集对所述语音增强模型进行训练,并通过验证集验证网络模型的训练效果;

S5:获取待处理的单通道语音信号,将其输入到完成训练的语音增强模型中,转换成语音增强后的清晰语音。

2.如权利要求1所述的基于Transformer改进的语音增强方法,其特征在于:步骤S1中,所述序列模型包括三个子模块,按照信息传递顺序分别为LocalLSTM模块、多头注意力模块和卷积模块;各个子模块间通过加权残差机制进行连接;所述多头注意力模块由4个并行的注意力层构成;所述卷积模块由2个连续的一维卷积层构成。

3.如权利要求1所述的基于Transformer改进的语音增强方法,其特征在于:步骤S11中,所述LocalLSTM模块基于LSTM模块改进而来;所述LocalLSTM模块通过一个预设帧数大小的滑动窗口,将输出的幅度谱的原始序列划分为一系列长度为预设帧数的局部短序列,划分出的所有短序列分别经过一个共享的LSTM处理,将处理得到的输出组成一个新序列;同时,所述LocalLSTM模块对原始序列进行处理之前,在原始序列前插入数量等于预设帧数减1的填充帧,进而使得输出的新序列的长度与所述原始序列一致。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于安徽大学,未经安徽大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202210102210.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top