[发明专利]基于深度域自适应网络的助听器语音增强方法有效

申请号：	202010847510.8	申请日：	2020-08-20
公开（公告）号：	CN111968666B	公开（公告）日：	2022-02-01
发明（设计）人：	王青云;梁瑞宇;程佳鸣;孙世若;邹采荣;唐闺臣;谢跃;包永强	申请（专利权）人：	南京工程学院
主分类号：	G10L21/0216	分类号：	G10L21/0216;G10L21/0232;G10L25/03;G10L25/30;G06N3/04;G06N3/08;H04R25/00
代理公司：	南京睿之博知识产权代理有限公司 32296	代理人：	刘菊兰
地址：	211167 江苏***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度自适应网络助听器语音增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度域自适应网络的助听器语音增强方法，其特征在于，包括以下步骤：

S1：建立训练输入样本：分别从带噪语音和干净语音中提取帧级对数功率谱特征LPS，将所有的对数功率谱特征LPS作为输入样本；

S2：构建基线语音增强模型：在深度神经网络中构建基于编码器-解码器结构的深度学习模型作为基线语音增强模型；其中编码器-解码器结构为连接的特征编码器和重建解码器；

S3：构建迁移学习语音增强模型：在步骤S2的基线语音增强模型的基础上，构建基于深度域自适应网络的迁移学习语音增强模型；迁移学习语音增强模型在特征编码器和重建解码器之间引入并联连接的域适配层和相对鉴别器；

S4：在训练阶段，采用两种迁移策略训练迁移学习语音增强模型：利用域对抗性损失训练迁移学习语音增强模型，通过域的对抗性引导迁移学习语音增强模型学习域不变特征；

S5：在增强阶段，根据训练后的迁移学习语音增强模型，输入目标域带噪语音的帧级LPS特征，重建增强语音波形，实现语音增强；

所述S4中采用两种迁移策略训练迁移学习语音增强模型，其具体过程为：

S41、迁移学习语音增强模型中包括两个流向的训练数据，分别为带标签的源域数据的LPS特征和不带标签的目标域数据的LPS特征，两个流向的训练数据同时输入特征编码器，提取各自的深度特征，在此过程中两个数据共享权重；两个数据同时执行步骤S42、S43和S44，即通过三个模块分别进行计算；

S42、重建解码器计算回归损失：带标签的源域数据X_s被馈送到重建解码器中，重建其LPS特征，然后计算重建的LPS特征与源域标签之间的平均绝对损失MAE作为整个迁移学习语音增强模型的回归损失；该损失用于衡量源域自回归任务的性能，使该损失最小化可以最佳拟合源域数据集；

S43、域适配层计算多核最大均值差异：带标签的源域数据X_s和不带标签的目标域数据X_T输入至域适配层中，用于计算多核最大均值差异，通过最小化多核最大均值差异可以使得带标签的源域数据X_s和不带标签的目标域数据X_T的分布尽可能地接近，使得特征编码器产生对不同域噪声具有鲁棒性的域不变特征；

S44、相对鉴别器计算相对生成对抗损失：带标签的源域数据X_s和不带标签的目标域数据X_T输入到相对鉴别器中，相对鉴别器可以看作源域和目标域之间的二分分类器；两个数据通过相对鉴别器输出的0-1之间的判决量计算相对生成对抗损失；最小化相对生成对抗损失能够使得相对鉴别器更好地区别带标签的源域数据X_s和不带标签的目标域数据X_T；

S45、对迁移学习语音增强模型的参数进行更新：结合步骤S42、S43和S44的计算结果，采用梯度下降法对迁移学习语音增强模型的参数进行更新。

2.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法，其特征在于，所述S2中基线语音增强模型的结构为：基线模型为3层深度神经网络模型，包括依次连接的两层双向长短时记忆网络BLSTM和一层全连接层，前两层双向长短时记忆网络BLSTM分别作为特征编码器与重建解码器，最后一层全连接层作为特征变换的映射层。

3.根据权利要求1所述的一种基于深度域自适应网络的助听器语音增强方法，其特征在于，所述S3中迁移学习语音增强模型的结构为：在基线语音增强模型的编码器-解码器结构中间引入两个额外的域自适应模块，两个域自适应模块分别是用于计算多核最大均值差异MK-MMD的域适配层，以及用于计算域对抗性损失的相对鉴别器，所述域适配层和相对鉴别器并列连接；其中域适配层仅用于计算多核最大均值差异MK-MMD，相对鉴别器包含连接的一层长短时记忆网络LSTM以及一层具有至少一个神经元的全连接层。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京工程学院，未经南京工程学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010847510.8/1.html，转载请声明来源钻瓜专利网。

上一篇：雷达可靠度评估方法、装置、电子设备及可读存储介质
下一篇：用于房屋建筑的节能保温幕墙

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于深度域自适应网络的助听器语音增强方法有效

专利文献下载