[发明专利]一种基于深度特征损失的语音降噪方法及系统在审

申请号：	202010354660.5	申请日：	2020-04-29
公开（公告）号：	CN111583951A	公开（公告）日：	2020-08-25
发明（设计）人：	计健雄;郭鹏	申请（专利权）人：	华中科技大学
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L21/0224;G10L21/0264;G10L25/30
代理公司：	华中科技大学专利中心 42201	代理人：	李智
地址：	430074 湖北***	国省代码：	湖北;42
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度特征损失语音方法系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度特征损失的语音降噪方法，其特征在于，包括如下步骤：

S1、确定音频分类网络，所述音频分类网络由卷积层、卷积核、LReLU单元以及零填充单元组成；

S2、结合预设的音频分类任务对所述音频分类网络进行预训练，所述预设的音频分类任务包括：声学场景分类任务和音频标记任务；

S3、使用训练得到的音频分类网络的前六层特征激活差异作为增强网络的损失函数直接对预设音频进行降噪训练，使得所述增强网络具有降噪的能力，以基于训练后的增强网络对待降噪语音进行降噪；所述增强网络的损失函数由原始音频和去噪音频在所述音频分类网络中的前六层的激活特征做差，将每一层的差值求和得出。

2.根据权利要求1所述的语音降噪方法，其特征在于，所述声学场景分类任务包括对多种不同的生活场景进行分类，以使得所述损失函数中包含各种生活场景信息。

3.根据权利要求1所述的语音降噪方法，其特征在于，所述音频标记任务包括对童声、女声以及男声进行分类，以使得所述损失函数获取各类人声信息内容信息。

4.根据权利要求1至3任一项所述的语音降噪方法，其特征在于，所述音频分类网络由15个卷积层和3×1卷积核，批量归一化，LReLU单元和零填充单元组成；与上一层相比，下一层的长度减少2倍；通道数每5层增加一倍，起始层有32个通道；最后一个特征层中的每个通道均被平均池化以产生输出特征向量，最后通过线性层映射，将映射的输出向量作为特征提供给的分类器进行分类，损失函数使用交叉熵。

5.根据权利要求1至3任一项所述的语音降噪方法，其特征在于，所述增强网络由16个卷积层组成，第一层和最后一层是维数N×1的一维张量，N是输入信号长度，第一层卷积核为3×1，最后一层卷积核为1×1；每个中间层是维数N×W的二维张量，其中W是每个卷积层中的特征图数；通过具有3×1卷积核的膨胀卷积，然后进行自适应归一化和LReLU进行激活，由于归一化，中间层没有使用任何偏置项；对所有层进行零填充，以使它们的“有效”长度恒定为N。

6.一种基于深度特征损失的语音降噪系统，其特征在于，包括：

分类网络确定单元，用于确定音频分类网络，所述音频分类网络由卷积层、卷积核、LReLU单元以及零填充单元组成；

网络训练单元，用于结合预设的音频分类任务对所述音频分类网络进行预训练，所述预设的音频分类任务包括：声学场景分类任务和音频标记任务；

语音降噪单元，用于使用训练得到的音频分类网络的前六层特征激活差异作为增强网络的损失函数直接对预设音频进行降噪训练，使得所述增强网络具有降噪的能力，以基于训练后的增强网络对待降噪语音进行降噪；所述增强网络的损失函数由原始音频和去噪音频在所述音频分类网络中的前六层的激活特征做差，将每一层的差值求和得出。

7.根据权利要求6所述的语音降噪系统，其特征在于，所述声学场景分类任务包括对多种不同的生活场景进行分类，以使得所述损失函数中包含各种生活场景信息。

8.根据权利要求6所述的语音降噪系统，其特征在于，所述音频标记任务包括对童声、女声以及男声进行分类，以使得所述损失函数获取各类人声信息内容信息。

9.根据权利要求6至8任一项所述的语音降噪系统，其特征在于，所述音频分类网络由15个卷积层和3×1卷积核，批量归一化，LReLU单元和零填充单元组成；与上一层相比，下一层的长度减少2倍；通道数每5层增加一倍，起始层有32个通道；最后一个特征层中的每个通道均被平均池化以产生输出特征向量，最后通过线性层映射，将映射的输出向量作为特征提供给的分类器进行分类，损失函数使用交叉熵。

10.根据权利要求6至8任一项所述的语音降噪系统，其特征在于，所述增强网络由16个卷积层组成，第一层和最后一层是维数N×1的一维张量，N是输入信号长度，第一层卷积核为3×1，最后一层卷积核为1×1；每个中间层是维数N×W的二维张量，其中W是每个卷积层中的特征映射数；通过具有3×1卷积核的膨胀卷积，然后进行自适应归一化和LReLU进行激活，由于归一化，中间层没有使用任何偏置项；对所有层进行零填充，以使它们的“有效”长度恒定为N。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于华中科技大学，未经华中科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202010354660.5/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G10 乐器；声学
G10L 语音分析或合成；语音识别；音频分析或处理
G10L21-00 为了改变语音信号的质量或其可识度而处理语音信号，以产生另一种可听的或非可听的信号，例如视觉信号或触觉信号
G10L21-02 .语音增强，例如降低噪声或消除回声
G10L21-04 .时间压缩或扩展
G10L21-06 .将语音转换成非可听表达形式，例如语音可视化、触觉辅助的语音处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于深度特征损失的语音降噪方法及系统在审

专利文献下载