[发明专利]一种跳变连接深度神经网络的语音增强方法在审

专利信息
申请号: 202010012435.3 申请日: 2020-01-07
公开(公告)号: CN111192598A 公开(公告)日: 2020-05-22
发明(设计)人: 兰朝凤;刘春东;苏崎木;郭思诚;陈小艳 申请(专利权)人: 哈尔滨理工大学
主分类号: G10L21/0208 分类号: G10L21/0208;G10L25/30;G10L25/03;G10L25/24;G10L25/18;G06N3/04;G06N3/08
代理公司: 哈尔滨市文洋专利代理事务所(普通合伙) 23210 代理人: 何强
地址: 150080 黑龙*** 国省代码: 黑龙江;23
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 连接 深度 神经网络 语音 增强 方法
【说明书】:

一种跳变连接深度神经网络的语音增强方法,解决了传统的深度神经网络DNN语音增强方法在低信噪比场景下语音有丢失、可懂度低的问题,属于语音增强领域。本发明包括:根据时域语音信号,提取时频域特征;确定训练目标,并将训练目标和提取的时频域特征送入到Skip‑DNN模型中,进行训练,得到Skip‑DNN语音增强模型;Skip‑DNN模型的输入层、隐藏层和输出层之间采用跳变连接;S3、提取带噪语音特征,将其输入到Skip‑DNN语音增强模型中,估计目标语音;S4、将目标语音与带噪语音合成,得到增强的纯净语音信号。

技术领域

本发明涉及一种深度神经网络,特别涉及一种改进跳变深度神经网络的多分辨率耳蜗图语音增强方法,属于语音增强领域。

背景技术

语音增强作为语音识别的前端技术,在通信与人机交互领域都有重要应用。通信领域中的两个人是处于不同的听觉场景里,若有一方或双方周围都有噪声存在将导致通信困难,尤其在军事领域中复杂场景使通信的工作任务变得更加艰巨,而且因其特殊性要求传输的语音质量更高,此时采用语音增强技术可以提升带噪语音的质量及可懂度;在人机交互领域中,近年一些智能设备开始用语音替代键盘作为输入端,但实际生活场景中不免存在许多复杂噪声导致语音识别率低,一般的处理方法是在语音识别的前端加入语音增强算法来提高语音质量。由此可见,不论是在通信领域,还是在人机交互领域,利用语音增强算法均可提高带噪语音可懂度、增强语音质量,这将是有广阔应用前景的研究课题。

语音增强主要分有监督和无监督语音增强算法。谱减法与维纳滤波法是无监督语音增强中常用的方法,但是谱减法在增强语音质量的同时会附加产生“音乐噪声”。Ephraim与 Malah假设噪声信号为平稳的高斯噪声,利用最小均方误差估计算法对语音信号进行有效的增强,同时降低音乐噪声的干扰。然而,现实生活中噪声信号大多是非平稳信号,Martin 针对非平稳噪声信号,提出了基于最小统计量的语音增强算法。众多学者研究表明,无监督的语音增强在高信噪比和平稳噪声环境下增强效果较好,但是对信噪比较低以及非平稳噪声信号的环境中增强效果一般。

随着技术的发展,学者们针对非平稳噪声信号,尝试利用有监督的语音增强算法对带噪语音信号进行处理,包括浅层神经网络和深层神经网络。浅层神经网络中的非负矩阵语音增强算法,在假设纯净语音与噪音独立的条件下,对纯净语音与噪音分别训练,获得一定的语音增强效果。由于浅层神经网络的训练数据和层数都较少,因而使测试数据拟合效果不好且只能提取一些简单特征,导致语音增强效果不好。随着深度学习的不断发展,深层神经网络也逐渐应用到了语音增强领域。Wang等人采用DNN(Deep Neural Network,DNN)训练纯净语音与噪音之间的时频掩模,极大提升了语音信号的可懂度。Xu等人利用DNN模型,对带噪语音功率谱和纯净语音功率谱之间建立非线性关系,采用丢弃算法Dropout防止出现过拟合现象,并运用最小批量化的随机梯度下降算法加快了训练速度。 Williamson等人采用DNN语音增强模型估计复数浮值掩蔽的实部与虚部,估计语音的幅值与相位,改善了相位因噪声产生的偏移。Chen等人针对低信噪比环境,提出了一种多分辨率耳蜗图的语音特征,获取语音信号的全局与局部特征,提高低信噪比场景下的语音增强效果。Chen等人为提高DNN语音增强模型的泛化能力,在训练过程中对噪声加入扰动使噪声具有多样性,提高了语音增强效果。Tu等人利用DNN的输出层对目标和干扰分别进行估计,估计的目标语音在语音识别中精度显著提高。Tu等人提出了Skip-DNN 语音增强模型,并采用MEL-频率的大小作为网络输入和输出语音特征,能够较好的解决梯度消失问题,并且训练过程中携带更多语音信息,提高语音增强性能。Tseng等人采用稀疏非负矩阵分解提取语音信号特征,利用DNN语音增强模型估计IBM,在低信噪比情况下语音的可懂度有一定的提高。

根据上述分析可知,基于DNN的语音增强算法大多只采用全连接的结构方式,在低信噪比环境下,全连接的结构在训练过程中容易忽略部分纯净语音特征,出现语音丢失现象。

发明内容

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨理工大学,未经哈尔滨理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010012435.3/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top