[发明专利]基于循环帧序列门控循环单元网络的语音超分辨率方法有效
申请号: | 202011374653.8 | 申请日: | 2020-11-30 |
公开(公告)号: | CN112562702B | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 关键;柳友德;肖飞扬;芦瑶;兰宇晨;田左;王恺瀚;谢明杰;董喆 | 申请(专利权)人: | 哈尔滨工程大学 |
主分类号: | G10L21/003 | 分类号: | G10L21/003;G10L25/18;G10L25/24 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 150001 黑龙江省哈尔滨市南岗区*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 循环 序列 门控 单元 网络 语音 分辨率 方法 | ||
本发明提供一种基于循环帧序列的门控循环单元网络的语音超分辨率方法,包括如下步骤:(1)对原始语音信号进行预处理;(2)提出构建CFS‑GRU模型;(3)完成基于循环帧序列网络的语音超分辨率。本发明基于GRU搭建的循环结构模型,直接将语音信号序列作为输入,很大程度上减小了计算代价,并且相比于传统方法有着较好的超分辨率效果;相比于LSTM,GRU模型有着较少的模型参数,通过GRU搭建的CFS‑GRU模型能够更快的训练和收敛。使用SegSNRLoss作为损失函数训练的CFS‑GRU模型能够更快的收敛,并且能够使输出帧序列有着较高的信噪比,提高超分辨率语音信号的质量。
技术领域
本发明涉及的是语音超分辨率领域,具体地说是一种在不影响语音内容的情况下将低采样率语音转换为高分辨率语音的研究。本发明提出了一种基于循环帧序列门控循环单元网络的语音超分辨率方法,在更小计算体量下获取了更高的语音超分辨率处理性能。
背景技术
语音超分辨率(Speech Super-Resolution,SSR)又叫做语音带宽扩展(SpeechBandwith Expansion,BWE),目的是通过一定的技术对语音进行上采样来提高语音的质量。
随着深度学习在语音方向的应用,人们逐渐发现在某一特定采样率的训练集下训练的神经网络在其他采样率的语音上的效果有所下降,对于一些语音系统一旦经过训练就不能动态的更改语音的采样率来适配不同采样率的语音输入。同时,一些语音合成系统可以选择合成较低分辨率的语音上采样来获得理想语音,这样可以减少训练系统的时间以及计算成本。另一方面,根据研究表明,人们更喜欢听较大频率范围的语音即较高采样率的语音。对于听力受损的人群来说,听较低采样率的语音具有一定的困难。通过超分辨率扩展带宽的语音也能增加人工耳蜗的语音识别率。因此,语音超分辨率在语音系统的应用,提升人对语音的主观感觉以及提高人工耳蜗的语音识别率方面都有着重要的现实意义,国内外学者对语音超分辨率进行了深入的分析研究。一些主要的语音超分辨率方法包括:
1.一种用于语音带宽扩展的深度神经网络方法:2015年K.Li and C.-H.Lee,“Adeep neural network approach to speech bandwidth expansion,”in Acoustics,Speech and Signal Processing(ICASSP),2015IEEE International Conferenceon.IEEE,2015,pp.4395–4399.通过深度神经网络(Deep Neural Network,DNN)对低采样率到高采样率的频谱映射的估计来实现语音超分辨率。
2.使用神经网络的音频超分辨率:2017年Volodymyr Kuleshov,S Zayd Enam,andStefano Ermon,“Audio super-resolution using neural networks,”2017.利用深度的卷积神经网络(Convolutional Neural Network,CNN)搭建的具有残差的深层卷积神经网络自编码器来实现音频的超分辨率。
3.用于音频超分辨率的时频网络:2018年T.Y.Lim,R.A.Yeh,Y.Xu,M.N.Do andM.Hasegawa-Johnson,Time-Frequency Networks for Audio Super-Resolution,2018IEEE International Conference on Acoustics,Speech and Signal Processing(ICASSP),Calgary,AB,2018,pp.646-650.提出了一种时频网络(Time-FrequencyNetwork,TFNet),该网络同时对高分辨率语音的时间序列以及频谱图进行预测,利用音频的时间和频率维度的监督联合优化来实现音频的超分辨率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工程大学,未经哈尔滨工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011374653.8/2.html,转载请声明来源钻瓜专利网。