[发明专利]基于生成对抗网络的频带扩展方法、编解码方法及系统有效
申请号: | 202210322549.7 | 申请日: | 2022-03-30 |
公开(公告)号: | CN114420140B | 公开(公告)日: | 2022-06-21 |
发明(设计)人: | 李强;朱勇;叶东翔;王尧 | 申请(专利权)人: | 北京百瑞互联技术有限公司 |
主分类号: | G10L19/02 | 分类号: | G10L19/02;G10L19/16;G10L25/30;G06N3/04;G06N3/08 |
代理公司: | 北京国科程知识产权代理事务所(普通合伙) 11862 | 代理人: | 曹晓斐 |
地址: | 100085 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 生成 对抗 网络 频带 扩展 方法 解码 系统 | ||
本申请公开了一种基于生成对抗网络的频带扩展方法、编解码方法及系统,属于音频编解码技术领域,该方法包括:在音频编码或解码过程中,通过LC3音频编码器或解码器对输入的音频数据进行特征提取,确定其对应的谱系数;对谱系数进行带宽检测,得到带宽指示;若带宽指示为窄带宽,则通过预训练的生成神经网络对窄带宽对应的低频谱系数进行扩展,得到高频谱系数;将低频谱系数和高频谱系数组合,得到宽带谱系数。本申请在音频编码或解码过程中,利用LC3编解码器中已有的模块获取音频数据的谱系数,并通过神经网络生成最终的宽带谱系数,完成频带的扩展。在编码或解码过程中完成频带扩展,节省算力,降低功耗,适用低功耗蓝牙,保证频带扩展的准确性。
技术领域
本申请涉及音频编解码技术领域,尤其涉及一种基于生成对抗网络的频带扩展方法、编解码方法及系统。
背景技术
音频带宽用于描述组成复合信号的频率范围,常见的音乐歌曲的音频带宽在20Hz到20000Hz之间,音频信号的频带越宽,所包含的音频信号分量越丰富,音质也就越好,因此较高带宽的音频信号具有较好的听觉质量。但由于某些录音装置能够处理或者通过的频率范围有限等原因导致歌曲的频谱高度不高(例如:小于8K),导致歌曲对应的音质沉闷、不够明亮,因此常通过音频带宽扩展技术增强歌曲的高频带细节,使高频分量更丰富以提高歌曲的音质。
目前,传统的音频带宽扩展方法有非盲目式高频重建方法(例如:频带复制(Spectral Band Replication,SBR)法、简化参数的带宽扩展(Simplified ParametersBand width Extension ,SPBE) 等) 和盲目式高频重建方法(例如:线性外推(LinearExtrapolation,LE)、非线性预测等),这些传统方法大多数都在时域中,通过线性预测编码(Linear Predictive Coding,LPC)提取窄带信号的频谱包络等窄带特征,结合线性匹配或者统计方法由窄带特征预测得到高频带特征,进而合成得到超分辨率音频。传统的音频带宽扩展方法大多在时域进行处理,且音乐的音频频谱特征复杂多变。音频生成的泛化能力差,合成的超分辨率音频往往含有很多杂音,失真度高,听感沉闷。
另外,现有的频带扩展方法大多针对普通蓝牙设备,占用较大的存储空间并消耗较多的运算量,而LC3低功耗蓝牙对功耗有着严格的要求,因此上述的方法不能适用于低功耗蓝牙的应用场景。
发明内容
针对现有技术中,在进行频带扩展得到宽带宽音频时,操作过程复杂,功耗高,无法在嵌入式蓝牙系统中实施,无法适用低功耗蓝牙的应用场景的问题,本申请提出一种基于生成对抗网络的频带扩展方法、编解码方法及系统。
在本申请的一个技术方案中,提供一种基于生成对抗网络的频带扩展方法,包括:在音频编码或解码过程中,通过LC3音频编码器或解码器对输入的音频数据进行特征提取,确定其对应的谱系数;对谱系数进行带宽检测,得到带宽指示;若带宽指示为窄带宽,则通过预训练的生成网络对窄带宽对应的低频谱系数进行扩展,得到高频谱系数;将低频谱系数和高频谱系数组合,得到宽带谱系数。
可选的,生成网络的预训练过程包括:获取宽带语音,并对宽带语音进行滤波,得到窄带语音,其中宽带语音具有宽带宽,窄带语音仅具有窄带宽;分别对宽带语音和窄带语音进行特征提取换,得到宽带语音对应的真宽带谱系数和窄带语音对应的窄带谱系数;根据宽带谱系数和从窄带谱系数中提取的低频谱系数对生成网络进行训练,使得生成网络能够根据窄带谱系数生成高频谱系数。
可选的,通过LC3音频编码器或解码器对输入的音频数据进行特征提取,确定其对应的谱系数,包括:在LC3音频编码器的音频编码过程中,通过对音频数据进行低延迟改进型离散余弦变换,得到谱系数;或在LC3音频解码器的音频解码过程中,对输入的解码音频数据解码至变换域噪声整形步骤,得到谱系数。
可选的,生成网络的预训练过程还包括:将低频谱系数和高频谱系数组合,得到假宽带谱系数;通过判别网络对真宽带谱系数和假宽带谱系数进行判断,对生成网络进行优化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百瑞互联技术有限公司,未经北京百瑞互联技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210322549.7/2.html,转载请声明来源钻瓜专利网。