[发明专利]用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法有效
申请号: | 201811249506.0 | 申请日: | 2018-10-25 |
公开(公告)号: | CN109215635B | 公开(公告)日: | 2020-08-07 |
发明(设计)人: | 胡瑞敏;李罡;张锐;王晓晨 | 申请(专利权)人: | 武汉大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L21/02;G10L25/30 |
代理公司: | 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 | 代理人: | 严彦 |
地址: | 430072 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语音 清晰度 增强 宽带 频谱 倾斜度 特征 参数 重建 方法 | ||
1.一种用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,其特征在于:包括基于循环神经网络的频谱倾斜度重建网络的训练阶段和使用阶段,
所述的频谱倾斜度重建网络的训练阶段包括以下步骤,
步骤S11,通过对高采样率的宽带语音资料降采样获取低采样率的窄带语音资料,建立语音数据集,语音数据集中对应的窄带语音资料和宽带语音资料均包括有相同文本内容的普通语音和抗噪语音,将语音数据集按比例分成训练集和测试集、验证集语音资料,对语音数据集中的语音资料进行预处理,所述预处理包括分帧和加窗;
步骤S12,输入预处理后训练集中的窄带语音资料,进行短时傅里叶变换得到窄带语音频谱,将频谱信息对数化获取对数幅度谱作为频谱倾斜度重建网络的输入;
步骤S13,输入预处理后训练集中的宽带语音资料,提取宽带语音信号频谱倾斜度的全极点模型参数,转化成线性频谱对参数,作为频谱倾斜度重建网络的输出;
步骤S14,训练频谱倾斜度重建网络,定义感知均方根偏差PRMSD作为评估方法测试频谱倾斜度网络性能,每次评估使用验证集作为评价标准,调试出最优重建网络参数模型,并在测试集中验证最终效果;
所述的频谱倾斜度重建网络的使用阶段将已训练好的神经网络投入到实际通信的实时语音逐帧处理中,包括以下步骤,
步骤S21,实时逐帧输入窄带语音,提取窄带语音的对数幅度谱参数;
步骤S22,逐帧输入宽带语音对数幅度谱参数,结合频谱倾斜度重建网络和参数转换重建宽带语音频谱倾斜度的全极点模型参数。
2.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,其特征在于:步骤S12中,短时傅里叶变换的点数为N,频谱倾斜度重建网络的训练输入的计算公式为:
Si(n)表示第i帧窄带语音信号,n为语音信号帧长,xi(k)表示第i帧语音信号的对数幅度谱的值,k为复变函数频域中的复变量基本表示符号,Win表示一种时域上的窗函数;每帧语音信号的对数幅度谱的点数为xi=[xi(1),xi(2)…,xi(C)]为第i帧语音信号的对数幅度谱,对语音数据集中分帧后的窄带语音资料的每一帧信号按照上述第一个公式计算得到该帧信号的对数幅度谱,将其逐行存储到矩阵X中,X表示频谱倾斜度重建网络的输入矩阵,M为X的行数。
3.根据权利要求2所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,其特征在于:步骤S13中,根据第i帧宽带语音信号si(n)计算,
得到ai=[ai(1),ai(2)…,ai(P)],为第i帧宽带语音信号频谱倾斜度的全极点模型参数,ai(1),ai(2)…,ai(P)分别为第1,2,…,P阶的全极点模型参数值,P为全极点模型参数的阶数。
4.根据权利要求1所述的用于语音清晰度增强的宽带语音频谱倾斜度特征参数重建方法,其特征在于:步骤S13所述的线性频谱对参数为全极点模型参数的等价形式,线性频谱对参数具有更强的鲁棒性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于武汉大学,未经武汉大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811249506.0/1.html,转载请声明来源钻瓜专利网。