[发明专利]一种语音信号的处理方法、装置、终端及存储介质有效
申请号: | 201910593752.6 | 申请日: | 2019-07-03 |
公开(公告)号: | CN110322891B | 公开(公告)日: | 2021-12-10 |
发明(设计)人: | 陈霏;叶富强 | 申请(专利权)人: | 南方科技大学 |
主分类号: | G10L19/16 | 分类号: | G10L19/16;G10L25/24;G10L25/30 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 518000 广东省*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 信号 处理 方法 装置 终端 存储 介质 | ||
本发明实施例公开了一种语音信号的处理方法、装置、终端及存储介质,所述方法包括:获取压缩后的窄带语音信号;提取所述窄带语音信号的频域特征;将所述窄带语音信号的频域特征输入训练好的深度降噪自编码器神经网络模型进行非线性拟合,得到全频带语音信号的频域特征;将所述全频带语音信号的频域特征转换为全频带语音信号的功率谱,使用相应窄带信号的相位信息对所述全频带语音信号的功率谱做傅里叶逆变换,得到全频带语音信号。本发明实施例通过使用深度降噪自编码器神经网络模型对压缩后窄带语音信号进行带宽恢复,提高了语音信号的质量和可懂度。
技术领域
本发明实施例涉及语音处理技术领域,尤其涉及一种语音信号的处理方法、装置、终端及存储介质。
背景技术
语音信号是人类进行沟通的重要方式之一,尤其是随着科技日新月异的发展,语音信号需要在手机,电脑之间进行传输。传输过程就需要对语音信号进行压缩编码,以去除语音信号中的冗余度,降低传输比特率或存储空间,因此对语音信号的压缩显得尤为重要。
声码器最早出现在美国贝尔实验室,主要用于信号频带压缩,语音存储通信和保密通信。使用通道声码器对语音信号压缩编码得以广泛应用,它首先对语音信号提取出语音信号的频域特征参量进行编码加密,再根据特征参量恢复出原始语音波形,其工作过程为:语音信号的时频谱信息输入到声码器中,声码器中的带通滤波器将语音信号分为频带相邻的不同通道的信号,再使用希尔伯特变换和低通滤波器对信号进行包络提取,继而采用正弦信号作为载波对提取出的包络信息进行幅度调制,最终将处理后的信号合成为一组输出语音信号。
但是声码器利用了人耳对语音信号相位不敏感这一特性,在对语音信号分析合成时只对信号的幅度谱有所要求,所以声码器合成出的语音信号与原始语音信号在波形上很难进行比较,声码器合成的语音质量和可懂度只能通过主观评分度量进行衡量。另外声码器只传递模型参数,带来较好频带压缩效果的同时,对语音信号的自然度也带来了较大危害。尤其是使用单通道声码器时,合成的窄带语音信号舍去了很多细节,从而导致窄带语音信号的质量和可懂度降低。
发明内容
本发明实施例提供一种语音信号的方法、装置、服务器及存储介质,以提高语音信号的质量和可懂度。
第一方面,本发明实施例提供了一种语音信号的处理方法,包括:
获取压缩后的窄带语音信号;
提取所述窄带语音信号的频域特征;
将所述窄带语音信号的频域特征输入训练好的深度降噪自编码器神经网络模型进行非线性拟合,得到全频带语音信号的频域特征;
将所述全频带语音信号的频域特征转换为全频带语音信号的功率谱,对所述全频带语音信号的功率谱做傅里叶逆变换,得到全频带语音信号。
可选的,所述频域特征为梅尔频率倒谱系数。
可选的,所述深度降噪自编码器神经网络模型采用sigmoid函数作为激活函数,隐藏层数设置为2-4层。
可选的,所述获取压缩后的窄带语音信号包括:
将原始语音信号输入声码器进行压缩,得到压缩后的窄带语音信号;
对所述窄带语音信号进行预处理。
可选的,所述声码器为通道声码器。
可选的,所述声码器的低通截止频率设置为100Hz、300Hz或者500Hz。
可选的,所述对所述窄带语音信号进行预处理包括:
对所述窄带语音信号进行预加重,得到预加重窄带语音信号;
对所述预加重窄带语音信号进行重采样,得到重采样窄带语音信号;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南方科技大学,未经南方科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910593752.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种身份识别装置
- 下一篇:一种基于麦克风阵列的语音拾取系统和方法