[发明专利]一种基于深度自编码器的语音信号编解码方法有效
申请号: | 201910777131.3 | 申请日: | 2019-08-22 |
公开(公告)号: | CN110473557B | 公开(公告)日: | 2021-05-28 |
发明(设计)人: | 吴建锋;秦会斌;秦宏帅 | 申请(专利权)人: | 浙江树人学院(浙江树人大学) |
主分类号: | G10L19/00 | 分类号: | G10L19/00;G10L19/038;G06N3/08 |
代理公司: | 杭州昱呈专利代理事务所(普通合伙) 33303 | 代理人: | 雷仕荣 |
地址: | 312028 浙江省绍*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 编码器 语音 信号 解码 方法 | ||
本发明公开了一种基于深度自编码器的语音信号编解码方法,包括以下步骤:步骤S101:采用深度自编码器结构并对其进行神经网络训练得到深度编码器神经网络和深度解码器神经网络;步骤S102:将深度编码器神经网络输出给编码单元并以此进行编码操作得到编码数据,以及将深度解码器神经网络输出给解码单元并以此对接收到的编码数据进行解码操作得到解码数据。采用本发明的技术方案,能够使编码层的输出近似于0‑1布尔分布,从而能够减少量化误差,提高重建语音信号的质量。
技术领域
本发明涉及语音信号处理技术领域,尤其涉及一种基于深度自编码器的语音信号编解码方法。
背景技术
在语音信号传输技术中,编码端的语音编码技术以及解码端的语音信号重建是关键技术。现有技术中,语音编码通常采用基于码本的矢量量化技术,也即,在编码端和解码端都存储预先训练好的码本,语音编码和解码就是根据码本查找索引或者根据索引获取码子的过程。然而当适量的维度较高或者码本较大时,传统的矢量量化技术将无法进行。比如,对100维的数据进行20bit的量化,需要1048576个100维的码本,这种码本的训练几乎无法进行。通常采用分裂矢量量化或者多级矢量量化减少运算量,但这破坏了数据各维度之间的相关性,从而增加了量化误差。
随着深度神经网络的兴起,有众多学者研究将深度自编码器(Deep Auto-Encoder,DAE)应用于语音功率谱的量化编码,并取得优于传统矢量量化技术的效果。该方法直接将编码层的输出量化为0或1,从而实现编码层的二值化,然而编码层的输出分布在训练过程中是不确定的,当编码层的输出近似为0-1分布时,能够实现较好的量化效果,但当编码层的输出不是0-1分布时,就会导致很大的量化误差。因此,需要一种方法保证编码层的输出近似为0-1分布以提升量化性能。
故,针对现有技术的缺陷,实有必要提出一种技术方案以解决现有技术存在的技术问题。
发明内容
有鉴于此,确有必要提供一种基于深度自编码器的语音信号编解码方法,能够使编码层的输出近似于0-1布尔分布,从而能够减少量化误差,提高重建语音信号的质量。
为了解决现有技术存在的技术问题,本发明的技术方案如下:
一种基于深度自编码器的语音信号编解码方法,包括以下步骤:
步骤S101:采用深度自编码器结构并对其进行神经网络训练得到深度编码器神经网络和深度解码器神经网络;
步骤S102:将深度编码器神经网络输出给编码单元并以此进行编码操作得到编码数据,以及将深度解码器神经网络输出给解码单元并以此对接收到的编码数据进行解码操作得到解码数据;
其中,深度自编码器结构通过以下步骤训练:
步骤S201:获取训练数据;
步骤S202:采用训练数据训练第一个自编码器;
步骤S203:然后通过第一个自编码器的输出训练第二个自编码器,并依此逐层训练每一个自编码器;
步骤S204:完成所有自编码器训练后,展开级联成深度自编码器结构;
步骤S205:使用误差反向传播算法对经上述步骤预训练的深度神经网络进行调优训练使其输入和输出误差最小化;
其中,步骤S205采用两次调优训练,第一次调优训练中,前向传播时,在编码层的输入端加入特定分布的高斯噪声,高斯噪声的均值为0,方差σ2预先确定并在第一次调优训练中保持不变;
第二次调优训练中,前向传播时,将编码层的输出以四舍五入的方式强制二值化为‘0’或‘1’;反向传播中,仍然以浮点实数计算梯度。
作为进一步的改进方案,各层自编码器训练通过最小化下式(1)得到:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江树人学院(浙江树人大学),未经浙江树人学院(浙江树人大学)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910777131.3/2.html,转载请声明来源钻瓜专利网。