[发明专利]一种基于深度自编码器的语音信号编解码方法有效

申请号：	201910777131.3	申请日：	2019-08-22
公开（公告）号：	CN110473557B	公开（公告）日：	2021-05-28
发明（设计）人：	吴建锋;秦会斌;秦宏帅	申请（专利权）人：	浙江树人学院(浙江树人大学)
主分类号：	G10L19/00	分类号：	G10L19/00;G10L19/038;G06N3/08
代理公司：	杭州昱呈专利代理事务所(普通合伙) 33303	代理人：	雷仕荣
地址：	312028 浙江省绍***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于深度编码器语音信号解码方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于深度自编码器的语音信号编解码方法，包括以下步骤：步骤S101：采用深度自编码器结构并对其进行神经网络训练得到深度编码器神经网络和深度解码器神经网络；步骤S102：将深度编码器神经网络输出给编码单元并以此进行编码操作得到编码数据，以及将深度解码器神经网络输出给解码单元并以此对接收到的编码数据进行解码操作得到解码数据。采用本发明的技术方案，能够使编码层的输出近似于0‑1布尔分布，从而能够减少量化误差，提高重建语音信号的质量。

技术领域

本发明涉及语音信号处理技术领域，尤其涉及一种基于深度自编码器的语音信号编解码方法。

背景技术

在语音信号传输技术中，编码端的语音编码技术以及解码端的语音信号重建是关键技术。现有技术中，语音编码通常采用基于码本的矢量量化技术，也即，在编码端和解码端都存储预先训练好的码本，语音编码和解码就是根据码本查找索引或者根据索引获取码子的过程。然而当适量的维度较高或者码本较大时，传统的矢量量化技术将无法进行。比如，对100维的数据进行20bit的量化，需要1048576个100维的码本，这种码本的训练几乎无法进行。通常采用分裂矢量量化或者多级矢量量化减少运算量，但这破坏了数据各维度之间的相关性，从而增加了量化误差。

随着深度神经网络的兴起，有众多学者研究将深度自编码器(Deep Auto-Encoder，DAE)应用于语音功率谱的量化编码，并取得优于传统矢量量化技术的效果。该方法直接将编码层的输出量化为0或1，从而实现编码层的二值化，然而编码层的输出分布在训练过程中是不确定的，当编码层的输出近似为0-1分布时，能够实现较好的量化效果，但当编码层的输出不是0-1分布时，就会导致很大的量化误差。因此，需要一种方法保证编码层的输出近似为0-1分布以提升量化性能。

故，针对现有技术的缺陷，实有必要提出一种技术方案以解决现有技术存在的技术问题。

发明内容

有鉴于此，确有必要提供一种基于深度自编码器的语音信号编解码方法，能够使编码层的输出近似于0-1布尔分布，从而能够减少量化误差，提高重建语音信号的质量。

为了解决现有技术存在的技术问题，本发明的技术方案如下：

一种基于深度自编码器的语音信号编解码方法，包括以下步骤：

步骤S101：采用深度自编码器结构并对其进行神经网络训练得到深度编码器神经网络和深度解码器神经网络；

步骤S102：将深度编码器神经网络输出给编码单元并以此进行编码操作得到编码数据，以及将深度解码器神经网络输出给解码单元并以此对接收到的编码数据进行解码操作得到解码数据；

其中，深度自编码器结构通过以下步骤训练：

步骤S201：获取训练数据；

步骤S202：采用训练数据训练第一个自编码器；

步骤S203：然后通过第一个自编码器的输出训练第二个自编码器，并依此逐层训练每一个自编码器；

步骤S204：完成所有自编码器训练后，展开级联成深度自编码器结构；