[发明专利]基于多头自注意力机制的语音增强方法有效

申请号：	201911012632.9	申请日：	2019-10-23
公开（公告）号：	CN110739003B	公开（公告）日：	2022-10-28
发明（设计）人：	常新旭;袁晓光;张杨;寇金桥;杨林;吴敏;王昕;徐冬冬;赵晓燕;闫帅	申请（专利权）人：	北京计算机技术及应用研究所
主分类号：	G10L21/0208	分类号：	G10L21/0208;G10L25/27;G10L25/03
代理公司：	中国兵器工业集团公司专利中心 11011	代理人：	王雪芬
地址：	100854***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于多头注意力机制语音增强方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于多头自注意力机制的语音增强方法，其特征在于，包括以下步骤：

步骤一：混合实验数据，提取对数功率谱特征；

步骤二：构建基于多头自注意力机制的语音增强模型；

步骤三：将步骤一提取的数据对所述语音增强模型进行训练；

步骤四：将步骤一提取的数据作为待增强语音特征送入训练好的语音增强模型，输出得到相应的干净语音特征估计；

步骤五：将步骤四所得到的待增强语音特征的干净语音特征估计进行波形重构，恢复语音信号；

步骤一具体为：

1)将原始的干净语音数据和噪声数据重采样为16000hz；

2)按照不同的输入信噪比，混合干净语音数据和噪声数据，构建含噪语音数据；

3)提取干净语音数据和含噪语音数据的对数功率谱特征，构建用于训练网络的干净语音特征和含噪语音特征的数据对，其中，计算对数功率谱时的帧长为512个点，帧移为256点，所计算出的特征维度为257；

步骤二构建的基于多头自注意力机制的语音增强模型包含两个部分：编码器和解码器，模型输入为以第n帧为中心的相邻多帧对数功率谱特征，即：X＝(x_n-m,x_n-m+1,...,x_n,...,x_n+m-1,x_n+m)，m为整数，编码器将输入的所述相邻多帧对数功率谱特征重新编码得到高层特征表示序列Z＝(z_n-N,z_n-N+1,...,z_n,...,z_n-N+1,z_n+N)，N为整数，解码器最终根据编码器生成的所述高层特征表示序列生成当前待增强语音的干净语音特征估计

所述解码器端将利用编码器生成的特征序列Z最终生成当前待增强语音的干净特征估计，采用的方法是使用GRU-RNN对编码器生成的高层特征表示序列Z进行解码，将其最后一步的输出作为当前待增强语音的干净特征估计。

2.如权利要求1所述的方法，其特征在于，所述编码器由独立的网络层组成，称其为transformer层，每个网络层由两个子层组成，第一层为多头自注意力层用于执行多头自注意力运算，第二层为以帧为单位的全连接前馈神经网络用于在多头自注意力运算之后抑制语音信号中的噪声干扰，两个子层采用残差连接，为了将在输入特征中增加时序信息，采用三角函数来编码时序信息，得到编码后的时序信息：

其中，pos表示时序信息，i表示特征维数，d_model表示编码器每一层的输出维数。

3.如权利要求2所述的方法，其特征在于，多头自注意力层中计算注意力的打分函数使用缩放点击模型。

4.如权利要求3所述的方法，其特征在于，多头自注意力运算定义如下：

Multi-Head(Q,K,V)＝concat(head₁,...,head_h)W^O

head_i＝Attention(QW_i^Q,KW_i^K,VW_i^V)

其中，Q,K,V分别表示计算的注意力相关查询、键和值，d_k表示键的维数，为线性映射的参数矩阵，h为子空间的个数，concat为向量拼接操作。

5.如权利要求1所述的方法，其特征在于，所述解码器端将利用编码器生成的特征序列Z最终生成当前待增强语音的干净特征估计，采用的方法是自注意力解码方法，在解码阶段对编码器生成的高层特征表示序列Z再次施加多头自注意力运算，将当前帧的输出作为待增强语音的干净特征估计。

6.如权利要求5所述的方法，其特征在于，步骤三中，含噪语音特征为训练特征，干净语音特征为训练目标。

7.如权利要求6所述的方法，其特征在于，步骤五中，将步骤四所得到的待增强语音特征的干净语音特征估计结合待增强语音特征的相位谱，通过逆傅里叶变换重构时域波形信号，最终得到增强的语音信号。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京计算机技术及应用研究所，未经北京计算机技术及应用研究所许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】