[发明专利]基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法有效
申请号: | 201910477034.2 | 申请日: | 2019-06-03 |
公开(公告)号: | CN110211574B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 韩纪庆;唐海桃;郑铁然;郑贵滨 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/02 |
代理公司: | 哈尔滨市松花江专利商标事务所 23109 | 代理人: | 刘冰 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,属于建模方法领域。传统的注意力模型存在识别性能较差,注意力尺度单一等问题。一种基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,采用深度置信网络提取瓶颈特征作为前端,能够增加模型的鲁棒性,而后端则采用由不同尺度的卷积核组成的多尺度多头注意力模型,分别对音素、音节、词等级别的语音基元进行建模,逐个计算出循环神经网络隐含层状态序列以及输出序列;使用每个头的注意力网络所对应的解码网络计算输出序列在位置处的元素,最终将所有输出序列采整合成一个新的输出序列。本发明能够提高语音识别系统的识别效果。 | ||
搜索关键词: | 基于 瓶颈 特征 尺度 多头 注意力 机制 语音 识别 模型 建立 方法 | ||
【主权项】:
1.基于瓶颈特征和多尺度多头注意力机制的语音识别模型建立方法,其特征在于:所述方法包括以下步骤:步骤一、利用输入的样本FBank语音特征向量X=(x1,x2,...,xT)对DBN中的RBM网络进行无监督训练,得到初始化编码网络中前三层连接权重矩阵W1、W2、W3,由这三层连接权重矩阵和一层随机初始化权值输出层W4组成编码网络前端的基于DBN的瓶颈特征提取网络;RBM网络表示受限玻尔兹曼机;DBN表示深度置信网络;FBank表示滤波器组;步骤二、抽取样本FBank语音特征向量X=(x1,x2,...,xT)输入至步骤一的四层瓶颈特征提取网络中,利用前向计算得到瓶颈特征提取网络输出v;然后,根据瓶颈特征提取网络的输出v和样本训练数据X的实际输出采用BP算法对瓶颈特征提取网络进行有监督训练,以计算四层的瓶颈特征提取网络的每层权值△Wtl和偏置
的梯度,再对权值
和偏置
进行迭代更新;步骤三、将步骤二的四层瓶颈特征提取网络最后一层输出层去掉,只保留前三层重新作为编码网络的前端,将前端输出的瓶颈特征序列(v1,v2,...,vn)作为RNN的输入,此处RNN为编码网络的后端,它由两组基于GRU的多层RNN组成,分别为前向网络和后向网络;则输入的FBank语音特征向量X经过编码网络前端瓶颈特征提取网络得到瓶颈特征序列(v1,v2,...,vn),输出的瓶颈特征序列通过编码器后端基于GRU的多层RNN得到最终的输出为高层特征序列(h1,h2,...,hT);步骤四、采用多尺度多头的注意力机制将编码网络后端输出的高层特征序列(h1,h2,...,hT)分别注入不同尺度的卷积核Fi中,并对音素、音节、词等级别的语音基元进行建模,从而得到各自的目标向量cto,再将每种模型对应的cto作为多尺度多头注意力网络中每个头的解码RNN网络的输入,逐个计算出RNN隐含层状态序列(s1,s2,...,so),以及输出音素序列(y1,y2,...,yo);步骤五、使用多尺度多头注意力网络中每个头的注意力网络所对应的解码RNN网络计算输出序列(y1,y2,...,yo)进行拼接得到新的输出序列(y1,y2,...,yo)i;将新的输出序列采用DNN整合成最终的输出序列(Y1,Y2,...,Yo)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910477034.2/,转载请声明来源钻瓜专利网。