[发明专利]语音识别任务中的保持注意力机制单调性方法有效
申请号: | 202110250627.2 | 申请日: | 2021-03-08 |
公开(公告)号: | CN112992129B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 杨周旺;杜叶倩;王昊 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16;G10L15/26;G06N3/08 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;郑哲 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 识别 任务 中的 保持 注意力 机制 调性 方法 | ||
1.一种语音识别任务中的保持注意力机制单调性方法,其特征在于,包括:
通过神经网络模块,学习能够拟合注意力机制权重分布的高斯分布的参数,并进行数值计算,使之符合设定要求;
将数值计算得到的参数值与注意力机制权重矩阵之间的均方误差作为单调性损失,并将所述单调性损失作为原本优化目标的正则项,得到最终的优化目标;
基于所述最终的优化目标对语音识别框架进行训练;
其中,通过神经网络模块,得到高斯分布的参数,即均值μ和方差σ的初步数值,在进行数值计算时,对均值μ的初步数值进行截断使之非负,再做放缩使得求和等于语音序列长度,计算结果记为Δ;对方差σ进行截断使之在设定范围内,计算结果记为∑;计算过程表示为:
Δ,∑=Cal(μ)(QWμ),Cal(σ)(QWσ)
其中,Wμ、Wσ各自表示神经网络模块中对于均值μ、方差σ的映射权重,Q为注意力机制中的Query;令QWμ,QWσ=X,则Cal(μ)(X)、Cal(σ)(X)的计算公式为:
Cal(σ)(X)=clamp(X,σmin,σmax)
上式中,Xi为QWμ的第i行,inf表示无穷大,J表示语音识别框架中编码器的序列长度,clamp(.)为区间限定函数,将括号中的三个数值对应的表示为(x,xmin,xmax),如果输入为矩阵则为每一个元素进行计算,表示为:
2.根据权利要求1所述的一种语音识别任务中的保持注意力机制单调性方法,其特征在于,所述通过神经网络模块,学习能够拟合注意力机制权重分布的高斯分布的参数包括:
所述语音识别框架为包含注意力机制的编解码框架,连接编码器和解码器的注意力机制的三个输入Query、Key、Value分别来自解码器、编码器、编码器;
神经网络模块的输入为Query,通过神经网络模块的映射操作,得到高斯分布的参数均值μ和方差σ的初步数值;其中,均值μ的映射权重Wμ与方差σ映射权重Wσ不共享。
3.根据权利要求1或2所述的一种语音识别任务中的保持注意力机制单调性方法,其特征在于,计算参数值与注意力机制权重之间的均方误差的过程包括:
高斯分布的参数包含了均值μ和方差σ的初步数值,数值计算结果对应记为Δ,∑,由Δ与∑对应的计算每个位置高斯分布参数的均值μi与σi,从而计算每个位置上的数值然后,与注意力机制权重矩阵a相减,计算均方误差,计算过程表示为:
μi,σi=μi-1+Δi,∑i
其中,i,j为位置索引,I、J分别表示语音识别框架中解码器、编码器的信息序列长度,表示均方误差。
4.根据权利要求1或2所述的一种语音识别任务中的保持注意力机制单调性方法,其特征在于,所述将所述单调性损失作为原本优化目标的正则项,得到最终的优化目标包括:
对于包含注意力机制的编解码框架,对解码器部分的N个layer和每个layer的H个head的单调性损失取平均,表示为:
将lossmono作为原本优化目标lossCE的正则项,得到最终的优化目标loss:
loss=lossCE+λ*lossmono
其中,λ为正则项系数,n=1,...,N,h=1,...,H,表示对第n个layer、第h个head的注意力机制计算出的单调性损失。
5.根据权利要求1或2所述的一种语音识别任务中的保持注意力机制单调性方法,其特征在于,预先收集语音数据集作为训练数据,并基于所述最终的优化目标对语音识别框架进行训练;对于训练后的语音识别框架,使用新的语音数据样本进行测试,获得语音识别结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110250627.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种煤岩界面识别方法
- 下一篇:一种用于三维重建的纹理编码影像生成方法