[发明专利]一种基于对比学习的端到端音障语音识别方法在审
申请号: | 202110588547.8 | 申请日: | 2021-05-28 |
公开(公告)号: | CN113450777A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 孙仕亮;吴丽丹;赵静;张楠 | 申请(专利权)人: | 华东师范大学 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L15/16;G10L15/20;G10L15/22 |
代理公司: | 上海蓝迪专利商标事务所(普通合伙) 31215 | 代理人: | 徐筱梅;张翔 |
地址: | 200241 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 对比 学习 端到端 音障 语音 识别 方法 | ||
1.一种基于对比学习的端到端音障语音识别方法,其特征在于,该方法包括如下步骤:
步骤一:基于大规模正常发音的语音数据集预训练出基本的语音识别模型
所述语音识别模型为Transformer模型中的端对端神经网络,包括编码器和解码器两部分,预训练后可得到网络的初始参数;
步骤二:对开源的音障语音数据进行信号处理得到频谱图,在频谱图上进行数据增强操作,生成多视图数据;
步骤三:多视图数据通过共享参数的Transformer模型中的编码器作为非线性神经网络提取隐层信息;
步骤四:隐层信息经过投影模块对隐层信息进一步提取得到低维空间中的隐表示;
步骤五:计算不同视图数据的隐表示之间的对比损失,并将其作为模型训练时的优化目标;
步骤六:在解码过程中直接使用隐层信息解码进行音障语音识别。
2.如权利要求1所述的基于对比学习的端到端音障语音识别方法,其特征在于,步骤二所述的数据增强操作是指:对于音频经过信号处理得到的频谱图,进行时域扭曲、频域掩蔽或时域掩蔽变换;详细步骤包括:
步骤a1:对不同频域的信号进行预加重操作,补充高频部分的能量,使得信号在不同频段的能量均匀,进而在求频谱图时使用相同的信噪比;
步骤a2:对语音信号进行分帧、加窗操作,将原来由于波形特性变化而没有规律的非平稳信号转化为多个帧,在分帧后的每个小片段被认为是平稳信号;
步骤a3:对每个小片段进行快速傅立叶变换,将时域信号转到频域,获得线性谱;傅里叶变换以及傅立叶逆变换符合下列式子:
其中,t、w分别是时间和频率,f(t)、F(w)分别是信号的时域和频域的表示;F(w)是f(t)的象函数,F(w)到f(t)的过程实际上是将频率域的函数表示为时间域函数的积分;f(t)是F(w)的象原函数,其过程正好相反;象函数和象原函数构成一个傅立叶变换对,当T→∞时,Ω=2π/T→dw,nΩ→w;
步骤a4:通过一组模拟人耳听觉特性的梅尔滤波器,将线性谱转化为梅尔频谱图,获得准确的频谱特征;
步骤a5:在梅尔频谱图上进行数据增强操作,包括时域扭曲、频域掩蔽或时域掩蔽变换;原始数据x经由变换得到了两个视图下的数据xi与xj,符合下列式子:
xi=a(x),xj=a′(x), (2)
其中a与a′为变换族中的两种变换,即且
3.如权利要求1所述的基于对比学习的端到端音障语音识别方法,其特征在于,步骤三所述的Transformer模型中的编码器f运用了Attention机制,提取出两个视图间共有的信息;经过编码器得到隐层信息hi=f(xi)以及hj=f(xj)。
4.如权利要求1所述的基于对比学习的端到端音障语音识别方法,其特征在于,步骤四所述的投影模块是一种保留隐层表示的信息、加速损失函数的计算而增设的非线性网络g,采用注意力时序金字塔网络实现投影模块的功能,将隐层信息映射到隐表示,zl=g(hl),详细步骤包括:
步骤b1:将长度为T的D维向量划分为N个子集,其中每个子集内含有n个分块,n=1,2,4,其中每个分块是长度为T/n的特征向量;
步骤b2:将子集输入到N×M的注意力权重矩阵当中,获得每个分块的权重,其中M表示分块的个数;
步骤b3:特征向量经过注意力权重矩阵的加权操作在隐空间得到最低维的隐表示zi。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华东师范大学,未经华东师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110588547.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种组织块清洗装置及其清洗方法
- 下一篇:一种声衰减建筑材料及其加工工艺