[发明专利]一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法在审

专利信息
申请号: 202010651174.X 申请日: 2020-07-08
公开(公告)号: CN111968629A 公开(公告)日: 2020-11-20
发明(设计)人: 胡章芳;蹇芳;唐珊珊;明子平;姜博文 申请(专利权)人: 重庆邮电大学
主分类号: G10L15/16 分类号: G10L15/16;G10L15/183;G10L15/02
代理公司: 重庆市恒信知识产权代理有限公司 50102 代理人: 陈栋梁
地址: 400065 重*** 国省代码: 重庆;50
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 结合 transformer cnn dfsmn ctc 中文 语音 识别 方法
【权利要求书】:

1.一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,包括以下步骤:

S1,输入语音信号,将语音信号进行预处理,结合低帧率LFR,先对语音信号预加重,再通过一个固定的10ms帧位移的25ms汉明窗口进行分析,并利用80个梅尔滤波器组提取80维的取对数后的梅尔滤波器Fbank特征;

S2,将提取到的80维Fbank特征用CNN卷积网络进行卷积;

S3,将特征输入到深度前馈序列记忆神经网络DFSMN网络结构中,该网络结构一共有6层,模型深度为512维;

S4,将联结主义时间分类CTC作为声学模型的损失函数,采用宽度参数设置为10的集束搜索Beam search算法进行预测,使用自适应时刻估计Adam优化器进行优化,使得声学模型训练时使模型能达到更优;

S5,引入强语言模型Transformer迭代训练直至达到最优模型结构;

S6,将Transformer和声学模型CNN-DFSMN-CTC卷积神经网络结合深度前馈序列神经网络及联结主义时间分类相结合进行适配,在多数据集上进行验证,最终得到最优识别结果。

2.根据权利要求1所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,所述步骤S1具体包括:

S11、对语音信号进行预加重处理:

x′[t]=x[t]-αx[t-1]

其中,x[t]表示音频数据的第t个数,α表示预加重系数,x′[t]表示预加重后的音频数据,α的取值范围是(0.95,0.99);

S12,对预加重的语音信号分帧加窗,采用10ms的帧移对25ms的语音信号用汉明窗进行分析:

x′[n]=w[n]x[n]

其中,x[n]表示所取窗口(窗长为N)之内的第n个数,w[n]表示与之对应的权重,x′[n]表示分帧加窗后的语音信号;

S13,对加窗后的语音信号做离散傅里叶变换,计算方式为:

其中,N表示傅里叶变换的点数,k表示傅里叶变换的第k个频谱,x[n]表示分帧加窗后的语音信号,X[k]表示通过频域转换后的频域信号分量;

S14,提取Fbank特征,首先将一般频率转换成梅尔频率,转换方式为:

该转换由梅尔滤波器组实现完成,具体为将离散傅里叶输出的能量频谱通过三角滤波器组得到梅尔频谱,再将梅尔频谱的能量数值取对数,得到的结果就是Fbank特征。

3.根据权利要求2所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,α的值为0.97。

4.根据权利要求1所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,所述步骤S2将提取到的80维Fbank特征用CNN卷积网络进行卷积,具体包括:

利用卷积网络CNN对输入的Fbank特征进行卷积,CNN通过控制池化层的尺度来保证不同的输入转换后的维度相同,增加CNN卷积网络层后有利于解决输入和输出的不定长问题。

5.根据权利要求4所述的一种结合Transformer和CNN-DFSMN-CTC的中文语音识别方法,其特征在于,所述步骤S3将特征信息输入到DFSMN结构中,DFSMN的参数公式为:

其中,Ptl表示投影层t时刻l层的特征、Vl表示向Ptl转换系数,表示更新后的Ptl,为对应的时不变系数,⊙表示为点乘,表示降维后的投影层特征,为对应的时不变系数,表示降维后的投影层特征,表示为t时刻l+1层的特征,Ul表示转向的系数,bl+1表示第l+1层的参数系数,f表示函数,表示低层Memory Block与高层Memory Block的连接形式,若将低层的Memory直接添加到高层的Memory Block中,则

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010651174.X/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top