[发明专利]基于卷积自注意力变换网络的轻量级端到端语音识别方法有效

专利信息
申请号: 202110398481.6 申请日: 2021-04-12
公开(公告)号: CN113140220B 公开(公告)日: 2023-04-18
发明(设计)人: 张晓雷;李盛强;陈星 申请(专利权)人: 西北工业大学;西北工业大学深圳研究院
主分类号: G10L15/26 分类号: G10L15/26;G10L15/06
代理公司: 西安凯多思知识产权代理事务所(普通合伙) 61290 代理人: 刘新琼
地址: 710072 *** 国省代码: 陕西;61
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 卷积 注意力 变换 网络 轻量级 端到端 语音 识别 方法
【权利要求书】:

1.一种基于卷积自注意力变换网络的轻量级端到端语音识别方法,其特征在于,包括以下步骤:

步骤1:构建基于卷积自注意力变换网络的轻量级端到端语音识别模型;

步骤1-1:对卷积自注意力变换网络的编码器进行改进,构成高效卷积自注意力变换网络;

步骤1-2:高效卷积自注意力变换网络的编码器包括两个低秩前馈模块,以及夹在两个低秩前馈模块中间的多头高效自注意力模块和卷积模块;

对于第i个高效卷积自注意力变换网络的输入Xi,输出Yi由公式(1)到(4)得到:

X″i=X′i+Conv(X′i)    (3)

其中LFFN(.)表示低秩前馈模块,MHESA(.)表示多头高效自注意力模块,Conv(.)表示卷积模块,Layemorm(.)表示层归一化;

步骤1-3:低秩前馈模块;

将卷积自注意力变换网络编码器前馈模块的线性层权重矩阵分解为两个矩阵,用这两个矩阵替换原来的线性层权重矩阵,形成低秩前馈模块;对于低秩前馈模块的输入X,输出为:

LFFN(X)=Dropout(Dropout(Swish(XE1D1))E2D2)    (5)

其中,Dropout(.)表示线性层,Swish(.)表示Swish激活函数;E1和D1为第一个线性层权重矩阵分解的两个矩阵,E2和D2为第二个线性层权重矩阵分解的两个矩阵;d和dff表示前馈模块的输出维度和隐层维度,dbn表示所添加的瓶颈层的维度;

步骤1-4:多头高效自注意力模块;

对于多头高效自注意力模块中的第h个头,输入特征通过三个线性投影层形成查询键和值多头高效自注意力模块的第h个头的输出为:

其中,σrow和σcol分别表示沿矩阵的行或列应用softmax函数,dk=dm/H表示每个头的输出维度,H表示注意力头的个数,dm表示多头自注意力层的隐层维度,T是输入特征的长度;

多头高效自注意力用公式(7)表示:

MultiHead(Q,K,V)=Concat(Z1,…,ZH)WO    (7)

其中,为输出投影层的参数矩阵,Zh则有如下表示:

Zh=E(Qh,Kh,Vh)    (8)

步骤1-5:卷积模块;

卷积模块依次为逐点卷积层、门控线性单元、一维深度卷积层和批归一化;

步骤1-6:高效卷积自注意力变换网络包括N个编码器和M个解码器,N个编码器和M个解码器依次串行连接,构成语音识别模型;

步骤2:采用语料库数据,使用Adam优化器,设定训练参数,训练语音识别模型;

步骤3:将待识别语音输入训练完成的语音识别模型,语音识别模型进行识别输出相应的文本。

2.根据权利要求1所述的一种基于卷积自注意力变换网络的轻量级端到端语音识别方法,其特征在于,所述N=12,M=6。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学;西北工业大学深圳研究院,未经西北工业大学;西北工业大学深圳研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110398481.6/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top