[发明专利]一种声学模型的训练方法、装置、电子设备及存储介质有效

申请号：	202010159178.6	申请日：	2020-03-09
公开（公告）号：	CN111383628B	公开（公告）日：	2023-08-25
发明（设计）人：	王靖淞;涂威威	申请（专利权）人：	第四范式（北京）技术有限公司
主分类号：	G10L15/06	分类号：	G10L15/06;G10L15/02;G10L15/14;G10L25/30
代理公司：	北京开阳星知识产权代理有限公司 11710	代理人：	郭鑫
地址：	100085 北京市海淀区上***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种声学模型训练方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开实施例涉及一种声学模型的训练方法、装置、电子设备及存储介质。声学模型由神经网络模型训练得到。神经网络模型包括用于时序处理的多层第一神经网络和用于输出状态的第二神经网络。方法包括：获取语音数据；提取语音数据的特征得到多帧特征数据；基于多帧特征数据确定训练样本数据；基于训练样本数据训练多层第一神经网络和第二神经网络，得到声学模型；其中，至少一层第一神经网络的输出为带有权重的输出，权重为信道注意力，所述信道为每帧特征数据的维度。本公开实施例增加信道建模，在多层第一神经网络对时序特征提取的同时，至少一层第一神经网络的输出为带有信道注意力的输出，通过对每个信道的信息进行整合，增加声学模型整体效果。

技术领域

本公开实施例涉及语音识别技术领域，具体涉及一种声学模型的训练方法、装置、电子设备及存储介质。

背景技术

语音识别技术是机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。现有的语音识别模型由声学模型和语言模型合并得到，其中声学模型通过神经网络模型对语音信号进行特征提取并训练得到，训练方式例如为端到端的训练方式或HMM-DMM hybrid的训练方式等。现有的神经网络模型包含对时序特征建模的模型结构，比如tdnn，lstm等。本申请发明人发现：对于语音数据和语音特征，尤其在神经网络模型的底层，数据序列中的每一个向量中，各个维度代表着信号处理中的各个信道。在进行神经网络模型的设计以及训练的过程中，并没有针对各个信道做建模。

上述对问题的发现过程的描述，仅用于辅助理解本公开的技术方案，并不代表承认上述内容是现有技术。

发明内容

为了解决现有技术存在的至少一个问题，本公开的至少一个实施例提供了一种声学模型的训练方法、装置、电子设备及存储介质。

第一方面，本公开实施例提出一种声学模型的训练方法，所述声学模型由神经网络模型训练得到，所述神经网络模型包括用于时序处理的多层第一神经网络和用于输出状态的第二神经网络，所述方法包括：

获取语音数据；

提取所述语音数据的特征，得到多帧特征数据，其中，每帧特征数据包括多维度；

基于所述多帧特征数据确定训练样本数据；

基于所述训练样本数据训练所述多层第一神经网络和所述第二神经网络，得到声学模型；

其中，至少一层所述第一神经网络的输出为带有权重的输出，所述权重为信道注意力，所述信道为每帧特征数据的维度。

第二方面，本公开实施例提供一种声学模型的训练装置，所述声学模型由神经网络模型训练得到，所述神经网络模型包括用于时序处理的多层第一神经网络和用于输出状态的第二神经网络，所述装置包括：

获取模块，用于获取语音数据；

提取模块，用于提取所述语音数据的特征，得到多帧特征数据，其中，每帧特征数据包括多维度；