[发明专利]一种声学模型的训练方法、装置、电子设备及存储介质有效
申请号: | 202010159178.6 | 申请日: | 2020-03-09 |
公开(公告)号: | CN111383628B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 王靖淞;涂威威 | 申请(专利权)人: | 第四范式(北京)技术有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/02;G10L15/14;G10L25/30 |
代理公司: | 北京开阳星知识产权代理有限公司 11710 | 代理人: | 郭鑫 |
地址: | 100085 北京市海淀区上*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 声学 模型 训练 方法 装置 电子设备 存储 介质 | ||
本公开实施例涉及一种声学模型的训练方法、装置、电子设备及存储介质。声学模型由神经网络模型训练得到。神经网络模型包括用于时序处理的多层第一神经网络和用于输出状态的第二神经网络。方法包括:获取语音数据;提取语音数据的特征得到多帧特征数据;基于多帧特征数据确定训练样本数据;基于训练样本数据训练多层第一神经网络和第二神经网络,得到声学模型;其中,至少一层第一神经网络的输出为带有权重的输出,权重为信道注意力,所述信道为每帧特征数据的维度。本公开实施例增加信道建模,在多层第一神经网络对时序特征提取的同时,至少一层第一神经网络的输出为带有信道注意力的输出,通过对每个信道的信息进行整合,增加声学模型整体效果。
技术领域
本公开实施例涉及语音识别技术领域,具体涉及一种声学模型的训练方法、装置、电子设备及存储介质。
背景技术
语音识别技术是机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。现有的语音识别模型由声学模型和语言模型合并得到,其中声学模型通过神经网络模型对语音信号进行特征提取并训练得到,训练方式例如为端到端的训练方式或HMM-DMM hybrid的训练方式等。现有的神经网络模型包含对时序特征建模的模型结构,比如tdnn,lstm等。本申请发明人发现:对于语音数据和语音特征,尤其在神经网络模型的底层,数据序列中的每一个向量中,各个维度代表着信号处理中的各个信道。在进行神经网络模型的设计以及训练的过程中,并没有针对各个信道做建模。
上述对问题的发现过程的描述,仅用于辅助理解本公开的技术方案,并不代表承认上述内容是现有技术。
发明内容
为了解决现有技术存在的至少一个问题,本公开的至少一个实施例提供了一种声学模型的训练方法、装置、电子设备及存储介质。
第一方面,本公开实施例提出一种声学模型的训练方法,所述声学模型由神经网络模型训练得到,所述神经网络模型包括用于时序处理的多层第一神经网络和用于输出状态的第二神经网络,所述方法包括:
获取语音数据;
提取所述语音数据的特征,得到多帧特征数据,其中,每帧特征数据包括多维度;
基于所述多帧特征数据确定训练样本数据;
基于所述训练样本数据训练所述多层第一神经网络和所述第二神经网络,得到声学模型;
其中,至少一层所述第一神经网络的输出为带有权重的输出,所述权重为信道注意力,所述信道为每帧特征数据的维度。
第二方面,本公开实施例提供一种声学模型的训练装置,所述声学模型由神经网络模型训练得到,所述神经网络模型包括用于时序处理的多层第一神经网络和用于输出状态的第二神经网络,所述装置包括:
获取模块,用于获取语音数据;
提取模块,用于提取所述语音数据的特征,得到多帧特征数据,其中,每帧特征数据包括多维度;
确定模块,用于基于所述多帧特征数据确定训练样本数据;
训练模块,用于基于所述训练样本数据训练所述多层第一神经网络和所述第二神经网络,得到声学模型;
其中,至少一层所述第一神经网络的输出为带有权重的输出,所述权重为信道注意力,所述信道为每帧特征数据的维度。
第三方面,本公开实施例提出一种电子设备,包括:处理器和存储器;所述处理器通过调用所述存储器存储的程序或指令,用于执行如第一方面所述声学模型的训练方法的步骤。
第四方面,本公开实施例提出一种非暂态计算机可读存储介质,用于存储程序或指令,所述程序或指令使计算机执行如第一方面所述声学模型的训练方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于第四范式(北京)技术有限公司,未经第四范式(北京)技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010159178.6/2.html,转载请声明来源钻瓜专利网。