[发明专利]生成语音模型和语音识别的方法、装置、设备以及介质有效
申请号: | 202010165847.0 | 申请日: | 2020-03-11 |
公开(公告)号: | CN111354345B | 公开(公告)日: | 2021-08-31 |
发明(设计)人: | 蔡猛;梁镇麟 | 申请(专利权)人: | 北京字节跳动网络技术有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L15/16 |
代理公司: | 北京唯智勤实知识产权代理事务所(普通合伙) 11557 | 代理人: | 陈佳 |
地址: | 100041 北京市石景山区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 生成 语音 模型 识别 方法 装置 设备 以及 介质 | ||
1.一种用于生成语音模型的方法,包括:
获取训练样本集,其中,所述训练样本集中的训练样本包括语音样本和所述语音样本对应的识别结果样本;
根据所述训练样本集,对初始模型进行联合学习训练,得到语音模型,其中,所述初始模型包括多层输出层;所述多层输出层包括:第一层输出层、第二层输出层和第三层输出层,所述第一层输出层通过长短期记忆网络、注意力模型和第一输出层依次连接构成,所述第二层输出层通过长短期记忆网络和第二输出层依次连接构成,所述第三层输出层通过长短期记忆网络和第三输出层依次连接构成,其中,所述根据所述训练样本集,对初始模型进行联合学习训练,得到语音模型,包括:
将所述训练样本中的语音样本输入至初始模型,得到所述初始模型每个输出层对应的输出结果;
基于预设的损失函数,分别确定所述语音样本和每个输出结果之间的差异,得到所述多层输出层对应的多个损失值;
根据所述多个损失值对所述初始模型进行优化,得到语音模型。
2.根据权利要求1所述的方法,其中,所述根据所述多个损失值对所述初始模型进行优化,得到语音模型,包括:
对所述多个损失值进行动态同步;
针对所述多个损失值中的第一损失值对所述初始模型进行优化;
响应于满足预定训练结束条件,丢弃其余损失值对应的输出层,得到语音模型。
3.根据权利要求1-2之一所述的方法,其中,所述方法还包括:
响应于所述训练样本集中的训练样本数量低于预定阈值,在训练过程中进行随机失活。
4.一种语音识别方法,包括:
获取目标语音;
将所述目标语音输入至预先训练的语音模型,得到所述目标语音的识别结果,其中,所述语音模型通过如上述权利要求1-3之一所述的方法生成。
5.一种用于生成语音模型的装置,包括:
获取单元,被配置成获取训练样本集,其中,所述训练样本集中的训练样本包括语音样本和所述语音样本对应的识别结果样本;
训练单元,被配置成根据所述训练样本集,对初始模型进行联合学习训练,得到语音模型,其中,所述初始模型包括多层输出层;所述多层输出层包括:第一层输出层、第二层输出层和第三层输出层,所述第一层输出层通过长短期记忆网络、注意力模型和第一输出层依次连接构成,所述第二层输出层通过长短期记忆网络和第二输出层依次连接构成,所述第三层输出层通过长短期记忆网络和第三输出层依次连接构成,其中,所述根据所述训练样本集,对初始模型进行联合学习训练,得到语音模型,包括:将所述训练样本中的语音样本输入至初始模型,得到所述初始模型每个输出层对应的输出结果;基于预设的损失函数,分别确定所述语音样本和每个输出结果之间的差异,得到所述多层输出层对应的多个损失值;根据所述多个损失值对所述初始模型进行优化,得到语音模型。
6.一种语音识别装置,包括:
目标语音获取单元,被配置成获取目标语音;
识别单元,被配置成将所述目标语音输入至预先训练的语音模型,得到所述目标语音的识别结果,其中,所述语音模型通过如上述权利要求1-3之一所述的方法生成。
7.一种电子设备,包括:
一个或多个处理器;
存储装置,其上存储有一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-3或权利要求4中任一所述的方法。
8.一种计算机可读介质,其上存储有计算机程序,其中,所述程序被处理器执行时实现如权利要求1-3或权利要求4中任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京字节跳动网络技术有限公司,未经北京字节跳动网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010165847.0/1.html,转载请声明来源钻瓜专利网。