[发明专利]模型训练方法、装置及电子设备在审

专利信息
申请号: 202011499925.7 申请日: 2020-12-17
公开(公告)号: CN112509563A 公开(公告)日: 2021-03-16
发明(设计)人: 张自强;戴礼荣 申请(专利权)人: 中国科学技术大学
主分类号: G10L15/06 分类号: G10L15/06;G10L15/16
代理公司: 中科专利商标代理有限责任公司 11021 代理人: 鄢功军
地址: 230026 安*** 国省代码: 安徽;34
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 模型 训练 方法 装置 电子设备
【说明书】:

本公开实施例提供了一种模型训练方法、装置及电子设备。该方法包括:获取语音样本,利用上述有标签语音样本和上述有标签语音样本的样本标签训练第一初始语音识别模型,得到经训练得到的第一语音识别模型;将上述有标签语音样本和上述无标签语音样本分别输入第一语音识别模型,输出上述语音样本中每条语音样本对应的第一伪标签和第二伪标签,将每条上述语音样本和每条上述语音样本对应的第一伪标签输入第二初始语音识别模型,输出每条上述语音样本的标签预测概率,计算每条上述语音样本的标签预测概率和上述语音样本中每条语音样本对应的第二伪标签之间的交叉熵损失值,当上述交叉熵损失值满足预设条件时,得到经训练得到的第二语音识别模型。

技术领域

本公开涉及计算机技术领域/语音识别技术领域,更具体地,涉及一种模型训练方法、装置及电子设备。

背景技术

自动语音识别(Automatic speech recognition,ASR)是指将人类的讲话内容自动转换为文字的技术。目前语音识别技术已经应用在智能系统的多个方面,例如个人助理和会议转写等。随着深度神经网络技术的快速发展和广泛应用,大词汇量的连续语音识别效果在近年来取得了显著的提升。其中,基于注意力机制的编码-解码器模型(Attentionbased encoder-decoder model)由于其端到端(End-to-end)的特性,极大的简化了语音识别模型在训练和应用上的复杂度,因而成为目前的语音识别的主流方法。基于注意力机制的编码-解码器模型使用深层神经网络来构建编码器(Encoder)和解码器(Decoder),并配以注意力机制(Attention)来连接两个部分。由于其不对语音的时序独立性做任何假设,且不需要发音词典和复杂的训练流程,故而充分的训练数据成为保证这种模型取得良好识别性能的必要条件。

语音识别领域需求的增长,使得越来越多的语音识别系统需要在资源受限的条件下快速的搭建起来,例如,应用于小语种的语音识别系统。然而,这种情况下开发者通常缺乏充分的带标签的训练数据,而人工的数据标签通常需要付出高昂的成本,相比之下,无标签的语音数据却可以通过互联网和移动终端快速大量地收集。因此,在有标签数据受限的条件下,充分利用无标签语音数据来辅助模型的训练,从而提升语音识别系统的性能,即半监督语音识别(Semi-supervised speech recognition)逐渐成为语音识别领域广泛关注的课题。

在基于注意力机制的编码-解码器模型的框架下,现有的半监督语音识别方法可以分为两大类。第一类方法涉及以重建语音信号的方式来使用无标签的语音数据,通常包含一个额外的模块实现这种功能,例如语音合成(Text-to-speech,TTS)模块。在这类方法中,无标签数据先经过语音识别的部分网络来得到隐层表示,再通过附加的模块来映射回语音信号,以此来使语音识别网络学习到更好的表达能力。在一定程度上促进识别性能的同时,这类方法也面临着辅助任务不匹配(重建损失函数与识别损失函数不匹配)、梯度回传不畅(识别网络的输出使离散符号,梯度难以从此回传至识别网络内部)的问题和挑战。

另一类方法不引入任何附加的模块和损失函数,而是通过给无标签数据样本添加伪标签的方式,把它们看作是有标签数据来共同训练,因此被称作伪标签(Pseudo-labeling)法。这类方法通常需要先使用一个已有的语音识别模型来为无标签数据生成伪标签,然后再将所有数据和它们的标签一起训练一个新的模型。已有的模型通常是在资源受限的条件下使用有标签数据训练得到的,称之为教师模型(Teacher model),新模型对应地称为学生模型(Student model),因此这类方法又被成为教师-学生(Teacher-studentlearning)方法。一个典型的情况是教师和学生公用同一种模型结构,在这种情景下该方法又被称为自训练(Self-training)法。在伪标签法中,如何在教师模型性能受限的条件下提升伪标签的质量,为学生模型提供更好的监督信息,成为最终促进语音识别性能的关键。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011499925.7/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top