[发明专利]一种语音模型的训练方法、装置、服务器和存储介质在审
申请号: | 202010826115.1 | 申请日: | 2020-08-17 |
公开(公告)号: | CN111899729A | 公开(公告)日: | 2020-11-06 |
发明(设计)人: | 黎子骏 | 申请(专利权)人: | 广州市百果园信息技术有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L19/00 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 孟金喆 |
地址: | 511402 广东省广州市番*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 模型 训练 方法 装置 服务器 存储 介质 | ||
本发明实施例公开了一种语音模型的训练方法、装置、服务器和存储介质。其中,该方法包括:将无损语音数据和所述无损语音数据编码变换后的目标语音数据分别输入到预先构建的语音模型中,得到所述无损语音数据的第一模型结果和所述目标语音数据的第二模型结果;以使所述第一模型结果和所述第二模型结果之间的差异趋于预设差异指标为目标,对所述语音模型进行训练。本发明实施例提供的技术方案,避免语音模型对同一语音源下不同语音数据输出的模型结果之间存在的差异,减少对同一语音源下不同语音数据的模型预测波动,提高任一语音数据在语音模型下的处理准确性。
技术领域
本发明实施例涉及音频处理技术领域,尤其涉及一种语音模型的训练方法、装置、服务器和存储介质。
背景技术
随着互联网技术的快速发展,出现大量对语音数据进行识别处理的任务,例如语音识别、语音类场景识别或者声音事件检测等,此时通常会针对各个语音类任务,分别训练出相应的语音模型来预测该语音类任务的输出结果。
目前,通过会对大量语音采样数据进行相应的音频编码,作为语音模型的训练样本,然后采用交叉熵的损失函数对该语音模型进行训练,以使每一语音训练样本的输出结果在训练过程中不断接近该语音训练样本的样本标签;然而,同一音频数据源在不同编码方式或编码码率下进行编码压缩时,会丢失不同的音频内容,使得同一音频数据源在不同编码压缩后的音频数据之间会存在一定的差异,例如编码码率越低,编码压缩后的音频数据会丢失的越多,此类编码数据丢失对于语音模型的预测也会带来一定的影响,使得语音模型对于同一音频数据源在不同编码方式或编码码率下各编码音频的输出结果也存在一定的差异,影响到语音模型对各语音类任务的预测准确性。
发明内容
本发明实施例提供了一种语音模型的训练方法、装置、服务器和存储介质,避免语音模型对相同语音源下不同语音数据输出的模型结果之间的差异,提高任一语音数据在语音模型下的预测准确性。
第一方面,本发明实施例提供了一种语音模型的训练方法,该方法包括:
将无损语音数据和所述无损语音数据编码变换后的目标语音数据分别输入到预先构建的语音模型中,得到所述无损语音数据的第一模型结果和所述目标语音数据的第二模型结果;
以使所述第一模型结果和所述第二模型结果之间的差异趋于预设差异指标为目标,对所述语音模型进行训练。
第二方面,本发明实施例提供了一种语音模型的训练装置,该装置包括:
语音数据输入模块,用于将无损语音数据和所述无损语音数据编码变换后的目标语音数据分别输入到预先构建的语音模型中,得到所述无损语音数据的第一模型结果和所述目标语音数据的第二模型结果;
语音模型训练模块,用于以使所述第一模型结果和所述第二模型结果之间的差异趋于预设差异指标为目标,对所述语音模型进行训练。
第三方面,本发明实施例提供了一种服务器,该服务器包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本发明任意实施例所述的语音模型的训练方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述的语音模型的训练方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州市百果园信息技术有限公司,未经广州市百果园信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010826115.1/2.html,转载请声明来源钻瓜专利网。