[发明专利]语音模型的训练方法、语音增强处理方法及相关设备有效
申请号: | 202010180587.4 | 申请日: | 2020-03-13 |
公开(公告)号: | CN111261148B | 公开(公告)日: | 2022-03-25 |
发明(设计)人: | 鲍枫 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L15/06 | 分类号: | G10L15/06;G10L21/0264 |
代理公司: | 深圳市隆天联鼎知识产权代理有限公司 44232 | 代理人: | 朱黎 |
地址: | 518057 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音 模型 训练 方法 增强 处理 相关 设备 | ||
1.一种语音模型的训练方法,其特征在于,所述语音模型用于对语音信号进行增强处理,所述方法包括:
获取样本语音对应的第一增益和第二增益,所述第一增益是所述语音模型为所述样本语音所预估得到的,所述第二增益是所述样本语音中的纯净语音相较于所述样本语音的增益;
根据所述第一增益和所述第二增益,计算得到第一均方误差、第二均方误差和所述第一增益与所述第二增益之间的交叉熵,所述第一均方误差是所述第一增益与所述第二增益之间的均方误差,所述第二均方误差是所述第一增益的平方根与所述第二增益的平方根之间的均方误差;
计算所述第一均方误差与所述第二均方误差的和,得到第一目标参数;以及,计算所述第一目标参数与所述交叉熵的和,得到第二目标参数;
将所述第一目标参数和所述第二目标参数进行加权,得到目标损失;
根据所述目标损失调整所述语音模型的参数,以进行所述语音模型的训练。
2.根据权利要求1所述的方法,其特征在于,所述将所述第一目标参数和所述第二目标参数进行加权,得到目标损失,包括:
根据所述第一增益或所述第二增益,分别确定所述第一目标参数的第一加权系数和所述第二目标参数的第二加权系数;
按照所述第一加权系数和所述第二加权系数进行所述第一目标参数和所述第二目标参数的加权,得到所述目标损失。
3.根据权利要求2所述的方法,其特征在于,所述根据所述第一增益或所述第二增益,分别确定所述第一目标参数的第一加权系数和所述第二目标参数的第二加权系数,包括:
以所述第一增益作为所述第二加权系数,以1与所述第一增益的差作为所述第一加权系数;或者
以所述第二增益作为所述第二加权系数,以1与所述第二增益的差作为所述第一加权系数。
4.根据权利要求1所述的方法,其特征在于,所述获取样本语音对应的第一增益和第二增益之前,所述方法还包括:
获取所述样本语音所对应音频帧的频域表达;以及
获取所述样本语音所包含纯净语音所对应音频帧的频域表达,所述频域表达为功率谱或幅度谱;
根据样本语音所对应音频帧的频域表达和所述纯净语音所对应音频帧的频域表达,计算得到所述样本语音中各音频帧对应的所述第二增益。
5.根据权利要求4所述的方法,其特征在于,所述获取所述样本语音所对应音频帧的频域表达之前,所述方法还包括:
获取所述样本语音的时域信号;
对所述样本语音的时域信号进行分帧,得到所述样本语音的各音频帧;
分别对所述样本语音的各音频帧进行时频变换,得到所述样本语音中各音频帧的频域表达。
6.根据权利要求5所述的方法,其特征在于,所述获取所述样本语音所包含纯净语音所对应音频帧的频域表达之前,所述方法还包括:
获取所述样本语音所包含干扰信号的时域信号;
根据所述样本语音的时域信号和所述样本语音所包含干扰信号的时域信号,确定所述样本语音所包含纯净语音的时域信号;
按照对样本语音的时域信号所进行的分帧,对所述纯净语音的时域信号进行分帧,得到所述纯净语音的各音频帧;
对所述纯净语音的各音频帧进行时频变换,得到所述纯净语音中各音频帧的频域表达。
7.一种语音增强处理方法,其特征在于,通过如权利1-6中任一项的方法所训练得到的语音模型对待处理语音信号进行增强处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010180587.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗高拉强度三叉管
- 下一篇:一种智能星型旋转特材阀