[发明专利]语音增强方法、模型训练方法、装置和计算机设备在审
申请号: | 201810911283.3 | 申请日: | 2018-08-10 |
公开(公告)号: | CN110176243A | 公开(公告)日: | 2019-08-27 |
发明(设计)人: | 王燕南;甄广启 | 申请(专利权)人: | 腾讯科技(深圳)有限公司 |
主分类号: | G10L21/02 | 分类号: | G10L21/02;G10L17/04 |
代理公司: | 广州华进联合专利商标代理有限公司 44224 | 代理人: | 李文渊;何平 |
地址: | 518000 广东省深圳*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语音增强 语音 拼接 计算机设备 模型训练 目标语音 身份特征 语音特征 模型处理 语音训练 质量差 声学 申请 说话 身份 | ||
1.一种语音增强方法,包括:
获取语音;
从所述语音中提取语音特征;
根据所述语音确定用于识别说话人声学身份的身份特征;
将所述语音特征和所述身份特征拼接,得到拼接特征;
通过说话人无关的语音增强模型处理所述拼接特征,获得经过语音增强的目标语音。
2.根据权利要求1所述的方法,其特征在于,所述语音增强模型,是根据训练拼接特征进行训练的;所述训练拼接特征,由噪声语音样本中提取的训练语音特征和无噪声语音样本中提取的训练身份特征拼接而成;所述噪声语音样本和所述无噪声语音样本对应相同说话人。
3.根据权利要求1所述的方法,其特征在于,所述从所述语音中提取语音特征包括:
对所述语音进行分帧和加窗处理;
将处理后所得的各帧语音进行转换,获得所述各帧语音的频谱;
根据所述各帧语音的频谱确定语音特征。
4.根据权利要求3所述的方法,其特征在于,所述根据所述各帧语音的频谱确定语音特征包括:
根据所述各帧语音的频谱确定功率谱;
获得与所述功率谱对应的对数功率谱;
将所述对数功率谱确定为语音特征,或将所述对数功率谱经过离散余弦变换所得的结果确定为语音特征。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取噪声语音样本和无噪声语音样本;所述噪声语音样本和无噪声语音样本对应相同说话人;
从所述噪声语音样本中提取训练语音特征;
在所述无噪声语音样本中提取训练参考语音特征和用于识别说话人声学身份的训练身份特征;
拼接所述训练语音特征和所述训练身份特征,获得训练拼接特征;
以所述训练拼接特征作为训练输入,以所述训练参考语音特征作为训练输出,训练所述语音增强模型。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述语音确定用于识别说话人声学身份的身份特征包括:
通过身份特征提取模型处理所提取的语音特征,获得与说话人声学身份的身份特征对应的总体变换矩阵;
根据所述总体变换矩阵,从所述语音中提取身份特征参数;
对提取的身份特征参数降维,得到用于识别说话人声学身份的身份特征。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
从获取的噪声语音样本中提取第三训练语音特征;
将提取的第三训练语音特征输入身份特征提取模型,获得与说话人声学身份的身份特征对应的训练总体变换矩阵;
根据所述训练总体变换矩阵,从所述语音中提取训练身份特征参数;
根据所述训练身份特征参数与预设的目标身份特征参数之间的差异,调整所述身份特征提取模型,直至满足训练停止条件。
8.根据权利要求1至5任一项所述的方法,其特征在于,所述通过说话人无关的语音增强模型处理所述拼接特征,获得经过语音增强的目标语音包括:
对所述拼接特征进行归一化处理;
通过说话人无关的语音增强模型,对归一化处理所得的拼接特征进行处理;
将通过所述语音增强模型处理后的输出进行反归一化处理;
将反归一化处理后的结果进行转换,获得经过语音增强的时域目标语音。
9.一种模型训练方法,包括:
获取噪声语音样本和无噪声语音样本;所述噪声语音样本和无噪声语音样本对应相同说话人;
从所述噪声语音样本中提取训练语音特征;
在所述无噪声语音样本中提取训练参考语音特征和用于识别说话人声学身份的训练身份特征;
拼接所述训练语音特征和所述训练身份特征,获得训练拼接特征;
以所述训练拼接特征作为训练输入,以所述训练参考语音特征作为训练输出,训练说话人无关的语音增强模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于腾讯科技(深圳)有限公司,未经腾讯科技(深圳)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810911283.3/1.html,转载请声明来源钻瓜专利网。