[发明专利]音频处理方法、装置、电子设备及存储介质有效
申请号: | 202210510772.4 | 申请日: | 2022-05-11 |
公开(公告)号: | CN114708876B | 公开(公告)日: | 2023-10-03 |
发明(设计)人: | 赵情恩 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G10L21/013 | 分类号: | G10L21/013;G10L19/038 |
代理公司: | 北京猷德知识产权代理有限公司 16084 | 代理人: | 范继晨 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音频 处理 方法 装置 电子设备 存储 介质 | ||
1.一种音频处理方法,包括:
从原始音频获取第一目标特征向量,其中,所述第一目标特征向量用于表征所述原始音频的内容特征;
从待迁移音频获取第二目标特征向量和第三目标特征向量,其中,所述第二目标特征向量用于表征所述待迁移音频的风格韵律特征,所述第三目标特征向量用于表征所述待迁移音频的说话人特征;
对所述第一目标特征向量、所述第二目标特征向量和所述第三目标特征向量进行声谱解码处理,得到目标声谱特征;
将所述目标声谱特征转换成目标音频。
2.根据权利要求1所述的音频处理方法,其中,从所述原始音频获取所述第一目标特征向量包括:
利用内容特征提取网络模型对所述原始音频的第一音频特征进行内容特征提取处理,得到所述第一目标特征向量。
3.根据权利要求2所述的音频处理方法,其中,利用内容特征提取网络模型对所述原始音频的第一音频特征进行内容特征提取处理,得到所述第一目标特征向量包括:
利用所述内容特征提取网络模型执行以下步骤:
对所述第一音频特征进行卷积处理,得到第一中间特征向量;
对所述第一中间特征向量进行实体规整,得到第二中间特征向量;
对所述第二中间特征向量进行矢量量化,得到第三中间特征向量;
对所述第三中间特征向量进行对比预测编码,得到所述第一目标特征向量。
4.根据权利要求3所述的音频处理方法,其中,所述音频处理方法还包括:
对所述第一中间特征向量进行梯度停止操作,得到第一处理结果;
计算所述第一处理结果与所述第三中间特征向量之间在二维欧氏空间下的第一欧氏距离;
对所述第三中间特征向量进行梯度停止操作,得到第二处理结果;
计算所述第一中间特征向量与所述第二处理结果之间在所述二维欧氏空间下的第二欧氏距离;
利用所述第一欧氏距离与所述第二欧氏距离确定第一损失;
根据所述第一损失更新网络模型参数,其中,所述网络模型参数包括:所述内容特征提取网络模型的模型参数。
5.根据权利要求3或4所述的音频处理方法,其中,所述音频处理方法还包括:
基于所述第三中间特征向量获取上下文向量;
采用所述上下文向量,通过至少一个线性预测器,得到预测向量;
在以目标数量确定的取值范围内,利用所述第三中间特征与所述预测向量进行第一指数运算,得到第一运算结果,以及利用所述第三中间特征与所述预测向量进行第二指数运算,得到第二运算结果,其中,所述目标数量为所述至少一个线性预测器的数量;
对所述第一运算结果与所述第二运算结果进行对数运算,确定第二损失;
根据所述第二损失更新网络模型参数,其中,所述网络模型参数包括:所述内容特征提取网络模型的模型参数。
6.根据权利要求3-5中任一项所述的音频处理方法,其中,所述音频处理方法还包括:
对所述第一中间特征向量和所述第三中间特征向量进行说话人特征编码处理,得到第一初始特征向量;
对所述第一中间特征向量进行风格韵律特征提取处理,得到第二初始特征向量;
通过声谱解码网络模型对所述第一初始特征向量、所述第二初始特征向量和所述第三中间特征向量进行声谱解码处理,得到预测声谱特征;
计算所述预测声谱特征与真实声谱特征在一维欧氏空间下的第三欧氏距离,以及计算所述预测声谱特征与真实声谱特征在二维欧氏空间下的第四欧氏距离;
利用所述第三欧氏距离与所述第四欧氏距离确定第三损失;
根据所述第三损失更新网络模型参数,其中,所述网络模型参数包括:所述内容特征提取网络模型的模型参数和/或所述声谱解码网络模型的模型参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210510772.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基础底板后浇带的止水钢板支撑结构
- 下一篇:机械式自带动力扫雪滚刷