[发明专利]虚拟形象互动方法、装置、电子设备及可读存储介质有效
申请号: | 201910368515.X | 申请日: | 2019-05-05 |
公开(公告)号: | CN110071938B | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 徐子豪;刘炉 | 申请(专利权)人: | 广州虎牙信息科技有限公司 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G10L19/00 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 徐丽 |
地址: | 511400 广东省广州市番禺区南村镇万博二*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 虚拟 形象 互动 方法 装置 电子设备 可读 存储 介质 | ||
1.一种虚拟形象互动方法,其特征在于,应用于直播提供终端,所述方法包括:
获取具有目标音色风格的第一音频样本和特定主播的第二音频样本;
分别提取所述第一音频样本的风格特征图和所述第二音频样本的内容特征图;
针对深度学习网络的每个卷积层,分别通过该卷积层提取预处理风格特征图对应的多维风格特征图和预处理内容特征图对应的多维内容特征图;
分别生成所述多维风格特征图对应的第一预测特征图和所述多维内容特征图对应的第二预测特征图;
根据所述第一预测特征图和所述第二预测特征图调整所述深度学习网络的网络参数,以得到音色转换模型,并存储在所述直播提供终端中;
提取所述特定主播的第一音频数据对应的音频特征图;
将所述音频特征图包括的内容特征图输入到所述直播提供终端中存储的与设定的目标音色风格对应的音色转换模型中,生成具有所述目标音色风格的风格特征转换图;
对所述内容特征图和所述风格特征转换图进行特征反转换,得到具有该目标音色风格的第二音频数据;
根据所述第二音频数据生成该特定主播对应的虚拟形象的互动视频流,并通过直播服务器将所述虚拟形象的互动视频流发送给直播接收终端进行播放。
2.根据权利要求1所述的虚拟形象互动方法,其特征在于,所述提取所述特定主播的第一音频数据对应的音频特征图的步骤,包括:
每间隔预设时间将所述第一音频数据进行切分,得到多个音频片段;
提取每个音频片段的声波图、频谱图或语谱图作为所述音频特征图。
3.根据权利要求1所述的虚拟形象互动方法,其特征在于,所述音色转换模型包括输入层、多层卷积提取层、全连接层以及分类层,每个卷积提取层之后设置一个激活函数层和池化层,所述全连接层位于最后一个池化层之后,所述分类层位于所述全连接层之后。
4.根据权利要求3所述的虚拟形象互动方法,其特征在于,所述分别生成所述多维风格特征图对应的第一预测特征图和所述多维内容特征图对应的第二预测特征图的步骤,包括:
将所述多维风格特征图和所述多维内容特征图输入到该卷积层所连接的激活函数层中进行非线性映射,而后将非线性映射后的多维风格特征图和多维内容特征图输入到所连接的池化层中进行池化处理,并将池化处理得到的池化多维风格特征图和池化多维内容特征图输入到下一层卷积层进行特征提取;
将所述深度学习网络的最后一层池化层输出的池化多维风格特征图和池化多维内容特征图输入到所述深度学习网络的全连接层;
将所述全连接层得到的所述池化多维风格特征图对应的第一全连接特征输出值,以及所述池化多维内容特征图对应的第二全连接特征输出值分别输入到分类层中进行预测分类,分别得到所述第一全连接特征输出值对应的第一预测特征图和所述第二全连接特征输出值对应的第二预测特征图。
5.根据权利要求1所述的虚拟形象互动方法,其特征在于,所述根据所述第一预测特征图和所述第二预测特征图调整所述深度学习网络的网络参数的步骤,包括:
计算所述第一预测特征图与所述第一音频样本的风格特征图之间的第一损失函数值,以及第二预测特征图与所述第二音频样本的内容特征图之间的第二损失函数值;
根据所述第一损失函数值和所述第二损失函数值进行反向传播训练,并计算所述深度学习网络的网络参数的梯度;
根据计算得到的所述梯度,采用随机梯度下降法更新所述深度学习网络的网络参数后继续训练,直到所述深度学习网络满足训练终止条件时,输出训练得到的所述目标音色风格对应的音色转换模型。
6.根据权利要求1-5中任意一项所述的虚拟形象互动方法,其特征在于,所述根据所述第二音频数据生成该特定主播对应的虚拟形象的互动视频流,并通过直播服务器将所述虚拟形象的互动视频流发送给直播接收终端进行播放的步骤,包括:
生成与所述第二音频数据中每一帧音频帧对应的该特定主播对应的虚拟形象的互动视频帧;
将每一帧音频帧和对应的互动视频帧进行关联合成,得到该特定主播对应的虚拟形象的互动视频流,并通过直播服务器将所述虚拟形象的互动视频流发送给直播接收终端进行播放。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广州虎牙信息科技有限公司,未经广州虎牙信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910368515.X/1.html,转载请声明来源钻瓜专利网。