[发明专利]一种定制数字人的生成方法及设备有效
申请号: | 202211671876.X | 申请日: | 2022-12-26 |
公开(公告)号: | CN115661005B | 公开(公告)日: | 2023-05-12 |
发明(设计)人: | 陈尧森;李志强;罗明利 | 申请(专利权)人: | 成都索贝数码科技股份有限公司 |
主分类号: | G06T5/00 | 分类号: | G06T5/00;G10L13/08 |
代理公司: | 成都九鼎天元知识产权代理有限公司 51214 | 代理人: | 周浩杰 |
地址: | 610041 四*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 定制 数字 生成 方法 设备 | ||
1.一种定制数字人的生成方法,其特征在于,包括以下步骤:
S1,定制数字人视音频数据采集;
在步骤S1中,所述定制数字人视音频数据采集,包括子步骤:
S11,对定制角色在选定姿态状态下的视音频进行录制;
S12,通过录制的定制角色的视频,构建用于优化换脸模型的源数据;
S13,通过录制的定制角色的音频,构建用于优化定制角色文本转语音模型的音频数据;
S2,定制数字人换脸模型优化:将构建换脸模型的源数据与定制的目标数据进行换脸模型的训练,得到优化后的定制角色换脸模型;
在步骤S2中,所述将构建换脸模型的源数据与定制的目标数据进行换脸模型的训练,包括子步骤:
首先构建人脸目标数据集和源数据集,在该数据集上训练得到一个原始换脸模型;
然后利用该原始换脸模型的权重参数作为定制数字人换脸模型的权重初始化参数,结合构建的定制数字人的源数据进行换脸模型的调优训练;
S3,定制数字人文本转语音模型优化:将构建定制角色的音频数据进行文本转语音模型的调优训练,得到优化后的定制角色文本转语音模型;在步骤S3中,所述将构建定制角色的音频数据进行文本转语音模型的调优训练,包括子步骤:
首先在文本转语音任务上训练得到一个原始文本转语音模型;
然后利用该原始文本转语音模型的权重参数作为定制数字人文本转语音模型的权重初始化参数,结合构建的定制数字人的音频数据进行文本转语音模型的调优训练;
S4,利用优化后的换脸模型和文本转语音模型,生成定制数字人播报视频,在步骤S4中,所述换脸模型包括口型矫正算法、人脸复原算法、换脸算法;所述文本转语音模型包括文本转语音算法,且在步骤S4中包括如下子步骤:
S41,将用户输入的文本通过定制角色的文本转语音模型的文本转语音算法转换为语音文件;
S42,将语音文件通过换脸模型的口型矫正算法驱动定制数字人的选定姿态视频得到播报视频;
S43,将原始播报视频通过换脸模型的人脸复原算法进行人脸质量提升;
S44,利用定制角色的换脸模型中的换脸算法对提升后的视频人脸进行换脸,从而得到最终的数字人播报视频。
2.根据权利要求1所述的定制数字人的生成方法,其特征在于,在步骤S11中,所述对定制角色在选定姿态状态下的视音频进行录制,包括子步骤:
S111,在选定场所进行录像机、麦克风设备搭建;
S112,定制角色按照所需播报要求保持选定姿态阅读设定好的文稿,同时录像机和麦克风录制设定时长的视音频并保存为文件。
3.根据权利要求1所述的定制数字人的生成方法,其特征在于,在步骤S42中,所述选定姿态视频被提前录制为相应姿态,同时具备自然的头部和手部动作。
4.一种定制数字人的生成设备,其特征在于,该生成设备用于执行如权利要求1所述的定制数字人的生成方法,还包括:
数据采集模块,用于定制数字人视音频数据采集;
定制数字人换脸模型优化模块,用于将构建换脸模型的源数据与定制的目标数据进行换脸模型的训练,得到优化后的定制角色换脸模型;
定制数字人文本转语音模型优化模块,用于将构建定制角色的音频数据进行文本转语音模型的调优训练,得到优化后的定制角色文本转语音模型;
定制数字人生成模块,用于利用优化后的换脸模型和文本转语音模型,生成定制数字人播报视频。
5.根据权利要求4所述的定制数字人的生成设备,其特征在于,
所述定制数字人换脸模型优化模块包括原始换脸模型构建模块和换脸模型调优训练模块;
所述原始换脸模型构建模块,用于构建人脸目标数据集和源数据集,在该数据集上训练得到一个原始换脸模型;
所述换脸模型调优训练模块,用于利用原始换脸模型的权重参数作为定制数字人换脸模型的权重初始化参数,结合构建的定制数字人的源数据进行换脸模型的调优训练。
6.根据权利要求4所述的定制数字人的生成设备,其特征在于,
所述定制数字人生成模块,包括原始文本转语音模型构建模块和文本转语音模型调优训练模块;
所述原始文本转语音模型构建模块,用于在文本转语音任务上训练得到一个原始文本转语音模型;
所述文本转语音模型调优训练模块,用于利用原始文本转语音模型的权重参数作为定制数字人文本转语音模型的权重初始化参数,结合构建的定制数字人的音频数据进行文本转语音模型的调优训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都索贝数码科技股份有限公司,未经成都索贝数码科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211671876.X/1.html,转载请声明来源钻瓜专利网。