[发明专利]基于音素驱动的表情合成方法、装置和计算机存储介质有效
申请号: | 202010291983.4 | 申请日: | 2020-04-14 |
公开(公告)号: | CN111508064B | 公开(公告)日: | 2022-06-17 |
发明(设计)人: | 王骁;冀志龙;刘霄 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G06T17/00 | 分类号: | G06T17/00;G06T15/20;G06T11/60 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰 |
地址: | 100086 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 音素 驱动 表情 合成 方法 装置 计算机 存储 介质 | ||
1.一种基于音素驱动的表情合成方法,其特征在于,所述方法包括:
根据预建数据库识别目标语音文本以获得音素序列,并将所述音素序列转换为替换表情参数序列;
基于所述目标语音文本的语音时长,从原始视频数据中提取待替换的原始子视频数据;
基于所述原始子视频数据中的人脸构建三维人脸模型,且逐帧提取所述三维人脸模型的待替换表情参数以生成待替换表情参数序列,并利用所述替换表情参数序列替换所述待替换表情参数序列;
利用所述替换表情参数序列驱动所述三维人脸模型生成目标二维图像序列,并逐帧渲染所述目标二维图像序列,其包括:获取所述目标二维图像序列中对应于当前帧的一目标二维图像并执行渲染处理;
拼接渲染后的所述目标二维图像序列,生成用于替换所述原始子视频数据的目标子视频数据;
其中,所述方法还包括基于WGAN构建并训练包括生成器和判别器的生成对抗模型,并利用训练好的所述生成器针对对应于所述当前帧的所述目标二维图像执行渲染,其中,所述基于WGAN构建并训练包括所述生成器和判别器的生成对抗模型的步骤包括:
构建所述生成对抗模型的所述生成器和所述判别器;
将对应于所述当前帧的所述目标二维图像作为当前帧待渲染图像,并从所述原始子视频数据中提取与所述当前帧待渲染图像的帧数相同的当前帧原始图像以及与所述当前帧原始图像连续的至少一帧前续原始图像;
训练所述生成器,将所述当前帧待渲染图像与所述至少一帧前续原始图像作为所述生成器的输入,并将针对所述当前帧待渲染图像执行渲染处理所生成的当前帧渲染后图像作为所述生成器的输出;
训练所述判别器,将所述当前帧渲染后图像与所述当前帧原始图像输入所述判别器中进行真假判别,并基于训练后的所述判别器优化所述生成器。
2.根据权利要求1所述的表情合成方法,其特征在于,所述根据预建数据库识别目标语音文本以获得音素序列,并将所述音素序列转换为替换表情参数序列的步骤包括:
根据所述预建数据库识别所述目标语音文本,以获得包括多个音素数据的所述音素序列,并将所述音素序列中的各所述音素数据转换为各自对应的各替换表情参数;
撷取所述音素序列中各所述音素数据的起始时间与终止时间以计算各所述音素数据对应的音素时长,并将各所述音素时长转换为各所述替换表情参数对应的视频帧数,生成对应于每一帧的所述替换表情参数;以及
基于对应于每一帧的所述替换表情参数生成所述替换表情参数序列。
3.根据权利要求2所述的表情合成方法,其特征在于,所述基于对应于每一帧的所述替换表情参数生成所述替换表情参数序列的步骤还包括:
拼接对应于每一帧的所述替换表情参数生成所述替换表情参数序列,并基于预设滤波算法针对衔接不同的两个所述音素数据对应的两个所述替换表情参数执行平滑处理。
4.根据权利要求2所述的表情合成方法,其特征在于,所述预建数据库中至少存储有多个所述音素数据及各所述音素数据对应的所述替换表情参数,其中,所述替换表情参数用于驱动所述三维人脸模型中与说话动作产生直接关联的局部面部表情。
5.根据权利要求4所述的表情合成方法,其特征在于,所述替换表情参数至少包括唇形姿态子参数和说话表情子参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010291983.4/1.html,转载请声明来源钻瓜专利网。