[发明专利]一种语音驱动的人脸动作实时转移方法和系统在审
申请号: | 202011027777.9 | 申请日: | 2020-09-28 |
公开(公告)号: | CN112215926A | 公开(公告)日: | 2021-01-12 |
发明(设计)人: | 不公告发明人 | 申请(专利权)人: | 北京华严互娱科技有限公司 |
主分类号: | G06T13/20 | 分类号: | G06T13/20;G06T13/40 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100000 北京市丰台*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 语音 驱动 动作 实时 转移 方法 系统 | ||
本发明公开了一种语音驱动的人脸动作实时转移方法和系统,其中方法包括:输入源角色的音频序列;估计所述音频序列中的每一帧的音频信号表征;根据所估计的每一音频帧的所述音频信号表征驱动一三维面部模型动作;获取目标视频帧;基于所驱动的所述三维面部模型,对所述目标视频帧图像上的人脸动作进行预测,得到人脸动作预测结果;将预测到的所述人脸动作预测结果合成到所述目标视频中的对应帧图像上,实现语音驱动的人脸动作实时转移。本发明大幅提高了所驱动的人脸动作的真实感,并且大幅降低了人脸驱动算法的复杂度,可有效确保驱动人脸动作的实时性。
技术领域
本发明涉及人脸动作驱动技术领域,具体涉及一种语音驱动的人脸动作实时转移方法和系统。
背景技术
语音驱动人脸动画是当下动画仿真技术领域的研究热点。语音驱动人脸动画的技术核心是通过外部输入的语音信息驱动人脸模型动画。时下比较热门的语音驱动人脸动画的技术主要通过建立语音信息与人脸动画视频的对应关系,将各个人脸动画视频存储到人脸动画素材库中,然后识别外部输入的语音信息,并根据语音信息与人脸动画视频的匹配关系,从人脸动画素材库中匹配到所识别的语音信息对应的人脸动画视频,最后直接调用该人脸动画视频显示给用户。该种方式无法实现语音驱动人脸动画的实时性。
另外,现有的一些语音驱动人脸动画的方法虽然一定程度上确保了人脸驱动的实时性,但由于算法较为复杂,实时性效果并不理想,而且所驱动的人脸逼真度较差,无法满足应用需求。
发明内容
本发明的目的在于提供一种语音驱动的人脸动作实时转移方法和系统,以解决上述技术问题。
为达此目的,本发明采用以下技术方案:
提供一种语音驱动的人脸动作实时转移方法,包括:
输入源角色的音频序列;
估计所述音频序列中的每一帧的音频信号表征;
根据所估计的每一音频帧的所述音频信号表征驱动一三维面部模型动作;
获取目标视频帧;
基于所驱动的所述三维面部模型,对所述目标视频帧图像上的人脸动作进行预测,得到人脸动作预测结果;
将预测到的所述人脸动作预测结果合成到所述目标视频中的对应帧图像上,实现语音驱动的人脸动作实时转移。
优选地,基于FacialSpeech语音识别框架估计所述音频序列中的每一帧的所述音频信号表征。
优选地,输入所述FacialSpeech语音识别框架中的每帧音频的特征维数为16×29,数字“16”表示每帧音频包含16个音频特征的时间窗口;
数字“29”表示FacialSpeech字母表的长度为29。
优选地,所述FacialSpeech语音识别框架包括依序级联的4个卷积层和3个全连接层,输入的16×29维的音频特征经过第一卷积层的一维特征卷积提取后输出8×32维的音频特征;
8×32维的音频特征经过第二卷积层的一维特征卷积提取后输出4×32维的音频特征;
4×32维的音频特征经过第三卷积层的一维特征卷积提取后输出2×64维的音频特征;
2×64维的音频特征经过第四卷积层的一维特征卷积提取后输出64个的音频特征;
第一全连接层将64个音频特征映射到128个;
第二全连接层将128个音频特征映射到64个;
第三全连接层将64个音频特征映射为长度为32的音频表征向量。
优选地,4个所述卷积层的卷积核尺寸为3,步长为2。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京华严互娱科技有限公司,未经北京华严互娱科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011027777.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:网络系统、网络诊断处理方法及装置
- 下一篇:一种自动清洁布料的复合机