[发明专利]唇形驱动方法、唇形驱动模型的训练方法、装置及设备有效
申请号: | 202211306264.0 | 申请日: | 2022-10-25 |
公开(公告)号: | CN115376211B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 周航;孙亚圣;何栋梁;刘经拓 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06N3/04;G06N3/08;G06T13/20;G06T13/60;G06V10/44;G06V10/764;G06V10/82;G06V40/16;G10L15/02 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 马迪 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 驱动 方法 模型 训练 装置 设备 | ||
本公开提供了一种唇形驱动方法、唇形驱动模型的训练方法、装置及设备,涉及计算机视觉、增强现实、虚拟现实等人工智能技术领域,可应用于元宇宙、虚拟数字人等场景。具体实现方案为:将样本训练数据输入所述唇形驱动网络,得到第一唇形图像数据和样本音频特征;将所述第一唇形图像数据、所述样本音频特征和所述样本脸部图像数据,输入所述唇形增强网络,得到第二唇形图像数据;将所述第二唇形图像数据和所述样本音频特征,输入所述唇音同步判别网络,得到判别结果;根据所述第二唇形图像数据和所述判别结果,确定训练损失;根据所述训练损失,对所述唇形驱动网络、所述唇形增强网络和所述唇音同步判别网络进行训练。
技术领域
本公开涉及人工智能技术领域,具体为计算机视觉、增强现实、虚拟现实、深度学习等技术领域,可应用于元宇宙、虚拟数字人等场景。
背景技术
语音驱动唇形是指在保持底板视频除唇部信息外其他信息不变的情况下,根据输入的音频信息,驱动视频中人物唇形的技术。现有技术多直接采用基于卷积神经网络的主干网络输出的结果,作为唇形和音频同步的唇形图像数据(即唇形补全图像)。这样较难将音频信息融合进分辨率较大的图像,只能生成图像质量较低的唇形图像数据。若增加主干网络的能力,以生成分辨率高的唇形图像数据,则导致所得到的唇形图像数据可能存在身份信息丢失或者唇形信息不准确,因此亟需改进。
发明内容
本公开提供了一种唇形驱动方法、唇形驱动模型的训练方法、装置及设备。
根据本公开的一方面,提供了一种唇形驱动模型的训练方法,其中,唇形驱动模型包括唇形驱动网络、唇形增强网络和唇音同步判别网络;该方法包括:
将样本训练数据输入所述唇形驱动网络,得到第一唇形图像数据和样本音频特征;其中,所述样本训练数据包括样本脸部图像数据和与所述样本脸部图像数据对齐的样本语音数据;
将所述第一唇形图像数据、所述样本音频特征和所述样本脸部图像数据,输入所述唇形增强网络,得到第二唇形图像数据;
将所述第二唇形图像数据和所述样本音频特征,输入所述唇音同步判别网络,得到判别结果;
根据所述第二唇形图像数据和所述判别结果,确定训练损失;
根据所述训练损失,对所述唇形驱动网络、所述唇形增强网络和所述唇音同步判别网络进行训练。
根据本公开的另一方面,提供了一种唇形驱动方法,该方法包括:
获取目标脸部图像数据和目标语音数据;
将所述目标脸部图像数据和所述目标语音数据,输入唇形驱动模型,得到在所述目标语音数据驱动下的目标唇形图像数据;其中,所述唇形驱动模型基于本公开任一实施例所述的唇形驱动模型的训练方法训练得到。
根据本公开的另一方面,提供了一种唇形驱动模型的训练装置,其中,唇形驱动模型包括唇形驱动网络、唇形增强网络和唇音同步判别网络;该装置包括:
第一唇形图像确定模块,用于将样本训练数据输入所述唇形驱动网络,得到第一唇形图像数据和样本音频特征;其中,所述样本训练数据包括样本脸部图像数据和与所述样本脸部图像数据对齐的样本语音数据;
第二唇形图像确定模块,用于将所述第一唇形图像数据、所述样本音频特征和所述样本脸部图像数据,输入所述唇形增强网络,得到第二唇形图像数据;
判别结果确定模块,用于将所述第二唇形图像数据和所述样本音频特征,输入所述唇音同步判别网络,得到判别结果;
训练损失确定模块,用于根据所述第二唇形图像数据和所述判别结果,确定训练损失;
网络训练模块,用于根据所述训练损失,对所述唇形驱动网络、所述唇形增强网络和所述唇音同步判别网络进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211306264.0/2.html,转载请声明来源钻瓜专利网。