[发明专利]唇形驱动方法、唇形驱动模型的训练方法、装置及设备有效
申请号: | 202211306264.0 | 申请日: | 2022-10-25 |
公开(公告)号: | CN115376211B | 公开(公告)日: | 2023-03-24 |
发明(设计)人: | 周航;孙亚圣;何栋梁;刘经拓 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06N3/04;G06N3/08;G06T13/20;G06T13/60;G06V10/44;G06V10/764;G06V10/82;G06V40/16;G10L15/02 |
代理公司: | 北京品源专利代理有限公司 11332 | 代理人: | 马迪 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 驱动 方法 模型 训练 装置 设备 | ||
1.一种唇形驱动模型的训练方法,其中,唇形驱动模型包括唇形驱动网络、唇形增强网络和唇音同步判别网络;所述唇形增强网络包括编码子网络、注意力网络和解码子网络;所述编码子网络包括至少一个编码单元;所述解码子网络包括至少一个解码单元;所述解码单元包括第一反卷积层、特征拼接层、第二反卷积层和图像转换层;所述方法包括:
将样本训练数据输入所述唇形驱动网络,得到第一唇形图像数据和样本音频特征;其中,所述样本训练数据包括样本脸部图像数据和与所述样本脸部图像数据对齐的样本语音数据;
将所述第一唇形图像数据、所述样本音频特征和所述样本脸部图像数据,输入所述唇形增强网络,得到第二唇形图像数据,包括:
采用所述编码子网络对所述第一唇形图像数据和所述样本脸部图像数据进行编码,得到样本编码特征;
采用所述注意力网络对所述样本编码特征进行变换,得到经变换的样本编码特征;
采用所述解码子网络对所述样本编码特征、经变换的样本编码特征和所述样本音频特征进行解码,得到第二唇形图像数据,包括:
采用所述解码单元的第一反卷积层对输入特征和所述样本音频特征进行解码,得到第一解码特征;其中,所述第一反卷积层包括第一卷积核权重;采用所述样本音频特征对所述第一卷积核权重进行调整;所述输入特征包括经变换的样本编码特征或所述解码单元的上一解码单元输出的第二解码特征;
采用所述解码单元的特征拼接层对所述第一解码特征和所述样本编码特征进行拼接,得到拼接特征;其中,所述样本编码特征为所述解码单元对应的编码子网络中编码单元输出;
采用所述解码单元的第二反卷积层对所述拼接特征和所述样本音频特征进行解码,得到第二解码特征;其中,所述第二反卷积层包括第二卷积核权重,采用所述样本音频特征对所述第二卷积核权重进行调整;
采用所述解码单元的图像转换层对所述第二解码特征进行图像转换,得到中间唇形图像数据;若所述解码单元为所述解码子网络的末尾解码单元,则将所述中间唇形图像数据作为第二唇形图像数据;
将所述第二唇形图像数据和所述样本音频特征,输入所述唇音同步判别网络,得到判别结果;
根据所述第二唇形图像数据和所述判别结果,确定训练损失;
根据所述训练损失,对所述唇形驱动网络、所述唇形增强网络和所述唇音同步判别网络进行训练。
2.根据权利要求1所述的方法,其中,所述采用所述解码单元的第一反卷积层对输入特征和所述样本音频特征进行解码,得到第一解码特征,包括:
根据所述样本音频特征对第一反卷积层的第一卷积核权重进行调整,得到经调整的第一卷积核权重;
通过第一反卷积层,采用经调整的第一卷积核权重对所述输入特征进行处理,得到所述第一解码特征;
采用所述解码单元的第二反卷积层对所述拼接特征和所述样本音频特征进行解码,得到第二解码特征,包括:
根据所述样本音频特征对第二反卷积层的第二卷积核权重进行调整,得到经调整的第二卷积核权重;
通过第二反卷积层,采用经调整的第二卷积核权重对所述拼接特征进行处理,得到所述第二解码特征。
3.根据权利要求1所述的方法,其中,所述根据所述第二唇形图像数据和所述判别结果,确定训练损失,包括:
根据所述第二唇形图像数据和唇形监督数据,确定第一损失;
根据所述判别结果,确定第二损失;
根据所述第一损失和所述第二损失,确定训练损失。
4.根据权利要求3所述的方法,所述唇形驱动模型还包括生成式对抗GAN网络和VGG网络;所述方法还包括:
分别将所述第二唇形图像数据输入所述GAN网络和所述VGG网络,得到第三唇形图像数据和第四唇形图像数据;
根据所述第三唇形图像数据和唇形监督数据,确定第三损失;
根据所述第四唇形图像数据和唇形监督数据,确定第四损失;
根据所述第一损失、所述第二损失、所述第三损失和所述第四损失,确定训练损失。
5.根据权利要求1所述的方法,还包括:
对至少两个初始脸部图像数据进行对齐;
从经对齐的初始脸部图像中剔除唇部区域,得到所述样本脸部图像数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211306264.0/1.html,转载请声明来源钻瓜专利网。