[发明专利]唇形驱动方法、唇形驱动模型的训练方法、装置及设备有效

申请号：	202211306264.0	申请日：	2022-10-25
公开（公告）号：	CN115376211B	公开（公告）日：	2023-03-24
发明（设计）人：	周航;孙亚圣;何栋梁;刘经拓	申请（专利权）人：	北京百度网讯科技有限公司
主分类号：	G06V40/20	分类号：	G06V40/20;G06N3/04;G06N3/08;G06T13/20;G06T13/60;G06V10/44;G06V10/764;G06V10/82;G06V40/16;G10L15/02
代理公司：	北京品源专利代理有限公司 11332	代理人：	马迪
地址：	100085 北京市***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	驱动方法模型训练装置设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种唇形驱动模型的训练方法，其中，唇形驱动模型包括唇形驱动网络、唇形增强网络和唇音同步判别网络；所述唇形增强网络包括编码子网络、注意力网络和解码子网络；所述编码子网络包括至少一个编码单元；所述解码子网络包括至少一个解码单元；所述解码单元包括第一反卷积层、特征拼接层、第二反卷积层和图像转换层；所述方法包括：

将样本训练数据输入所述唇形驱动网络，得到第一唇形图像数据和样本音频特征；其中，所述样本训练数据包括样本脸部图像数据和与所述样本脸部图像数据对齐的样本语音数据；

将所述第一唇形图像数据、所述样本音频特征和所述样本脸部图像数据，输入所述唇形增强网络，得到第二唇形图像数据，包括：

采用所述编码子网络对所述第一唇形图像数据和所述样本脸部图像数据进行编码，得到样本编码特征；

采用所述注意力网络对所述样本编码特征进行变换，得到经变换的样本编码特征；

采用所述解码子网络对所述样本编码特征、经变换的样本编码特征和所述样本音频特征进行解码，得到第二唇形图像数据，包括：

采用所述解码单元的第一反卷积层对输入特征和所述样本音频特征进行解码，得到第一解码特征；其中，所述第一反卷积层包括第一卷积核权重；采用所述样本音频特征对所述第一卷积核权重进行调整；所述输入特征包括经变换的样本编码特征或所述解码单元的上一解码单元输出的第二解码特征；

采用所述解码单元的特征拼接层对所述第一解码特征和所述样本编码特征进行拼接，得到拼接特征；其中，所述样本编码特征为所述解码单元对应的编码子网络中编码单元输出；

采用所述解码单元的第二反卷积层对所述拼接特征和所述样本音频特征进行解码，得到第二解码特征；其中，所述第二反卷积层包括第二卷积核权重，采用所述样本音频特征对所述第二卷积核权重进行调整；

采用所述解码单元的图像转换层对所述第二解码特征进行图像转换，得到中间唇形图像数据；若所述解码单元为所述解码子网络的末尾解码单元，则将所述中间唇形图像数据作为第二唇形图像数据；

将所述第二唇形图像数据和所述样本音频特征，输入所述唇音同步判别网络，得到判别结果；

根据所述第二唇形图像数据和所述判别结果，确定训练损失；

根据所述训练损失，对所述唇形驱动网络、所述唇形增强网络和所述唇音同步判别网络进行训练。