[发明专利]多风格唇形合成方法、装置、设备及存储介质在审

申请号：	202110807540.0	申请日：	2021-07-16
公开（公告）号：	CN114022597A	公开（公告）日：	2022-02-08
发明（设计）人：	吴昊哲;贾珈;窦义顺;段超;邓清珊	申请（专利权）人：	清华大学;华为技术有限公司
主分类号：	G06T13/20	分类号：	G06T13/20;G06T13/40;G10L15/08;G10L25/30
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	苟冬梅
地址：	100084***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	风格合成方法装置设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本申请实施例涉及数据处理技术领域，具体涉及一种多风格唇形合成方法、装置、设备及存储介质，旨在实现生成包含多样化、有表现力的风格化唇形的说话人动画。具体方法包括：将目标脸像、短时唇形风格视频以及目标音频输入多风格唇形合成网络中；所述多风格唇形合成网络通过所述目标脸像、所述短时唇形风格视频以及所述目标音频，得到表情预测参数以及目标脸像的形状参数；将所述表情预测参数与所述形状参数进行结合，得到目标风格的说话人动画。

技术领域

本申请实施例涉及数据处理技术领域，具体而言，涉及一种多风格唇形合成方法、装置、设备及存储介质。

背景技术

说话人合成就是根据输入的音频，合成音视频同步的动画，在电影制作、电话会议、人机交互等领域有着广泛的应用前景。现有技术中，一种方式是首先对音频进行特征提取，根据得到的音频特征，利用神经网络预测人脸模型的表情参数序列，进而生成说话人视频。还有一种方式是建模不同说话人的说话风格，提取输入音频的音频特征，将音频特征与不同说话人的特征编码进行结合，通过时域卷积得到表情的形变，将表情的形变与原始的模板相加得到合成的说话人，通过调整不同说话人的特征编码，就可以得到不同风格的说话人。

第一种方式存在的问题是合成出来的说话人的说话风格单一，达不到预期效果，第二种方式虽然建模了不同说话人的风格，但是由于同一个体在不同的场景下的说话风格仍有较大差异，对个体进行建模会导致合成的说话风格缺乏多样性，进而导致说话人的表情、口型缺乏表现力。

发明内容

本申请实施例提供一种多风格唇形合成方法、装置、设备及存储介质，旨在实现生成包含多样化、有表现力的风格化唇形的说话人动画。

本申请实施例第一方面提供一种多风格唇形合成方法，所述方法包括：

将目标脸像、短时唇形风格视频以及目标音频输入多风格唇形合成网络中；

所述多风格唇形合成网络通过所述目标脸像、所述短时唇形风格视频以及所述目标音频，得到表情预测参数以及目标脸像的形状参数；

将所述表情预测参数与所述形状参数进行结合，得到目标风格的说话人动画。

可选地，所述说多风格唇形合成网络是经过训练得到的，训练步骤包括：

收集包含单个说话人的短时说话视频；

提取所述短时说话视频对应的音频以及所述短时说话视频中说话人的脸像；

将所述短时说话视频、所述短时说话视频对应的音频以及所述短时说话视频中说话人的脸像输入所述多风格唇形合成网络中，对所述多风格唇形合成网络进行训练，得到训练好的多风格唇形合成网络。

可选地，所述多风格唇形合成网络通过所述目标脸像、所述短时唇形风格视频以及所述目标音频，得到表情预测参数以及目标人脸的形状参数，包括：