[发明专利]说话头视频合成方法、装置、终端设备及可读存储介质有效
申请号: | 202210611253.7 | 申请日: | 2022-05-31 |
公开(公告)号: | CN114945110B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 丁万;黄东延;颜霖煌;杨志勇 | 申请(专利权)人: | 深圳市优必选科技股份有限公司 |
主分类号: | H04N21/81 | 分类号: | H04N21/81;G10L13/08;G10L13/02;G06V40/20;G06V40/16;G06V20/40 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 左婷兰 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 话头 视频 合成 方法 装置 终端设备 可读 存储 介质 | ||
1.一种说话头视频合成方法,其特征在于,包括:
获取目标文本和目标图像,所述目标图像中包含目标用户的脸部图像;
确定所述目标文本对应的声学特征,并确定所述目标图像对应的副语言特征;
根据所述目标文本对应的声学特征和所述目标图像对应的副语言特征,得到所述目标文本对应的合成语音;
确定所述目标文本对应的目标嘴部动作序列,并根据所述目标嘴部动作序列和所述目标图像,得到所述目标用户对应的脸部动作视频;
对所述合成语音和所述脸部动作视频进行同步处理,得到所述目标用户对应的说话头视频。
2.根据权利要求1所述的方法,其特征在于,在所述确定所述目标图像对应的副语言特征之前,所述方法还包括:
获取训练图像集;
对于所述训练图像集中的每一训练图像,确定所述训练图像对应的第一训练语音;
通过预设的副语言表征模型,确定所述第一训练语音对应的副语言特征,并将所述第一训练语音对应的副语言特征确定为所述训练图像对应的副语言特征;
利用各所述训练图像和各所述训练图像对应的副语言特征,训练得到副语言预测模型,所述副语言预测模型用于根据目标图像,预测所述目标图像对应的副语言特征。
3.根据权利要求2所述的方法,其特征在于,在所述通过预设的副语言表征模型,确定所述训练语音对应的副语言特征之前,所述方法还包括:
获取第一训练文本对应的第二训练语音,所述第二训练语音为第一用户对应的语音;
获取第二训练文本对应的第三训练语音和第四训练语音,所述第三训练语音为所述第一用户对应的语音,所述第四训练语音为第二用户对应的语音;
利用初始的副语言表征模型,获取所述第二训练语音对应的副语言特征;
根据所述第二训练语音对应的副语言特征对所述第四训练语音进行转换,得到第五训练语音;
根据所述第三训练语音和所述第五训练语音,调整所述副语言表征模型的模型参数,直至所述第三训练语音和所述第五训练语音之间的误差满足预设条件,得到预设的副语言表征模型。
4.根据权利要求1所述的方法,其特征在于,所述确定所述目标文本对应的目标嘴部动作序列,包括:
确定所述目标文本对应的目标音素序列;
根据所述目标音素序列,确定所述目标文本对应的第一候选嘴部动作序列;
根据所述目标音素序列,获取所述目标文本对应的声学特征,并根据所述声学特征,确定所述目标文本对应的第二候选嘴部动作序列;
对所述第一候选嘴部动作序列和所述第二候选嘴部动作序列进行融合,得到所述目标文本对应的目标嘴部动作序列。
5.根据权利要求4所述的方法,其特征在于,在所述根据所述目标音素序列,确定所述目标文本对应的第一候选嘴部动作序列之前,所述方法还包括:
获取视频数据集,所述视频数据集包括多条视频数据;
对于每一视频数据,确定所述视频数据对应的训练音素序列;
确定所述训练音素序列中的各训练音素对应的第一初始嘴部动作;
对于每一训练音素,根据所述训练音素对应的各第一初始嘴部动作,确定所述训练音素对应的第一训练嘴部动作;
根据各训练音素对应的第一训练嘴部动作,确定各所述训练音素序列对应的第一训练嘴部动作序列;
利用各所述训练音素序列和各所述训练音素序列对应的第一训练嘴部动作序列,训练得到第一预测模型,所述第一预测模型用于根据音素序列,预测第一候选嘴部动作序列。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市优必选科技股份有限公司,未经深圳市优必选科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210611253.7/1.html,转载请声明来源钻瓜专利网。