[发明专利]说话头视频合成方法、装置、终端设备及可读存储介质有效
申请号: | 202210611253.7 | 申请日: | 2022-05-31 |
公开(公告)号: | CN114945110B | 公开(公告)日: | 2023-10-24 |
发明(设计)人: | 丁万;黄东延;颜霖煌;杨志勇 | 申请(专利权)人: | 深圳市优必选科技股份有限公司 |
主分类号: | H04N21/81 | 分类号: | H04N21/81;G10L13/08;G10L13/02;G06V40/20;G06V40/16;G06V20/40 |
代理公司: | 深圳中一联合知识产权代理有限公司 44414 | 代理人: | 左婷兰 |
地址: | 518000 广东省深圳市南山区*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 话头 视频 合成 方法 装置 终端设备 可读 存储 介质 | ||
本申请适用于终端技术领域,尤其涉及说话头视频合成方法、装置、终端设备及计算机可读存储介质。该方法中,终端设备获取目标文本和目标图像后,确定目标文本对应的声学特征和目标图像对应的副语言特征,以根据目标文本对应的声学特征和目标图像对应的副语言特征得到目标文本对应的合成语音。另外,终端设备确定目标文本对应的目标嘴部动作序列,并根据目标嘴部动作序列和目标图像得到目标用户对应的脸部动作视频。最后,终端设备对合成语音和脸部动作视频进行同步处理,得到目标用户对应的说话头视频。即本申请可以结合目标用户对应的副语言特征,得到目标文本对应的合成语音,使得说话头视频中包含符合用户期望的副语言信息,提升用户体验。
技术领域
本申请属于终端技术领域,尤其涉及一种说话头视频合成方法、装置、终端设备及计算机可读存储介质。
背景技术
说话头视频合成是指根据一段文本和指定的脸部图像,输出对应该文本和该脸部图像的一段说话头的多模态视频(即包含合成的语音和说话时的脸部动作等)。但目前的说话头视频合成方法中,输入的脸部图像仅影响输出的视觉信息(即说话头视频的图像部分),而并未考虑说话人的脸部特征对说话人的副语言信息(例如声纹,年龄、语速等)的影响,降低了用户体验。
发明内容
本申请实施例提供了一种说话头视频合成方法、装置、终端设备及计算机可读存储介质,可以解决现有的说话头视频合成未考虑说话人的脸部特征对说话人的副语言信息的影响,降低用户体验的问题。
第一方面,本申请实施例提供了一种说话头视频合成方法,可以包括:
获取目标文本和目标图像,所述目标图像中包含目标用户的脸部图像;
确定所述目标文本对应的声学特征,并确定所述目标图像对应的副语言特征;
根据所述目标文本对应的声学特征和所述目标图像对应的副语言特征,得到所述目标文本对应的合成语音;
确定所述目标文本对应的目标嘴部动作序列,并根据所述目标嘴部动作序列和所述目标图像,得到所述目标用户对应的脸部动作视频;
对所述合成语音和所述脸部动作视频进行同步处理,得到所述目标用户对应的说话头视频。
在上述的说话头视频合成方法中,终端设备可以获取目标文本和目标图像,目标图像中包含目标用户的脸部图像。随后,终端设备可以确定目标文本对应的声学特征,并确定目标图像对应的副语言特征,以根据目标文本对应的声学特征和目标图像对应的副语言特征,得到目标文本对应的合成语音。另外,终端设备可以确定目标文本对应的目标嘴部动作序列,并根据目标嘴部动作序列和目标图像,得到目标用户对应的脸部动作视频。最后,终端设备可以对合成语音和脸部动作视频进行同步处理,得到目标用户对应的说话头视频。即本申请实施例中,终端设备可以根据目标图像确定目标用户对应的副语言特征,从而可以结合目标用户对应的副语言特征,得到目标文本对应的合成语音,使得说话头视频中的合成语音包含符合用户期望的副语言信息,提升用户体验。
在一个示例中,在所述确定所述目标图像对应的副语言特征之前,所述方法还可以包括:
获取训练图像集;
对于所述训练图像集中的每一训练图像,确定所述训练图像对应的第一训练语音;
通过预设的副语言表征模型,确定所述第一训练语音对应的副语言特征,并将所述第一训练语音对应的副语言特征确定为所述训练图像对应的副语言特征;
利用各所述训练图像和各所述训练图像对应的副语言特征,训练得到副语言预测模型,所述副语言预测模型用于根据目标图像,预测所述目标图像对应的副语言特征。
示例性的,在所述通过预设的副语言表征模型,确定所述训练语音对应的副语言特征之前,所述方法还可以包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市优必选科技股份有限公司,未经深圳市优必选科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210611253.7/2.html,转载请声明来源钻瓜专利网。