[发明专利]基于虚拟人物的语音合成方法、装置、介质及设备有效

申请号：	202010167707.7	申请日：	2020-03-11
公开（公告）号：	CN111369967B	公开（公告）日：	2021-03-05
发明（设计）人：	殷翔;顾宇	申请（专利权）人：	北京字节跳动网络技术有限公司
主分类号：	G10L13/02	分类号：	G10L13/02;G10L21/10;G10L25/03;G06K9/00;G06N20/00
代理公司：	北京英创嘉友知识产权代理事务所(普通合伙) 11447	代理人：	魏嘉熹
地址：	100041 北京市石景山区***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于虚拟人物语音合成方法装置介质设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开涉及一种基于虚拟人物的语音合成方法、装置、介质及设备，所述方法包括：获取待合成文本对应的语音特征信息以及获取用于对所述待合成文本进行语音合成的乐理特征信息；将所述语音特征信息和所述乐理特征信息输入语音合成模型，获得与所述待合成文本对应的声学特征和面部图像特征，所述声学特征和所述面部图像特征的序列对齐；根据所述声学特征，获得与所述待合成文本对应的音频信息；在所述虚拟人物上输出所述音频信息，并根据所述面部图像特征控制所述虚拟人物的面部状态显示。因此，可以有效避免虚拟人物的语音输出状态和面部状态显示不一致的问题，提高语音合成的准确度，进而提升用户使用体验。

技术领域

本公开涉及计算机技术领域，具体地，涉及一种基于虚拟人物的语音合成方法、装置、介质及设备。

背景技术

现今，随着计算机技术的迅速发展，虚拟人物应用逐渐增多。在驱动虚拟人物进行歌唱数据合成时，通常是直接通过虚拟人物形象直接输出语音合成数据，并控制虚拟人物形象循环展现不同的面部表情。然而在上述技术方案中，可能会出现在有唱字输出时，面部表情中嘴处于闭合的状态，造成面部表情状态与语音输出状态不一致。

目前并没有很好的解决方案能够解决上述问题。

发明内容

提供该发明内容部分以便以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。该发明内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。

第一方面，本公开提供一种基于虚拟人物的语音合成方法，所述方法包括：

获取待合成文本对应的语音特征信息以及获取用于对所述待合成文本进行语音合成的乐理特征信息；

将所述语音特征信息和所述乐理特征信息输入语音合成模型，获得与所述待合成文本对应的声学特征和面部图像特征，所述声学特征和所述面部图像特征的序列对齐；

根据所述声学特征，获得与所述待合成文本对应的音频信息；

在所述虚拟人物上输出所述音频信息，并根据所述面部图像特征控制所述虚拟人物的面部状态显示。