[发明专利]一种音视频合成方法及装置在审

申请号：	202210796238.4	申请日：	2022-07-07
公开（公告）号：	CN115174826A	公开（公告）日：	2022-10-11
发明（设计）人：	姚昆;孙见青;梁家恩	申请（专利权）人：	云知声智能科技股份有限公司
主分类号：	H04N5/265	分类号：	H04N5/265;H04N21/439;H04N21/44;G10L13/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	100096 北京市海***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种视频合成方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种音视频合成方法，包括：获取经过TTS转换得到的语音信号和语音信号的属性；属性包括每个音素的类型和每个音素的时长；根据类型，在预设的视频中搜索对应的视频段；并根据时长确定视频段的时长；对视频段进行处理，得到目标视频；将目标视频和语音信号进行合并，得到音视频信息。避免了深度神经网络大模型对硬件资源的占用，不依赖于虚拟形象的设计和制作，方便低成本的快速部署，具有较好的经济社会价值。

技术领域

本发明涉及数据处理技术领域，尤其涉及一种音视频合成方法及装置。

背景技术

现有技术中，虚拟人音视频合成方法，主要包括以下两种：第一种是基于深度学习对抗式神经网络(Generative adversarial network，GAN)的人脸生成方法，该方法由语音作为驱动，生成与语音内容相匹配的脸部图片，进而合成虚拟人的音视频内容。第二种是基于游戏引擎的动画人脸驱动方法，根据语音改变脸部关键点，再由游戏引擎进行虚拟人画面渲染，合成音视频内容。

由于端侧设备内存小，中央处理器(central processing unit，CPU)计算性能低，且往往没有图形处理器(英语：graphics processing unit，GPU)，散热性能差，对计算密集型，比如深度学习程序算法限制较大，在端侧设备这种资源受限场景下，深度学习的人脸生成和游戏引擎渲染方法均存在计算量大、功耗高、实时性差问题，难以落地，且所需数据量或形象设计工作均较大，生产周期长，成本高。

发明内容

本发明的目的是提供一种音视频合成方法及装置，以解决现有技术中的问题。

第一方面，本发明提供了一种音视频合成方法，所述方法包括：

获取经过TTS转换得到的语音信号和所述语音信号的属性；所述属性包括每个音素的类型和每个音素的时长；

根据所述类型，在预设的视频中搜索对应的视频段；并根据所述时长确定所述视频段的时长；

对所述视频段进行处理，得到目标视频；

将所述目标视频和所述语音信号进行合并，得到音视频信息。

在一种可能的实现方式中，所述类型包括静音音素和发音音素；所述预设的视频包括无声段和说话段；所述根据所述类型，在预设的视频中搜索对应的视频段具体包括：

当所述类型为静音音素时，选取所述预设的视频中的无声段；

当所述类型为发音音素时，选取所述预设的视频中的说话段。

在一种可能的实现方式中，所述对所述视频段进行处理，得到目标视频具体包括：

当得到多个音素对应的多个视频段时，根据预设的相似度矩阵，确定相邻两个视频段间的过渡图像；