[发明专利]一种音视频合成方法及装置在审
申请号: | 202210796238.4 | 申请日: | 2022-07-07 |
公开(公告)号: | CN115174826A | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 姚昆;孙见青;梁家恩 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | H04N5/265 | 分类号: | H04N5/265;H04N21/439;H04N21/44;G10L13/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 合成 方法 装置 | ||
本发明涉及一种音视频合成方法,包括:获取经过TTS转换得到的语音信号和语音信号的属性;属性包括每个音素的类型和每个音素的时长;根据类型,在预设的视频中搜索对应的视频段;并根据时长确定视频段的时长;对视频段进行处理,得到目标视频;将目标视频和语音信号进行合并,得到音视频信息。避免了深度神经网络大模型对硬件资源的占用,不依赖于虚拟形象的设计和制作,方便低成本的快速部署,具有较好的经济社会价值。
技术领域
本发明涉及数据处理技术领域,尤其涉及一种音视频合成方法及装置。
背景技术
现有技术中,虚拟人音视频合成方法,主要包括以下两种:第一种是基于深度学习对抗式神经网络(Generative adversarial network,GAN)的人脸生成方法,该方法由语音作为驱动,生成与语音内容相匹配的脸部图片,进而合成虚拟人的音视频内容。第二种是基于游戏引擎的动画人脸驱动方法,根据语音改变脸部关键点,再由游戏引擎进行虚拟人画面渲染,合成音视频内容。
由于端侧设备内存小,中央处理器(central processing unit,CPU)计算性能低,且往往没有图形处理器(英语:graphics processing unit,GPU),散热性能差,对计算密集型,比如深度学习程序算法限制较大,在端侧设备这种资源受限场景下,深度学习的人脸生成和游戏引擎渲染方法均存在计算量大、功耗高、实时性差问题,难以落地,且所需数据量或形象设计工作均较大,生产周期长,成本高。
发明内容
本发明的目的是提供一种音视频合成方法及装置,以解决现有技术中的问题。
第一方面,本发明提供了一种音视频合成方法,所述方法包括:
获取经过TTS转换得到的语音信号和所述语音信号的属性;所述属性包括每个音素的类型和每个音素的时长;
根据所述类型,在预设的视频中搜索对应的视频段;并根据所述时长确定所述视频段的时长;
对所述视频段进行处理,得到目标视频;
将所述目标视频和所述语音信号进行合并,得到音视频信息。
在一种可能的实现方式中,所述类型包括静音音素和发音音素;所述预设的视频包括无声段和说话段;所述根据所述类型,在预设的视频中搜索对应的视频段具体包括:
当所述类型为静音音素时,选取所述预设的视频中的无声段;
当所述类型为发音音素时,选取所述预设的视频中的说话段。
在一种可能的实现方式中,所述对所述视频段进行处理,得到目标视频具体包括:
当得到多个音素对应的多个视频段时,根据预设的相似度矩阵,确定相邻两个视频段间的过渡图像;
保留相邻视频段中的第一视频段的过渡图像,删除相邻视频段中第二视频段中的过渡图像;
根据所述第一视频段和删除了过渡图像的第二视频段,得到目标视频。
在一种可能的实现方式中,所述对所述视频段进行处理,得到目标视频具体包括:
检测相邻两个视频段之间的流畅度;
当所述流畅度不符合预设的条件时,在所述相邻视频段之间插入过渡帧;
根据相邻两个视频段和所述过渡帧,得到目标视频。
在一种可能的实现方式中,所述检测相邻两个视频段之间的流畅度具体包括:
通过三通道直方图计算相邻两个视频段的图像相似度;
当相似度小于预设阈值时,在所述相邻视频段之间插入过渡帧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210796238.4/2.html,转载请声明来源钻瓜专利网。