[发明专利]一种音视频合成方法及装置在审
申请号: | 202210796238.4 | 申请日: | 2022-07-07 |
公开(公告)号: | CN115174826A | 公开(公告)日: | 2022-10-11 |
发明(设计)人: | 姚昆;孙见青;梁家恩 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | H04N5/265 | 分类号: | H04N5/265;H04N21/439;H04N21/44;G10L13/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 视频 合成 方法 装置 | ||
1.一种音视频合成方法,其特征在于,所述方法包括:
获取经过TTS转换得到的语音信号和所述语音信号的属性;所述属性包括每个音素的类型和每个音素的时长;
根据所述类型,在预设的视频中搜索对应的视频段;并根据所述时长确定所述视频段的时长;
对所述视频段进行处理,得到目标视频;
将所述目标视频和所述语音信号进行合并,得到音视频信息。
2.根据权利要求1所述的方法,其特征在于,所述类型包括静音音素和发音音素;所述预设的视频包括无声段和说话段;所述根据所述类型,在预设的视频中搜索对应的视频段具体包括:
当所述类型为静音音素时,选取所述预设的视频中的无声段;
当所述类型为发音音素时,选取所述预设的视频中的说话段。
3.根据权利要求1所述的方法,其特征在于,所述对所述视频段进行处理,得到目标视频具体包括:
当得到多个音素对应的多个视频段时,根据预设的相似度矩阵,确定相邻两个视频段间的过渡图像;
保留相邻视频段中的第一视频段的过渡图像,删除相邻视频段中第二视频段中的过渡图像;
根据所述第一视频段和删除了过渡图像的第二视频段,得到目标视频。
4.根据权利要求1所述的方法,其特征在于,所述对所述视频段进行处理,得到目标视频具体包括:
检测相邻两个视频段之间的流畅度;
当所述流畅度不符合预设的条件时,在所述相邻视频段之间插入过渡帧;
根据相邻两个视频段和所述过渡帧,得到目标视频。
5.根据权利要求4所述的方法,其特征在于,所述检测相邻两个视频段之间的流畅度具体包括:
通过三通道直方图计算相邻两个视频段的图像相似度;
当相似度小于预设阈值时,在所述相邻视频段之间插入过渡帧。
6.根据权利要求1所述的方法,其特征在于,所述方法之前还包括:
获取目标用户的视频;所述视频包括设定的动作手势、面部表情、无声段和说话段;所述视频为预设的视频。
7.一种音视频合成装置,其特征在于,所述装置包括:
获取模块,所述获取模块用于获取经过TTS转换得到的语音信号和所述语音信号的属性;所述属性包括每个音素的类型和每个音素的时长;
搜索模块,所述搜索模块用于根据所述类型,在预设的视频中搜索对应的视频段;
确定模块,所述确定模块用于根据所述时长确定所述视频段的时长;
处理模块,所述处理模块用于对所述视频段进行处理,得到目标视频;
合并模块,所述合并模块用于将所述目标视频和所述语音信号进行合并,得到音视频信息。
8.一种芯片系统,其特征在于,包括处理器,所述处理器与存储器的耦合,所述存储器存储有程序指令,当所述存储器存储的程序指令被所述处理器执行时实现权利要求1-6任一项所述的音视频合成方法。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行权利要求1-6任一项所述的音视频合成方法。
10.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1-6任一项所述的音视频合成方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210796238.4/1.html,转载请声明来源钻瓜专利网。