[发明专利]音效合成方法、装置、电子设备及存储介质有效
申请号: | 202111547899.5 | 申请日: | 2021-12-17 |
公开(公告)号: | CN114189738B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 钟微;马鑫;张勤;叶龙;胡飞;方力 | 申请(专利权)人: | 中国传媒大学 |
主分类号: | H04N21/439 | 分类号: | H04N21/439;H04N21/81 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 袁文婷;张娓娓 |
地址: | 100024 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音效 合成 方法 装置 电子设备 存储 介质 | ||
本发明涉及人工智能技术,提供一种音效合成方法,将双流模型作为主干网络形成以时间戳为中心的光流帧滑动窗口,将预训练的上下文表示模型与所述光流帧滑动窗口相连接以形成视觉表征信息模型,将目标视频输入视觉表征信息模型中以提取视觉运动表征信息,通过预设的对齐器判断目标视频中的音频与视觉运动表征信息是否同源,若同源,则将目标视频中的音频作为目标视频的匹配音频,若不同源,则通过预设的音效生成模块生成与视觉运动表征信息相对应的匹配音频,再基于时间戳将匹配音频与目标视频中的视频相对应以完成视频音效合成,提高音视频的匹配性。
技术领域
本发明涉及人工智能领域下的跨模态转换技术领域,尤其涉及一种音效合成方法、装置、电子设备及计算机可读存储介质。
背景技术
短视频自媒体时代,从互联网伊始发送的文字图像到现在以短视频为主的传播的爆发,使得互联网的媒介形式发生了翻天覆地的变化,从而也导致了网络平台上的待处理信息的数据处理难度呈指数级增长。尤其是在蓬勃发展的短视频领域,短视频制作的需求激增,为了从短视频中获取有效信息,并辅助用户通过音效来增进短视频内容的情感表达,基于视频理解的音效合成处理技术应运而生。
目前,智能音效匹配合成已经在短视频制作、电影配音、游戏音效等诸多领域发挥了重要作用,成为现代互联网应用场景中不可缺少的一部分。然而,现有的智能音效匹配合成方法主要是基于类别检索或是运动信息不敏感的合成,忽略了视频表达的丰富性和视频内发声物体运动的动态变化。
因此,亟需一种能够增加视频表达丰富性,使得媒体更加智能化的音效合成方法。
发明内容
本发明提供一种音效合成方法、装置、电子设备及计算机可读存储介质,以解决现有的智能音效匹配合成方法主要是基于类别检索或是运动信息不敏感的合成,忽略了视频表达的丰富性和视频内发声物体运动的动态变化的问题。
为实现上述目的,本发明提供的一种音效合成方法,包括:
将双流模型作为主干网络形成以时间戳为中心的光流帧滑动窗口;
将预训练的上下文表示模型与所述光流帧滑动窗口相连接以形成视觉表征信息模型;其中,所述上下文表示模型通过对预设的卷积神经网络进行反复训练形成;
将目标视频输入所述视觉表征信息模型中以提取视觉运动表征信息;
通过预设的对齐器判断所述目标视频中的音频与所述视觉运动表征信息是否同源,若同源,则将所述目标视频中的音频作为所述目标视频的匹配音频,若不同源,则通过预设的音效生成模块生成与所述视觉运动表征信息相对应的匹配音频;所述对齐器为音视频对齐器;
基于所述时间戳将所述匹配音频与所述目标视频中的视频相对应以完成视频音效合成。
可选地,将目标视频输入所述视觉表征信息模型中以提取视觉运动表征信息的过程,包括:
将目标视频输入所述视觉表征信息模型以通过所述光流帧滑动窗口接收所述目标视频,并使所述双流模型在每个时间戳的滑动窗口上提取关于所述目标视频的RGB图像帧和光流帧的视觉信息;
对所述光流帧的视觉信息进行特征提取以形成运动特征,并对所述RGB图像帧进行采样以获取外观特征;
基于所述运动特征与所述外观特征进行级联以获取视觉的瞬时嵌入特征;
通过所述调节器对所述瞬时嵌入特征进行多时间尺度的运动信息提取以提取视觉运动表征信息。
可选地,所述双流模型为双流BN-Inception模型;
所述调节器为具有时间感受野的一维CNN网络。
可选地,通过预设的对齐器判断所述目标视频中的音频与所述视觉运动表征信息的过程包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国传媒大学,未经中国传媒大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111547899.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种粗酚脱水方法
- 下一篇:一步法制备层间增韧碳纤维预浸料的生产方法