[发明专利]音效合成方法、装置、电子设备及存储介质有效
申请号: | 202111547899.5 | 申请日: | 2021-12-17 |
公开(公告)号: | CN114189738B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 钟微;马鑫;张勤;叶龙;胡飞;方力 | 申请(专利权)人: | 中国传媒大学 |
主分类号: | H04N21/439 | 分类号: | H04N21/439;H04N21/81 |
代理公司: | 北京鸿元知识产权代理有限公司 11327 | 代理人: | 袁文婷;张娓娓 |
地址: | 100024 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 音效 合成 方法 装置 电子设备 存储 介质 | ||
1.一种音效合成方法,其特征在于,包括:
将双流模型作为主干网络形成以时间戳为中心的光流帧滑动窗口;
将预训练的上下文表示模型与所述光流帧滑动窗口相连接以形成视觉表征信息模型;其中,所述上下文表示模型通过对预设的卷积神经网络进行反复训练形成;
将目标视频输入所述视觉表征信息模型中以提取视觉运动表征信息;
通过预设的对齐器判断所述目标视频中的音频与所述视觉运动表征信息是否同源,若同源,则将所述目标视频中的音频作为所述目标视频的匹配音频,若不同源,则通过预设的音效生成模块生成与所述视觉运动表征信息相对应的匹配音频;所述对齐器为音视频对齐器;
其中,通过预设的对齐器判断所述目标视频中的音频与所述视觉运动表征信息的过程包括:对所述目标视频进行解析处理以形成视频和音频;判断所述视频与所述音频是否同源,若同源则输出同源结果,若不同源则输出非同源结果;判断所述视频与所述音频是否同源的过程,包括:通过所述对齐器中的编码器对所述音频进行编码处理以形成频谱图;其中,所述编码器包括短时傅里叶变换和梅尔滤波器;通过间隔采样卷积对所述频谱图进行降采样以生成卷积块处理特征;将所述卷积块处理特征作为两层双向LSTM网络的输入以生成音频嵌入数据,并将所述音频嵌入数据和所述视觉运动表征信息的双模态特征输入至两层前馈网络中以生成关于所述视频与所述音频是否同源的结果;通过预设的音效生成模块生成与所述视觉运动表征信息相对应的匹配音频的过程,包括:通过所述音效生成模块获取关于所述目标视频的视觉运动表征信息;将所述视觉运动表征信息转换为匹配频谱图,并通过预设的声码器生成与所述匹配频谱图相对应的匹配音频;
其中,所述同源为来源于同一视频样本;
基于所述时间戳将所述匹配音频与所述目标视频中的视频相对应以完成视频音效合成。
2.如权利要求1所述的音效合成方法,其特征在于,将目标视频输入所述视觉表征信息模型中以提取视觉运动表征信息的过程,包括:
将目标视频输入所述视觉表征信息模型以通过所述光流帧滑动窗口接收所述目标视频,并使所述双流模型在每个时间戳的滑动窗口上提取关于所述目标视频的RGB图像帧和光流帧的视觉信息;
对所述光流帧的视觉信息进行特征提取以形成运动特征,并对所述RGB图像帧进行采样以获取外观特征;
基于所述运动特征与所述外观特征进行级联以获取视觉的瞬时嵌入特征;
通过调节器对所述瞬时嵌入特征进行多时间尺度的运动信息提取以提取视觉运动表征信息。
3.如权利要求2所述的音效合成方法,其特征在于,
所述双流模型为双流BN-Inception模型;
所述调节器为具有时间感受野的一维CNN网络。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国传媒大学,未经中国传媒大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111547899.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种粗酚脱水方法
- 下一篇:一步法制备层间增韧碳纤维预浸料的生产方法