[发明专利]音效合成方法、装置、电子设备及存储介质有效

申请号：	202111547899.5	申请日：	2021-12-17
公开（公告）号：	CN114189738B	公开（公告）日：	2023-06-30
发明（设计）人：	钟微;马鑫;张勤;叶龙;胡飞;方力	申请（专利权）人：	中国传媒大学
主分类号：	H04N21/439	分类号：	H04N21/439;H04N21/81
代理公司：	北京鸿元知识产权代理有限公司 11327	代理人：	袁文婷;张娓娓
地址：	100024 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	音效合成方法装置电子设备存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种音效合成方法，其特征在于，包括：

将双流模型作为主干网络形成以时间戳为中心的光流帧滑动窗口；

将预训练的上下文表示模型与所述光流帧滑动窗口相连接以形成视觉表征信息模型；其中，所述上下文表示模型通过对预设的卷积神经网络进行反复训练形成；

将目标视频输入所述视觉表征信息模型中以提取视觉运动表征信息；

通过预设的对齐器判断所述目标视频中的音频与所述视觉运动表征信息是否同源，若同源，则将所述目标视频中的音频作为所述目标视频的匹配音频，若不同源，则通过预设的音效生成模块生成与所述视觉运动表征信息相对应的匹配音频；所述对齐器为音视频对齐器；

其中，通过预设的对齐器判断所述目标视频中的音频与所述视觉运动表征信息的过程包括：对所述目标视频进行解析处理以形成视频和音频；判断所述视频与所述音频是否同源，若同源则输出同源结果，若不同源则输出非同源结果；判断所述视频与所述音频是否同源的过程，包括：通过所述对齐器中的编码器对所述音频进行编码处理以形成频谱图；其中，所述编码器包括短时傅里叶变换和梅尔滤波器；通过间隔采样卷积对所述频谱图进行降采样以生成卷积块处理特征；将所述卷积块处理特征作为两层双向LSTM网络的输入以生成音频嵌入数据，并将所述音频嵌入数据和所述视觉运动表征信息的双模态特征输入至两层前馈网络中以生成关于所述视频与所述音频是否同源的结果；通过预设的音效生成模块生成与所述视觉运动表征信息相对应的匹配音频的过程，包括：通过所述音效生成模块获取关于所述目标视频的视觉运动表征信息；将所述视觉运动表征信息转换为匹配频谱图，并通过预设的声码器生成与所述匹配频谱图相对应的匹配音频；

其中，所述同源为来源于同一视频样本；

基于所述时间戳将所述匹配音频与所述目标视频中的视频相对应以完成视频音效合成。

2.如权利要求1所述的音效合成方法，其特征在于，将目标视频输入所述视觉表征信息模型中以提取视觉运动表征信息的过程，包括：

将目标视频输入所述视觉表征信息模型以通过所述光流帧滑动窗口接收所述目标视频，并使所述双流模型在每个时间戳的滑动窗口上提取关于所述目标视频的RGB图像帧和光流帧的视觉信息；

对所述光流帧的视觉信息进行特征提取以形成运动特征，并对所述RGB图像帧进行采样以获取外观特征；

基于所述运动特征与所述外观特征进行级联以获取视觉的瞬时嵌入特征；

通过调节器对所述瞬时嵌入特征进行多时间尺度的运动信息提取以提取视觉运动表征信息。

3.如权利要求2所述的音效合成方法，其特征在于，

所述双流模型为双流BN-Inception模型；

所述调节器为具有时间感受野的一维CNN网络。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载