[发明专利]一种基于多尺度语义网络的视听视频解析装置及方法在审
申请号: | 202210134629.X | 申请日: | 2022-02-14 |
公开(公告)号: | CN114519809A | 公开(公告)日: | 2022-05-20 |
发明(设计)人: | 于家硕;冯瑞;张玥杰 | 申请(专利权)人: | 复旦大学 |
主分类号: | G06V10/82 | 分类号: | G06V10/82;G06V10/764;G06K9/62;G06N3/04;G06N3/08;G10L25/57;G10L25/27;G10L25/03 |
代理公司: | 上海德昭知识产权代理有限公司 31204 | 代理人: | 程宗德 |
地址: | 200433 *** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 尺度 语义 网络 视听 视频 解析 装置 方法 | ||
1.一种基于多尺度语义网络的视听视频解析方法,用于对目标音视频的所有单模态和多模态事件进行识别和定位,其特征在于,包括以下步骤:
步骤S1,对所述目标音视频进行预处理获取视觉特征和音频特征;
步骤S2,构建基于多尺度语义网络的神经网络模型;
步骤S3,采用弱监督训练方法对所述基于多尺度语义网络的神经网络模型进行训练得到视听视频解析模型;
步骤S4,将所述视觉特征和所述音频特征输入至所述视听视频解析模型中得到所述目标音视频的所有单模态事件类别、多模态事件类别以及起始时刻,
其中,所述基于多尺度语义网络的神经网络模型具有跨模态时序卷积注意力网络、自适应语义融合模块、分类模块以及多模态多实例学习池化层。
2.根据权利要求1所述的一种基于多尺度语义网络的视听视频解析方法,其特征在于:
其中,所述预处理包括图像预处理,该图像预处理为从所述目标音视频中抽取8个图像帧,对8个所述图像帧进行大小归一化。
3.根据权利要求1所述的一种基于多尺度语义网络的视听视频解析方法,其特征在于:
其中,所述预处理还包括音频预处理,该音频预处理的过程如下:
对所述目标音视频中包含的音频重采样为16kHz的单声道音频,
使用25ms的Hann时窗以及10ms的帧移对所述单声道音频进行短时傅里叶变换得到对应的频谱图,并使用64阶的梅尔滤波器组中计算梅尔声谱,
使用0.01的偏置对所述梅尔声谱取对数,得到稳定的梅尔声谱,以0.96s的时长进行组帧得到音频序列,每一帧包含64个梅尔频带,不含帧的重叠,对该音频序列进行特征提取得到所述音频特征。
4.根据权利要求1所述的一种基于多尺度语义网络的视听视频解析方法,其特征在于:
其中,所述跨模态时序卷积注意力网络由若干个级联的时序卷积层和定尺寸跨模态注意力层组成,用于根据输入的所述视觉特征以及所述音频特征生成对应的多尺度语义特征,
所述自适应语义融合模块将所述多尺度语义特征的语义信息进行融合得到语义融合结果,
所述分类模块对音频模态和视觉模态进行分类和预测生成模态预测结果,
所述多模态多实例学习池化层根据所述模态预测结果生成视频级别标签,该视频级别标签用于弱监督训练。
5.根据权利要求4所述的一种基于多尺度语义网络的视听视频解析方法,其特征在于:
其中,所述步骤S3包括以下子步骤:
步骤S3-1,构建弱监督的训练数据集;
步骤S3-2,将所述训练数据集中的训练数据依次输入至所述基于多尺度语义网络的神经网络模型对模型参数进行迭代;
步骤S3-3,在每次迭代后,根据最后一层的模型参数计算损失误差,利用所述损失误差进行反向传播从而更新所述模型参数;
步骤S3-4,重复所述步骤S3-2至所述步骤S3-3直至达到训练完成条件,得到所述视听视频解析模型。
6.一种基于多尺度语义网络的视听视频解析装置,用于对目标音视频的所有单模态和多模态事件进行识别和定位,其特征在于,包括:
预处理部,使用预定的预处理方法对所述目标音视频进行预处理得到视觉特征以及音频特征;以及
视听视频解析部,利用预先训练得到的视听视频解析模型对所述视觉特征以及所述音频特征进行识别和定位,从而得出所述目标音视频的所有单模态和多模态事件的类别和起始时刻,
其中,所述视听视频解析模型基于多尺度语义网络构建,包括跨模态时序卷积注意力网络,自适应语义融合模块,分类模块以及基于注意力的多模态多实例学习池化模块。
7.根据权利要求6所述的一种基于多尺度语义网络的视听视频解析装置,其特征在于:
其中,所述跨模态时序卷积注意力网络具有交叉级联的时序卷积层和定尺寸跨模态注意力层,分别用于捕捉单模态的多尺度语义信息和跨模态的多尺度语义信息,并进行信息融合从而得到多模态的多尺度语义特征,
所述自适应语义融合模块通过尺度方向上的自注意力得到不同尺度之间的关联性,根据不同尺度语义特征之间的关联性和相似度来自适应的得到最终的语义融合结果,
所述分类模块包括全连接层和Softmax函数,该分类模块基于所述视觉特征以及所述音频特征进行分类,从而得出所述目标音视频中音频模态每一个事件的类别和起始时刻,以及所述目标音视频中视频模块每一个事件的类别和起始时刻,
所述基于注意力的多模态多实例学习池化模块通过模态间注意力和时序注意力分别获得模态间和时序片段间的信息交互,生成多模态的事件级别标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于复旦大学,未经复旦大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210134629.X/1.html,转载请声明来源钻瓜专利网。