[发明专利]一种基于多尺度语义网络的视听视频解析装置及方法在审

申请号：	202210134629.X	申请日：	2022-02-14
公开（公告）号：	CN114519809A	公开（公告）日：	2022-05-20
发明（设计）人：	于家硕;冯瑞;张玥杰	申请（专利权）人：	复旦大学
主分类号：	G06V10/82	分类号：	G06V10/82;G06V10/764;G06K9/62;G06N3/04;G06N3/08;G10L25/57;G10L25/27;G10L25/03
代理公司：	上海德昭知识产权代理有限公司 31204	代理人：	程宗德
地址：	200433 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明提供一种基于多尺度语义网络的视听视频解析方法及装置，用于对目标音视频中所有单模态和多模态事件进行识别和定位，其特征在于，通过对目标音视频进行了预处理得到的视觉特征和音频特征，然后由基于多尺度语义网络构建的视听视频解析模型对视觉特征和音频特征进行识别和定位从而生成目标音视频的所有单模态事件类别、多模态事件类别以及起始时刻。其中，视听视频解析模型包含跨模态时序卷积注意力网络、自适应语义融合模块、分类模块以及基于注意力的多模态多实例学习池化模块，跨模态时序卷积注意力网络用于捕捉多尺度语义，自适应语义融合模块用于多尺度语义的融合，基于注意力的多模态多实例学习模块用于实现弱监督学习。
搜索关键词：	一种基于尺度语义网络视听视频解析装置方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

暂无信息

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于复旦大学，未经复旦大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/202210134629.X/，转载请声明来源钻瓜专利网。

上一篇：一种电机触发角计算方法、装置、存储介质及处理器
下一篇：一种复合包被二甲酸钾微囊及其制备工艺

同类专利

专利分类

G 物理

G06 计算；推算；计数

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于多尺度语义网络的视听视频解析装置及方法在审

专利文献下载