[发明专利]基于多时间分辨率时态语义聚合网络的时序动作定位方法有效
申请号: | 202210448080.1 | 申请日: | 2022-04-26 |
公开(公告)号: | CN114821420B | 公开(公告)日: | 2023-07-25 |
发明(设计)人: | 张海平;马琮皓;胡泽鹏;刘旭;管力明;施月玲 | 申请(专利权)人: | 杭州电子科技大学;杭州电子科技大学信息工程学院 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/44;G06V10/82;G06N3/0464;G06N3/08 |
代理公司: | 杭州君度专利代理事务所(特殊普通合伙) 33240 | 代理人: | 杨天娇 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 多时 分辨率 时态 语义 聚合 网络 时序 动作 定位 方法 | ||
本发明公开了一种基于多时间分辨率时态语义聚合网络的时序动作定位方法,包括:获取原始视频并进行预处理,预处理为从原始视频中提取特征序列并注释标签;复制特征序列为N'份,并通过卷积层将复制后的各特征序列的时间分辨率调整为不同值;建立多时间分辨率时态语义聚合网络;将时间分辨率调整后的各特征序列一一对应输入子模块,采用分类损失和回归损失训练多时间分辨率时态语义聚合网络;利用训练好的多时间分辨率时态语义聚合网络预测待识别视频的动作开始时间、动作结束时间、动作种类和置信分数。该方法可获得更灵活更具鲁棒性的上下文关系表达,并大大提高计算能力和时序动作定位的准确性。
技术领域
本发明属于计算机视觉领域,具体涉及一种基于多时间分辨率时态语义聚合网络的时序动作定位方法。
背景技术
近年来,互联网上的多媒体正在迅速发展,导致每分钟共享的视频数量越来越多。为了应对信息爆炸,理解和分析这些视频是必要的,以便于用于各种目的,如搜索,推荐,排名等。视频理解旨在通过智能分析技术,自动化地对视频中的内容进行识别和解析,涉及生活的多个方面,已经发展成一个十分广阔的学术研究和产业应用方向,主要有动作识别和时序动作定位等基础领域。
在时序动作定位领域,视频往往没有被剪辑,时长较长,且动作通常只发生在视频中的一小段时间内,视频可能包含多个动作,也可能不包含动作,即为背景类。时序动作定位不仅要预测视频中包含了什么动作,还要预测动作的起始和终止时刻。现有方法证明,使用视频上下文来检测动作是有效的。上下文指的是不属于目标动作但携带有价值指示性信息的框架。现有技术一般仅使用时态上下文,缺点是往往携带的信息比较单一,或将语义上下文和时态上下文结合为基于图卷积网络的子图定位问题,但仍不能适应时间跨度变化较大的时序行为片段,生成的代码特性包含信息不够丰富多样,使得预测的候选时序区间边界不够灵活,时序边界不够精确。因此,如何更好的处理时间与语义信息以及如何处理大跨度时序行为片段是提升时序动作定位准确率的关键之一。
发明内容
本发明的目的在于针对上述问题,提出一种基于多时间分辨率时态语义聚合网络的时序动作定位方法,通过将时间与语义上下文结合到视频特征中,同时对每个时序点进行局部与全局的联合建模,得到更灵活更具鲁棒性的上下文关系表达,提高了时序动作定位的准确性。
为实现上述目的,本发明所采取的技术方案为:
本发明提出的基于多时间分辨率时态语义聚合网络的时序动作定位方法,包括如下步骤:
S1、获取原始视频并进行预处理,预处理为从原始视频中提取特征序列特征序列X携带有注释标签其中,时间分辨率T=S/σ,S为原始视频的总帧数,σ为不同片段xi之间间隔的帧数,C为片段xi的特征维度,kn为第n个动作,ts,n、te,n和Cn依次为第n个动作的开始时间、结束时间和动作种类,N为特征序列X的动作数量;
S2、复制特征序列X为N'份,并通过卷积层将复制后的各特征序列X的时间分辨率调整为不同值;
S3、建立多时间分辨率时态语义聚合网络,多时间分辨率时态语义聚合网络包括依次连接的第一特征提取单元、第二特征提取单元、第三特征提取单元和后处理模块,第一特征提取单元包括N'个并行的子模块,子模块包括依次连接的第一时态语义上下文融合模块和第一注意力单元,第二特征提取单元用于将各第一注意力单元的输出特征图进行相加聚合,第三特征提取单元包括依次连接的第二注意力单元、第七特征提取单元和第二时态语义上下文融合模块,其中:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学;杭州电子科技大学信息工程学院,未经杭州电子科技大学;杭州电子科技大学信息工程学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210448080.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于接收信号强度的三向天线水下磁感应定位系统及方法
- 下一篇:智能助行装置