[发明专利]一种基于深度注意力融合网络的动作检测方法及装置有效
申请号: | 202011417147.2 | 申请日: | 2020-12-07 |
公开(公告)号: | CN112613356B | 公开(公告)日: | 2023-01-10 |
发明(设计)人: | 甘明刚;何玉轩;刘洁玺;陈杰;窦丽华;陈文颉;陈晨 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06V40/20 | 分类号: | G06V40/20;G06V10/82;G06N3/04 |
代理公司: | 北京理工大学专利中心 11120 | 代理人: | 温子云;李爱英 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 注意力 融合 网络 动作 检测 方法 装置 | ||
本发明提供一种基于深度注意力融合网络的动作检测方法及装置,所述方法包括获取待检测视频;提取一个帧序列的初始特征;将所述初始特征输入残差通道‑空间注意力模块;所述初始特征经所述残差通道‑空间注意力模块处理,输出注意力机制调制后的特征;对所述注意力机制调制后的特征进行分层融合和迭代融合,得到融合特征;将所述融合特征的映射依次送入中心检测分支、位移检测分支、框检测分支处理,获得若干帧级检测窗口;基于ACT时间链接算法将所述若干帧级检测窗口连接成时空动作管道。根据本发明的方案,从通道和空间两个维度增强提取的初始特征,输出的特征不仅具有高级语义信息,也保留了低层次的空间信息。
技术领域
本发明涉及动作检测领域,尤其涉及一种基于深度注意力融合网络的动作检测方法及装置。
背景技术
目前,动作检测是计算机视觉的一个重要研究领域。大多数现有的动作检测方法使用标准卷积神经网络从输入视频帧中提取特征。然而,标准卷积神经网络输出的特征不能很好地表示动作的空间信息和语义信息。为了获得更丰富的信息,现有技术中常采用加深或拓宽网络的方法,但加深或拓宽网络的方法将导致网络模型参数数量和计算成本的大幅增加。
发明内容
为解决上述技术问题,本发明提出了一种基于深度注意力融合网络的动作检测方法及装置,所述方法及装置,用以解决现有技术中获得更丰富的信息,现有技术中常采用加深或拓宽网络的方法,但加深或拓宽网络的方法将导致网络模型参数数量和计算成本的大幅增加的技术问题。
根据本发明的第一方面,提供一种基于深度注意力融合网络的动作检测方法,所述方法包括以下步骤:
步骤S101:获取一个帧序列作为输入,将所述帧序列输入到基础层,提取初始特征;
步骤S102:将所述初始特征输入残差通道-空间注意力模块;所述残差通道-空间注意力模块包括通道维度上的注意力模块和空间维度上的注意力模块;所述初始特征经所述残差通道-空间注意力模块处理,计算调制特征,输出注意力机制调制后的特征;
步骤S103:对所述注意力机制调制后的特征进行分层融合和迭代融合,得到融合特征;
步骤S104:将所述融合特征的映射依次送入中心检测分支、位移检测分支、框检测分支处理,获得若干帧级检测窗口;
步骤S105:基于ACT时间链接算法将所述若干帧级检测窗口连接成时空动作管道。
根据本发明第二方面,提供一种基于深度注意力融合网络的动作检测装置,所述装置包括:
初始特征获取模块:配置为获取一个帧序列作为输入,将所述帧序列输入到基础层,提取初始特征;
调制模块:配置为将所述初始特征输入残差通道-空间注意力模块;所述残差通道-空间注意力模块包括通道维度上的注意力模块和空间维度上的注意力模块;所述初始特征经所述残差通道-空间注意力模块处理,计算调制特征,输出注意力机制调制后的特征;
特征融合模块:配置为对所述注意力机制调制后的特征进行分层融合和迭代融合,得到融合特征;
检测窗口获取模块:配置为将所述融合特征的映射依次送入中心检测分支、位移检测分支、框检测分支处理,获得若干帧级检测窗口;
连接模块:配置为基于ACT时间链接算法将所述若干帧级检测窗口连接成时空动作管道。
根据本发明第三方面,提供一种基于深度注意力融合网络的动作检测系统,包括:
处理器,用于执行多条指令;
存储器,用于存储多条指令;
其中,所述多条指令,用于由所述存储器存储,并由所述处理器加载并执行如前所述的基于深度注意力融合网络的动作检测方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011417147.2/2.html,转载请声明来源钻瓜专利网。