[发明专利]一种基于深度学习的时序动作识别方法有效
申请号: | 201810431650.X | 申请日: | 2018-05-08 |
公开(公告)号: | CN108573246B | 公开(公告)日: | 2022-04-05 |
发明(设计)人: | 蔡轶珩;孔欣然;王雪艳;李媛媛 | 申请(专利权)人: | 北京工业大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06T7/269 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100124 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开一种基于深度学习的时序动作识别方法,包含视频特征提取和时间边界回归模型构建。针对边界检测过程中长动作特征表达有效性不够的问题,通过双流网络同时提取帧间信息和帧内信息,得到视频单元的特征序列,并提出结合上下文信息的多尺度短动作段截选方案,有效地提高后续回归准确率,利用特征序列训练时间边界模型,减小模型训练时间,提高计算效率。针对长动作边界回归不准确问题,本发明提出一种改进的时间边界回归模型,包含改进的多任务多层感知器和一种全新的针对长动作的拼接机制,在保证动作类别准确的基础上,有效地提高长动作时间边界回归的准确率,提高预测动作段与实际动作段的重叠度,实现时序动作识别率的提高。 | ||
搜索关键词: | 一种 基于 深度 学习 时序 动作 识别 方法 | ||
【主权项】:
1.一种基于深度学习的时序动作识别方法,包含两部分:视频特征提取和时间边界回归模型构建;其特征在于:在特征提取部分,根据动作视频的特点,同时提取出帧间运动信息和帧内空间信息;首先,对原始视频序列进行预处理,获得视频的光流图,为提取帧间运动信息奠定基础,并将其与保留了帧内空间信息的原数据一同送入双流网络中;其次,将双流网络输出的特征序列通过结合上下文信息的多尺度截选方案构建动作段;在回归模型构建部分,该模型包含多任务多层感知器和一种全新的针对长动作的拼接机制;多任务多层感知器用以得到时间边界回归结果,长动作拼接机制作为后处理,全新拼接机制需要增加多种前期回归结果,用以进行拼接的条件判断,包括重叠率,动作可能概率和边界偏移量,三种条件进行不完整段落判断;选用多层感知器,并构造多任务损失函数。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工业大学,未经北京工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810431650.X/,转载请声明来源钻瓜专利网。