[发明专利]一种基于混合时间卷积和循环网络的视频动作分割方法在审
申请号: | 201710686863.2 | 申请日: | 2017-08-11 |
公开(公告)号: | CN107423725A | 公开(公告)日: | 2017-12-01 |
发明(设计)人: | 夏春秋 | 申请(专利权)人: | 深圳市唯特视科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市高新技术产业园*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 时间 卷积 循环 网络 视频 动作 分割 方法 | ||
技术领域
本发明涉及视频分割领域,尤其是涉及了一种基于混合时间卷积和循环网络的视频动作分割方法。
背景技术
视频动作分割与分析,是计算机视觉研究领域中一个重要课题,同时也是了解人类活动的重大进展之一,由此在近年来引起广泛关注。它是一个体现机器学习高阶理解能力的任务,目标在于学习并且确定在视频中进行的人类活动或者动作是哪一类型,具有何种属性。一种成熟并且易于实现的视频动作分割识别方法,将在监控、分析和交互控制三方面发挥潜在巨大应用价值。在监控方面,可在硬件自启动的条件下生成自动监控功能,学习并理解特定区域人群的大范围活动,如地铁、机场、公共广场、游泳池等,主要分析有无异常举动如公共区域恶意歹徒实施袭击前的动作或者不适人群在运动过程中的不正常举动比如溺水。而在分析方面,主要在医疗领域和体育运动领域具有较高研究价值,如分析病人的行为举止可帮助矫正正常的肢体活动、定位并理解运动员的动作如短跑、跳水等项目,可科学延长运动员体育生涯或提高其性能表现。最后在交互控制方面,在新兴工业界引起极大兴趣,如自动驾驶、智能家居、智能办公领域都有迅猛发展的势头。
动作分割至今仍然是一个具有挑战性的问题。由于任务中涉复杂的时空关系、远不止三维空间的信息量、长时间的动作含义难以理解等因素影响,难以针对性地使用网络对未明参数进行求解,同时视频动作的像素不限定、活动范围未定和局部感知区域分辨率未定等硬件条件也会对动作分析带来困难。
本发明提出了一种基于混合时间卷积和长短期记忆网络处理图像特征的新框架。设计由卷积层、激活函数和池化层组成的编码器、由上采样层和长短期记忆网络组成的解码器和Sofmax分类器,原始视频帧信号经过编码器的处理得到中间层结果,该结果再作为解码器的输入经过处理后输送到分类器就行视频动作的分割识别与分类。本发明可以处理不同压缩程度的视频信号,提供一个混合时间网络来解决视频动作分割,提高了动作内容识别精度与效率。
发明内容
针对解决在不同压缩程度视频中提取动作分析的问题,本发明的目的在于提供一种基于混合时间卷积和循环网络的视频动作分割方法,提出了一种基于混合时间卷积和长短期记忆网络处理图像特征的新框架。
为解决上述问题,本发明提供一种基于混合时间卷积和循环网络的视频动作分割方法,其主要内容包括:
(一)模型结构;
(二)模型迁移变异;
(三)模型参数设置。
其中,所述的模型结构,包括网络架构和动作分类。
所述的网络架构,由输入、编码器LE、中间层Lmid、解码器LD和分类器组成:其中,输入层接收原始视频帧数据流信号,经过由卷积层和池化层组成的模块处理后输出中间信号;循环网络接收中间信号作为该层输入,经过由上采样层和长短期记忆网络层组成的模块后输出待分类信号;待分类信号经过最后的Softmax分类器得到输出分类结果;具体地,令Xt表示在时间戳t时的输入向量,视频动作的分类标签分别为真实类(用1表示)和其他类(用0表示),且对于没有预训练的视频帧则标以标签背景类;编码器和解码器都由K层组成,K为超参数,由数据库中视频数据的尺寸和出现频次决定,一般设置为2。
所述的编码器,由一个一维卷积网络、一个非线性激活函数E=f(·)和一个最大值池化层组成:具体地,每一个编码层中卷积滤波器的个数用Fi表示,则滤波器集合为且其对应的偏差向量为由此,当上一层编码层中的池化层输出结果E(i-1)后,当前层的激活值为:
其中,*表示一维卷积运算,同时,E(0)=(X1,...,XT)是指输入视频帧级特征向量集合。
所述的解码器,由一个上采样层和两个长短期记忆网络层组成:具体地,1)输入到解码器的向量为最后一层激活值E(i)经过池化层得到的中间层Lmid结果;2)循环网络中使用隐藏状态的表征h=(h1,h2,...,ht)来将输入向量x=(x1,x,...,xt)映射到输出序列y=(y1,y2,...,yt);3)在长短期记忆网络中,该隐藏状态由以下公式更新:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710686863.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:电磁炉
- 下一篇:一种眼病识别手机APP设计方法