[发明专利]一种基于分层动力解析与编码的视频动作分类系统及方法在审
申请号: | 201810271460.6 | 申请日: | 2018-03-29 |
公开(公告)号: | CN108960031A | 公开(公告)日: | 2018-12-07 |
发明(设计)人: | 苏冰;丁晓青;吴郢;周嘉欢;吕品;徐帆江 | 申请(专利权)人: | 中国科学院软件研究所 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 北京科迪生专利代理有限责任公司 11251 | 代理人: | 安丽 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 分层 池化 解析 特征提取模块 编码模块 编码序列 动作分类 分类模块 解析模块 特征序列 整体表达 状态序列 低维 排序 支持向量机 时序 编码结构 视频表示 第一层 图像帧 无监督 聚类 两层 维数 分类 | ||
1.一种基于分层动力解析与编码的视频动作分类系统,其特征在于:包括表观特征提取模块、动力解析模块、分层动力编码模块和分类模块,其中:
所述表观特征提取模块,使用基于表观的视频动作表达方法,从视频的每一帧或每相邻的几帧中提取表观特征,最终将视频表示成一个表观特征序列,如果表观特征的维数超过设定的阈值高维数,则建立线性动力系统模型提取表观特征序列的低维状态序列;所述表观特征
所述动力解析模块,对获取的表观特征序列或低维状态序列进行时序聚类,用无监督地方式将表观特征序列或低维状态序列分成若干个阶段,得到阶段解析路径,所述阶段解析路径即划分出的各个阶段的起始帧的位置序列;
分层动力编码模块,根据动力解析模块的阶段解析路径,建立一个两层的动力编码结构,在第一层中使用平均池化或排序池化对每个阶段内的图像帧的表观特征进行编码,得到由不同阶段的编码组成的编码序列;在第二层中使用排序池化对第一层得到的编码序列进行编码,获得具有固定维数的视频的整体表达;
分类模块,使用支持向量机(SVM)对通过分层编码模块得到的视频的整体表达进行分类,最终得到视频的动作类别标签。
2.根据权利要求1所述的基于分层动力解析与编码的视频动作分类系统,其特征在于:所述动力解析模块具体实现如下:
(1)输入表观特征序列或低维状态序列,拟划分出的阶段个数L;
(2)用平均分割路径作为初始化阶段解析路径,即将表观特征序列或低维状态序列平均分成L段,将每段的起始帧位置组成的序列作为初始阶段解析路径;
(3)根据当前阶段解析路径计算每个阶段内的表观特征或低维状态的均值;所有L个阶段的均值组成一个长为L的本质序列;
(4)使用动态时间规整算法计算从表观特征序列或低维状态序列到本质序列之间的对齐路径,即对齐到本质序列的所有L个元素的起始帧的位置组成的序列;用该对齐路径更新阶段解析路径;
(5)判断阶段解析路径是否收敛,如果未收敛,返回(3);如果收敛,输出阶段解析路径。
3.根据权利要求书1所述的一种基于分层动力解析与编码的视频动作分类系统,其特征在于:所述分层动力编码模块具体实现如下:
(1)输入表观特征序列和阶段解析路径;
(2)对每个阶段,将划分到该阶段内的所有帧对应的表观特征通过平均池化或排序池化进行编码,称为第一层编码,得到编码向量;将所有L个阶段的第一层编码向量组成一个序列,作为第一层编码序列;
(3)对第一层编码序列通过排序池化进行编码,称为第二层编码,得到一个具有固定维数的编码向量,将该编码向量作为视频的整体表达输出;
(4)可以继续构建更多层动力编码,将第一层编码序列作为输入,使用动力解析模块,得到该编码序列的阶段解析路径,再返回(2),直到达到指定的层数,将(3)的输出作为视频的整体表达输出。
4.根据权利要求书1所述的一种基于分层动力解析与编码的视频动作分类系统,其特征在于:所述表观特征提取模块设定的高维数为4000;所述低维为15-30维。
5.一种基于分层动力解析与编码的视频动作分类方法,其特征在于:包括以下步骤:
(1)对于输入视频,从第t帧中提取的表观特征向量记为xt,所有帧的表观特征组成表观特征序列X=[x1,x2,…,xT],其中T为视频的总帧数,若xt的维数超过设定的高数,则通过线性动态系统求解表观特征序列的低维状态序列为“S=[s1,s2,…,sT],st是对应第t帧的隐状态向量;
(2)以X或S作为输入序列,使用动力解析模块获取输入序列的阶段解析路径,令L表示拟解析出的阶段数,将解析分割路径记为:P=[p1,…,pl,…,pL],其中pl=[sl,el]T表示第l个阶段的起始点范围,l表示1,…,L中的第l个,是个索引号,sl和el分别表示第l个阶段的开始帧和结束帧的索引号,首先用平均分割初始化阶段解析路径P,即将X中的T个特征平均分到L个阶段中;
(3)根据当前的阶段解析路径P,从表观特征序列X或低维状态序列S中计算一个本质序列U=[μ1,μ2,…,μL],其中μj是被分到第j个阶段中的所有帧的表观特征或低维状态的均值向量;
(4)根据当前的本质序列U,通过修改后的动态时间规整算法计算从表观特征序列X或低维状态序列S到本质序列U的最优对齐路径,来更新阶段解析路径P;所述修改后的动态时间规整算法的过程如下:考虑一个将X或S中前i个表观特征对齐到U中前j个均值向量的部分对齐路径,其中X或S中前i个表观特征中的最后l个表观特征被对齐到U中第j个均值向量,d(i,j,l)表示该部分对齐路径中两两对应的向量之间的距离之和,则对于X,所述距离采用如下的回归方式决定:
对于S,所述距离采用如下的回归方式决定:
其中,lm=f·lave,是允许对齐到每个阶段的表观特征个数的最大值,f是用户设定的带宽因子,是均匀分割下每个阶段的长度,该式是一个标准的动态规划过程;当i和j各自达到T和L时,最优对齐路径对应的距离由决定,最优对齐路径采用反向跟踪的方式获得,将所述最优对齐路径作为更新后的阶段解析路径P;
(5)如果阶段解析路径未收敛,即更新后的阶段解析路径和更新前的阶段解析路径的差距大于一个设定的阈值,则返回(3)继续迭代;
(6)如果阶段解析路径收敛,能输出阶段解析路径P;
(7)对每个阶段,将划分到该阶段内的所有帧的表观特征通过平均池化或排序池化进行编码,称为第一层编码,得到第一层编码向量;将所有L个阶段的第一层编码向量组成一个序列,作为第一层编码序列;
(8)对第一层编码序列通过排序池化再次进行编码,称为第二层编码,得到一个具有固定维数的编码向量,将该编码向量作为视频的整体表达;
(9)使用支持向量机对视频整体表达进行分类,输出视频的动作类别标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院软件研究所,未经中国科学院软件研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810271460.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:图像处理式开启操作方法
- 下一篇:一种三稳态逻辑随机共振方法