[发明专利]基于局部时空特征描述与金字塔词汇树的视频行为识别方法在审

专利信息
申请号: 201510822703.7 申请日: 2015-11-24
公开(公告)号: CN105469050A 公开(公告)日: 2016-04-06
发明(设计)人: 孙燕;俞浩 申请(专利权)人: 南京师范大学
主分类号: G06K9/00 分类号: G06K9/00
代理公司: 南京知识律师事务所 32207 代理人: 李媛媛
地址: 210097 江*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于局部时空特征描述与金字塔词汇树的视频行为识别方法。针对LBP-TOP算法忽略了邻点之间的关系从而丢失了邻域结构信息的问题,以及忽略了时空特征在时域和空域上变化所具有差异性的问题,提出了DT-LBPTOP算法:在时域和空域使用dLBP描述子对8邻域的方向信息进行描述,解决了邻域之间变化率以及变化方向的问题;在时域上使用TLBP描述子进行描述,反映纹理在时序上的变化特性。同时使用多重等规模子集视觉词汇森林划分多重子区域,用直方图对多重区域内的向量进行统计,然后构造PMK函数,最后使用金字塔匹配核快速计算高维无序特征间的相似度,建立了一种新型分类模型。
搜索关键词: 基于 局部 时空 特征 描述 金字塔 词汇 视频 行为 识别 方法
【主权项】:
基于局部时空特征描述与金字塔词汇树的视频行为识别方法,其特征在于:该行为识别方法包括以下步骤:步骤1特征的提取:步骤1.1首先将视频数据集转换成大小为图像高度*图像宽度*视频帧数的矩阵数据;步骤1.2设置局部时空立方体特征提取方法的相关参数:空间尺度σ、时间尺度τ、响应阈值R‑thresh以及时空兴趣点个数;步骤1.3通过计算视频数据中的每一个像素点响应值R,如果计算得到的像素点的响应值R>R‑thresh,则提取并保存该像素点的(x,y,t)坐标及响应值R;步骤1.4将提取出来的像素点根据其响应值R的大小进行降序排列,选取前n个像素点作为时空兴趣点;步骤1.5在找到响应值比较高的兴趣点后,就以兴趣点为中心生成时空子区域,用时空子区域中的信息对行为特征进行描述;步骤2特征的描述:步骤2.1首先使用Avg‑LBP算法将邻域的均值代替中心点像素灰度值作为阈值中心实现对时空纹理的描述,Avg‑LBP算法的计算公式为:<mrow><mi>A</mi><mi>v</mi><mi>g</mi><mo>-</mo><mi>L</mi><mi>B</mi><mi>P</mi><msub><mrow><mo>(</mo><msub><mi>x</mi><mi>c</mi></msub><mo>,</mo><msub><mi>y</mi><mi>c</mi></msub><mo>)</mo></mrow><mrow><mi>P</mi><mo>,</mo><mi>R</mi></mrow></msub><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><mi>p</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>P</mi><mo>-</mo><mn>1</mn></mrow></munderover><mi>s</mi><mrow><mo>(</mo><msub><mi>g</mi><mi>p</mi></msub><mo>-</mo><mfrac><mn>1</mn><mi>P</mi></mfrac><munderover><mo>&Sigma;</mo><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>P</mi><mo>-</mo><mn>1</mn></mrow></munderover><msub><mi>g</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>*</mo><msup><mn>2</mn><mi>p</mi></msup></mrow>其中,<mrow><mi>s</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfenced open = '{' close = ''><mtable><mtr><mtd><mrow><mn>1</mn><mo>,</mo></mrow></mtd><mtd><mrow><mi>x</mi><mo>&GreaterEqual;</mo><mn>0</mn></mrow></mtd></mtr><mtr><mtd><mrow><mn>0</mn><mo>,</mo></mrow></mtd><mtd><mrow><mi>x</mi><mo>&lt;</mo><mn>0</mn></mrow></mtd></mtr></mtable></mfenced></mrow>P为邻域像素数,gp为邻域中的P邻点的灰度值,为P个邻点的像素均值;步骤2.2在时域和空域使用dLBP描述子对8邻域的方向信息进行描述,描述了邻域之间的变化率和变化方向,计算公式为:<mfenced open = '' close = ''><mtable><mtr><mtd><mrow><mi>d</mi><mi>L</mi><mi>B</mi><mi>P</mi><msub><mrow><mo>(</mo><mrow><msub><mi>x</mi><mi>c</mi></msub><mo>,</mo><msub><mi>y</mi><mi>c</mi></msub></mrow><mo>)</mo></mrow><mrow><mi>P</mi><mo>,</mo><mi>R</mi></mrow></msub><mo>=</mo><munderover><mo>&Sigma;</mo><mrow><msup><mi>p</mi><mo>&prime;</mo></msup><mo>=</mo><mn>0</mn></mrow><mrow><msup><mi>P</mi><mo>&prime;</mo></msup><mo>-</mo><mn>1</mn></mrow></munderover><mo>(</mo><mi>s</mi><mrow><mo>(</mo><mrow><mrow><mo>(</mo><mrow><msub><mi>g</mi><msup><mi>p</mi><mo>&prime;</mo></msup></msub><mo>-</mo><msub><mi>g</mi><mi>c</mi></msub></mrow><mo>)</mo></mrow><mo>*</mo><mrow><mo>(</mo><mrow><msub><mi>g</mi><mrow><msup><mi>p</mi><mo>&prime;</mo></msup><mo>+</mo><msup><mi>P</mi><mo>&prime;</mo></msup></mrow></msub><mo>-</mo><msub><mi>g</mi><mi>c</mi></msub></mrow><mo>)</mo></mrow></mrow><mo>)</mo></mrow><mo>*</mo><msup><mn>2</mn><mrow><mn>2</mn><msup><mi>p</mi><mo>&prime;</mo></msup></mrow></msup></mrow></mtd></mtr><mtr><mtd><mrow><mo>+</mo><mi>s</mi><mo>(</mo><mrow><mo>|</mo><msub><mi>g</mi><msup><mi>p</mi><mo>&prime;</mo></msup></msub><mo>-</mo><msub><mi>g</mi><mi>c</mi></msub><mo>|</mo><mo>-</mo><mo>|</mo><msub><mi>g</mi><mrow><msup><mi>p</mi><mo>&prime;</mo></msup><mo>+</mo><msup><mi>P</mi><mo>&prime;</mo></msup></mrow></msub><mo>-</mo><msub><mi>g</mi><mi>c</mi></msub><mo>|</mo></mrow><mo>)</mo><mo>*</mo><msup><mn>2</mn><mrow><mn>2</mn><msup><mi>p</mi><mo>&prime;</mo></msup><mo>+</mo><mn>1</mn></mrow></msup><mo>)</mo></mrow></mtd></mtr></mtable></mfenced>其中,P’=P/2,gc为邻域中心像素点的灰度值,gp’和gp是沿中心点方向上中心点两侧P’邻点和P邻点的灰度值;步骤2.3利用TLBP描述子描述邻域像素之间的关系,其在每一行中比较了行中像素的关系,按行顺序的将像素灰度值进行比较并进行模式统计,计算公式为:<mrow><msub><mi>tLBP</mi><mrow><mi>P</mi><mo>,</mo><mi>R</mi></mrow></msub><mo>=</mo><mi>s</mi><mrow><mo>(</mo><msub><mi>g</mi><mn>0</mn></msub><mo>-</mo><msub><mi>g</mi><mrow><mi>p</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>)</mo></mrow><mo>+</mo><munderover><mo>&Sigma;</mo><mi>p</mi><mrow><mi>p</mi><mo>-</mo><mn>1</mn></mrow></munderover><mi>s</mi><mrow><mo>(</mo><msub><mi>g</mi><mi>p</mi></msub><mo>-</mo><msub><mi>g</mi><mrow><mi>p</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>)</mo></mrow><msup><mn>2</mn><mi>p</mi></msup><mo>;</mo></mrow>步骤3构造模型,进行识别:步骤3.1基于等多视觉词汇森林的金字塔匹配核构造算法先将人体行为表示成SMVVF的直方图向量:令X为某段视频的时空兴趣点集合,为第m个VVF第l层的直方图向量,假设用表示第m个视觉词汇森林直方图向量,ωl=2l‑L+是第l层的权重,则多重视觉词汇森林直方图向量HX=(1HX,2HX,...,MHX),M为多重视觉词汇森林中词汇森林的个数;步骤3.2将直方图向量转换为PMK核特征;步骤3.3将PMK核特征用于SVM分类,实现对视频行为的识别。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京师范大学,未经南京师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201510822703.7/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top