[发明专利]基于局部时空特征描述与金字塔词汇树的视频行为识别方法在审

申请号：	201510822703.7	申请日：	2015-11-24
公开（公告）号：	CN105469050A	公开（公告）日：	2016-04-06
发明（设计）人：	孙燕;俞浩	申请（专利权）人：	南京师范大学
主分类号：	G06K9/00	分类号：	G06K9/00
代理公司：	南京知识律师事务所 32207	代理人：	李媛媛
地址：	210097 江***	国省代码：	江苏;32
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于局部时空特征描述与金字塔词汇树的视频行为识别方法。针对LBP-TOP算法忽略了邻点之间的关系从而丢失了邻域结构信息的问题，以及忽略了时空特征在时域和空域上变化所具有差异性的问题，提出了DT-LBPTOP算法：在时域和空域使用dLBP描述子对8邻域的方向信息进行描述，解决了邻域之间变化率以及变化方向的问题；在时域上使用TLBP描述子进行描述，反映纹理在时序上的变化特性。同时使用多重等规模子集视觉词汇森林划分多重子区域，用直方图对多重区域内的向量进行统计，然后构造PMK函数，最后使用金字塔匹配核快速计算高维无序特征间的相似度，建立了一种新型分类模型。
搜索关键词：	基于局部时空特征描述金字塔词汇视频行为识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

基于局部时空特征描述与金字塔词汇树的视频行为识别方法，其特征在于：该行为识别方法包括以下步骤：步骤1特征的提取：步骤1.1首先将视频数据集转换成大小为图像高度*图像宽度*视频帧数的矩阵数据；步骤1.2设置局部时空立方体特征提取方法的相关参数：空间尺度σ、时间尺度τ、响应阈值R‑thresh以及时空兴趣点个数；步骤1.3通过计算视频数据中的每一个像素点响应值R，如果计算得到的像素点的响应值R>R‑thresh，则提取并保存该像素点的(x，y，t)坐标及响应值R；步骤1.4将提取出来的像素点根据其响应值R的大小进行降序排列，选取前n个像素点作为时空兴趣点；步骤1.5在找到响应值比较高的兴趣点后，就以兴趣点为中心生成时空子区域，用时空子区域中的信息对行为特征进行描述；步骤2特征的描述：步骤2.1首先使用Avg‑LBP算法将邻域的均值代替中心点像素灰度值作为阈值中心实现对时空纹理的描述，Avg‑LBP算法的计算公式为：

<mrow><mi>A</mi><mi>v</mi><mi>g</mi><mo>-</mo><mi>L</mi><mi>B</mi><mi>P</mi><msub><mrow><mo>(</mo><msub><mi>x</mi><mi>c</mi></msub><mo>,</mo><msub><mi>y</mi><mi>c</mi></msub><mo>)</mo></mrow><mrow><mi>P</mi><mo>,</mo><mi>R</mi></mrow></msub><mo>=</mo><munderover><mo>Σ</mo><mrow><mi>p</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>P</mi><mo>-</mo><mn>1</mn></mrow></munderover><mi>s</mi><mrow><mo>(</mo><msub><mi>g</mi><mi>p</mi></msub><mo>-</mo><mfrac><mn>1</mn><mi>P</mi></mfrac><munderover><mo>Σ</mo><mrow><mi>i</mi><mo>=</mo><mn>0</mn></mrow><mrow><mi>P</mi><mo>-</mo><mn>1</mn></mrow></munderover><msub><mi>g</mi><mi>i</mi></msub><mo>)</mo></mrow><mo>*</mo><msup><mn>2</mn><mi>p</mi></msup></mrow>

其中，

<mrow><mi>s</mi><mrow><mo>(</mo><mi>x</mi><mo>)</mo></mrow><mo>=</mo><mfenced open = '{' close = ''><mtable><mtr><mtd><mrow><mn>1</mn><mo>,</mo></mrow></mtd><mtd><mrow><mi>x</mi><mo>&GreaterEqual;</mo><mn>0</mn></mrow></mtd></mtr><mtr><mtd><mrow><mn>0</mn><mo>,</mo></mrow></mtd><mtd><mrow><mi>x</mi><mo><</mo><mn>0</mn></mrow></mtd></mtr></mtable></mfenced></mrow>

P为邻域像素数，g_p为邻域中的P邻点的灰度值，为P个邻点的像素均值；步骤2.2在时域和空域使用dLBP描述子对8邻域的方向信息进行描述，描述了邻域之间的变化率和变化方向，计算公式为：

<mfenced open = '' close = ''><mtable><mtr><mtd><mrow><mi>d</mi><mi>L</mi><mi>B</mi><mi>P</mi><msub><mrow><mo>(</mo><mrow><msub><mi>x</mi><mi>c</mi></msub><mo>,</mo><msub><mi>y</mi><mi>c</mi></msub></mrow><mo>)</mo></mrow><mrow><mi>P</mi><mo>,</mo><mi>R</mi></mrow></msub><mo>=</mo><munderover><mo>Σ</mo><mrow><msup><mi>p</mi><mo>′</mo></msup><mo>=</mo><mn>0</mn></mrow><mrow><msup><mi>P</mi><mo>′</mo></msup><mo>-</mo><mn>1</mn></mrow></munderover><mo>(</mo><mi>s</mi><mrow><mo>(</mo><mrow><mrow><mo>(</mo><mrow><msub><mi>g</mi><msup><mi>p</mi><mo>′</mo></msup></msub><mo>-</mo><msub><mi>g</mi><mi>c</mi></msub></mrow><mo>)</mo></mrow><mo>*</mo><mrow><mo>(</mo><mrow><msub><mi>g</mi><mrow><msup><mi>p</mi><mo>′</mo></msup><mo>+</mo><msup><mi>P</mi><mo>′</mo></msup></mrow></msub><mo>-</mo><msub><mi>g</mi><mi>c</mi></msub></mrow><mo>)</mo></mrow></mrow><mo>)</mo></mrow><mo>*</mo><msup><mn>2</mn><mrow><mn>2</mn><msup><mi>p</mi><mo>′</mo></msup></mrow></msup></mrow></mtd></mtr><mtr><mtd><mrow><mo>+</mo><mi>s</mi><mo>(</mo><mrow><mo>|</mo><msub><mi>g</mi><msup><mi>p</mi><mo>′</mo></msup></msub><mo>-</mo><msub><mi>g</mi><mi>c</mi></msub><mo>|</mo><mo>-</mo><mo>|</mo><msub><mi>g</mi><mrow><msup><mi>p</mi><mo>′</mo></msup><mo>+</mo><msup><mi>P</mi><mo>′</mo></msup></mrow></msub><mo>-</mo><msub><mi>g</mi><mi>c</mi></msub><mo>|</mo></mrow><mo>)</mo><mo>*</mo><msup><mn>2</mn><mrow><mn>2</mn><msup><mi>p</mi><mo>′</mo></msup><mo>+</mo><mn>1</mn></mrow></msup><mo>)</mo></mrow></mtd></mtr></mtable></mfenced>

其中，P’＝P/2，g_c为邻域中心像素点的灰度值，g_p’和g_p是沿中心点方向上中心点两侧P’邻点和P邻点的灰度值；步骤2.3利用TLBP描述子描述邻域像素之间的关系，其在每一行中比较了行中像素的关系，按行顺序的将像素灰度值进行比较并进行模式统计，计算公式为：

<mrow><msub><mi>tLBP</mi><mrow><mi>P</mi><mo>,</mo><mi>R</mi></mrow></msub><mo>=</mo><mi>s</mi><mrow><mo>(</mo><msub><mi>g</mi><mn>0</mn></msub><mo>-</mo><msub><mi>g</mi><mrow><mi>p</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>)</mo></mrow><mo>+</mo><munderover><mo>Σ</mo><mi>p</mi><mrow><mi>p</mi><mo>-</mo><mn>1</mn></mrow></munderover><mi>s</mi><mrow><mo>(</mo><msub><mi>g</mi><mi>p</mi></msub><mo>-</mo><msub><mi>g</mi><mrow><mi>p</mi><mo>-</mo><mn>1</mn></mrow></msub><mo>)</mo></mrow><msup><mn>2</mn><mi>p</mi></msup><mo>;</mo></mrow>

步骤3构造模型，进行识别：步骤3.1基于等多视觉词汇森林的金字塔匹配核构造算法先将人体行为表示成SMVVF的直方图向量：令X为某段视频的时空兴趣点集合，为第m个VVF第l层的直方图向量，假设用表示第m个视觉词汇森林直方图向量，ω_l＝2^l‑L+是第l层的权重，则多重视觉词汇森林直方图向量H_X＝(¹H_X,²H_X,...,^MH_X)，M为多重视觉词汇森林中词汇森林的个数；步骤3.2将直方图向量转换为PMK核特征；步骤3.3将PMK核特征用于SVM分类，实现对视频行为的识别。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于南京师范大学，未经南京师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510822703.7/，转载请声明来源钻瓜专利网。

上一篇：一种车辆检测跟踪方法和装置
下一篇：一种基于正交矩不变特征的交通标志识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于局部时空特征描述与金字塔词汇树的视频行为识别方法在审

专利文献下载