[发明专利]人类行为识别的标签和交互关系联合学习方法有效
申请号: | 201710593912.8 | 申请日: | 2017-07-20 |
公开(公告)号: | CN107491735B | 公开(公告)日: | 2020-08-18 |
发明(设计)人: | 王振华;金佳丽;刘盛;张剑华;陈胜勇 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62 |
代理公司: | 杭州斯可睿专利事务所有限公司 33241 | 代理人: | 王利强 |
地址: | 310014 浙江省杭*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人类 行为 识别 标签 交互 关系 联合 学习方法 | ||
一种用于人类行为识别的标签和交互关系联合学习方法,包括以下步骤:1),使用CNN特征、HOG特征、HOF特征及人与人之间的距离、头部朝向等信息构造能量函数,包含一元能量项、二元能量项、交互能量项和正则化项;2)使用大间隔结构化学习训练所有模型参数;3)标签和交互关系预测,使用交替搜索策略求解复杂推理问题,在迭代中交替优化标签和交互结构。本发明适用于包含多人、多行为类别的图像和视频,能够同时识别个人行为和人与人之间的交互行为。
技术领域
本发明属于计算机视觉中的行为识别领域,涉及一种人类的行为识别方法。该发明在识别个人行为的同时判断人之间的交互。
背景技术
识别图像或视频中的人类行为在计算机视觉中是一个基本的问题,这在许多应用如运动视频分析,监控系统和视频检索中至关重要。最近的工作中,深度学习明显提高了行为识别的性能。然而,这些工作不适用于处理包含多人互动的数据。首先,他们专注于分给每个图像一个行为标签,这不适用于包含多个行为类别的图像。第二,他们忽视了人之间的相互关系为识别复杂的人类活动像握手,战斗和足球比赛等提供了重要的语境信息。
为了表示人之间的交互,大多数CRF模型使用预定义的图形结构,通常使用领域知识或启发式方法来确定其结构,例如,人之间的距离,但是其对数据变化和成像条件的变化不敏感。使用这样的图通常导致不良的识别性能。更好的策略是从数据中学习CRF图。然而,人类交互结构通常是多样化的,这使得传统的图学习方法无效。Lan等提出通过潜在的结构化SVM来联合估计个人行为和交互,其中交互被视为隐含变量,这导致非凸的训练问题。
发明内容
为了克服已有的人类行为识别方式无法适用于多个行为类别的图像、无法识别交互行为的不足,以及交互作为隐含变量导致非凸的训练问题的缺点,本发明提供了一种人类行为识别的标签和交互关系联合学习方法,适用于包含多个行为类别的图像,能够在不使用隐含变量的情况下共同学习互动和个人行为的全新的训练框架,并提出了一种有效解决相应推理问题的算法。
本发明解决其技术问题所采用的技术方案是:
一种用于人类行为识别的联合标签交互学习的方法,所述方法包括以下步骤:
1)构造能量函数
令G=(V,E)表示图,其中节点集V表示所有人的个人行为,边集E表示他们的交互信息,例如,eij∈E表示人i和人j之间有交互,而边est的缺失则表示人s与人t之间没有交互。I表示一张图像,是人i的个人行为标签,a=[ai]i=1,…,n是包含n个人的个人行为标签的向量;
给定一个新的输入I,目标是通过解决以下的问题(1)来预测个人行为标签a和交互信息G;
其中
其中是一个指示函数,如果ai=s,它的值为1,反之则为0;当eij=z时指示函数的值为1,反之则为0;同样地,当ai=s且aj=t时,指示函数为1,反之为0;
2)训练模型的参数
训练样本集Gk=(Vk,Ek),边集Ek表示在第k张训练样本的图片中,人之间的真实的交互信息,ek是Ek的向量形式,使用下面的最大边距式公式来训练所有的模型参数w=[wu,wc,wτ,wr,ωs]:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710593912.8/2.html,转载请声明来源钻瓜专利网。