[发明专利]多对象场景无接触交互检测方法在审
申请号: | 202210861781.8 | 申请日: | 2022-07-22 |
公开(公告)号: | CN115880601A | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 王松;李嘉诚;韩瑞泽;冯伟;王松淼 | 申请(专利权)人: | 天津大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/77;G06V10/82;G06V10/80;G06V40/20;G06N3/0464;G06N3/047;G06N3/044;G06N3/082 |
代理公司: | 天津市北洋有限责任专利代理事务所 12201 | 代理人: | 刘国威 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 对象 场景 接触 交互 检测 方法 | ||
本发明属于计算机视觉领域,为提出一种非接触式交互类别与交互主体识别技术,主要解决多人场景中交互个体未相互接触,且存在其他未交互个体的情况下,交互个体及交互动作的识别问题。为此,本发明采取的技术方案是,多对象场景无接触交互检测方法,利用关系对嵌入网络PRE‑Net,通过聚合场景中的个体以及群体信息、短期以及长期信息得到关系对,通过计算交互关系矩阵、计算个体交互类别向量、计算全局交互类别向量,从而进行交互预测和识别。本发明主要应用于多人场景中交互个体未相互接触,且存在其他未交互个体的情况下,交互个体及交互动作的识别场合。
技术领域
本发明属于计算机视觉领域,涉及一种多人场景非接触式交互主体与交互类别识别的新 型技术。本发明可用于社会关系分析、行人轨迹跟踪、异常行为分析等。当多人场景中进行 交互的个体未相互接触且存在其他未参与交互的个体的情况下,对于视频中进行交互的个体 及交互动作进行识别。
背景技术
本发明中涉及到的背景技术有:
(1)人-人交互识别(参见文献[1]):人-人交互识别是理解复杂的人类社会活动的重要 步骤,在监控视频分析中起着重要的作用。在大多数早期的数据集中,场景中只有互动的主 体,没有任何其他突出的主体,或者突出的互动主体可以很容易地从场景中裁剪/突出出来。 除此之外,对于一些多人场景的数据集,其场景中的互动主体彼此接近,且通常是摄像机中 的聚焦目标。与以往研究不同的是,本发明旨在解决多人场景下非接触式的交互识别问题, 这更符合交互识别在现实世界中的应用。
(2)群体活动/关系识别(参见文献[2]):以往关于群体活动/关系识别问题的研究主要 关注个体的时空信息以及场景中个体间的关系信息。本发明和群体活动识别之间的主要区别 是,群体活动识别更关注利用所有或大多数人的行为得到视频的总体活动,而本发明需要考 察场景中的所有个体以识别出交互主体。另外,与HOI人-物体交互检测不同,本发明不依赖 于基于常识的固有先验,每个个体都可以与任何其他个体进行任何类型的互动。
发明内容
为克服现有技术的不足,针对多人场景,本发明旨在提出一种非接触式交互类别与交互 主体识别技术,主要解决多人场景中交互个体未相互接触,且存在其他未交互个体的情况下, 交互个体及交互动作的识别问题。为此,本发明采取的技术方案是,多对象场景无接触交互 检测方法,利用关系对嵌入网络PRE-Net,通过聚合场景中的个体以及群体信息、短期以及 长期信息得到关系对,通过计算交互关系矩阵、计算个体交互类别向量、计算全局交互类别 向量,从而进行交互预测和识别。
具体步骤如下:
步骤S1:个体信息提取
(a)短期视频段分割
对于一输入视频序列,将其分割成K个等长的视频片段,对每个视频片段进行较短间隔 的采样,得到个N视频帧,对于具有K个片段的视频序列,最终得到K×N个视频帧;
(b)空间信息提取
对于第t帧的第i个个体,将其2D位置向量表示为:
/
计算运动方向向量
在视频段中的N个视频帧中使用单层GRU整合相同个体的位置信息,对于帧t上的个体i计 算其位置信息
最终得到每个个体的空间特征
(c)外观特征提取
使用非对称卷积网络Inception-v3在每个边界框内提取多尺度的特征信息,使用感兴趣 区域特征提取RoIAlign将提取的特征调整为相同大小,使用核尺寸为3×1×1的多个3D卷 积层聚合时间信息,最终使用全连接层得到每个个体的外观体征
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210861781.8/2.html,转载请声明来源钻瓜专利网。