[发明专利]用户行为识别方法和系统、具有AR功能的设备及其控制方法在审
申请号: | 201811585707.8 | 申请日: | 2018-12-24 |
公开(公告)号: | CN111353519A | 公开(公告)日: | 2020-06-30 |
发明(设计)人: | 李炜明;汪昊;刘洋;考月英;王强;朴陞仁;李炯旭 | 申请(专利权)人: | 北京三星通信技术研究有限公司;三星电子株式会社 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/00;G06T19/00 |
代理公司: | 中科专利商标代理有限责任公司 11021 | 代理人: | 李敬文 |
地址: | 100028 北京市朝*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用户 行为 识别 方法 系统 具有 ar 功能 设备 及其 控制 | ||
提供了一种用户行为识别方法,包括:从视频中包含用户的图像帧中获得基于帧的局部特征图像;通过以下三种方式中的至少一种来对图像帧中的用户行为进行分类:根据所述基于帧的局部特征图像和人体姿态特征来对用户行为进行分类;根据所述基于帧的局部特征图像来获得基于视频的局部特征图像,并根据所述基于视频的局部特征图像来对用户行为进行分类;根据所述基于帧的局部特征图像来获得基于视频的局部特征图像,并根据所述基于视频的局部特征图像和基于视频的整体特征图像来对用户行为进行分类;以及通过将所述三种方式中的至少一种得到的用户行为分类的结果融合以识别用户行为。还提供了用户行为识别系统、具有AR功能的设备及其控制方法。
技术领域
本公开涉及增强现实(AR)技术领域,更具体地,涉及一种用户行为识别方法和用户行为识别系统、具有AR功能的设备及其控制方法。
背景技术
在日常生活中,一个人每天要产生很多不同的生活工作行为,每种行为所需的信息、以及相应的需要增强现实(AR)设备实现的信息增强功能互不相同。如果对这些不同行为所需的增强现实功能逐一进行手动设置和控制将花费用户大量时间精力,严重影响用户的流程体验,并干扰用户的正常日常生活的行为习惯。
目前,已经针对用户行为预测(即,用户行为识别,在本文中,“预测”与“识别”可以互换使用)提出了解决方案。例如,Google公司提出了一种基于双流(two stream)和感兴趣区域池化(ROI pooling)的行为识别方法(AVA:A Video Dataset of Spatio-temporallyLocalized Atomic Visual Actions,CVPR,2018),该方法的流程图如图1所示。参见图1,该方法从视频输入中分别提取彩色图像序列3D-CNN(三维卷积神经元网络)特征、关键帧行为ROI、以及光流图像序列3D-CNN特征,并分别对彩色图像序列3D-CNN和关键帧行为ROI、以及光流图像序列3D-CNN特征和关键帧行为ROI进行池化处理,将池化后的特征进行行为特征融合分类,以对用户行为进行识别。
然而,上述基于双流和ROI池化的行为识别方法具有以下缺点:只使用RGB图像和光流信息,缺少人体部位模型,难以区分相似行为;只使用包含人体的ROI,缺少判断人物交互及人人交互时所需的图像周边上下文信息;且光流计算耗时,不适于实时性AR交互场景。
此外,目前通常需要用户通过用户交互界面有意识地执行对AR设备的控制,通过例如触摸、声音、手势、视线等方式选择、打开或关闭特定的AR功能应用。这些会分散用户的注意力,从一定程度上影响用户的正常的日常生活。例如,Microsoft公司在US9727132B2中提出了一种通过用户交互界面控制一个或多个增强现实显示功能应用的方法,该方法需要用户的主动交互来启动或关闭特定的AR应用,且不涉及对用户行为的理解。
发明内容
为了至少克服现有技术的上述不足,本公开提供了一种用户行为识别方案,通过增加人体解析处理来提供对人体姿态的精细分析,从而可以区分视觉特征相似的不同行为;通过将从图像整体上提取的特征和从局部图像上提取的特征融合,协同进行行为识别,将在人物周围的图像特征也包含进来,因而对于涉及人和物体交互以及涉及人和人交互的行为具有更好的识别能力;而且,通过将从多种用户行为分类方式得到的行为识别特征进行融合,能够取得更好的行为识别效果。
此外本公开还提出,可以基于上述用户行为识别方案,在用户行为开始的时候识别出用户行为的类别,支持AR功能的系统借此可以获取对用户行为的感知,并以此自动地根据用户的行为需求控制AR的显示功能,从而以智能化的方式实现了根据用户的行为自动地对AR显示功能进行选择和控制。
根据本公开的第一方面,提供了一种用户行为识别方法。所述用户行为识别方法包括:
从视频中包含用户的图像帧中获得基于帧的局部特征图像;
通过以下三种方式中的至少一种来对图像帧中的用户行为进行分类:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京三星通信技术研究有限公司;三星电子株式会社,未经北京三星通信技术研究有限公司;三星电子株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811585707.8/2.html,转载请声明来源钻瓜专利网。