[发明专利]一种基于注意力机制的餐厅后厨人员行为识别方法在审
申请号: | 201911035532.8 | 申请日: | 2019-10-29 |
公开(公告)号: | CN110826447A | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 颜津;蔡强;毛典辉 | 申请(专利权)人: | 北京工商大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100048*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 机制 餐厅 人员 行为 识别 方法 | ||
1.一种基于注意力机制的餐厅后厨人员行为识别方法,其特征在于,包括以下步骤:
步骤(1)利用摄像头采集后厨人员的工作视频,构建一个视频有一个明确动作的后厨视频数据库,对于视频数据进行预处理,包括视频切帧以及提取光流图像;
步骤(2)为了捕捉视频中全部有用信息的同时,尽可能减少对餐厅后厨人员行为识别无用的冗余数据,选择对视频数据进行稀疏采样,先将视频平均分成n部分,再从n部分中随机采样得到m个片段,获得步骤(1)中片段所包含的视频帧及其光流图像;
步骤(3)将步骤(2)中获得的片段的视频帧、光流图像输入到以Conv1为基础网络的双流网络中,并在空间流网络中加入了空间注意力机制,使得网络更加关注于对于餐厅后厨人员行为识别更重要的点,在时间流网络中,加入了长短时记忆网络,使得网络可以更好地捕捉时序信息,经过双流网络得到m个片段级空间/时序特征,融合生成n个部分级空间/时序特征,实现部分的一致性,最后将部分级空间/时序特征融合生成一个视频级空间/时序特征;
步骤(4)再将步骤(3)获得的视频级空间特征、视频级时序特征放入到分类器中进行分类,最后以一定权重进行分类得分融合,完成对于视频中人体行为的识别。
2.根据权利要求1所述的基于注意力机制的餐饮后厨人员行为识别方法,其特征在于,在步骤(2)中,将n设置为3,m设置为25,即把一个视频先平均分为3部分,然后在这三部分分别随机采样8、9、8个视频片段。既可以捕捉到整个视频的有用信息,也可以减少一定时间序列内由于人体行为变化较小甚至没有变化而产生的冗余信息。
3.根据权利要求1所述的基于注意力机制的餐饮后厨人员行为识别方法,其特征在于:在步骤(3)中,双流网络由基于空间注意力机制的空间流网络和基于长短时记忆网络的时间流网络组成,空间流、时间流网络的基础网络Conv1是BNInception,增加了卷积网络深度的同时,减少了网络参数,可以充分提取视频帧中的空间/时序信息;并且为得到部分一致性,分别对视频三个部分中的片段级特征采用最大池化融合生成3个部分级空间/时序特征;将部分级空间/时序特征以并联的方式融合起来,得到视频级空间/时序特征,其通道数为三个部分级空间/时序特征的通道数加和;其中,空间注意力机制是通过学习每个部分级特征各个通道的权重值,给每个部分级特征加以权重,使得对于行为识别有效的部分权重值更大,无效或效果小的部分对应的权重值较小,将得到的权重值与原特征进行点乘,得到基于空间注意力机制的部分级特征。
4.根据权利要求1所述的基于注意力机制的餐厅后厨人员行为识别方法,其特征在于:在步骤(4)中,分类器采用SVM,输入视频级空间/时序特征,得到分类得分,并以1.5∶1的权重融合空间流网络以及时间流网络得分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京工商大学,未经北京工商大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911035532.8/1.html,转载请声明来源钻瓜专利网。