[发明专利]一种基于单帧表示模型的人类活动识别方法在审
申请号: | 201810344993.2 | 申请日: | 2018-04-17 |
公开(公告)号: | CN108537195A | 公开(公告)日: | 2018-09-14 |
发明(设计)人: | 夏春秋 | 申请(专利权)人: | 深圳市唯特视科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市高新技术产业园*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 表示模型 单帧 人类活动 群体活动 视频帧 光流 预处理 活动标签 活动识别 激活函数 记忆模型 模型表示 模型优化 生成模型 输入视频 图像输入 连接层 标签 图像 预测 | ||
1.一种健壮高效的人类活动识别方法,其特征在于,主要包括预处理(一);单帧表示模型(二);活动识别模型(三);模型优化和训练(四)。
2.基于权利要求书1所述的预处理(一),其特征在于,输入原始帧(包含环境信息)及其相应的光流图像(提供运动信息),然后将时间t的视频帧和时间t-1的视频帧输入给信息流网络2.0来计算光流,因为信息流网络2.0在产生光流图像上有着最佳的性能;最后将光流信息可视化为一个彩色图像(三通道),即光流图像,其中视频的每一个帧(除了第一个帧)都要生成一个光流图像。
3.基于权利要求书1所述的单帧表示模型(二),其特征在于,包括两个卷积神经网络(CNN)特征提取器(一个用于视频帧,另一个用于光流图像)和一个长短时记忆(LSTM)模型,尽管任何CNN模型都可以作为模型中的特征提取器,但是为了简化解释,使用VGG16代替,并且固定视频帧和光流图像的大小为(224×224×3);得到时间t的光流图像后,将它和相应的视频帧输入到两个CNN模型来提取特征,这里要去除VGG16的最后四个层;然后,添加一个全局平均池层和一个全局最大池层,将这些全局池层的输出提供给LSTM模型,即LSTM1,这意味着LSTM1有4个输入步骤,每个步骤都有512个维度,在LSTM1最后一步的输出中添加一个带Softmax激活函数的全连接层,它将为每个输入视频帧生成特征表示;整个单帧表示模型的损失可以用分类交叉熵损失计算。
4.基于权利要求书3所述的CNN特征提取器,其特征在于,包含了VGG16从“模块1_卷积网2”到“模块5_池”的所有层,其中“模块5_池”层的输出尺寸为(7×7×512)。
5.基于权利要求书3所述的单帧表示模型的损失,其特征在于,LSTM1为有200个隐藏单元的单层LSTM,而全连接层(FC层)1的输出维度设置为最终活动的数量,训练时的参考标签设置为最终活动标签的向量;把单帧表示模型作为一个分类任务进行训练,其中特征表示是各个视频帧的概率分布,因此时间t的loss1用loss1,t表示,它可以使用分类交叉熵损失计算:
loss1,t=-∑gt,ilog(pt,i) (1)
其中,g是参考标签,p是预测值,在测试阶段,模型将生成一个概率向量作为每个视频帧的表示。
6.基于权利要求书1所述的活动识别模型(三),其特征在于,根据生成的单帧表示序列预测最终活动标签;活动识别模型是一个LSTM网络,即LSTM2,它将单个帧表示作为输入,因此,LSTM2的输入步骤数等于当前输入视频帧的数量;然后,将LSTM2的最后一步的输出输入到一个全连接层,并使用Softmax激活函数来预测最终的活动标签;整个活动识别模型的损失可以用分类交叉熵损失计算。
7.基于权利要求书6所述的活动识别模型的损失,其特征在于,LSTM2也是一个有200个隐藏单元的单层LSTM,FC2的输出设置为活动类别的数量;为了训练分类任务的模型,采用分类交叉熵损失来训练loss2:
loss2=-∑i=1gilog(pti) (2)
其中,g是参考标签,p是预测值。
8.基于权利要求书1所述的模型优化和训练(四),其特征在于,使用Python编程语言和带有Tensorflow学习系统的Keras库实现模型的优化和训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810344993.2/1.html,转载请声明来源钻瓜专利网。