[发明专利]基于图像增强与3D卷积神经网络的视频行为识别方法有效

申请号：	201910134439.6	申请日：	2019-02-23
公开（公告）号：	CN109829443B	公开（公告）日：	2020-08-14
发明（设计）人：	黄江平;袁德森;袁书伟;黄啸锐;刘婉莹	申请（专利权）人：	重庆邮电大学
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/46;G06K9/62;G06N3/04
代理公司：	重庆辉腾律师事务所 50215	代理人：	卢胜斌
地址：	400065 重***	国省代码：	重庆;50
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于图像增强卷积神经网络视频行为识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于图像增强和3D卷积神经网络的视频行为识别方法，其特征在于，包括以下步骤：

S1：将输入的原始视频序列切分成帧，对各个帧图片进行预处理，并将其分别划分至训练集与测试集；

S2：将训练集图片输入行为区域增强网络进行训练，获得相应的掩码处理后图片，从而得到人物行为信息增强的图像；

S3：使用掩码处理后的图片序列训练第一3D卷积神经网络；输入测试集图片，获得第一分支网络的测试集分类概率；

S4：将训练集图片输入第二3D卷积神经网络进行训练；输入测试集图片，得到该第二分支网络的测试集分类概率；

S5：将所得到的两分支网络的分类概率进行支持向量机模型训练，并得到最终的测试集检测结果。

2.根据权利要求1所述的基于图像增强和3D卷积神经网络的视频行为识别方法，其特征在于：步骤S1包括将原始视频序列按照时间顺序切分成帧，即切分为时间上连续分布的图片序列；将切分好的图片序列调整为适合3D卷积神经网络训练的统一图片格式。

3.根据权利要求1所述的基于图像增强和3D卷积神经网络的视频行为识别方法，其特征在于：步骤S2具体包括对图片序列中的人物行为区域进行掩码处理，增强图片中的行为动作信息；将图片序列当中的动作区域进行识别，并进行像素级标注处理，利用图像处理方法得到目标图片；将切分完成的原始视频帧图片序列输入行为区域增强网络进行训练，以最小化行为区域增强网络的损失函数为目标，进行像素级的分类和掩码处理，获得相应的掩码处理后图片，从而得到人物行为信息增强的图像。

4.根据权利要求3所述的基于图像增强和3D卷积神经网络的视频行为识别方法，其特征在于：所述行为区域增强网络的损失函数计算包括：

Loss＝L_cls+L_seg

其中，Loss表示总损失函数，L_cls表示分类的损失函数，L_seg表示切分的损失函数，CE(θ)表示交叉熵损失函数，y_i表示第i个训练集图片的标签，N表示训练集图像的总数；表示估计值，即预测出的标签。

5.根据权利要求1所述的基于图像增强和3D卷积神经网络的视频行为识别方法，其特征在于：步骤S3具体包括输入的掩码图片序列色彩空间为红R、绿G、蓝B，其中掩码部分的颜色为统一的颜色；将掩码图片序列按照输入格式统一标准化处理，并输入到3D卷积神经网络中，进行训练，获取该图片序列在时间序列上和空间序列的双重信息；通过3D卷积与3D池化，经过全连接层和Softmax层，构建分类网络，从而得到各行为分类的概率。

6.根据权利要求1所述的基于图像增强和3D卷积神经网络的视频行为识别方法，其特征在于：步骤S4具体包括将训练集图片直接输入进3D卷积神经网络并训练该卷积神经网络，依次经过3D卷积，3D池化，全连接层和Softmax层，得到其特征图和在时间序列上和空间序列的双重信息；输入测试集图片，得到测试集的分类概率；其中，该3D卷积神经网络中第I层卷积核表示为W_I×H_I×X_I，X_I为第I层中输入的图片序列数，W_I×H_I对应为第I层空间中的长宽大小。

7.根据权利要求1所述的基于图像增强和3D卷积神经网络的视频行为识别方法，其特征在于：步骤S5具体包括获取两分支神经网络训练后的测试集分类概率，总神经网络的两分支依次为经过图像增强的3D卷积神经网络和原始图片训练而得的3D卷积神经网络；将分类的概率进行支持向量机模型的训练或根据权重融合来获取最终概率；所述权重融合的方法包括最大值融合，最小值融合和平均值融合；支持向量机模型法通过各个分类概率与对应标签进行学习，得到最优权重，最终识别概率计算方式包括为：

其中，P为样本的最终预测概率，为第I个样本在第一分支上的概率，即使用掩码处理后的图片序列训练3D卷积神经网络分支；为第I个样本在第二分支上的概率，即使用训练集图片训练3D卷积神经网络分支；w₁和w₂分别为训练支持向量机模型得到的最优权重；取输出概率最大的类别作为每个样本的最终识别结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于重庆邮电大学，未经重庆邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910134439.6/1.html，转载请声明来源钻瓜专利网。

上一篇：一种基于摄像头的人体动作评分的方法及系统
下一篇：单据录入方法、装置、计算机设备和存储介质

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于图像增强与3D卷积神经网络的视频行为识别方法有效

专利文献下载