[发明专利]一种加权融合多种图像任务的视频行为识别方法在审

申请号：	202110656251.5	申请日：	2021-06-11
公开（公告）号：	CN113536922A	公开（公告）日：	2021-10-22
发明（设计）人：	高广宇;刘驰;李金洋	申请（专利权）人：	北京理工大学
主分类号：	G06K9/00	分类号：	G06K9/00
代理公司：	北京中海智圣知识产权代理有限公司 11282	代理人：	曾京京
地址：	100081 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种加权融合多种图像任务视频行为识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种加权融合多种图像任务的视频行为识别方法，包括以下具体步骤：步骤1.构建初始化的教师网络；步骤2.下载选定若干和视频行为识别正相关的视觉图像任务常用数据集的预训练模型和参数，作为初始化的教师网络；步骤3.建立多教师视频行为识别知识库；步骤4.在重新分配权重的多教师网络的指导下，对学生网络进行基于对比学习的自监督训练；步骤5.在测试数据集上对模型视频行为识别进行性能测试。本发明所述方法的优越效果在于：使用与作为目标任务的视频行为识别任务正相关的图像任务作为教师任务，采用对比自监督学习的训练方式，解决了在高质量视频标记样本不足的情况下的视频行为识别问题。有效地提升了视频行为识别的准确率。

技术领域

本发明涉及属于视频行为分析技术领域，具体涉及一种加权融合多种图像任务的视频行为识别方法的设计。

背景技术

行为识别是近年来一个颇具吸引力和挑战性的研究方向，即给定一段裁剪好的视频，通过计算机视觉技术判断这段视频中人类的行为类别。近年来深度卷积神经网络的发展以及大规模标记数据集的出现，显著提高了行为识别的准确性。行为识别技术在智能安防、人机交互、视频理解、医疗健康等众多领域扮演着越来越重要的角色。

目前已有的基于监督学习的深度卷积神经网络(Deep CNN)模型算法取得了相对理想的效果。然而这种基于监督学习的方法为了获得良好的模型，训练时需要大量的视频标记，网络结构也更加复杂。但在实际生产生活中，计算机视觉领域视频的手工标记消耗大量人力物力资源，因此往往缺乏标注良好的大的数据集，造成深度网络的模型深度和复杂性不相匹配，这些已有模型的缺陷会体现得更加明显，即过拟合现象严重，泛化性迁移能力更加不足。已有模型往往只能在给定训练数据集产生比较良好的效果，在切换新的数据场景时，需要将模型进行扩展，实时更新数据或添加新的行为类别，以训练好的模型往往需要从头重新训练部署，耗费大量时间和人力，难以大规模投入使用。

与之相对的图像识别任务不管是实验用数据集还是实际场景的应用经过多年研究和实用，数据标注和模型等相对完备，且最先进的模型上在诸多图像任务中都取得了较好结果。考虑到这些良好的图像模型中存在大量与人类认知相关的视觉知识，如果能够建立这些相对成熟、标注数据更易于获取且模型训练更高效的图像任务模型和视频行为识别任务之间的某种连接，实现这些先验知识的传递，必然能够更有效地实现视频行为识别。但是，较为先进的图像任务方法通常采用2D深度卷积网络模型，而视频行为识别任务考虑时序信息往往采用3D网络模型架构。两类任务和各自模型之间的特征空间不同，难以直接利用图像数据的先验信息帮助视频网络模型初始化或者训练。

此外，计算机视觉相关图像任务有很多种，如人脸识别，目标检测，姿态预测，场景识别等，并不是所有的图像任务都能对视频行为识别这一目标任务起到正向的作用。相反地，如果引入了跟视频行为识别特征分布完全相反或互斥的图像任务，反而可能会让视频行为识别模型的准确率更低。因此，在考虑利用视频行为识别相关的图像任务的先验知识初始化或训练目标任务的视频行为识别的同时，如何科学地选择正相关的图像任务，且实现更有效地加权融合利用图像任务先验知识是本发明专利申请亟待关注的问题。

在现有公开的专利文献中，专利申请号CN202010708067.6公开了一种基于无监督视频表示学习的视频行为识别方法，包括下述步骤：(1)获取训练样本集和测试样本集；(2)构建生成对抗网络模型；(3)对生成对抗网络模型进行迭代训练；(4)构建视频行为识别模型；(5)对视频行为识别模型进行迭代训练；(6)获取视频行为识别结果。在构建视频行为识别模型结构时，首先构建生成对抗网络模型的结构，再将训练后的生成对抗网络的编码器及其网络参数作为视频行为识别模型结构的组成部分，解决了现有技术只利用了图像空域信息的问题和没有捕捉视频帧中的长程信息的问题，提高了基于无监督视频表示学习方法的视频行为识别准确率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于北京理工大学，未经北京理工大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110656251.5/2.html，转载请声明来源钻瓜专利网。

上一篇：一种具备位姿自检测功能的X射线机夹具
下一篇：软件基因视角下多粒度信息融合的二进制代码溯源方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种加权融合多种图像任务的视频行为识别方法在审

专利文献下载