[发明专利]度量视频连续帧与其卷积特征图间差异在视频行为识别中的应用在审
申请号: | 201811139004.2 | 申请日: | 2018-09-28 |
公开(公告)号: | CN109284720A | 公开(公告)日: | 2019-01-29 |
发明(设计)人: | 杨大伟;陈思宇;毛琳 | 申请(专利权)人: | 大连民族大学 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06N3/04;G06N3/08 |
代理公司: | 大连智高专利事务所(特殊普通合伙) 21235 | 代理人: | 毕进 |
地址: | 116600 辽宁省*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 视频 行为识别 卷积神经网络 神经网络模型 视频连续帧 特征图 度量 卷积 计算机视觉应用 应用 最大时间信息 动作分类 反向传播 获取信息 视频数据 损失函数 下降过程 网络 | ||
度量视频连续帧与其卷积特征图间差异在视频行为识别中的应用,属于计算机视觉应用中的视频理解领域,为了解决增加卷积神经网络可获取信息的种类,从而加大卷积神经网络对于视频数据的理解能力,提升视频动作分类的正确性的问题,将最大时间信息的差异均值的数值作为视频行为识别的神经网络模型损失函数的一部分,参与网络反向传播中的梯度下降过程,效果是能够提高该神经网络模型在视频理解相关的多种应用中的准确程度。
技术领域
本发明属于计算机视觉应用中的视频理解领域,具体的说是一种度量视频连续帧与其卷积特征图间差异的方法及其在视频行为识别中的应用。
背景技术
深度学习利用神经网络结构构建的模型实现了端到端应用方式的同时,模型本身对于庞大数据中关键信息的储存能力保证了模型的可靠程度,使深度学习模型相较于传统算法来说有着不可比拟的优势,在短暂的几年时间中被图像、语音、文本领域的众多学者研究并取得了长足的发展。
在计算机视觉技术中的目标检测、目标分类、目标识别、目标分割等针对单帧图像应用中,深度学习都能够得到满足实际落地需求精度的对应模型。Faster-RCNN算法作为当下多种目标检测算法的基础计算结构,利用建议区域与提取特征卷积的双重结构在目标检测的过程中相互反馈,将建议区域生成窗口的置信度、卷积特征权重与最终输出目标检测结果的正确率进行关联式计算,使之在神经网络正反向传播的过程中共同提升拟合程度,最终达到优良的效果。深度残差神经网络在多个计算机视觉应用的方向都表现出了良好的效果,它通过阶段式的引入短路层的方法来处理神经元之间交换的信息,使神经网络的正向传递过程变得十分平滑,从而有效解决深度神经网络中的梯度消失和梯度爆炸问题。OSVOS(One Shot Video Object Segmentation)算法作为一种经典的目标分割神经网络方法,将图像提取前景与轮廓的部分分流计算,与前景掩码重合度大于一定程度的轮廓区域作为最终的分割结果,使目标分割具有良好的鲁棒性。
随着对于单帧图像相关应用技术的日渐成熟,进一步的,对连续图像帧之间逻辑信息的理解,即对视频连续帧时间信息理解的研究需求也被提出。在对视频中的行人动作分类这一研究方向上,最主要的技术手段有两种,分别为利用光流信息的双流网络与3D卷积神经网络。双流网络将视频帧的RGB图像和光流图像分别作为输入数据,输入到两个网络来进行模型的训练,将彼此输出的判定信息融合计算,来得到最终的行人动作分类结果。3D卷积神经网络利用3维卷积核处理连续的多帧图像,保留了视频连续帧的时间信息,从而得到可靠地分类结果。但由于视频理解方向的发展时间并不算长,在实际应用场景下的准确度并不能让人满意。越来越多的学者认为现有的方法无法准确的提取视频连续帧的时间信息,从而导致模型的准确度不足以达到应用需求,需要对原始方法进一步改进。
发明内容
为了解决增加卷积神经网络可获取信息的种类,从而加大卷积神经网络对于视频数据的理解能力,提升视频动作分类的正确性的问题,本发明提出如下技术方案:一种度量视频连续帧与其卷积特征图间差异在视频行为识别中的应用。
进一步的,度量视频连续帧与其卷积特征图间差异取得最大时间信息的差异,将最大时间信息的差异均值的数值作为视频行为识别的神经网络模型损失函数的一部分,参与网络反向传播中的梯度下降过程,使视频行为识别的神经网络的权重梯度不仅只根据输出值与真实值的差异大小来决定梯度的下降方向,同时也朝着减小最大均值差异数值的方向进行更新,使视频行为识别的神经网络模型卷积核的权重参数朝着减小最大均值差异数值的方向更新。
进一步的,第一步:对原始视频图像帧xi,以及该图像帧对应的卷积特征图得到相邻的两个图像作为集合内的一组待计算时间信息元素;
第二步:得到数据同维度第二原始视频图像集合P’n-1与第二卷积特征图集合Q'n-1;
第三步:得到映射的第三原始视频图像集合f(x)与第三卷积特征图集合f(xc);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于大连民族大学,未经大连民族大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811139004.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于机器学习的初始数据处理方法和系统
- 下一篇:一种设备