[发明专利]一种用于视频行为识别的正则化方法有效
申请号: | 202010560716.2 | 申请日: | 2020-06-18 |
公开(公告)号: | CN111898421B | 公开(公告)日: | 2022-11-11 |
发明(设计)人: | 张宇;米思娅;陈铮杰 | 申请(专利权)人: | 东南大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/82;G06N3/04 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 谢振龙 |
地址: | 210096 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 视频 行为 识别 正则 方法 | ||
本发明公开了一种用于视频行为识别的正则化方法,首先利用全局平均池化技术对每个时间步上的特征图进行显著性评估,利用gESD检验方法确定包含最显著空间特征的特征图,然后在选定的特征图内以通道为最小单元,以通道激活值占比为依据来计算每个通道的丢弃概率并执行丢弃操作(对应通道激活值置零),最后,由于正则化模块只在训练阶段生效,为保持训练阶段与推理阶段输出激活值幅度的一致性,需要为训练阶段的输出计算一个补偿系数与输出特征图相乘。本发明可以在推理阶段不增加任何额外计算消耗的情况下有效提高视频识别网络的验证集精度,且可以加入任何现有神经网络架构中,有效缓解网络在视频识别任务中过拟合空间特征而忽视时序特征的问题。
技术领域
本申请涉及正则化领域,尤其涉及一种用于视频行为识别的正则化方法。
背景技术
深度神经网络在许多复杂的机器学习任务中表现出色。但是,由于深度神经网络的体系结构需要大量且丰富的数据和数目庞大的参数,以致在一些情况下,深度神经网络会对有限数据过拟合,使训练好的网络在训练集之外的验证集样本上表现较差。从而导致的机器学习算法的泛化能力和稳定性的降低一直是普遍存在的挑战。过拟合的问题通常发生在参数相对过多的网络训练过程中,这种情况下训练出的网络总能很好地拟合训练数据,损失函数值可能也非常接近于0。但是,这样会导致它无法泛化到新的数据样本中,以至于无法较好预测新样本。为解决这些局限性,许多正则化(Regularization)技术被提出,它们能在很大程度上提升模型的泛化与收敛等性能。
正则化技术是机器学习尤其是深度学习的重要组成部分之一,常用于避免参数量相对较大的网络在训练过程中对有限数据产生过拟合现象。正则化旨在降低测试集误差而不是训练集误差,其通过避免训练完美拟合数据样本的系数而增强模型的泛化性。通常来说,增加训练样本数量是防止过拟合的一个有效手段。另外,数据增强、L1正则化、L2正则化、Dropout、DropConnect和早停(Early stopping)法等也是常用的防止过拟合的手段。
然而,现有的常用正则化技术没有充分利用视频数据的特点进行针对性优化,例如视频数据区别于图像数据所特有的时间维度信息,使得现有正则化技术在视频任务上正则效果有限。在实际运用中,针对视频数据的任务是大量存在的,且用于视频任务的神经网络模型参数量更为庞大使模型更容易过拟合,所以一种用于视频行为识别的正则化方法是迫切需求的。
发明内容
发明目的:为了解决现有技术存在的问题,实现对用于视频行为识别任务的深度时空神经网络进行合适的正则化处理,并有效提升模型的泛化性与稳定性,本发明提供了一种用于视频行为识别的正则化方法。
技术方案:一种用于视频行为识别的正则化方法,其特征在于,包括以下步骤:
步骤一:经过时空卷积神经网络提取特征后,得到上一层输出N个时间步的尺寸为H×W×C的特征图(H×W为空间尺寸,C为通道数),记所述第i个时间步的特征图为vi,其中i=1,…,N;
步骤二:接着以时间步为单位,利用3D全局平均池化技术得到第i个特征图的显著性分数si,如下式得到:
步骤三:得到N个对应特征图的显著性分数后,利用gESD检验方法进行离群值检测。首先计算检验统计量R:
其中为N个显著性分数的均值。
步骤四:接着计算临界值λ如下:
其中tp,N-2为来自N-2自由度t分布的100p分位点。而p由显著性水平α得到:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010560716.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于物联网的多控温自检型生鲜自动售卖机
- 下一篇:物业综合安全管理系统