[发明专利]一种基于弱监督学习的视频目标检测方法有效
申请号: | 202110759622.2 | 申请日: | 2021-07-05 |
公开(公告)号: | CN113420707B | 公开(公告)日: | 2022-07-15 |
发明(设计)人: | 朱锦雷;井琨;许野平;朱爱红 | 申请(专利权)人: | 神思电子技术股份有限公司 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/774;G06V10/80;G06V10/764;G06V10/82;G06K9/62;G06N3/08 |
代理公司: | 济南泉城专利商标事务所 37218 | 代理人: | 赵玉凤 |
地址: | 250000 山东省济南市*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 视频 目标 检测 方法 | ||
本发明提供一种基于弱监督学习的视频目标检测方法,通过设计新型注意力网络模型,基于较少的全标注数据及海量简单标注数据,使网络模型的空间及通道注意力机制高效工作,从而可以基于海量样本进行弱监督训练学习,取得高精度的目标检测效果。注意力网络模型是实现高精度物体检测的必要技术手段,但是在目标识别过程中,所关注的区域热点可能会受到运动背景物体的干扰,有些输入数据预测结果较好,而另一些则很差,本方法引入了位置注意力内部损失函数,通过在视频中跟踪目标区域,生成用于检测的伪定位标签,用于注意力网络模型的弱监督训练,从而实现少量标注样本向海量样本的高效迁移学习。
技术领域
本发明涉及一种基于弱监督学习的视频目标检测,属于图像分析与机器学习领域。
背景技术
在图像分析与识别领域,有监督学习一般需要标注海量的数据。当基于视频流检测目标或行为时,往往需要对视频流中每帧图像中的目标进行标注,标注工作量显著增加。
通过半监督、弱监督、无监督三种学习方式,可消除或减少训练模型对人工标注样本的依赖。一般认为,半监督学习是在有监督学习得到模型基础上,基于新的无标签数据进行二次无监督训练得到新的模型。无监督学习,指算法不依赖标注样本,自动发现数据中蕴含的规律,按一定的损失计算方法进行训练模型。弱监督一般是基于标记不正确、多种标记、标记不充分、局部标记等的数据进行训练模型。
发明内容
本发明要解决的技术问题是提供一种基于弱监督学习的视频目标检测方法,利用特定目标在指定区域内视频片段位置及特征连续性特点,标注数据时只需要指定该视频片段中该目标的大概出现的视频帧位置及目标类别(帧标注),无需对视频每帧图像进行详细标签(段标注),该弱监督训练学习方法通过设计网络模型与系列损失函数实现了与有监督学习性能相当的效果。
为了解决所述技术问题,本发明采用的技术方案是:一种基于弱监督学习的视频目标检测方法,包括以下步骤:
S01)、输入视频片段至基准模型,基准模型针对输入进行视频目标检测,输出关键帧中的视频目标位置与类别;
S02)、基于基准模型的输出计算损失函数,在损失函数驱动下对基准模型分两步进行训练,首先基于有目标位置的带标签样本进行预监督训练,生成预训练模型,其次基于预训练模型和无目标位置标签样本对基准模型进行弱监督训练,从而实现对基准模型的优化。
进一步的,步骤S02的预监督训练和弱监督训练采用一系列子损失函数组合,各子函数分别为:
A、分类交叉熵损失函数,
为了加速计算,基于对原始图像网格化分割的基本思想,将输入样本按S×S网格等比例划分,则相应的分类交叉熵损失函数为:
其中i为输入样本划分网格的标号,s2为网格数目,输入样本上锁定目标中心所需要的候选框模板数目为B,j为候选框模板的标号,代表网格标号为i、候选框模板标号为j时,是否存在类别为cls的目标,存在时,否则为0;和Pij分别代表预测概率及实际标签;
B、位置损失函数,
首先,假设单帧图像内目标位置损失如下:
其中,代表网格标号为i、候选框模板标号为j时,是否存在类别为cls的目标,存在时,否则为0,B为锁定目标中心所需要的候选框模板数目,s2为网格数目;分别代表样本中标注的横向中心坐标、纵向中心坐标、目标宽度、目标高度及目标可信度,代表相应的预测值;λco为人工指定的加权系数,即为超参数;
由于输入样本是视频序列片段,它由连续视频帧构成,所以序列位置损失定位为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于神思电子技术股份有限公司,未经神思电子技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110759622.2/2.html,转载请声明来源钻瓜专利网。