[发明专利]使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用在审
申请号: | 202110729378.5 | 申请日: | 2021-06-29 |
公开(公告)号: | CN113449643A | 公开(公告)日: | 2021-09-28 |
发明(设计)人: | 李勇;陈华明;方立;柳芳震;黄燕 | 申请(专利权)人: | 福信富通科技股份有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06N3/04;G06N3/08;H04N19/42 |
代理公司: | 厦门原创专利事务所(普通合伙) 35101 | 代理人: | 吴廷正 |
地址: | 350000 福建省福州市鼓楼区*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 使用 监督 训练 timesformer 进行 视频 目标 检测 方法 及其 应用 | ||
本发明公开了使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用,检测方法包括:S01、搭建基于TimeSformer的无卷积目标检测神经网络框架,导入训练视频形成训练样本,对其进行分块和线性嵌入,再通过TimeSformer分离的时间‑空间注意力方式进行编码和解码进行特征提取,最后再经过预测神经网络生成目标检测结果;S02、通过自监督的预训练方法,在经分块处理后的训练样本中选择目标块,将训练目标变成从原始视频图像寻找该目标块进行神经网络的预训练,形成初步检测神经网络;S03、通过有监督的调优训练方法,将现有视频作为调优训练样本,导入初步检测神经网络进行调优训练;S04、将训练获得的检测神经网络用于视频中进行目标检测,本方案计算资源占用低、实施可靠。
技术领域
本发明涉及视频目标检测技术领域,尤其涉及使用自监督预训练的timeSformer进行视频目标检测的方法及其应用。
背景技术
视频目标检测作为当下视频检测技术的热门,目前针对车载视频检测主要有如下方案:
1、全卷积方案:目前大多数车载视频检测和跟踪的方案已经能实现较高的精度,如:YOLO、Fast-RCNN等使用全卷积的目标检测方法,这些方法使用了卷积网络(CNN)使得训练和推理过程需要占用了大量的计算资源。然而在实际应用中,为了保证目标检测的实时性,该方案对硬件的要求较高,本地端能同时处理的数据量也较为有限。除此之外,由于CNN具有的归纳偏见,只捕捉局部空间信息等缺点,也限制了这类方法的性能。
2、结合卷积和Transformer的方案:随着自然语言处理领域中Transformer方法迁移到计算机视觉领域,目前出现了使用Transformer进行目标检测的方法,如DETR模块:利用CNN对单张图像进行特征序列提取作为Transformer输入进行编解码,最后预测得到目标框。使用Transformer的方法能在图像尺度上提取更长跨度的特征信息,但仍存在以下不足:(1)需要用到卷积层,需要占用大量的计算资源;(2)只针对单张图像进行处理,对视频检测任务来说虽然也能对单帧图像进行处理,但这样未能充分利用到帧间所包含的时间信息;(3)使用了Transformer的检测方法虽然能够实现不错的效果,但需要使用大量数据进行训练,这使得训练成本较高。
3、无卷积的Transformer方案:而在检测任务以外,使用Transformer的方法目前在视频分类的任务上出现了诸如VIT、TimeSformer这种无需使用卷积的方法,这种方法可以实现较小的计算资源占用,但这些方法所设计的框架只能用于视频分类之中,不能直接应用在视频检测任务中;并且跟其他使用了Transformer的方法一样需要使用大量数据进行训练。
综合上述,现有的目标检测方案所存在的缺点主要有:
1、需要占用大量的计算资源,能够同时处理的数据有限,这对硬件要求较高,成本也随之提升;
2、现有的方法虽然能够实现不错的目标检测效果,但这需要使用大量数据进行训练,这使得训练数据收集和标注的成本较高。
发明内容
有鉴于此,本发明的目的在于提出一种计算资源占用低、实施可靠、数据依赖度低且可使用无标签的数据进行预训练的使用自监督预训练的TimeSformer进行视频目标检测的方法及其应用。
为了实现上述的技术目的,本发明所采用的技术方案为:
一种使用自监督预训练的TimeSformer进行视频目标检测的方法,包括:
S01、搭建基于TimeSformer的无卷积目标检测神经网络框架,导入训练视频形成训练样本,对训练样本进行分块和线性嵌入,再通过TimeSformer分离的时间-空间注意力方式进行编码和解码进行特征提取,最后再经过预测神经网络生成目标检测结果,该目标检测结果指向经分块处理后的训练样本,其设为目标块;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福信富通科技股份有限公司,未经福信富通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110729378.5/2.html,转载请声明来源钻瓜专利网。