[发明专利]小样本视频分类和分类模型训练方法及其装置在审
申请号: | 202210557333.9 | 申请日: | 2022-05-20 |
公开(公告)号: | CN115019087A | 公开(公告)日: | 2022-09-06 |
发明(设计)人: | 李扬曦;彭成维;刘科栋;缪亚男;王佩;胡卫明;李兵;刘雨帆;王坚;罗文阳 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;中国科学院自动化研究所 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06V10/80;G06V10/77 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 董娜 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 视频 分类 模型 训练 方法 及其 装置 | ||
本发明提供一种小样本视频分类和分类模型训练方法及其装置,涉及计算机视觉技术领域,所述分类方法包括:将小样本分类任务输入预先构建的收敛的压缩域长短时Cross‑Transformer模型,获取压缩域信息;基于压缩域信息,获取短时融合的帧特征;基于短时融合的帧特征,获取查询特征,并输出基于查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数,其中,分类分数最大的支撑类别用于表示查询视频的分类结果。本发明可实现少量示例视频下的快速、高精度、高效率的小样本视频分类。
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种小样本视频分类和分类模型训练方法及其装置。
背景技术
作为计算机视觉的一个重要研究领域,在每个类别给出少量示例的条件下,小样本视频分类方法将类别未知的视频分类为示例类别之一。通常将给出示例的类别称为支撑类别(Support Categories),给出的示例称为支撑视频(Support Videos),待分类视频称为查询视频(Query Videos)。小样本视频分类技术可以显著减少视频收集与标注的工作量,也可快速部署到新类别分类问题上而无需重新进行大规模训练。为了根据极其有限的示例对新视频进行正确分类,小样本视频分类通常一次输入一个任务(task),任务由支撑视频和若干查询视频组成;输出该任务中所有查询视频的所属支撑类别。小样本视频分类方通常采用情节训练(Episodic Training)技术进行模型参数估计,该训练技术以大规模视频分类数据集为基础,将数据集按类别划分为三个子集,不同子集包含完全不同的类别,从各子集中抽样若干任务分别构成元训练集、元验证集和元测试集,这种训练方式保证了训练任务与测试任务的类别完全无重合,因此可以衡量小样本分类方法在新类别上的泛化能力。模型上,小样本视频分类方法根据支撑视频对查询视频进行分类,现有方法都可纳入匹配框架,即首先提取支撑视频和查询视频的特征,随后对查询视频和支撑视频的特征进行匹配(Matching),各方法的区别主要在于特征提取方法以及匹配方法的不同。
而常规视频分类方法需要为每个类别给出数以千计的示例,并用这些示例训练分类模型并获取模型参数,再用分类模型判断待分类样本的所属类别。当示例过少时,分类模型训练时会发生过拟合现象,使分类模型在示例之外的视频上分类准确率大幅下降。由于小样本视频分类中每个类别仅有数个示例,常规视频分类方法不能直接用于小样本视频分类。因此,小样本视频分类方法在输入输出、训练方法与模型设计上与常规视频分类方法有较大区别。
现有技术中,现有小样本视频分类方法仅仅处理视频帧的RGB图像,对时序信息的利用不够充分。一方面,现有方法均匀抽取视频帧,忽略了信息在帧间分布的不均匀性,因此不能提取出最具鉴别力的视频特征,阻碍了分类精度的提高;另一方面,现有方法只能从RGB图像中隐式推理时序信息,缺乏显式时序信息对分类进行引导,因此计算效率不高,限制了小样本视频分类方法的实际应用。
发明内容
本发明提供一种小样本视频分类和分类模型训练方法及其装置,用以解决现有技术中仅处理视频帧的RGB图像,对时序信息的利用不够充分的缺陷,实现基于少量示例视频情况下的快速、高精度、高效率的小样本视频分类。
本发明提供一种小样本视频分类方法,包括:
将小样本分类任务输入预先构建的收敛的压缩域长短时Cross-Transformer模型,获取压缩域信息;
基于所述压缩域信息,获取短时融合的帧特征;
基于所述短时融合的帧特征,获取查询特征,并输出基于所述查询特征获取的小样本分类任务中查询视频对各个查询类别原型所属支撑类别的分类分数,其中,所述分类分数最大的支撑类别用于表示查询视频的分类结果。
根据本发明提供的小样本视频分类方法,所述将小样本分类任务输入预先构建的收敛的压缩域长短时Cross-Transformer模型,获取压缩域信息,包括:
基于小样本分类任务,获取预测帧重要性值和图像群组重要性值;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院自动化研究所,未经国家计算机网络与信息安全管理中心;中国科学院自动化研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210557333.9/2.html,转载请声明来源钻瓜专利网。