[发明专利]一种基于自监督学习的视频聚类方法在审
申请号: | 202210022698.1 | 申请日: | 2022-01-10 |
公开(公告)号: | CN114445739A | 公开(公告)日: | 2022-05-06 |
发明(设计)人: | 张宇;米思娅;王梓骅 | 申请(专利权)人: | 东南大学 |
主分类号: | G06V20/40 | 分类号: | G06V20/40;G06V10/762;G06K9/62 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 程洁 |
地址: | 210096 江苏省南京市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 监督 学习 视频 方法 | ||
本发明公开了一种基于自监督的视频聚类方法。该方法利用自监督的方式,学习得到视频在RGB和光流中的特征值,并对该特征值进行聚类。为了实现这一目标,将计算视频在RGB和光流中最近邻作为代理任务,实现无标签的视频特征提取。此外,对视频的每帧图片进行图片聚类,每个视频中出现次数最高的聚类标签作为视频的静态聚类标签。最后,将直接对视频提取得到的聚类特征作为视频的动态特征,结合静态聚类标签得到最终视频聚类结果。本发明可以在视频识别的数据集上提取具有判别性的特征表示,有效的提高了视频对齐问题的准确率。
技术领域
本申请涉及计算机视觉领域,尤其涉及一种基于自监督学习的视频聚类方法。
背景技术
聚类是一种广泛应用于机器学习、数据挖掘和统计分析等领域的技术。它的目的是将彼此相似的对象归为相同的集合,不同的对象归为不同的集合。视频聚类的目的是将同类视频归为同一类,不同类别的视频归为不同类。与传统视频分类方法不同,视频聚类方法无需考虑视频的真实标签。传统的聚类方法,如Kmeans和谱聚类,当它们应用于视频数据时,需要特定的特征提取方式,并且存在聚类边界消失等问题。对于高维的视频数据,传统方法无法保证特征信息得到有效利用,从而导致性能低下。
由于近年来深度神经网络的发展,基于深度学习的聚类方法得到提升。许多研究将深度神经网络与深度聚类方法的损失函数结合,以学习更适合聚类的视频特征表示。最近自监督特征学习在视频识别任务中表现优异。在提取视频帧的特征值的过程中,主要的挑战来源于经典特征提取方法更适用于特征分类,而不是聚类。因此,可以将深度聚类方法与自监督视频特征学习结合,以得到适合聚类的视频特征。
发明内容
发明目的:在本文中,我们没有对提取到的视频特征直接进行分类以完成识别任务,而是通过从RGB和光流不同视角上分别计算最近邻,拉近与其最近邻的特征值的距离,使视频特征具有聚类特性,利用聚类和重建损失函数实现自监督的视频聚类,从而完成自监督视频识别任务。本发明提供了一种基于自监督学习的视频聚类方法。
技术方案:一种基于自监督学习的视频聚类方法,其特征在于:包括以下步骤:
步骤一:对视频Vi使用两种不同进行采样策略进行采样,得到包含全局信息的序列Vi_l和包含局部信息的序列Vi_s;
步骤二:对视频Vi分别在RGB和光流上进行编码,得到特征值f1(Vi),f2(Vi);
步骤三:设RGB中特征值f1(Vi)在f1(V)中的k个最近邻为f1(Vi1),...,f1(Vik),拉近对应光流特征值的距离,即f2(Vi)与f2(Vi1),...,f2(Vik)的距离;
步骤四:重复步骤三,拉近由光流最近邻指导的RGB特征值的距离;
步骤五:由于同一视频不同片段属于同一类别,拉近f1(Vi)与f1(Vi_s)和f1(Vi_l)的距离;
步骤六:对数据集V中的每个视频Vi提取视频帧Xij;
步骤七:采用条件变分自编码器对所有的X进行图片聚类,得到视频静态标签;
步骤八:利用步骤三、四、五中得到的视频特征值,结合步骤七得到的视频静态标签进行视频聚类,得到视频聚类标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东南大学,未经东南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210022698.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:提供船体浮力的摆动式翼板结构及带有该翼板结构的船体
- 下一篇:一种三体救援艇