[发明专利]基于干净数据集与关键特征检测的噪声识别方法在审
申请号: | 202210259878.1 | 申请日: | 2022-03-16 |
公开(公告)号: | CN114549910A | 公开(公告)日: | 2022-05-27 |
发明(设计)人: | 袁春;王子啸 | 申请(专利权)人: | 清华大学深圳国际研究生院 |
主分类号: | G06V10/764 | 分类号: | G06V10/764;G06V10/774;G06K9/62 |
代理公司: | 深圳新创友知识产权代理有限公司 44223 | 代理人: | 王震宇 |
地址: | 518055 广东省深圳市*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 干净 数据 关键 特征 检测 噪声 识别 方法 | ||
一种视频数据中的噪声识别方法,包括如下步骤:S1、建立一个干净数据集用以对比噪声数据集的未知数据,并利用帧间信息对干净数据集和噪声数据集的特征完成降维,得到降维后的特征集合;S2、在降维后的特征空间里计算噪声数据集的待定样本与干净数据集的干净样本类中心的余弦相似度;S3、比较待定样本与干净样本类中心的余弦相似度,并根据余弦相似度计算待定样本为干净样本的概率,并将概率大于预定概率阈值的样本划分为干净样本。本发明中引入干净数据集用以对比未知数据,并对特征完成降维得到一个降维后的特征集合,计算相似度时只需要在此降维后的特征空间里完成,缓解了因维度过高导致的维度灾难问题。
技术领域
本发明涉及图像识别,特别是涉及视频分类任务中基于干净数据集与关键特征检测的噪声识别方法。
背景技术
缩略语和术语:
带噪学习:这个任务是指在包含噪声标签的数据集上训练一个高精度深度神经网络。深度神经网络的训练通常依赖于海量的人工标注的样本,而在实际应用中,获取大量的干净样本耗时耗力,在某些特定场景(如医疗场景)下也不切实际,数据集中总是不可避免地会引入噪声样本。例如,在众包场景下,研究者或者企业通常会委托数名标注员标注特定的数据集,但是由于标注员水平不一或者其他原因,最后标注好的数据中总是包含一定的噪声。除此之外,有一种低成本的数据获取方式为直接利用搜索引擎搜索关键词,但是搜索引擎返回的样本中包含大量的噪声样本。
噪声检测方法:噪声检测方法是指通过使用某些特定的指标或者方法对含有噪声的数据集进行清洗,并且得到一个净化后的数据集。该数据集将被用于后续的模型训练任务。
视频分类:视频分类是根据待分类视频的语义内容对视频进行分类,作为计算机视觉的基本任务之一,这也是后续许多任务(如视频理解任务)的基础。与在图像数据集上的分类任务不同,分类的对象不再是单帧的图像,而是一个连续的、包含时序因果关系的多帧图像组成的视频对象,因此为了理解视频,需要联系前后帧内容的语义信息。
解决在有噪声数据中学习挑战的方法可大致分为两类。一类是在噪声标签存在的情况下直接训练鲁棒模型,这类方法通常通过设计对标签噪声鲁棒的网络结构或引入对噪声鲁棒的损失函数来减少对噪声样本过拟合所带来的负面影响;另一类方法是去检测数据集中的潜在噪声样本,它首先会检测出训练集中的潜在噪声样本并将其从训练集移除,随后使用筛选后的训练集进行模型训练。在实际应用情况下,后者在工业界更有实际意义,因为它不仅学得了一个鲁棒的深度学习模型,更提供了一个相对干净的数据集。
此前的方法绝大多数是基于带有噪声的图像分类任务。而视频相对于图像而言,视频中不同帧之间的时序关系也包含对噪声检测有利的信息,因此如何利用这种时序关系进行噪声检测也是一个待解决的问题。
基于特征相似度来识别噪声的方法有[1][2][3]。[1]通过计算待检测样本与类别原型的余弦相似度来检测噪声样本。[2]利用K近邻的方法来为每一个类别构造邻接图,并将最主要的子图中的样本作为干净的样本。[3]同样使用了K近邻的方法,并利用投票的机制来判断一个样本是否属于干净样本。但是之前的方法都是基于图像分类任务,但是在视频场景下带噪学习问题会有所差别。
[1]Lee,K.-H.;He,X.;Zhang,L.;and Yang,L.2018.Cleannet:Transferlearning for scalable image classifier training with label noise.In CVPR.
[2]Wu,P.;Zheng,S.;Goswami,M.;Metaxas,D.;and Chen,C.2020.A TopologicalFilter for Learning with Label Noise.NeurIPS,33.
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院,未经清华大学深圳国际研究生院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210259878.1/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置