[发明专利]一种带噪声标签的长尾分布图像分类方法有效

申请号：	202111059448.7	申请日：	2021-09-10
公开（公告）号：	CN113516207B	公开（公告）日：	2022-01-25
发明（设计）人：	程乐超;茅一宁;冯尊磊;宋明黎	申请（专利权）人：	之江实验室
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/08
代理公司：	杭州浙科专利事务所(普通合伙) 33213	代理人：	孙孟辉;杨小凡
地址：	310023 浙江省杭州市余***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种噪声标签长尾分布图像分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种带噪声标签的长尾分布图像分类方法，其特征在于包括如下步骤：

S1，根据数据噪声特征，对样本图像及其噪声标签，在样本间隔的基础上，引入松弛变量，形成噪声样本的样本松弛间隔；

所述样本间隔为，类别间隔为，其中表示第个样本的标签为类别，表示所有属于类别的样本的序号的集合；

所述样本松弛间隔为：

其中，表示样本图像及其正确的标签，表示预测函数，用于预测样本图像属于哪一类别，为样本空间，N为样本总数，为个类别的标签集合，表示实数域，表示与不同的噪声标签，及其对应的x，通过预测函数得到的值中，最大的值，，表示最优间隔；

根据样本间隔，分段计算样本依赖的松弛损失；

S2，根据数据长尾特征，分阶段调整的数据增强策略，对样本图像分别做弱数据增强和强数据增强，得到相应的弱增强数据和强增强数据，将训练分为预热阶段与正式阶段，在预热阶段，直接计算弱增强数据和强增强数据的松弛损失；在正式训练阶段，根据预热阶段的松弛损失大小，筛选松弛出一组样本图像作为纯净数据，筛除剩余噪声数据，并计算松弛损失。

2.根据权利要求1所述的一种带噪声标签的长尾分布图像分类方法，其特征在于所述S1中的松弛损失为：

。

3.根据权利要求1所述的一种带噪声标签的长尾分布图像分类方法，其特征在于所述S2中的预热阶段，直接使用弱增强数据和强增强数据计算松弛损失，以噪声率和作为权重，计算整体损失：

其中，。

4.根据权利要求1所述的一种带噪声标签的长尾分布图像分类方法，其特征在于所述S2中的正式训练阶段，包括如下步骤：

S21，根据预热阶段的松弛损失大小，筛选出、作为弱增强数据和强增强数据中松弛损失最小的前部分样本图像；

S22，根据筛选后的弱增强数据的标签，从强增强数据中采样得到，根据筛选后的强增强数据的标签，从弱增强数据中采样得到，将剩下的噪声数据筛除；

S23，将得到的、作为正确样本图像，以噪声率和作为权重，计算整体损失：

其中，。

5.根据权利要求4所述的一种带噪声标签的长尾分布图像分类方法，其特征在于所述S21中，所述、的筛选如下：

。

6.根据权利要求1所述的一种带噪声标签的长尾分布图像分类方法，其特征在于所述S1中，设定最优间隔、，对于训练数据点，样本间隔大于最优间隔，将它推向类别边界，使数据边界更加平缓；对于样本间隔在区间内的数据点，的方向相反，使得该数据点有一定概率翻入类别边界的另一侧；、表示对于类别和的最优间隔，反比于类别对应的样本数量和的次方。

7.根据权利要求1所述的一种带噪声标签的长尾分布图像分类方法，其特征在于所述S1中的松弛变量，将均匀分布乘以，从中抽取松弛变量，即，表示噪声率，即样本标签错误的概率。

8.根据权利要求1所述的一种带噪声标签的长尾分布图像分类方法，其特征在于总样本数为的训练数据中，每个类别的训练样本数量为，满足，将样本数最多类别与样本数最少类别之间的比例，作为不平衡因子，即。

9.根据权利要求1所述的一种带噪声标签的长尾分布图像分类方法，其特征在于所述S1中的样本图像及其噪声标签，通过转移矩阵表示噪声标签：

其中，表示样本图像对应的类别，表示第n个样本图像，表示类别被分类为类别j的概率，。

10.根据权利要求1所述的一种带噪声标签的长尾分布图像分类方法，其特征在于所述S1中的样本图像及其噪声标签，采样于噪声数据集合，对应样本图像及其正确的标签，采样于纯净数据集合，其中表示第n个样本图像，表示样本图像对应的类别，为样本数量，均采样自数据潜在分布。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于之江实验室，未经之江实验室许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202111059448.7/1.html，转载请声明来源钻瓜专利网。

上一篇：汤剂煎制参数的决策方法及煎制参数决策模型的训练方法
下一篇：一种电动车换电柜

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种带噪声标签的长尾分布图像分类方法有效

专利文献下载