[发明专利]一种图像分类方法在审

申请号：	202110136790.6	申请日：	2021-02-01
公开（公告）号：	CN112836629A	公开（公告）日：	2021-05-25
发明（设计）人：	王好谦;刘志宏	申请（专利权）人：	清华大学深圳国际研究生院
主分类号：	G06K9/00	分类号：	G06K9/00;G06K9/62;G06N3/08
代理公司：	深圳新创友知识产权代理有限公司 44223	代理人：	王震宇
地址：	518055 广东省深圳市***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种图像分类方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明提出一种图像分类方法，基于随机批次的类别中心更新策略，可应用于基于类别中心点的图像分类任务和图像验证任务中，该方法包括：构建类别中心，提取图像特征；计算图像特征和类别中心点之间的马氏距离，构建分类损失；计算随机批次内样本对应类别的类别中心之间的马氏距离，构建分散损失；采用两阶段的权重更新方法，对特征提取模块和类别中心点中的可训练参数交替更新。本发明的更新策略可以让基于类别中心的图像分类方法具有更好的工程意义，而且可以取得更好的图像分类结果。与现有技术相比，本发明在图像分类和图像验证任务上取得了更好的分类结果和验证结果。

技术领域

本发明涉及计算机视觉和图像处理领域，特别涉及一种基于度量学习的图像分类方法，一种基于随机批次的类别中心更新策略。

背景技术

在图像分类任务中，比较常见的是基于交叉熵损失的分类方法，这种方法的具体流程是使用卷积神经网络提取输入样本的特征，输入样本一般是图像，样本特征一般是高维向量，例如512维特征向量，然后使用多层感知器对图像的特征进行分类。

对于人脸识别任务，需要对数据集中的每张人脸图片确定其身份，人脸识别模型的训练过程，就是训练一个分类模型，使用卷积神经网络提取特征，然后经过一个全连接层得到特征属于每一类的分数，人脸识别任务在验证阶段和测试阶段，不再需要对输入样本进行分类，因为测试阶段或者验证阶段遇到的人脸身份，一般不会出现在训练集中，所以在测试阶段和验证阶段只需要使用卷积神经网络提取输入图像的特征向量，对于两张人脸图片，现有的方法是对特征向量归一化，将每个样本的特征向量变为同样的长度，但是不同样本的特征向量有着不同的角度，在训练过程中，可以让同一个人的人脸图片提取出来的特征尽可能聚集，所以可以根据两个特征向量之间的角度来判断两个样本是否属于同一类。

对于常见的分类任务和人脸识别任务，模型的特征提取模块一般是卷积神经网络，对于分类模型，一般采用交叉熵损失，其计算过程如式(1)和(2)所示，其中e是自然常数，logit_i表示特征属于第i类的分数，其中P_J表示特征属于第i类的概率，假设特征输入第j类，则损失值如式(2)所示。使用交叉熵损失训练的特征具有角度特征，即特征向量在高维空间呈现角度分布特征。

L＝-logP_j (2)

在人脸识别任务中，为了更好地比较两个未知身份的人脸图片是否属于同一类，模型训练需要保证类内距离小于类间距离，也就是需要保证可以直接设定一个阈值，当两个特征之间的角度大于该阈值，则两个特征属于不同的人的人脸图片，如果两个特征之间的角度小于该阈值，则两个特征属于同一个人的人脸图片。比较常见的损失函数如式(3)所示，其中s是尺度参数，θ_i表示特征向量和全连接层的第i个节点权重向量之间的角度，a是余量参数，可以增加约束，这种方法属于一种改进的交叉熵损失。

除了基于改进交叉熵损失的方法，目前还有比较好的方法是构建类别中心的方法，例如在交叉熵损失上添加样本的特征向量和每个类别中心点之间的欧氏距离作为类内约束，但是这种方法同时使用了欧氏距离和角度特性的交叉熵损失，存在约束上的不一致性。还有一种方法是直接使用欧氏距离作为特征之间的度量，同样构建类别中心点，但是这种方法在计算类间距离时，需要计算类别中心两两之间的欧氏距离，如果在人脸识别任务中使用，因为人脸数据集的类别数很大，这种方法不再具有适用性。有必要设计更加具有实践意义的类间距离计算方法。而且无论是欧氏距离还是基于角度特性的余弦相似度，特征之间的度量方式都是人为设定的，对于深度学习，人为设定的不一定是最好的，可能只是一个局部最优解。

需要说明的是，在上述背景技术部分公开的信息仅用于对本申请的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学深圳国际研究生院，未经清华大学深圳国际研究生院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110136790.6/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种图像分类方法在审

专利文献下载