[发明专利]一种基于局部和深度特征集合的目标分类方法在审

申请号：	201711423291.5	申请日：	2017-12-25
公开（公告）号：	CN108154183A	公开（公告）日：	2018-06-12
发明（设计）人：	夏春秋	申请（专利权）人：	深圳市唯特视科技有限公司
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/46;G06N3/04
代理公司：	暂无信息	代理人：	暂无信息
地址：	518057 广东省深圳市高新技术产业园***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	目标分类分类器集合深度特征特征训练连接层描述符向量输入数据集支持向量机编码策略分类能力分类性能局部特征特征变换特征提取最终决策中间层卷积网络尺度测试分类投票优化应用
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于局部和深度特征集合的目标分类方法，其特征在于，主要包括深度卷积特征提取(一)；局部特征和编码(二)；分类器集合(三)。

2.基于权利要求书1所述的基于局部和深度特征集合的目标分类方法，其特征在于，从深度网络的最后完全连接层中提取描述符和尺度不变特征变换(SIFT)描述符的费舍尔向量；对每个特征训练一个支持向量机(SVM)，对输入数据集进行优化分类，然后进行投票并得出最终决策。

3.基于权利要求书1所述的深度卷积特征提取(一)，其特征在于，深度卷积特征评估了三种流行的CNN架构：AlexNet、VGGNet和GoogleNet。

4.基于权利要求书3所述的AlexNet，其特征在于，AlexNet的架构由5个卷积层和3个全连接层组成；它引入了修正线性单元(ReLU)作为池中非线性的使用，并在训练期间忽略神经元，从而减少过度拟合；合并层放置在第一、第二和第五卷积层之后。

5.基于权利要求书3所述的VGGNet，其特征在于，VGGNet的普及主要是由于在每个卷积层中使用了多个3×3滤波器；多个小卷积滤波器可以模拟大接收场的响应，从而提供更好的泛化能力并表示对象的复杂特征；VGGNet由13个16层的卷积层和3个全连接层组成；卷积层被分成5个组，每个组后面是最大汇集层。

6.基于权利要求书3所述的GoogleNet，其特征在于，GoogleNet将卷积块与1×1卷积滤波器(称为网络中的网络)的块并行化，有效地利用了这些卷积特征的所有像素之间共享的非常少的参数。

7.基于权利要求书1所述的局部特征和编码(二)，其特征在于，基于补丁的图像描述符，如SIFT和加速稳健特征(SURF)，在图像分类系统中显示出巨大的潜力；在关键点检测阶段，选择合适的特征尺度作为尺度σ的连续函数，通过与高斯核进行卷积，形成图像的尺度空间；尺度是由拉普拉斯高斯滤波器的最大值决定的，可以用高斯差分算子来代替；关键点的极值点是使用3×3滤波器的邻域算子估计的；进一步的过滤有助于摆脱非真实极值点、低对比度点和沿边响应；为了使描述符旋转不变，计算方向直方图，并用128维特征向量描述最终关键点；图像的细粒度信息是使用图像签名(视觉词袋、局部特征聚合描述符、费舍尔向量)捕获的。

8.基于权利要求书7所述的费舍尔向量，其特征在于，在实验中，利用费舍尔向量作为编码策略；给定一个似然函数p(X|λ)，其中，λ表示参数，X的得分函数可以表示为：

梯度矢量可以使用任何鉴别分类器进行分类；要求对这样的鉴别分类器中存在的内积项进行归一化；费舍尔信息矩阵由下式给出：

归一化的梯度向量由下式给出：

视觉词汇表上的费舍尔核用高斯混合模型(GMM)表示。

9.基于权利要求书1所述的分类器集合(三)，其特征在于，分类器集合包括训练和测试；训练包括深度集合、中间层集合和与深层集合的SIFT；

(1)深度集合：深层网络是在最后一层使用相应的softmax分类器进行训练的；用最后一层的SVM代替softmax，并用完全连通层的输出重新训练最后一层；将各种深层特征的组合称为深度集合的独立训练SVM；这样的网络允许利用各种深层特征的互补性；

(2)中间层集合：

(a)单个中间层：为了评估中间层的表示能力，一旦网络被训练，则移除之后的层；各个中间层之后是由SVM组成的分类层；

(b)中间层融合：对每个深度网络进行各种中间层特征融合的实验；如果融合的各种中间层与深度集合相比可以形成一个更强大的特征，则可以评估这种组合；由于得到的特征向量具有非常高的维度，所以可以通过使用主成分分析(PCA)减小特征向量的大小来训练SVM；

(3)与深层集合的SIFT：将SIFT的输出与深度集合融合；使用费舍尔向量从图像中量化SIFT特征。

10.基于权利要求书9所述的测试，其特征在于，在测试时间，各种体系结构的输出类别是基于如下执行的多数投票预测的：

其中，φ_ens(I)是输入图像I的输出决策，N_k是输出为第k个类别的SVM的数量，其由下式给出：