[发明专利]一种基于局部和深度特征集合的目标分类方法在审
申请号: | 201711423291.5 | 申请日: | 2017-12-25 |
公开(公告)号: | CN108154183A | 公开(公告)日: | 2018-06-12 |
发明(设计)人: | 夏春秋 | 申请(专利权)人: | 深圳市唯特视科技有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46;G06N3/04 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518057 广东省深圳市高新技术产业园*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 目标分类 分类器 集合 深度特征 特征训练 连接层 描述符 向量 输入数据集 支持向量机 编码策略 分类能力 分类性能 局部特征 特征变换 特征提取 最终决策 中间层 卷积 网络 尺度 测试 分类 投票 优化 应用 | ||
1.一种基于局部和深度特征集合的目标分类方法,其特征在于,主要包括深度卷积特征提取(一);局部特征和编码(二);分类器集合(三)。
2.基于权利要求书1所述的基于局部和深度特征集合的目标分类方法,其特征在于,从深度网络的最后完全连接层中提取描述符和尺度不变特征变换(SIFT)描述符的费舍尔向量;对每个特征训练一个支持向量机(SVM),对输入数据集进行优化分类,然后进行投票并得出最终决策。
3.基于权利要求书1所述的深度卷积特征提取(一),其特征在于,深度卷积特征评估了三种流行的CNN架构:AlexNet、VGGNet和GoogleNet。
4.基于权利要求书3所述的AlexNet,其特征在于,AlexNet的架构由5个卷积层和3个全连接层组成;它引入了修正线性单元(ReLU)作为池中非线性的使用,并在训练期间忽略神经元,从而减少过度拟合;合并层放置在第一、第二和第五卷积层之后。
5.基于权利要求书3所述的VGGNet,其特征在于,VGGNet的普及主要是由于在每个卷积层中使用了多个3×3滤波器;多个小卷积滤波器可以模拟大接收场的响应,从而提供更好的泛化能力并表示对象的复杂特征;VGGNet由13个16层的卷积层和3个全连接层组成;卷积层被分成5个组,每个组后面是最大汇集层。
6.基于权利要求书3所述的GoogleNet,其特征在于,GoogleNet将卷积块与1×1卷积滤波器(称为网络中的网络)的块并行化,有效地利用了这些卷积特征的所有像素之间共享的非常少的参数。
7.基于权利要求书1所述的局部特征和编码(二),其特征在于,基于补丁的图像描述符,如SIFT和加速稳健特征(SURF),在图像分类系统中显示出巨大的潜力;在关键点检测阶段,选择合适的特征尺度作为尺度σ的连续函数,通过与高斯核进行卷积,形成图像的尺度空间;尺度是由拉普拉斯高斯滤波器的最大值决定的,可以用高斯差分算子来代替;关键点的极值点是使用3×3滤波器的邻域算子估计的;进一步的过滤有助于摆脱非真实极值点、低对比度点和沿边响应;为了使描述符旋转不变,计算方向直方图,并用128维特征向量描述最终关键点;图像的细粒度信息是使用图像签名(视觉词袋、局部特征聚合描述符、费舍尔向量)捕获的。
8.基于权利要求书7所述的费舍尔向量,其特征在于,在实验中,利用费舍尔向量作为编码策略;给定一个似然函数p(X|λ),其中,λ表示参数,X的得分函数可以表示为:
梯度矢量可以使用任何鉴别分类器进行分类;要求对这样的鉴别分类器中存在的内积项进行归一化;费舍尔信息矩阵由下式给出:
归一化的梯度向量由下式给出:
视觉词汇表上的费舍尔核用高斯混合模型(GMM)表示。
9.基于权利要求书1所述的分类器集合(三),其特征在于,分类器集合包括训练和测试;训练包括深度集合、中间层集合和与深层集合的SIFT;
(1)深度集合:深层网络是在最后一层使用相应的softmax分类器进行训练的;用最后一层的SVM代替softmax,并用完全连通层的输出重新训练最后一层;将各种深层特征的组合称为深度集合的独立训练SVM;这样的网络允许利用各种深层特征的互补性;
(2)中间层集合:
(a)单个中间层:为了评估中间层的表示能力,一旦网络被训练,则移除之后的层;各个中间层之后是由SVM组成的分类层;
(b)中间层融合:对每个深度网络进行各种中间层特征融合的实验;如果融合的各种中间层与深度集合相比可以形成一个更强大的特征,则可以评估这种组合;由于得到的特征向量具有非常高的维度,所以可以通过使用主成分分析(PCA)减小特征向量的大小来训练SVM;
(3)与深层集合的SIFT:将SIFT的输出与深度集合融合;使用费舍尔向量从图像中量化SIFT特征。
10.基于权利要求书9所述的测试,其特征在于,在测试时间,各种体系结构的输出类别是基于如下执行的多数投票预测的:
其中,φens(I)是输入图像I的输出决策,Nk是输出为第k个类别的SVM的数量,其由下式给出:
Nk=#{c|φc(I)=Lk} (5)
其中,φc是集合中第c个分类器的输出或决策函数,Lk表示第k个类别的标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711423291.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于成对比较网络的珠宝相似性度量方法
- 下一篇:人格类型确定方法及装置