[发明专利]一种基于局部和深度特征集合的目标分类方法在审

专利信息
申请号: 201711423291.5 申请日: 2017-12-25
公开(公告)号: CN108154183A 公开(公告)日: 2018-06-12
发明(设计)人: 夏春秋 申请(专利权)人: 深圳市唯特视科技有限公司
主分类号: G06K9/62 分类号: G06K9/62;G06K9/46;G06N3/04
代理公司: 暂无信息 代理人: 暂无信息
地址: 518057 广东省深圳市高新技术产业园*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 目标分类 分类器 集合 深度特征 特征训练 连接层 描述符 向量 输入数据集 支持向量机 编码策略 分类能力 分类性能 局部特征 特征变换 特征提取 最终决策 中间层 卷积 网络 尺度 测试 分类 投票 优化 应用
【权利要求书】:

1.一种基于局部和深度特征集合的目标分类方法,其特征在于,主要包括深度卷积特征提取(一);局部特征和编码(二);分类器集合(三)。

2.基于权利要求书1所述的基于局部和深度特征集合的目标分类方法,其特征在于,从深度网络的最后完全连接层中提取描述符和尺度不变特征变换(SIFT)描述符的费舍尔向量;对每个特征训练一个支持向量机(SVM),对输入数据集进行优化分类,然后进行投票并得出最终决策。

3.基于权利要求书1所述的深度卷积特征提取(一),其特征在于,深度卷积特征评估了三种流行的CNN架构:AlexNet、VGGNet和GoogleNet。

4.基于权利要求书3所述的AlexNet,其特征在于,AlexNet的架构由5个卷积层和3个全连接层组成;它引入了修正线性单元(ReLU)作为池中非线性的使用,并在训练期间忽略神经元,从而减少过度拟合;合并层放置在第一、第二和第五卷积层之后。

5.基于权利要求书3所述的VGGNet,其特征在于,VGGNet的普及主要是由于在每个卷积层中使用了多个3×3滤波器;多个小卷积滤波器可以模拟大接收场的响应,从而提供更好的泛化能力并表示对象的复杂特征;VGGNet由13个16层的卷积层和3个全连接层组成;卷积层被分成5个组,每个组后面是最大汇集层。

6.基于权利要求书3所述的GoogleNet,其特征在于,GoogleNet将卷积块与1×1卷积滤波器(称为网络中的网络)的块并行化,有效地利用了这些卷积特征的所有像素之间共享的非常少的参数。

7.基于权利要求书1所述的局部特征和编码(二),其特征在于,基于补丁的图像描述符,如SIFT和加速稳健特征(SURF),在图像分类系统中显示出巨大的潜力;在关键点检测阶段,选择合适的特征尺度作为尺度σ的连续函数,通过与高斯核进行卷积,形成图像的尺度空间;尺度是由拉普拉斯高斯滤波器的最大值决定的,可以用高斯差分算子来代替;关键点的极值点是使用3×3滤波器的邻域算子估计的;进一步的过滤有助于摆脱非真实极值点、低对比度点和沿边响应;为了使描述符旋转不变,计算方向直方图,并用128维特征向量描述最终关键点;图像的细粒度信息是使用图像签名(视觉词袋、局部特征聚合描述符、费舍尔向量)捕获的。

8.基于权利要求书7所述的费舍尔向量,其特征在于,在实验中,利用费舍尔向量作为编码策略;给定一个似然函数p(X|λ),其中,λ表示参数,X的得分函数可以表示为:

梯度矢量可以使用任何鉴别分类器进行分类;要求对这样的鉴别分类器中存在的内积项进行归一化;费舍尔信息矩阵由下式给出:

归一化的梯度向量由下式给出:

视觉词汇表上的费舍尔核用高斯混合模型(GMM)表示。

9.基于权利要求书1所述的分类器集合(三),其特征在于,分类器集合包括训练和测试;训练包括深度集合、中间层集合和与深层集合的SIFT;

(1)深度集合:深层网络是在最后一层使用相应的softmax分类器进行训练的;用最后一层的SVM代替softmax,并用完全连通层的输出重新训练最后一层;将各种深层特征的组合称为深度集合的独立训练SVM;这样的网络允许利用各种深层特征的互补性;

(2)中间层集合:

(a)单个中间层:为了评估中间层的表示能力,一旦网络被训练,则移除之后的层;各个中间层之后是由SVM组成的分类层;

(b)中间层融合:对每个深度网络进行各种中间层特征融合的实验;如果融合的各种中间层与深度集合相比可以形成一个更强大的特征,则可以评估这种组合;由于得到的特征向量具有非常高的维度,所以可以通过使用主成分分析(PCA)减小特征向量的大小来训练SVM;

(3)与深层集合的SIFT:将SIFT的输出与深度集合融合;使用费舍尔向量从图像中量化SIFT特征。

10.基于权利要求书9所述的测试,其特征在于,在测试时间,各种体系结构的输出类别是基于如下执行的多数投票预测的:

其中,φens(I)是输入图像I的输出决策,Nk是输出为第k个类别的SVM的数量,其由下式给出:

Nk=#{c|φc(I)=Lk} (5)

其中,φc是集合中第c个分类器的输出或决策函数,Lk表示第k个类别的标签。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于深圳市唯特视科技有限公司,未经深圳市唯特视科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201711423291.5/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top