[发明专利]一种基于卷积多特征和深度随机森林的场景识别方法有效

申请号：	201711335270.8	申请日：	2017-12-08
公开（公告）号：	CN108108751B	公开（公告）日：	2021-11-12
发明（设计）人：	熊继平;叶童;王妃	申请（专利权）人：	浙江师范大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/46;G06N3/04;G06N3/08
代理公司：	暂无信息	代理人：	暂无信息
地址：	321004 浙江***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于卷积特征深度随机森林场景识别方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于卷积多特征和深度随机森林的场景识别方法，将稀疏编码的空间金字塔匹配方法和费舍尔向量运用于卷积神经网络中进行特征提取，并将提取的特征运用于深度随机森林的场景识别方法，以提高场景识别精度。该方法包括：利用卷积神经网络对训练图像进行训练，对卷积神经网络中最后一个卷积层的输出进行费舍尔向量编码，对卷积神经网络的输出进行解卷积并运用稀疏编码的空间金字塔匹配方法统计其在不同分辨率下的图像特征点分布从而构成多尺度的空间局部特征，之后使用深度随机森林进行分类，从而提高场景识别的准确度。

技术领域

本发明涉及计算机模式识别技术，尤其涉及一种基于卷积多特征和深度随机森林的场景识别方法。

背景技术

在数字图像和数字视频数据中，蕴含了大量的视觉信息，而计算机视觉技术就是使用计算机智能化地提取和分析这些视觉信息中所含有的有用信息的技术。伴随着计算机理论、应用和应用的快速发展，计算机处理图像和视频的能力受到了巨大的提高，使得计算视觉技术成为了计算机领域与人工智能领域的重点研究方向。

场景图像的识别与分析是计算机模式识别领域中的一个重要课题，是图像识别领域的一个重要分支。在航天领域与机器人领域中也都涉及到了场景识别。当给定一幅包含多个目标类别(如医院、教堂、学校等)的场景图像，场景识别的目的是通过对图像中各个目标的分布关系，对图像的全局的语义进行分析和理解。不同于传统的目标检测和图像识别，场景的识别不仅仅是对图像的前景内容进行研究，更是对场景全局的一种理解。而场景的类别更是有着很大的变化和歧义性，这就极大提高了场景识别的难度。

2004年提出了一种基于词包模型的场景识别方法。词包模型是通过提取场景图像中的低层特征(颜色、纹理等)统计图像的各个分块信息，并与文本单词相对应形成的一种特征字典，计算目标场景图像与字典的距离来实现场景识别。此外还有基于稀疏表达的方法与基于主题模型的方法，但是得到的效果并不理想。

深度学习的概念源于人工神经网络的研究，是机器学习中的一种基于对数据进行表征学习的方法。深度学习是机器学习研究中的一个新的领域，其动机在于建立和模拟人脑进行分析学习时的神经网络，模仿人脑的机制来解释数据，例如图像、声音和文本。卷积神经网络是深度学习中的一种典型模型，特别是在模式识别中运用的非常广泛，并且已经取得了不错的效果。

基于卷积神经网络的场景识别算法主要是采用大规模场景图像数据进行训练，得到更高层的特征，从而提高场景样本的识别率或预测的准确率。然而这种方法也存在着问题：1)场景图像的识别是一个自顶向下的过程，需要同时考虑全局特征和局部特征，仅使用卷积神经网络进行场景图像的识别得到的效果并不理想；2)训练时需要大量样本，无法用于小规模数据任务，并且训练时间非常长；3)深度神经网络结构非常复杂，严重依赖调参，含有大量的超参数，不利于系统稳定，并且由于卷积层结构等很多不同的选择造成卷积神经网络不利于分析。

2017年提出了一种深度随机森林(Deep Forest)模型，这是一种基于决策树的新方法。这个模型的总体结构是类似神经网络的，只是其中的每个神经元都被替换成随机森林。深度随机森林可以适用于小规模数据任务，因为适用于并行部署，在训练效率方面远也大于深度神经网络。这个模型相对于深度神经网络，有更少的超参数，这就导致深度随机森林具有相当高的鲁棒性，并且其相对较简单的结构也让对深度随机森林的理论分析更为简单。如今在许多领域中深度随机森林取得了比深度神经网络更好的成绩。

本发明提供了一种基于卷积多特征和深度随机森林的场景识别方法，利用卷积神经网络对训练图像进行训练，对卷积神经网络中最后一个卷积层的输出进行费舍尔向量编码得到空间全局特征，对卷积神经网络的输出进行解卷积并运用稀疏编码的空间金字塔匹配方法统计其在不同分辨率下的图像特征点分布从而构成多尺度的空间局部特征，之后使用深度随机森林进行分类，从而提高场景识别的精确度与鲁棒性。

发明内容

本发明所要解决的技术问题是增强场景识别的鲁棒性，提高场景识别的正确率。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于浙江师范大学，未经浙江师范大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201711335270.8/2.html，转载请声明来源钻瓜专利网。

上一篇：基于深度学习和单目视觉的距离空间重建方法
下一篇：一种冷连轧生产实绩中工艺数据处理方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于卷积多特征和深度随机森林的场景识别方法有效

专利文献下载