[发明专利]通过提高目标分类和定位准确度改善目标检测性能的方法在审

申请号：	201710450327.2	申请日：	2017-06-15
公开（公告）号：	CN107316058A	公开（公告）日：	2017-11-03
发明（设计）人：	娄英欣;周芸;付光涛;姜竹青;门爱东	申请（专利权）人：	国家新闻出版广电总局广播科学研究院;北京邮电大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06K9/46;G06N3/04
代理公司：	天津盛理知识产权代理有限公司12209	代理人：	王利文
地址：	100886 北京市西***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	通过提高目标分类定位准确度改善检测性能方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于目标检测技术领域，尤其是一种通过提高目标分类和定位准确度改善目标检测性能的方法。

背景技术

人类在物质世界的感知工程中，有80％以上的信息来源于视觉。而图像是在某种意义上对客观实际的一种反映，它以不同的模式向人类传递信息，并且它作为一种重要的信息载体，具有直观、内容丰富和便于交流等特点，是多媒体的重要组成内容，因此，基于图像处理技术的各种应用就应运而生。图像目标识别与检测技术就是其中最典型的应用技术。计算机视觉研究目的是用计算机来实现人类对客观世界的感知、识别和理解，目标检测(Object Detection)是计算机视觉中最常见的问题，且在计算机视觉理论研究领域受到了广泛关注,具有广阔的应用前景。当机器“睁”开双眼看世界时，需要判断它的视野内存在哪些目标、分别是什么、在什么位置。基于视觉的目标检测是图像处理、计算机视觉、模式识别等众多学科的交叉研究课题。目标检测的目的是从不同复杂程度的背景中辨识出目标，并以包围框(Bounding Box)的形式将其标示出，从而完成跟踪、识别等后续任务。因此，目标检测是高层理解与应用的基础任务，其性能的好坏将直接影响后续的目标跟踪、动作识别以及行为理解等中高层任务的性能。尤其是在复杂场景中，需要对多个目标进行实时处理时，目标自动提取和识别就显得特别重要。因此,目标检测与识别是图像分析和理解的基础,深入研究目标检测与识别算法,在学术界和工业界都有着非常重要的意义。然而对于机器而言，由于复杂的识别背景和目标本身的动态变化增加了目标识别的难度，庞大的系统参数和高维的矩阵运算占用大量的处理时间，目标检测和识别还存在较大的问题，如识别的准确度、实时性都有待于提高。

目标检测的主要任务是对图像序列中的目标物体进行自动检测，包括判断类别和识别位置。当今流行的目标检测算法，首先在一张图片上生成1K-2K的候选框，然后对于每个候选框使用CNN卷积神经网络提取特征，其次将特征输入每一类的SVM分类器或Softmax分类器来判断目标是否属于该类，最后使用回归器修正候选框的位置实现目标的精准定位。传统的目标检测算法采用SIFT、HOG和LBP等特征，通过寻找图片中具有平移、仿设、旋转等变换情况下的不变特征点实现图像间的匹配，从而实现目标检测。然而提取特征的好坏直接影响到分类的准确性，由于目标的形态多样性，光照变化多样性，背景多样性等因素使得设计一个鲁棒的特征并不是那么容易，传统特征的适应能力并不强。而基于CNN卷积神经网络的特征提取具有很好的鲁棒性，卷积神经网络是为识别二维形状而特殊设计的一个多层感知器，这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。提取特征的CNN模型经过预先训练得到，预训练基于ILVCR 2012计算机视觉识别挑战赛的全部数据集进行训练，然后针对预训练模型基于PASCAL VOC 2007训练集进行调优训练，从而实现通过CNN网络提取图片特征。深度学习广泛应用于目标检测源于Alex等人提出的深度卷积神经网AlexNet网络架构，该框架在ILSVRC 2012比赛中取得了非常好的成绩，此后，卷积神经网络被广泛应用于各类图像相关领域。Geoffrey Hinton设计的AlexNet是一个8层CNN架构，包括5个卷积层和3个全连接层，将当时最好算法的错误率减半，它证明了CNN在复杂模型下的有效性，且GPU使得训练在可接受的时间范围内得到结果。在2014年，Christian Szegedy提出了GoogleNet架构在ILSVRC 2014分类比赛中取得第一名，与AlexNet不同的是：GoogleNet的深度(层数)更深，宽度(层核或者神经元数)更宽。同年，Andrew Zisserman提出的VGG-Net架构在ILSVRC 2014定位比赛中取得第一名，与AlexNet不同的是：VGG-Net使用更多的层，通常有16－19层。在2015年，Kaiming He提出的Res-Net架构在ILSVRC 2015分类和定位比赛中取得第一名，该模型采用了152层的深层卷积神经网络。Hinton教授的成功,吸引了国内外大量学者的关注；同时，工业界加入深度学习的研究中来，百度、google、facebook纷纷建立深度学习实验室,通过深度学习，进行图像识别与分类。虽然研究人员提出了很多基于深度学习卷积神经网络的目标检测算法，这些算法也取得了良好的效果，但是仍有许多方面有待改进，如图片背景复杂、网络输入尺寸固定、候选框过多、训练速度慢、消耗电脑内存、小物体检测不准确、步骤繁琐和定位不精准等问题。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于国家新闻出版广电总局广播科学研究院;北京邮电大学，未经国家新闻出版广电总局广播科学研究院;北京邮电大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201710450327.2/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]通过提高目标分类和定位准确度改善目标检测性能的方法在审

专利文献下载