[发明专利]通过提高目标分类和定位准确度改善目标检测性能的方法在审
申请号: | 201710450327.2 | 申请日: | 2017-06-15 |
公开(公告)号: | CN107316058A | 公开(公告)日: | 2017-11-03 |
发明(设计)人: | 娄英欣;周芸;付光涛;姜竹青;门爱东 | 申请(专利权)人: | 国家新闻出版广电总局广播科学研究院;北京邮电大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06K9/46;G06N3/04 |
代理公司: | 天津盛理知识产权代理有限公司12209 | 代理人: | 王利文 |
地址: | 100886 北京市西*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 通过 提高 目标 分类 定位 准确度 改善 检测 性能 方法 | ||
技术领域
本发明属于目标检测技术领域,尤其是一种通过提高目标分类和定位准确度改善目标检测性能的方法。
背景技术
人类在物质世界的感知工程中,有80%以上的信息来源于视觉。而图像是在某种意义上对客观实际的一种反映,它以不同的模式向人类传递信息,并且它作为一种重要的信息载体,具有直观、内容丰富和便于交流等特点,是多媒体的重要组成内容,因此,基于图像处理技术的各种应用就应运而生。图像目标识别与检测技术就是其中最典型的应用技术。计算机视觉研究目的是用计算机来实现人类对客观世界的感知、识别和理解,目标检测(Object Detection)是计算机视觉中最常见的问题,且在计算机视觉理论研究领域受到了广泛关注,具有广阔的应用前景。当机器“睁”开双眼看世界时,需要判断它的视野内存在哪些目标、分别是什么、在什么位置。基于视觉的目标检测是图像处理、计算机视觉、模式识别等众多学科的交叉研究课题。目标检测的目的是从不同复杂程度的背景中辨识出目标,并以包围框(Bounding Box)的形式将其标示出,从而完成跟踪、识别等后续任务。因此,目标检测是高层理解与应用的基础任务,其性能的好坏将直接影响后续的目标跟踪、动作识别以及行为理解等中高层任务的性能。尤其是在复杂场景中,需要对多个目标进行实时处理时,目标自动提取和识别就显得特别重要。因此,目标检测与识别是图像分析和理解的基础,深入研究目标检测与识别算法,在学术界和工业界都有着非常重要的意义。然而对于机器而言,由于复杂的识别背景和目标本身的动态变化增加了目标识别的难度,庞大的系统参数和高维的矩阵运算占用大量的处理时间,目标检测和识别还存在较大的问题,如识别的准确度、实时性都有待于提高。
目标检测的主要任务是对图像序列中的目标物体进行自动检测,包括判断类别和识别位置。当今流行的目标检测算法,首先在一张图片上生成1K-2K的候选框,然后对于每个候选框使用CNN卷积神经网络提取特征,其次将特征输入每一类的SVM分类器或Softmax分类器来判断目标是否属于该类,最后使用回归器修正候选框的位置实现目标的精准定位。传统的目标检测算法采用SIFT、HOG和LBP等特征,通过寻找图片中具有平移、仿设、旋转等变换情况下的不变特征点实现图像间的匹配,从而实现目标检测。然而提取特征的好坏直接影响到分类的准确性,由于目标的形态多样性,光照变化多样性,背景多样性等因素使得设计一个鲁棒的特征并不是那么容易,传统特征的适应能力并不强。而基于CNN卷积神经网络的特征提取具有很好的鲁棒性,卷积神经网络是为识别二维形状而特殊设计的一个多层感知器,这种网络结构对平移、比例缩放、倾斜或者共他形式的变形具有高度不变性。提取特征的CNN模型经过预先训练得到,预训练基于ILVCR 2012计算机视觉识别挑战赛的全部数据集进行训练,然后针对预训练模型基于PASCAL VOC 2007训练集进行调优训练,从而实现通过CNN网络提取图片特征。深度学习广泛应用于目标检测源于Alex等人提出的深度卷积神经网AlexNet网络架构,该框架在ILSVRC 2012比赛中取得了非常好的成绩,此后,卷积神经网络被广泛应用于各类图像相关领域。Geoffrey Hinton设计的AlexNet是一个8层CNN架构,包括5个卷积层和3个全连接层,将当时最好算法的错误率减半,它证明了CNN在复杂模型下的有效性,且GPU使得训练在可接受的时间范围内得到结果。在2014年,Christian Szegedy提出了GoogleNet架构在ILSVRC 2014分类比赛中取得第一名,与AlexNet不同的是:GoogleNet的深度(层数)更深,宽度(层核或者神经元数)更宽。同年,Andrew Zisserman提出的VGG-Net架构在ILSVRC 2014定位比赛中取得第一名,与AlexNet不同的是:VGG-Net使用更多的层,通常有16-19层。在2015年,Kaiming He提出的Res-Net架构在ILSVRC 2015分类和定位比赛中取得第一名,该模型采用了152层的深层卷积神经网络。Hinton教授的成功,吸引了国内外大量学者的关注;同时,工业界加入深度学习的研究中来,百度、google、facebook纷纷建立深度学习实验室,通过深度学习,进行图像识别与分类。虽然研究人员提出了很多基于深度学习卷积神经网络的目标检测算法,这些算法也取得了良好的效果,但是仍有许多方面有待改进,如图片背景复杂、网络输入尺寸固定、候选框过多、训练速度慢、消耗电脑内存、小物体检测不准确、步骤繁琐和定位不精准等问题。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家新闻出版广电总局广播科学研究院;北京邮电大学,未经国家新闻出版广电总局广播科学研究院;北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710450327.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:核动力装置故障诊断方法
- 下一篇:学习者姿态识别方法