[发明专利]一种基于RGB-D物体识别分类器构造方法有效
申请号: | 201810383002.1 | 申请日: | 2018-04-26 |
公开(公告)号: | CN108596256B | 公开(公告)日: | 2022-04-01 |
发明(设计)人: | 胡勇;周锋;迟小羽 | 申请(专利权)人: | 北京航空航天大学青岛研究院 |
主分类号: | G06V10/774 | 分类号: | G06V10/774;G06V10/764;G06V10/82;G06K9/62;G06N3/04 |
代理公司: | 青岛中天汇智知识产权代理有限公司 37241 | 代理人: | 刘晓 |
地址: | 266000 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 rgb 物体 识别 分类 构造 方法 | ||
本发明提出一种新的基于RGB‑D物体识别分类器构造方法,主要解决现有的RGB‑D数据库规模小的问题以及训练的RGB‑D分类器对于数据库中存在的稀有物体识别准确率不高的问题,包括:采集物体的RGB模态图片以及同一位姿下的depth模态图片,依次提取出RGB模态图片的特征以及相应的depth模态图片的特征,然后依次人工对采集的RGB模态图片以及depth模态图片进行分析,并加之标签。通过将RGB模态特征以及depth模态特征结合起来一同构建物体分类器。本发明可以应用在物体识别应用上,通过对当前物体进行RGB和depth模态数据采样,可以有效的对当前物体进行类别识别。
技术领域
本发明属于计算机应用技术领域,具体涉及一种基于RGB-D物体识别分类器构造方法。
背景技术
自从1946年2月14日在费城开始运行的ENIAC计算机发明以来,一些具有超前意识的研究者和用户就在思考和讨论计算机是否可以向人一样具有独立自主的思考以及解决问题的能力,这个也就是所谓早期人工智能。那么到底如何判断机器是否拥有了智能,计算机科学家和密码学的先驱图灵在《计算机器与智能》文献中提出了“图灵测试”这一概念,即如果计算机能在5分钟内回答人类测试者提出的一系列问题,且其中的回答超过30%让测试者认为是由人类回答而不是计算机回答的,则电脑就通过了测试。人工智能的终极目标是将人类从繁杂、危险、重复、单调等工作中解放出来,改善人们的生活,推进人类盛会的发展。生物学家研究,人类接受外界信息超过80%都是来源于人的双眼,那么相对于计算机的研究,机器视觉就显得尤为的重要。物体识别任务是机器视觉中最基础也是最重要的任务之一。
对于物体的识别,现有的技术可以大致分成三类:(1)基于RGB的物体识别。这种方法是提取RGB模态数据的特征信息,通过将提取的特征RGB特征信息输入到特定的分类器中进行物体的识别。(2)基于depth的物体识别。这种方法是提取depth模态数据的特征信息,通过将提取的depth特征信息输入到特定的分类器中进行物体的识别。(3)基于RGB和depth两种模态信息结合的方式,通过将RGB数据和depth数据融合成4通道的图片数据然后提取特征,或者通过对RGB模态数据和depth模态数据分别提取特征,然后将两者结合起来给分类器进行物体的识别。
申请号为CN201510402298.3的专利公开一种RGB-D图像分类方法及系统,主要使用的是基于现在非常流行的深度学习卷积神经网络CNN的方法来提取RGB和depth的特征,再人为拼接在一起,然后通过字典学习的方式训练一个SVM。由于CNN网络是一种数据驱动的方法,也就是说需要大量的带有标签的训练数据,而现有的RGB-D带有标签的分类数据集相较于RGB标签数据集非常的小,不足以支撑本发明提出的CNN网络的训练过程,容易导致非常严重的过拟合问题;同时由于现实世界中很多情况是稀有的,比如说水果商店中买卖的苹果,有些苹果由于被贴上了大量的商标,大面积被遮挡,这种情况对于我们收集的RGB-D数据集来说基本上是很难见到的,这种长尾情况导致了我们构造的RGB-D分类器解决这种情况下的分类情况不是很理想。
基于上述,提供一种新的基于RGB-D模态数据的物体识别方法,以解决现有的RGB-D数据库规模小的问题以及训练的RGB-D分类器对于数据库中存在的稀有物体识别准确率不高的问题,则成为本发明所面临的重要课题。
发明内容
本发明针对目前现有的RGB-D的数据库不足以支撑深度神经网络的训练而容易导致过拟合,同时大规模的数据库均存在着很严重的长尾分布的问题,提出一种新的基于RGB-D物体识别分类器构造方法,其方案如下:
一种基于RGB-D物体识别分类器构造方法,包括如下步骤:
步骤一、构建RGB-D物体识别数据库其中RGB模态数据记为depth模态数据记为
步骤二、对采集的RGB-D图片进行识别分类,人为标定每一张图片的类别,c*∈{1,2,...,C},其中C表示的我们采集的图片的类别总数;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学青岛研究院,未经北京航空航天大学青岛研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810383002.1/2.html,转载请声明来源钻瓜专利网。