[发明专利]一种基于深度学习的三维模型检索方法有效
申请号: | 201710201079.8 | 申请日: | 2017-03-30 |
公开(公告)号: | CN107066559B | 公开(公告)日: | 2019-12-27 |
发明(设计)人: | 刘安安;李梦洁;聂为之 | 申请(专利权)人: | 天津大学 |
主分类号: | G06F16/583 | 分类号: | G06F16/583;G06K9/62 |
代理公司: | 12201 天津市北洋有限责任专利代理事务所 | 代理人: | 李林娟 |
地址: | 300072*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 学习 三维 模型 检索 方法 | ||
本发明公开了一种基于深度学习的三维模型检索方法,包括:将任意类型图片与特征提取器逐通道卷积,对卷积结果取绝对值进行矫正,并进行局部对比度归一化,对每张图片进行平均池化,得到每张图片的单层卷积神经网络结果;对卷积神经网络输出低阶特征以预设尺寸进行分块,每块聚合成一个父向量,最终将输出矩阵聚合成一个向量;每幅图片用多特征表示,将多特征串联,作为图片输出特征;对提取的输出特征采用基于视图的三维模型检索算法,对被查模型和已有模型进行匹配,计算被查模型和已有模型的相似度进行排序,得到最终的检索结果。本发明避免了采集图像特征时对特定类型图像依赖,消除了不同图像对人工设计特征限制,提高了多视图目标检索精度。
技术领域
本发明涉及三维模型检索领域,尤其涉及一种基于深度学习的三维模型检索方法。
背景技术
随着计算机技术和网络的高速发展,多媒体数据规模越来越大,三维模型数据成为继声音、图像、视频之后新的多媒体数据类型。三维模型具有直观、表现力强等特点,其应用领域越来与广泛,例如:计算机辅助设计(CAD)、计算机视觉(如姿态识别)、医学影像、室内机器人导航、行为分析等。
目前已有多种三维模型识别方法或系统,分为几大类,比如早期的基于文本的三维模型检索方法,基于内容检索的三维模型检索方法,还有基于主题模型的三维模型检索方法,以及基于功能语义的三维模型检索系统。这些方法需要明确的空间结构信息,硬件要求高,使用范围受限。
发明内容
本发明提供了一种基于深度学习的三维模型检索方法,本发明避免了采集图像特征时对特定类型图像的依赖,消除了不同图像对人工设计特征的限制,提高了多视图目标检索的精度,详见下文描述:
一种基于深度学习的三维模型检索方法,所述三维模型检索方法包括以下步骤:
将任意类型图片与特征提取器逐通道卷积,对卷积结果取绝对值进行矫正,并进行局部对比度归一化,对每张图片进行平均池化,得到每张图片的单层卷积神经网络结果;
对卷积神经网络输出的低阶特征以预设尺寸进行分块,每块聚合成一个父向量,最终将输出矩阵聚合成一个向量;每幅图片用多特征表示,将多特征串联,作为图片的输出特征;
对提取的输出特征采用基于视图的三维模型检索算法,对被查模型和已有模型进行匹配,计算被查模型和已有模型的相似度进行排序,得到最终的检索结果。
其中,所述特征提取器具体为:
对数据库所有图片进行预处理,通过k-means聚类得到聚类中心;
将聚类中心作为卷积神经网络所需的特征提取器。
其中,所述对卷积神经网络输出的低阶特征以预设尺寸进行分块,每块聚合成一个父向量,最终将输出矩阵聚合成一个向量,每幅图片用多特征表示,将多特征串联,作为图片的输出特征的步骤具体为:
对卷积神经网络输出的低阶特征以预设尺寸进行分块,每块与一个大小相同的权值矩阵相乘聚合成一个父向量,所得的父向量按顺序排列,同样以预设尺寸进行分块,与同一个大小相同的权值矩阵相乘聚合成一个父向量,以此类推,直至最终将输出的低阶特征矩阵聚合成一个向量。对同一个卷积神经网络输出的低阶特征矩阵进行多次分块聚合迭代,每次迭代都使用一个新的固定大小的权值矩阵,得到多个特征向量,将多特征串联,作为图片的输出特征。
本发明提供的技术方案的有益效果是:
1、提高了多个目标检索系统的检索性能,而且几种检索方法均达到了几乎相近的检索性能,使得检索方法之间的差异性不再重要;
2、借用了卷积神经网络的优点,可以对原始的未经过任何处理的图像数据提取特征,极大地发挥了其机器学习的自主性;
3、避免了采集视图特征时对摄像机空间位置信息的依赖。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于天津大学,未经天津大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710201079.8/2.html,转载请声明来源钻瓜专利网。