[发明专利]基于流形深度学习和极限学习机的图像集分类系统及方法在审
申请号: | 201811503359.5 | 申请日: | 2018-12-10 |
公开(公告)号: | CN109615005A | 公开(公告)日: | 2019-04-12 |
发明(设计)人: | 雷方元;戴青云;蔡君;赵慧民;刘勋 | 申请(专利权)人: | 广东技术师范学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 肖平安 |
地址: | 510665 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 格拉斯曼流形 流形 极限学习机 分类系统 投影层 图像集 转换层 映射 池化 低维 正交 矩阵 矩阵形成 目标对象 欧氏空间 实时在线 输入图像 数据特征 网络结构 线性映射 正交矩阵 子集表示 输出层 拟合 学习 测试 输出 融合 转换 | ||
本发明涉及一种基于流形深度学习和极限学习机的图像集分类系统及方法,其特征在于包括流形层,转换层,正交层,投影层,池化层,ELM层和输出层。其方法先用流形层将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点,其次转换层通过线性映射将格拉斯曼流形中的正交矩阵转换为低维矩阵,第三正交层将低维矩阵形成格拉斯曼流形,第四通过投影层将格拉斯曼流形映射到欧氏空间,而后通过池化层融合不同训练分支的数据,同时降低数据特征映射的复杂性并控制训练的过拟合,最后通过ELM层训练并把训练的结果输出。本发明的网络结构相对简单并且更加有效,其不仅在精度上更加准确,而且在学习速度和测试速度上可实现实时在线。
技术领域
本发明涉及本发明涉及一种基于流形深度学习和极限学习机的图像集分类系统及方法。
背景技术
近年来,随着移动互联网技术的发展,促进大数据时代的来临。海量数据的产生以及对这些数据的有效分析和挖掘成为急需解决的问题。以CNN为代表的深度学习技术在大规模样本数据为前提下,在的目标检测和识别方面取得了飞速发展。这些算法主要是将单幅图像作为基本分析单元。在实际的数据源中,存在大量的源于同一目标对象的视频图像序列或多视图图像集,图像集的图像能够从不同方面反映目标对象。
传统的单视图图像通常采用欧式距离来衡量图像之间的相似性,没有考虑图像集对象的相互关系。而来源于同一目标对象的多视图图像具有天然的联系,如摄像机对同一目标对象从空间中不同角度获得的6视图、12视图,同一目标对象的视频序列等,这些视图之间可以认为是某一给定流形下通过某种变换关系相互得到。在流形假设条件下,同一目标的视图集在可以认为是嵌入在某种特定流形中的点,多视图集之间的相似性采用非欧式距离来度量,如在黎曼度量,Log-Euclidean metric(LEM),在Grassmann(格拉斯曼)流形中的测地距离,主角等。Grassmann流形是由线性子空间构成的流形,在图像集识别中具有天然的优势。因此,将在欧式空间中的深度学习推广到流形空间中,不仅充分利用深度学习的强大学习能力,同时还能够充分利用图像集之间的相关性,从而可以获得更好的图像集识别率。
发明内容
本发明针对现有技术的不足,提供一种基于流形深度学习(Deep Learning)和极限学习机(Extreme Learning Machine,ELM)的图像集分类系统及方法。
本发明在Grassmann流形上构建深度学习网络来提取视图集的特征,并利用ELM网络图像集进行快速识别与分类;其网络结构相对简单并且更加有效,不仅在精度上更加准确,而且在学习速度和测试速度上可实现实时在线。
为了达到上述目的,本发明一种基于流形深度学习和极限学习机的图像集分类系统,主要依次包括将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点的流形层,通过线性映射将流形层中输入的格拉斯曼正交矩阵处理成新的低维矩阵的转换层,正交层,将流形的非欧氏空间中的格拉斯曼流形映射到欧氏空间的投影层,用于融合不同训练分支数据的池化层,用于加快网络训练并避免梯度下降迭代训练的ELM层,以及用于把训练结果输出的输出层;所述池化层还用于融合来自不同训练分支的数据,同时还用于降低格拉斯曼数据特征映射的复杂性并控制训练的过拟合。
该系统利用ELM(Extreme Learning Machine)层实现快速分类,从而避免了深度学习的反复迭代的学习过程。
优选地,所述池化层采用均值函数来降低格拉斯曼数据特征映射的复杂性,以及融合来自不同训练分支的数据。
基于流形深度学习和极限学习机的图像集分类方法,主要包括以下步骤:
第一,通过流形层将输入图像中的同一目标对象的多视图子集表示为格拉斯曼流形中的一个点,目的是将源于同一目标对象的多视图图像子集表示为格拉斯曼流形中点;不同的目标对象的多视图图像子集表示为格拉斯曼流形中的不同点;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东技术师范学院,未经广东技术师范学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811503359.5/2.html,转载请声明来源钻瓜专利网。