[发明专利]流形学习网络及基于其的计算机视觉图像集分类方法有效
申请号: | 201811289756.7 | 申请日: | 2018-10-31 |
公开(公告)号: | CN109376787B | 公开(公告)日: | 2021-02-26 |
发明(设计)人: | 郑军;王锐;罗长志 | 申请(专利权)人: | 聚时科技(上海)有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 上海科盛知识产权代理有限公司 31225 | 代理人: | 翁惠瑜 |
地址: | 200082 上海市杨浦区*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 流形 学习 网络 基于 计算机 视觉 图像 分类 方法 | ||
本发明涉及一种流形学习网络及基于其的计算机视觉图像集分类方法,所述流形学习网络包括输入层、全连接层、矫正层、黎曼池化层、第二对数映射层和输出层,主要用于对采集到的视频序列进行分类,通过在黎曼流形上搭建简单的学习网络,并利用双向二维主成分分析技术优化权值参数来完成对对称正定矩阵进行的非线性特征抽取和分类。与现有技术相比,本发明能够较为有效地提高复杂场景下的对象分类精度,同时训练用时较短。
技术领域
本发明涉及流形学习领域,尤其是涉及一种流形学习网络及基于其的计算机视觉图像集分类方法。
背景技术
在计算机视觉领域中,有关图像集的分类问题最近受到了研究人员们广泛的关注。主要是由于相对于传统的基于单图片的分类任务,图像集可以更加灵活和有效地进行特征表示。对于图像集分类任务,每个图像集中包含了多个属于同一类别的图片,并且它们在光照,姿态以及分辨率上具有一定的差异。在大数据时代,基于图像集的分类问题在基于视频的人脸识别、监控、身份认证以及生物信息识别等方面有着广泛且成功的应用,且在这些应用中,利用流形学习的方法去解决图像集分类问题是最为普遍和有效的。基于流形学习的图像集分类算法可以分为四类:核方法、流形降维方法、多阶统计特性建模方法以及深度学习方法。
对于核方法,它们通过利用黎曼核函数把流形上的点映射到一个高维的Hilbert空间,然后再通过学习一个映射将它们投影到一个低维的判别子空间。然而,构建核矩阵需要较大的计算量,同时该类方法没有充分考虑到数据的流形特性,从而导致所得结果是次优的。
对于流形上的降维方法,它们直接在流形上联合进行度量学习和投影映射学习,从而使得原始的高维流形被映射成一个维数相对较低同时判别性更加充分的新的流形。可以看出,该类方法相较于核方法较为充分的保持了数据的流形结构,但是其线性映射函数是在非线性的流形上学习得到的,从而导致结果是次优的。
前面提到的两类算法都是基于单模型的流形学习算法,为了获取互补的特征信息以提高在复杂图像集上的分类精度,一些学者提出了基于多阶统计特性建模的方法。这类方法对于给定的样本,分别利用一阶均值、二阶方差以及三阶张量或者高斯混合模型进行模型的建立,然后利用度量学习的方法对异构的特征进行融合。该类算法的主要缺点是计算时间较长。
由于深度学习技术具有强大的特征学习能力,因此一些学者尝试将其推广到黎曼流形上以进行非线性的流形特征学习。对于该类算法,其关键之处在于在流形上进行黎曼矩阵的反传播计算,可以看出这类算法在复杂的数据集上可以取得较高的分类结果,但是其反传播计算比较复杂,同时网络需要学习的参数较多。
发明内容
本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种流形学习网络及基于其的计算机视觉图像集分类方法。
本发明的目的可以通过以下技术方案来实现:
一种流形学习网络,包括:
输入层,用于获取与待分类的图像集对应的对称正定流形;
全连接层,用于对输入层接收的数据进行特征抽取;
矫正层,用于对抽取的特征值进行调整,保持样本空间一致性;
黎曼池化层,用于对特征进行池化操作,降低网络复杂度;
第二对数映射层,用于将黎曼池化层输出的流形数据映射到欧式空间,获得欧式空间特征图谱;
输出层,用于将欧式空间特征图谱中的每一个特征图均转化成列向量,并按设定权重合并成输出列向量。
进一步地,所述全连接层的输出与输入的关系式表示为:
其中,表示全连接层输出的第j个特征图,为连接权重,Xi表示全连接层的输入。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于聚时科技(上海)有限公司,未经聚时科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811289756.7/2.html,转载请声明来源钻瓜专利网。