[发明专利]一种基于数据概率分布和多核的流形正则分类方法在审

专利信息
申请号: 201810094433.6 申请日: 2018-01-31
公开(公告)号: CN108491853A 公开(公告)日: 2018-09-04
发明(设计)人: 牛菓;王修才;段志奎;陈建文;樊耘 申请(专利权)人: 佛山科学技术学院
主分类号: G06K9/62 分类号: G06K9/62
代理公司: 广东广信君达律师事务所 44329 代理人: 杨晓松
地址: 528000 广东省佛山市*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 核函数 概率分布 数据分布信息 多核 流形 分类 参数调整 分类结果 工作效率 基核参数 局部应用 判别函数 数据分布 数据空间 有效覆盖 正定矩阵 重新定义 基函数 准确率 并集 非零 内积 对称 学习 改进 保证
【说明书】:

发明涉及一种基于数据概率分布和多核的流形正则分类方法,利用数据的概率分布信息来调整核函数的参数,然后把参数调整后的核函数在数据空间的局部应用。同时通过重新定义一个对称正定矩阵的方式,来得到一个新的内积,为分类学习问题建立新的解空间。从空间角度来讲,本发明根据数据分布信息调整基核参数获取不同的核函数,改进了学习问题的解空间,提高了工作效率;从几何角度来讲,本发明依赖数据分布信息的核函数可以保证判别函数里基函数支集的并集能够有效覆盖数据分布的非零区域,从而提高分类结果的准确率。

技术领域

本发明涉及机器学习的技术领域,尤其涉及到一种基于数据概率分布和多核的流形正则分类方法。

背景技术

机器学习是从已知的数据集中学习,如何充分挖掘和利用给定的数据样本信息和标签信息,是机器学习成功的一个关键。如果设X表示数据,Ω表示数据空间,在数学上,数据X可以看成是在数据空间Ω上取值的随机变量或向量。数据空间中有各种不同的数据。例如,如果数据空间可以表示所有512×512像素的数字图像,则数X可以表示所有512×512像素的人脸数字图像,或者表示所有512×512像素的风景数字图像。不同性质的数据可以用不同的概率分布来区别。如果把数据看作是一个随机变量,那么数据样本可以看作是这个随机变量在一个概率分布上的采样值。因此在机器学习中,可以通过估计数据的概率分布来分析数据。

当前在机器学习领域,分类算法非常多,分类是机器学习中数据分析的一个重要步骤和关键过程。根据数据标签信息的多少可以把分类算法分为两大类:监督学习和半监督学习。监督学习的分类算法里,数据集的标签信息需要全部给出。监督学习通过充分利用给出的标签信息,并按照一定的算法机制来进行数据的分类。比如,经典的监督学习算法LDA(文献1,Keinosuke Fukunaga.Introduction to statistical patternrecognition.Academic Press,1972.)。通过最大化数据集之间的类间散度同时最小化数据集的类内散度,在同类数据进行归类的同时把不同类的数据分开。LDA学习算法可以直接得到分类结果,但是数据点和它对应的估计标签之间没有一个明确的模型关系。因此,根据数据点与对应估计标签之间是否存在一个明确的模型关系的判断准则,分类算法又可以分为直推式和诱导式两大类。许多经典的学习算法包括LDA、核LDA(文献2,S.Mika,G.Ratsch,and J.Weston Fisher discriminant analysis with kernels.IEEE SignalProcessingSociety Workshop,Neural Network for Signal Processing,1999.)、MFA(文献3,S.Yan,D.Xu,B.Zhang,H.Zhang,Q.Yang,and S.Lin Graph embedding and extensions:ageneral framework for dimensionality reduction IEEE Trans.Pattern Analysisand Machine Intelligence,2007),核PCA(文献4,J.Suykens and J.Vandewalle.Leastsquares support vector machine classifiers.Neural Processing Lettter,1999)、高斯场调和函数(文献5,X.Zhu,Z.Ghahramani,and J.Lafferty.Semi-supervised learningusing gaussian fields and harmonic functions.Proc.20nd InternationalConference on Machine learning(ICML),2003.)等等都是纯粹的直推式方法。相对于直推式的分类算法,诱导式的学习方法在数据点和其对应的估计标签之间建立了一个明确的模型关系。这个模型关系可以是线性的也可以是非线性的。正则的分类算法比如SVM(文献6,J.Suykens and J.Vandewalle.Least squares support vector machineclassifiers.Neural Processing Lettter,1999.),流形正则(文献7,M.Belkin,P.Niyogiand V.Sindhwani.Manifold regularization:a geometric framework for learningfrom labeled and unlabeled examples.Journal of Machine Learning Research,2006.),稀疏正则(文献8,M.Fan,N.N.Gu,H.Qiao,and B.Zhang.Sparse regularizationfor semi-supervised classification.Pattern Recognition,2011),它们通过使用核函数在数据点和对应估计标签之间建立一个明确的非线性的模型关系。流形正则分类方法是流形学习算法里,一个非常有代表性的半监督学习方法,它通过增加描述流形数据几何结构的流形正则项,挖掘数据概率分布的本质结构,来达到对数据分类的目的。然而,此种流形正则分类方法工作效率较低、而且分类结果不太不尽人意。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于佛山科学技术学院,未经佛山科学技术学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810094433.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top