[发明专利]一种半监督分类方法及系统在审
申请号: | 201510922380.9 | 申请日: | 2015-12-14 |
公开(公告)号: | CN105426923A | 公开(公告)日: | 2016-03-23 |
发明(设计)人: | 杨焘;付冬梅 | 申请(专利权)人: | 北京科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京市广友专利事务所有限责任公司 11237 | 代理人: | 张仲波 |
地址: | 100083*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 监督 分类 方法 系统 | ||
技术领域
本发明涉及机器学习技术领域,特别是指一种半监督分类方法及系统。
背景技术
数据分类是机器学习的基本任务,是图像视觉分析、文本分析、语音识别、生物信号识别等领域的基础工作。数据分类,可分为两大类,即监督分类与半监督分类:监督分类是数据样本全部具有标号,半监督分类是部分数据样本具有标号,部分数据样本不具有标号。在实际中,无标号的数据比带标号的数据多得多,因此,从可应用的信息量角度可以看出,半监督分类在现实应用中有很强的需求。
目前,核学习,即基于核函数的学习方法,由于其对非线性问题的适应能力强的特点,核学习在机器学习的各个方面都有广泛地应用;然而,传统核学习是基于单个核函数的,对复杂的数据集合而言,对其特征的描述能力有限,且随着多源非结构化数据和多角度信息的出现,单一核函数对数据特征的描述与映射能力均有限。因此,多核学习被提出,多核学习是指将多个单一的核函数进行线性组合,而每个核函数能够对数据的特定的属性进行描述,以综合性地反映以及描述数据的特征,同时理论基础提供了多核函数的映射空间,即再生核希尔伯特空间,能够体系化地表征出映射之后的数据特征,从而有效地利用特征建立分类模型。
多核函数方法,在分类中表现出了泛化能力好,适应的数据集合广泛的特点;然而,就需求性更强的半监督分类领域而言,多核函数方法不能够直接利用无标号数据进行分类。
发明内容
本发明要解决的技术问题是提供一种半监督分类方法及系统,以解决现有技术所存在的多核函数分类方法不能够直接利用无标号数据进行分类的问题。
为解决上述技术问题,本发明实施例提供一种半监督分类方法,包括:
获取数据样本,确定表征所述数据样本流形结构的拉普拉斯矩阵,所述数据样本包括:带标号数据样本和无标号数据样本;
基于所述数据样本,得到表征多核函数组合的映射空间下的数据样本特征的多核组合矩阵;
根据所述拉普拉斯矩阵和多核组合矩阵,建立半监督分类函数,为所述无标号的数据样本进行标号。
进一步地,所述获取数据样本,确定表征所述数据样本流形结构的拉普拉斯矩阵包括:
获取每一个数据样本的邻域范围,得到基于全体数据样本的图模型,所述图模型用于反映所述数据样本的空间结构;
确定各邻域范围内各个数据样本之间的权值,该权值度量两两数据样本之间的近邻程度,得到所述图模型的权值矩阵;
根据所述权值矩阵得到表征所述数据样本流形结构的拉普拉斯矩阵。
进一步地,所述基于所述数据样本,得到表征多核函数组合的映射空间下的数据样本特征的多核组合矩阵包括:
给定M个核函数,将各核函数作用于获取到的数据样本,得到每个核函数的映射空间,并通过M个核矩阵来表征每个映射空间下的数据样本特征,m=1,2,…,M依次取值;
对M个核矩阵的权值进行初始化;
对M个核矩阵进行权值为d的线性组合,得到多核组合矩阵K,
其中,d表示核组合权值,dm表示第m个核矩阵Km的权值。
进一步地,所述权值d中的元素dm满足dm≥0和||d||1=1,其中,
进一步地,所述根据所述拉普拉斯矩阵和多核组合矩阵,建立半监督分类函数包括:
根据所述拉普拉斯矩阵和多核组合矩阵,建立最优化数学表达式P,所述最优化数学表达式P为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京科技大学,未经北京科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510922380.9/2.html,转载请声明来源钻瓜专利网。