[发明专利]一种基于图的半监督分类机器学习新方法在审
申请号: | 201810437033.0 | 申请日: | 2018-05-09 |
公开(公告)号: | CN108596272A | 公开(公告)日: | 2018-09-28 |
发明(设计)人: | 刘建峰 | 申请(专利权)人: | 重庆三峡学院 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N99/00 |
代理公司: | 重庆晶智汇知识产权代理事务所(普通合伙) 50229 | 代理人: | 李靖 |
地址: | 404100 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 预处理 样本标记 半监督 半监督学习 无监督学习 训练样本集 分类机器 难度降低 数据样本 训练样本 样本分类 训练集 分类 学习 监督 | ||
本发明提出了一种基于图的半监督分类新方法,给出了包括步骤S001到步骤S005在内的样本分类方法;并提供了包括步骤D000、D001、D002在内的主动样本标记方法,对训练样本集进行预处理,综合了监督学习和无监督学习优点,具有训练样本准备简单,训练精度高的优点;相较于一般的半监督学习方法,本文提出的在训练集预处理主动样本标记方法和基于图的分类方法使得训练精度更高,对数据样本的标记难度降低。
技术领域
本发明涉及一种机器学习方法,具体涉及一种基于图的半监督分类机器学习方法。
背景技术
在机器学习中学习问题分为三类:监督学习、半监督学习以及无监督学习;现实的数据中获得样本的类标签是一件耗时费力的事情,而标签样本将提高分类器的分类能力。基于图的方法是一种重要的、有效的半监督学习方法,而现有的半监督学习方法分类正确率和标准误差两项评价指标性能较差。
发明内容
本发明的目的在于提供一种基于图的半监督分类机器学习新方法,使得分类器在分类正确率和标准误差两项指标性能上得到提高。
为实现上述目的,本发明提供了一种基于图的半监督分类机器学习新方法,主要包括如下步骤:
步骤一:划分训练集;训练集X=L∪U={x1,…xl,xl+1,…xl+u},L={x1,…xl}是少量有标签样本,U={xl+1,…xl+u}为大量无标签样本;标记样本占比
步骤二:构造非对称稀疏权重矩阵;构造图G=(V,E),V表示每个样本点,E代表样本点之间的边,边e∈E由w(e)确定,w(e)=wij,wij表示样本点xi和xj之间的相似性;
根据线性性和稀疏性,给定一个样本xi,当所有基向量与xi来自同一类时,可以获得该样本的稀疏表达。Tk表示除xk之外的列样本矩阵.表示稀疏分解系数。其中Tk=[x1,…,xk-1,xk+1,…,xn],
非对称权重矩阵为:
步骤三:求解非对称权重矩阵;给定一个样本xi,通过以下优化问题求解去权重系数:
从而转化为优化如下问题:
min||q||1s.t.Pq=xk,qi≥0,i=1,2,…,k-1,k+1,…,n
其中P=[Gk Id]∈Rd×(d+n-1),q=[a e]T,可以通过线性规划问题求解,结果为:
wii=0,
所述权重矩阵为非对称矩阵;
步骤四:定义目标函数;采用损失函数和正则项组成的目标函数,表达式如下:
其中C是损失函数,||f||2是PKHS空间的惩罚项,表示数据内部流行特征,式中f=[f(x1),f(x2),…,f(xl+u)],优化上述问题可得:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆三峡学院,未经重庆三峡学院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810437033.0/2.html,转载请声明来源钻瓜专利网。