[发明专利]基于无偏正样本学习算法PU_AUL的样本分类方法和装置在审
申请号: | 202110387269.X | 申请日: | 2021-04-08 |
公开(公告)号: | CN112990347A | 公开(公告)日: | 2021-06-18 |
发明(设计)人: | 李丹;黄尚川 | 申请(专利权)人: | 清华大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/08 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 王萌 |
地址: | 10008*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 偏正 样本 学习 算法 pu_aul 分类 方法 装置 | ||
1.一种基于无偏正样本学习算法PU_AUL的样本分类方法,其特征在于,包括以下步骤:
获取标签样本集,所述标签样本集包括多个待预测样本;
根据预设的分类模型,对所述多个待预测样本进行评分,以获取所述待预测样本对应的评价结果;
根据所述待预测样本的评价结果和分类阈值确定所述待预测样本的样本类型,所述样本类型包括正样本和负样本。
2.如权利要求1所述的方法,其特征在于,所述待预测样本的评价结果包括所述待预测样本的评分,所述根据所述待预测样本的评价结果和分类阈值确定所述待预测样本的样本类型,包括:
对所述待预测样本的评分与所述分类阈值进行比较,当所述评分小于所述分类阈值时,确定所述待预测样本为负样本,当所述评分大于等于所述分类阈值时,确定所述待预测样本为正样本。
3.如权利要求1或2所述的方法,其特征在于,在所述根据预设的分类模型,对所述多个待预测样本进行评分之前,还包括:
训练所述分类模型;
所述训练所述分类模型包括:
获取训练数据集,所述训练数据集为正样本-无标签样本数据集;
将所述训练数据集输入所述PU_AUL算法,输出最优的所述二分类模型,完成训练,其中,所述PU_AUL算法使用最小化结构化风险函数来获得所述二分类模型。
4.如权利要求3所述的方法,其特征在于,所述最小化结构化风险函数表示为:
其中,g为选定地模型形式,Ω(g)为正则函数,l为损失函数,λ为合适的超参数,所述训练数据集为D,D={x1,y1,x2,y2,...xn,yn},xi,yi代表第i条样本,xi∈Rd为d维样本特征,yi∈{0,1}为对应的样本标签,1代表有标签样本,0代表无标签样本,为标签为1的样本的特征组成的集合,XU={x1,x2,...xn}为标签为0的样本的特征组成的集合,集合的大小分别为nL和nU。
5.如权利要求4所述的方法,其特征在于,在所述选定地模型形式为线性模型g(x)=wTφ(x),其中φ(x)为基函数映射后的b维特征向量,所述正则函数为L2正则Ω(g)=wTw,所述损失函数为平方损失函数l(x)=(1-x)2时,可得所述二分类模型的参数最优解w*为:
w*=(A+λIb)-1B
其中,
6.一种计算机设备,其特征在于,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-5中任一所述的方法。
7.一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110387269.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于流动商户的信息交互系统
- 下一篇:一种3D打印机用新型打印头