[发明专利]基于无偏正样本学习算法PU_AUL的样本分类方法和装置在审

申请号：	202110387269.X	申请日：	2021-04-08
公开（公告）号：	CN112990347A	公开（公告）日：	2021-06-18
发明（设计）人：	李丹;黄尚川	申请（专利权）人：	清华大学
主分类号：	G06K9/62	分类号：	G06K9/62;G06N3/08
代理公司：	北京清亦华知识产权代理事务所(普通合伙) 11201	代理人：	王萌
地址：	10008***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于偏正样本学习算法 pu_aul 分类方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于无偏正样本学习算法PU_AUL的样本分类方法，其特征在于，包括以下步骤：

获取标签样本集，所述标签样本集包括多个待预测样本；

根据预设的分类模型，对所述多个待预测样本进行评分，以获取所述待预测样本对应的评价结果；

根据所述待预测样本的评价结果和分类阈值确定所述待预测样本的样本类型，所述样本类型包括正样本和负样本。

2.如权利要求1所述的方法，其特征在于，所述待预测样本的评价结果包括所述待预测样本的评分，所述根据所述待预测样本的评价结果和分类阈值确定所述待预测样本的样本类型，包括：

对所述待预测样本的评分与所述分类阈值进行比较，当所述评分小于所述分类阈值时，确定所述待预测样本为负样本，当所述评分大于等于所述分类阈值时，确定所述待预测样本为正样本。

3.如权利要求1或2所述的方法，其特征在于，在所述根据预设的分类模型，对所述多个待预测样本进行评分之前，还包括：

训练所述分类模型；

所述训练所述分类模型包括：

获取训练数据集，所述训练数据集为正样本-无标签样本数据集；

将所述训练数据集输入所述PU_AUL算法，输出最优的所述二分类模型，完成训练，其中，所述PU_AUL算法使用最小化结构化风险函数来获得所述二分类模型。

4.如权利要求3所述的方法，其特征在于，所述最小化结构化风险函数表示为：

其中，g为选定地模型形式，Ω(g)为正则函数，l为损失函数，λ为合适的超参数，所述训练数据集为D，D＝{x₁,y₁,x₂,y₂,...x_n,y_n}，x_i,y_i代表第i条样本，x_i∈R^d为d维样本特征，y_i∈{0,1}为对应的样本标签，1代表有标签样本，0代表无标签样本，为标签为1的样本的特征组成的集合，X^U＝{x₁,x₂,...x_n}为标签为0的样本的特征组成的集合，集合的大小分别为n^L和n^U。

5.如权利要求4所述的方法，其特征在于，在所述选定地模型形式为线性模型g(x)＝w^Tφ(x)，其中φ(x)为基函数映射后的b维特征向量，所述正则函数为L₂正则Ω(g)＝w^Tw，所述损失函数为平方损失函数l(x)＝(1-x)²时，可得所述二分类模型的参数最优解w^*为：

w^*＝(A+λI_b)^-1B

其中，

6.一种计算机设备，其特征在于，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实现如权利要求1-5中任一所述的方法。

7.一种非临时性计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-5中任一所述的方法。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于清华大学，未经清华大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110387269.X/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06K 数据识别；数据表示；记录载体；记录载体的处理
G06K9-00 用于阅读或识别印刷或书写字符或者用于识别图形，例如，指纹的方法或装置
G06K9-03 .错误的检测或校正，例如，用重复扫描图形的方法
G06K9-18 .应用具有附加代码标记或含有代码标记的打印字符的，例如，由不同形状的各个笔画组成的，而且每个笔画表示不同的代码值的字符
G06K9-20 .图像捕获
G06K9-36 .图像预处理，即无须判定关于图像的同一性而进行的图像信息处理
G06K9-60 .图像捕获和多种预处理作用的组合

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于无偏正样本学习算法PU_AUL的样本分类方法和装置在审

专利文献下载