[发明专利]正样本学习模型评估方法及装置在审
申请号: | 202010143387.1 | 申请日: | 2020-03-04 |
公开(公告)号: | CN111488994A | 公开(公告)日: | 2020-08-04 |
发明(设计)人: | 李丹;蒋藜薇;王启圣 | 申请(专利权)人: | 清华大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00 |
代理公司: | 北京路浩知识产权代理有限公司 11002 | 代理人: | 杨明月 |
地址: | 100084 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 样本 学习 模型 评估 方法 装置 | ||
本发明实施例提供一种正样本学习模型评估方法及装置,所述方法包括:利用待评估模型对PU测试集进行打分,获取打分结果;其中,所述打分结果为所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率;所述PU测试集包含有观察到正样本和收集到的无标签样本;根据待评估模型对PU测试集的打分结果,确定所述PU测试集的AUL值。本发明实施例在难以获取完全标注的测试集或者难以获取较多无标签样本的先验知识的条件下,能够对正样本学习模型进行评估,解决正样本学习下模型评估的困难。
技术领域
本发明涉及机器学习技术领域,尤其涉及一种正样本学习模型评估方法及装置。
背景技术
随着各行业对数据分析需求的持续增加,通过机器学习高效地获取知识,已逐渐成为当今机器学习技术发展的主要推动力,其中正样本学习是一种只使用正样本和无标签样本来训练二分类器的学习方法,它被广泛应用在很多领域:如信用卡欺诈,网络运维和购物推荐等。在机器学习任务中,模型评估起着非常重要的作用,因为它可以表征模型训练的效果且可以在许多候选模型中挑选一个最佳的模型。在正样本学习场景下,一份完全标注的正负样本数据集通常是难以获得的,这造成常用的模型评估指标(如模型评估指标AUC)都难以应用在正样本学习场景中。
现有的正样本学习研究中的模型评估方式,要么使用一份全标注的数据集,要么需要获得无标签样本中类别比例的先验知识,这在正样本学习场景中是很难获得的。
因此,如何提出一种方法,在难以获取完全标注的测试集或者难以获取较多无标签样本的先验知识的条件下,能够对正样本学习模型进行评估,成为亟待解决的问题。
发明内容
针对现有技术中的缺陷,本发明实施例提供一种正样本学习模型评估方法及装置。
第一方面,本发明实施例提供一种正样本学习模型评估方法,包括:
利用待评估模型对PU测试集进行打分,获取打分结果;其中,所述打分结果为所述PU测试集中每个样本被所述待评估模型判断成正样本的条件概率;所述PU测试集包含有观察到正样本和收集到的无标签样本;
根据待评估模型对PU测试集的打分结果,确定所述PU测试集的AUL值。
优选地,还包括:利用所述PU测试集的AUL值对所述待评估模型进行评估。
优选地,所述根据待评估模型对PU测试集的打分结果,确定所述PU测试集的AUL值,具体包括:
根据待评估模型对PU测试集的打分结果,以及,判断阈值,确定所述PU测试集中观察到正样本被预测为正的第一样本数量;
以所述判断阈值为自变量,建立所述第一样本数量与所述判断阈值之间的第一函数关系;
根据所述第一函数关系和所述PU测试集的召回率模型,确定召回率与判断阈值的第二函数关系;其中,所述PU测试集的召回率模型为:召回率=第一样本数量/观察到正样本的数量;
根据所述第二函数关系,将召回率在判断阈值位于区间[0,1]上的积分,作为所述PU测试集的AUL值。
优选地,所述根据待评估模型对PU测试集的打分结果,以及,判断阈值,确定所述PU测试集中观察到正样本被预测为正的第一样本数量,具体包括:
根据待评估模型对PU测试集的打分结果,以及,判断阈值,将打分结果大于或等于判断阈值的样本预测为正,将打分结果小于判断阈值的样本预测为负;
确定所述PU测试集中观察到正样本被预测为正的第一样本数量。
第二方面,本发明实施例提供一种正样本学习模型评估装置,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010143387.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种基于旋转且砸压的磨浆设备
- 下一篇:一种球等鞭金藻的扩繁方法