[发明专利]评估指标获取方法及装置在审
申请号: | 201610082141.1 | 申请日: | 2016-02-05 |
公开(公告)号: | CN107045506A | 公开(公告)日: | 2017-08-15 |
发明(设计)人: | 姜晓燕;王少萌;杨旭;蔡宁 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京市惠诚律师事务所11353 | 代理人: | 刘子敬 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 评估 指标 获取 方法 装置 | ||
技术领域
本发明属于数据处理领域,尤其涉及一种评估指标获取方法及装置。
背景技术
在大数据挖掘的业务场景中,经常需要针对超大规模的数据使用分类算法进行训练分类。当前分类算法有很多,而且不同的分类算法又用很多不同的变种。当根据分类算法建立一个分类模型之后,会考虑该分类模型的性能或准确率,因此需要对该分类模型的优良情况进行评估。目前,二分类算法模型的评估指标包括:混淆矩阵、受试者工作特征曲线(receiver operating characteristic curve,简称ROC)图、ROC图中的曲线下的面积(Area Under RocCurve,简称AUC)值与提升(Lift)图等指标。
现有的对二分类算法对应的分类模型的评估方法或者系统中,在获取评估指标的过程中,每当输入一个阈值点时,在计算与该阈值点对应的评估参数时,就需要对分类模型的输出数据进行一次扫描。经过大量阈值点的输入,然后获取到该分类模型的评估指标。对大规模数据来说,通过多次扫描分类模型的输出数据,获取该分类模型评估指标的方式存在计算效率较低的问题。
发明内容
本发明提供一种评估指标获取方法及装置,用于解决通过多次扫描分类模型的输出数据来获取评估指标的方式存在计算效率较低的问题。
为了实现上述目的,本发明提供了一种评估指标获取方法,包括:
将样本输入分类模型进行分类训练,获取分类模型的输出数据;
对所述输出数据进行概率分布统计获取概率统计结果;其中,所述概率统计结果包括概率区间以及每个概率区间内实际正样本数量和实际负样本数量;
根据阈值集和所述概率统计结果计算所述分类模型的评估指标。
为了实现上述目的,本发明提供了一种评估指标获取装置,包括:
分类训练模块,用于将样本输入分类模型进行分类训练,获取分类模型的输出数据;
概率统计模块,用于对所述输出数据进行概率分布统计获取概率统计结果;其中,所述概率统计结果包括概率区间以及每个概率区间内实际正样本数量和实际负样本数量;
计算模块,用于根据阈值集和所述概率统计结果计算所述分类模型的评估指标。
本发明提供的评估指标获取方法及装置,通过对分类模型的输出数据进行概率统计,基于得到的包括概率区间以及对应的实际正样本和实际负样本数量的概率统计结果对评估指标进行计算,解决了在评估指标的计算过程中多次扫描输出数据的问题,尤其在输出数据为大规模数据时可以提高评估指标的计算效率。
附图说明
图1为本发明实施例一的评估指标获取方法的流程示意图;
图2为本发明实施例二的评估指标获取方法的流程示意图;
图3为本发明实施例二的评估指标获取方法的应用示例示意图之一;
图4为本发明实施例二的评估指标获取方法的应用示例示意图之二;
图5为本发明实施例三的评估指标获取装置的结构示意图;
图6为本发明实施例四的评估指标获取装置的结构示意图。
具体实施方式
下面结合附图对本发明实施例提供的评估指标获取方法及装置进行详细描述。
实施例一
如图1所示,其为本发明实施例一的评估指标获取方法的流程示意图。该评估指标获取方法包括以下步骤:
S101、将样本输入分类模型进行分类训练,获取分类模型的输出数据。
二分类算法对应的分类模型将样本分成正样本或者负样本。在分类模型中往往将正样本用“1”表示,将负样本用“0”表示。其中,输入分类模型的每个样本都有一个原始的样本属性。本实施例中,样本属性包括正样本属性和负样本属性。原始的样本属性表示样本实际是正样本还是负样本。
为了对分类模型进行评估,需要将样本输入分类模型中进行分类训练,在训练完成后,分类模型会对每个样本进行分类和概率预测。具体地,分类模型在训练完成后为每个样本输出训练后的样本属性,训练后的样本属性可以指示出样本经过分类模型后是正样本还是负样本。
进一步地,分类模型在训练完成后还会为每个样本进行概率预测,用户可以根据实际需要选择输出每个样本经过分类模型预测成正样本的概率,或者选择输出每个样本经过分类模型预测成负样本的概率。其中,样本经过分类模型被预测成正样本的概率和被预测成负样本的概率的和为1。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610082141.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于查询的方法和装置
- 下一篇:网页爬取方法及装置