[发明专利]评估指标获取方法及装置在审
申请号: | 201610082141.1 | 申请日: | 2016-02-05 |
公开(公告)号: | CN107045506A | 公开(公告)日: | 2017-08-15 |
发明(设计)人: | 姜晓燕;王少萌;杨旭;蔡宁 | 申请(专利权)人: | 阿里巴巴集团控股有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06K9/62 |
代理公司: | 北京市惠诚律师事务所11353 | 代理人: | 刘子敬 |
地址: | 英属开曼群岛大开*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 评估 指标 获取 方法 装置 | ||
1.一种评估指标获取方法,其特征在于,包括:
将样本输入分类模型进行分类训练,获取分类模型的输出数据;
对所述输出数据进行概率分布统计获取概率统计结果;其中,所述概率统计结果包括概率区间以及每个概率区间内实际正样本数量和实际负样本数量;
根据阈值集和所述概率统计结果计算所述分类模型的评估指标。
2.根据权利要求1所述的评估指标获取方法,其特征在于,所述对所述输出数据进行概率分布统计获取概率统计结果,包括:
基于直方图算法对所述输出数据进行概率区间划分,统计每个概率区间内所述实际正样本数量和所述实际负样本数量。
3.根据权利要求2所述的评估指标获取方法,其特征在于,所述输出数据包括:每个样本原始的样本属性以及每个样本被所述分类模型预测成正样本的预测概率;其中,样本属性包括正样本属性和负样本属性。
4.根据权利要求3所述的评估指标获取方法,其特征在于,所述基于直方图算法对所述输出数据进行概率区间划分,统计每个概率区间内所述实际正样本数量和所述实际负样本数量,包括:
扫描所述输出数据;
根据每个样本被预测成正样本的预测概率和所述输出数据中每个样本原始的样本属性生成正样本对应的第一直方图和负样本对应的第二直方图;其中,所述第一直方图的横轴是预测概率,所述第一直方图的纵轴是实际正样本数量;所述第二直方图的横轴是预测概率,所述第二直方图的纵轴是实际负样本数量;
调整横轴步长使所述第一直方图和所述第二直方图的概率区间一致,以获取所述概率统计结果中的所述概率区间;
统计所述第一直方图中每个概率区间内所述实际正样本的数量;
统计所述第二直方图中每个概率区间内所述实际负样本的数量。
5.根据权利要求4所述的评估指标获取方法,其特征在于,所述根据阈值集和所述概率统计结果计算所述分类模型的评估指标,包括:
将每个概率区间的端点值作为阈值点构成所述阈值集;
按照由大到小的顺序获取所述阈值集中每个阈值点对应的混淆矩阵,其中,所述混淆矩阵包括实际为正样本被预测为正样本的数量TP、实际为正样本被预测为负样本的数量FP、实际为负样本被预测为负样本的数量TN、实际为负样本被预测为正样本的数量FN;
将每个阈值点对应的混淆矩阵作为评估指标。
6.根据权利要求4所述的评估指标获取方法,其特征在于,所述根据阈值集和所述概率统计结果计算所述分类模型的评估指标,包括:
接收用户输入的根据概率区间的端点值构成的所述阈值集;
按照由大到小的顺序获取所述阈值集中每个阈值点对应的混淆矩阵,其中,所述混淆矩阵包括:TP、FP、TN和FN;
将每个阈值点对应的混淆矩阵作为所述评估指标。
7.根据权利要求5或6所述的评估指标获取方法,其特征在于,所述按照由大到小的顺序获取所述阈值集中每个阈值点对应的混淆矩阵,包括:
对于所述第一直方图,按照阈值点的大小顺序逐次对大于阈值点的所有概率区间内实际正样本数量进行累积得到所述TP,以及对小于阈值点的所有概率区间内实际正样本数量进行累积得到所述FN;
对于所述第二直方图,按照阈值点的大小顺序逐次对大于阈值点的所有概率区间内负样本数量进行累积得到所述FP,以及对小于阈值点的所有概率区间内负样本数量进行累积得到所述TN。
8.根据权利要求7所述的评估指标获取方法,其特征在于,所述按照由大到小的顺序获取所述阈值集中每个阈值点对应的混淆矩阵之后,还包括:
针对每个阈值点,将所述FP与实际负样本总量的比值作为所述ROC的横坐标;
将所述TP与实际正样本总量的比值作为所述ROC的纵坐标;
利用所有阈值点对应的ROC坐标绘制所述分类模型的评估指标ROC曲线。
9.根据权利要求8所述的评估指标获取方法,其特征在于,所述利用所有阈值点对应的ROC坐标绘制所述分类模型的评估指标ROC曲线之后,还包括:
获取每个由相邻阈值点对应的ROC坐标与所述ROC曲线构成的曲边梯形的面积;
将所有曲边梯形的面积相加得到所述ROC曲线对应的AUC值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴集团控股有限公司,未经阿里巴巴集团控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201610082141.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种用于查询的方法和装置
- 下一篇:网页爬取方法及装置