[发明专利]一种金融电销场景中对负样本做消减的采样方法在审
申请号: | 202011393908.5 | 申请日: | 2020-12-03 |
公开(公告)号: | CN112463781A | 公开(公告)日: | 2021-03-09 |
发明(设计)人: | 田兴邦;何国涛;蒲瑶;李全忠 | 申请(专利权)人: | 普强时代(珠海横琴)信息技术有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/28;G06Q40/00;G06Q10/06 |
代理公司: | 北京科亿知识产权代理事务所(普通合伙) 11350 | 代理人: | 汤东凤 |
地址: | 100000 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 金融 场景 样本 消减 采样 方法 | ||
1.一种金融电销场景中对负样本做消减的采样方法,其特征在于,具体步骤如下:
第一步、从金融场景营销的数据获取客户结构化维度,将数据分为三个子集,分别占全量比为80%(A),10%(V),10%(T);
第二步、对A数据子集的正例集做聚类,例如使用K-Means或OPTICS等聚类法,对数据集的单一一个维度做聚类;
第三步、计算在所有类边界外的V数据子集和T数据子集所有的正例个数和负例个数;
第四步、计算V数据子集的正反例个数比:V_r;T数据子集的正反例个数比:T_r;并计算D_r=|T_r-V_r|;
第五步:将T数据子集所有边界外的正/反例记录为S_w;
第六步:对每一维度值为数字的重复上面的计算,累记每一维度的边界;
第七步:将所有S_w联集为S_all,计算S_all中的正例个数,反例个数;
第八步:假设原本分类器对T数据子集的AUC值为auc,计算新的AUC值AUC_new。
2.根据权利要求1所述的一种金融电销场景中对负样本做消减的采样方法,其特征在于:
所述新的AUC值的计算步骤如下:
设定T数据子集的样例数为t,其中正例个数为T_p,反例个数为T_n,设定S_all中的正例个数为p,反例个数为n,以及
x=p/T_p
y=n/T_n
所有p的正例与反例配对得分为0,即被视为错误分类—(1)
所有n的反例与正例配对得分为1,即被视为正确分类—(2)
上面的AUC计算可以拆解为:
AUC_new=S((T_p*(1-x)+x*T_p)*(T_n*(1-y)+y*T_n))/(T_p*T_n)
套入(1)和(2),和简化后
AUC_new=(1-x)*(1-y)*AUC+(1-x)*y+0.5*x*y。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于普强时代(珠海横琴)信息技术有限公司,未经普强时代(珠海横琴)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011393908.5/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可调式发动机
- 下一篇:一种用于逆流提取设备的送料螺旋及加工方法