[发明专利]一种构建变量的方法及装置在审
申请号: | 201811094150.8 | 申请日: | 2018-09-19 |
公开(公告)号: | CN109376180A | 公开(公告)日: | 2019-02-22 |
发明(设计)人: | 王越;曾伟雄;刘晓东 | 申请(专利权)人: | 蜜小蜂智慧(北京)科技有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 黄志华 |
地址: | 100082 北京市西城*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 固定时间段 构建 建模 字段 自变量 数据存储器 方案解决 机器性能 建立模型 数据来源 无量纲 人群 | ||
本发明公开了一种构建变量的方法及装置,该方法包括获取建模所需的特定字段和固定时间段,针对每个特定字段,确定任意一人在固定时间段内的明细变量,对明细变量进行汇总,将汇总后的明细变量进行无量纲化,确定建模所需的变量。该技术方案解决在大量人群自变量的批量计算时,对机器性能要求高,以及数据存储器的数据来源发生明显增减时导致建立模型不稳定甚至失效的问题。
技术领域
本发明实施例涉及大数据科学领域,尤其涉及一种构建变量的方法及装置。
背景技术
在大数据科学领域,常用设定人群的明细数据来直接作为自变量,如账龄、消费金额等。这种情况下,进行大量人群自变量的批量计算时,对每个人均要全量读取其明细信息,此种处理对机器性能有较高要求;同时,当数据存储方的数据来源发生明显增减时,用明细变量计算的客户自变量会有明显波动,进而引起设定人群此时计算的自变量所处区间与当初建模变量划分区间不一致,导致所建立模型不稳定甚至失效。
发明内容
本发明实施例提供一种构建变量的方法及装置,用以解决在大量人群自变量的批量计算时,对机器性能要求高,以及数据存储器的数据来源发生明显增减时导致建立模型不稳定甚至失效的问题。
本发明实施例提供的一种构建变量的方法,包括:
获取建模所需的特定字段和固定时间段;
针对每个所述特定字段,确定任意一人在所述固定时间段内的明细变量,对所述明细变量进行汇总;
将汇总后的明细变量进行无量纲化,确定所述建模所需的变量。
上述实施例中,获取固定时间段内任意一人对于特定字段的明细变量,汇总该明细变量,并对该汇总后明细变量进行无量纲化,降低了在处理过程中对处理机器的要求,同时采用无量纲化,又可以增加建立模型的稳定性。
可选的,所述固定时间段为时间长度大于一周且小于两个月的任意时间段。
上述实施例中,固定时间段可以为时间长度大于一周且小于两个月的任意时间段,对每个时段的明细变量进行汇总,减少了数据存储压力,同时减少了长时间区间变量的叠加因素对变量计算的绝对影响。
可选的,所述特定字段为下述任一字段或组合:
账龄、消费金额、信用卡出帐总金额。
可选的,所述将汇总后的明细变量进行无量纲化,包括:
将汇总后的明细变量进行离差标准化;或将汇总后的明细变量进行标准差标准化;或将汇总后的明细变量进行序数无量纲化。
上述实施例中,通过无量纲化计算每个人在固定时间的无量纲变量,能够更加综合地评价个人在变量中的表现,减少了变量的绝对变化导致的建立模型的不稳定性。
可选的,所述将汇总后的明细变量进行序数无量纲化,包括:
根据所述汇总后的明细变量,确定所述汇总后的每个明细变量的序数;
将所述汇总后的每个明细变量的序数除以总样本数。
上述实施例中,通过对汇总后的明细变量进行序数无量纲化,可以将原始变量变为0-1的变量,提高了建立模型的稳定性。
相应的,本发明实施例还提供了一种构建变量的装置,包括:
获取单元,用于获取建模所需的特定字段和固定时间段;
处理单元,用于针对每个所述特定字段,确定任意一人在所述固定时间段内的明细变量,对所述明细变量进行汇总;并将汇总后的明细变量进行无量纲化,确定所述建模所需的变量。
可选的,所述固定时间段为时间长度大于一周且小于两个月的任意时间段。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于蜜小蜂智慧(北京)科技有限公司,未经蜜小蜂智慧(北京)科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811094150.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种数据挖掘中样本平衡化方法
- 下一篇:一种数据挖掘方法及相关设备