[发明专利]一种基于机器学习的客户价值模型优化方法在审
申请号: | 201710807555.0 | 申请日: | 2017-09-08 |
公开(公告)号: | CN107609700A | 公开(公告)日: | 2018-01-19 |
发明(设计)人: | 李星龙;李伟;汤紫瑜 | 申请(专利权)人: | 欧若纳信息科技(苏州)有限公司 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06Q30/02;G06N99/00 |
代理公司: | 苏州唯亚智冠知识产权代理有限公司32289 | 代理人: | 马尚伟 |
地址: | 215000 江苏省苏州市工业园区金*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 客户 价值 模型 优化 方法 | ||
技术领域
本发明涉及一种交易数据的处理方法,尤其涉及一种基于机器学习的客户价值模型优化方法。
背景技术
目前,传统的模型优化方式,是采用实验对比进行验证。针对目标识别类模型,根据需要优化模型应用场景,选择对比数据,数据中包含一部分目标数据和其他干扰数据。将测试数据导入模型运行,查看模型输出结果中目标数据的识别数量,进行模型效果判断。模型效果判断主要通过,目标数据的查全率和查准率,两个指标进行衡量:
查全率,是指模型运算结果中,包含目标数据样本个数,占检测数据中目标数据样本的百分比。
查准率,是指模型运算结果中,包含目标数据样本个数,占全部模型识别样本个数的百分比。
针对指标预测类模型,同样选择历史数据导入模型,根据模型运算结果与实际数据进行比较,计算误差范围,若误差范围符合模型精度设计要求,则模型不需要优化;若误差范围超过模型精度要求,则需要进行模型优化。
同样目前行业应用模型的优化过程,基本上同模型新建过程一致,需要重新进行模型输入数据进行关联分析,导入新的数据字段替换原有数据信息。模型算法方面,则是根据优化当时,整体社会基础算法研究现状,选择更好的算法替代原有算法。
通过上述对目前行业模型优化的说明,可以看出,现有模型优化的方式比较传统,耗费人力、时间成本较高,效率较低。同时现有行业应用模型优化,必须在实验条件下才能完成,无法自动在真实运行环境下进行实时优化,耽误实际商业应用,如果模型应用是某些企业的核心机制,模型优化过程,也会给企业带来较大的利益损失。因此,也实际造成多数企业,不愿花费如此高的代价进行模型优化,仍沿用老旧模型,同样也影响了模型实际效果。
发明内容
为解决上述技术问题,本发明的目的是提供一种基于机器学习的客户价值模型优化方法,该客户价值模型优化方法能够降低人力、时间成本,提高数据优化效率,同时也保证模型应用的效果,提高使用效益。
本发明的一种基于机器学习的客户价值模型优化方法,其特点在于,该方法包括如下的步骤:
步骤1:通过随机采样法提取N个客户主体不同时期的客户价值模型数据,得到初始模型数据样本Si(i=1、2、3...N);
步骤2:对各个初始模型数据样本Si(i=1、2、3...n)分别使用bagging机器学习方法,相对应地训练出N个独立的个体弱学习器Hi(i=1、2、3...N);
步骤3:通过stacking结合策略将步骤2中所述的个体弱学习器Hi(i=1、2、3...N)结合成一个强学习器H;
步骤4:将步骤3得到的强学习器H作为最优模型规则,并将当前客户价值模型数据样本输入到强学习器H,强学习器H得出的结果为最优结果模型。
进一步的,步骤1中的随机采样法为自助采样法(Bootstap sampling),即对于N个样本的原始训练集,每次先随机采集一个样本放入采样集,接着把该样本放回,这样采集N次,直到得到N个样本的采样集为止。
进一步的,步骤3中的stacking结合策略包括如下的步骤:
先从客户价值模型数据集中随机抽取45%-55%数据样本作为训练集,同时从客户价值模型数据集中随机抽取20%-30%数据样本作为测试集;
再训练一个次级学习器,在训练次级学习器的过程中将各个体弱学习器Hi(i=1、2、3...N)的学习结果作为次级学习器的输入,将训练集的结果作为次级学习器的输出;
最后用初级学习器对测试集预测一次,得到次级学习器的输入样本,再用次级学习器对测试集预测一次得到预测样本,同时对输入样本和预测样本之间的数据关联匹配关系的不断训练,达到最优输出结果下的最佳模型输入以及过程参数取值范围,从而得到强学习器H。
进一步的,所述的数据关联匹配关系包括客户价值模型输入数据、过程参数、和输出结果三者之间的关联匹配关系,所述的过程参数为客户价值模型数据中各指标的权重或者划分客户类别指标的取值范围,所述的输出结果为客户的价值标签或客户细分规则。
进一步的,所述的客户价值模型数据包括指标体系中的数据字段、指标权重、模型算法和模型结果。
进一步的,从客户价值模型数据集中随机抽取50%数据样本作为训练集,同时从客户价值模型数据集中随机抽取25%数据样本作为测试集。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于欧若纳信息科技(苏州)有限公司,未经欧若纳信息科技(苏州)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710807555.0/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理