[发明专利]一种多模型融合的烟草市场监管异常数据挖掘方法有效
申请号: | 201911345566.7 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111199343B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 李天举;谢志峰;丁友东 | 申请(专利权)人: | 上海大学 |
主分类号: | G06Q10/0631 | 分类号: | G06Q10/0631;G06Q50/04;G06Q50/26;G06F18/214;G06N20/20 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 陆聪明 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 融合 烟草 市场监管 异常 数据 挖掘 方法 | ||
1.一种多模型融合的烟草市场监管异常数据挖掘方法,其特征在于,具体操作步骤如下:
(1)烟草市场监管数据集预处理:将数据处理成静态特征指标与动态特征指标,同时对类别特征使用one-hot编码,统一成数值型数据;
(2)模型训练:分别采用机器学习算法XGBoost、LightGBM和深度神经网络xDeepFM对数据集进行有监督的学习训练;
(3)多模型融合训练:使用Stacking集成学习的方式将多个模型进行融合训练,同时加入AdaBoost算法、RF算法、ETR算法和LR算法,加强各模型间算法的差异性,同时弱学习器LR算法起到防止过拟合的作用,让Stacking模型具有更强的鲁棒性;
Stacking是一种每一层都使用多个模型来进行训练的集成学习方式,每一层的多个模型都有各自输出值,将该层每一个模型的输出值作为新的特征组合成新的数据集作为下一层的输入进行学习;通过结合不同的机器学习算法和深度神经网络算法,选用两层的Stacking集成方式进行模型融合;
Stacking模型中的第一层除了选用XGBoost算法、LightGBM算法和xDeepFM算法,还使用了AdaBoost算法、随机森林RF算法、极端随机树ETR算法和LR算法;Stacking模型中的第二层的元学习器用了LightGBM算法;
要想使Stacking融合模型性能达到最好,首先要确保其第一层的各个基学习器达到最佳的学习能力,将各个基学习器在原始数据集上单独训练,从而确定每一个模型的训练参数,最后使用Stacking的方式进行融合模型的训练;Stacking模型训练具体步骤如下:
a.划分原始数据集,在训练集上对单个算法进行训练调参,使单个模型性能达到最优状态;
b.确定Stacking第一层模型组合方式,利用划分后的数据集来训练,将第一层的各个模型的输出组合形成新的数据集;
c.Stacking第二层模型用新生成的数据集来训练,并输出最终的预测概率值;
(4)烟草零售户异常经营行为的预测:通过Stacking第二层中使用的LightGBM算法完成零售户是否存在异常经营行为的概率预测。
2.根据权利要求1所述的多模型融合的烟草市场监管异常数据挖掘方法,其特征在于,所述步骤(1)使用烟草专卖相关数据,基础数据主要包括:经营户静态数据、客户历史数据、订货数据、卷烟主数据、市场检查数据、投诉举报数据、案件数据;针对烟草行业中的海量、多维、动态数据,分析烟草结构化数据的特点,从营销、物流、市场监管、案件多个维度进行分析,通过数据清洗与数据增强手段,从烟草海量数据中检测和消除错误数据、不完整数据和重复数据,从而提高数据的质量,将数据梳理形成静态特征指标与动态特征指标;在数据预处理阶段,还需要对静态指标中的类别数据进行编码,通过观察数据样本发现大多数类别数据在5个类别以下,所以选择使用one-hot编码对类别数据进行编码,一方面防止标签编码带来的赋值顺序问题,另一方面又同时适用于机器学习算法和深度神经网络算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911345566.7/1.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理