[发明专利]一种多模型融合的烟草市场监管异常数据挖掘方法有效
申请号: | 201911345566.7 | 申请日: | 2019-12-24 |
公开(公告)号: | CN111199343B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 李天举;谢志峰;丁友东 | 申请(专利权)人: | 上海大学 |
主分类号: | G06Q10/0631 | 分类号: | G06Q10/0631;G06Q50/04;G06Q50/26;G06F18/214;G06N20/20 |
代理公司: | 上海上大专利事务所(普通合伙) 31205 | 代理人: | 陆聪明 |
地址: | 200444*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 模型 融合 烟草 市场监管 异常 数据 挖掘 方法 | ||
本发明涉及一种多模型融合的烟草市场监管异常数据挖掘方法。该方法主要有以下几个步骤:(1)对烟草市场监管数据集进行数据预处理,将数据处理成静态特征指标与动态特征指标;(2)分别训练基于深度学习的xDeepFM模型,以及XGBoost、LightGBM等机器学习模型,使得各个单一模型达到最优的训练效果;(3)通过集成学习的Stacking方式,将不同的算法模型集成融合,形成一个在整体性能上优于单个基学习器的集成模型,进而提升模型的预测性能;(4)最后使用LightGBM算法完成零售户异常经营行为的概率预测。该模型不仅有效解决了数据在高纬度的稀疏性问题,还让模型自动的去学习特征之间的交叉特性。充分证明了机器学习算法和深度学习网络结合后,能够表现出更加优越的性能。
技术领域
本发明涉及一种多模型融合的烟草市场监管异常数据挖掘方法,属于计算机数据挖掘技术领域。
背景技术
随着数字化信息时代的到来,烟草行业数据量正在以惊人的速度快速增长,这种数字化趋势为机器学习与数据挖掘技术在其生产、物流、监管等各方面的应用创造了新机遇。面向烟草行业的异常数据挖掘也有望从海量的、不完全的、模糊的烟草行业数据中,提取挖掘出零售户在卷烟经营中是否存在涉烟违法的行为信息。异常数据挖掘技术的应用将有效推进整个烟草行业向信息化、智能化方向发展。
异常是一个相对复杂的概念,在不同的领域对其有着不同的定义。一种被广泛接受的定义由Hawkins提出:异常是在数据集中与众不同的数据,使人们怀疑这些数据并非随机产生的,而是产生于完全不同的机制。随着异常数据挖掘方法的增多以及研究的深入,对异常数据的定义也随之增多,在烟草专卖市场监管中,针对烟草行业异常数据的定义主要分为以下几个方面:(1)烟草专卖市场监管中异常数据通常是聚类过程中的噪声数据,这些数据不属于任何聚类簇或者是聚类之中的小模式;(2)烟草专卖市场监管中异常数据是与数据集中正常的数据行为有很大差异的数据对象,它不属于任何聚类簇也不是噪声数据;(3)烟草专卖市场监管中异常数据是与数据集中大部分数据对象不一致、明显偏离数据集中的其他数据对象且不满足于数据的一般模式或行为的数据对象。
在烟草专卖市场监管方面,异常数据挖掘的任务就是在专卖监管数据中发现那些有违规经营迹象的数据对象,并找到隐藏在这些对象背后的各类违规经营情况。基于多模型融合的烟草异常数据挖掘研究,能够进一步加强烟草零售市场监管力度,有效限制零售户的涉烟违法行为,合理分配稽查工作中的人员调度,有效净化卷烟市场经营环境。通过深入挖掘分析现有的烟草市场监管数据,能够有效结合现有市场监管模式,加快烟草市场监管方式的信息化转变,加强对重点涉烟违法行为的治理,提升市场监管的精准性。
Kotsiantis S等人将机器学习技术运用于发布虚假财务报表(FFS)公司的异常行为检测中,通过使用优化的Stacking多模型融合方法将典型的机器学习算法组合在一起,取得了比任何单一算法和经过检验的简单集成方法更好的检测性能。
Dzalilov Z,Bagirov A等人提出了一种新的基于优化的特征选择算法,将改进的全局k-means聚类算法应用于复杂的烟草控制系统的调查数据集,可以有效的预测集群内吸烟者对烟草控制政策的异常行为反应。
Chen Z等利用XGBoost机器学习算法,能够对云计算中SDN控制器易受到分布式拒绝服务(DDoS)的异常攻击行为进行快速的检测。
Bui D T,Ho T C等人通过使用基于功能树分类器和三种当前比较先进的机器学习集成框架Bagging、AdaBoost和MultiBoost,提出并验证了一种能够提高滑坡异常和敏感性模型预测性能的集成方法。
Minastireanu E A等人将前沿的机器学习LightGBM算法应用于在线广告业务中,研究了四天内处理2亿次点击的数据集的点击模式,以检测在线环境中的异常点击和欺诈行为,同时通过特征工程来处理数据集中的类别特征和数据不平衡问题,进一步提高了检测性能。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海大学,未经上海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911345566.7/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理