[发明专利]一种面向企业行业分类的异常检测方法有效
申请号: | 201811489291.X | 申请日: | 2018-12-06 |
公开(公告)号: | CN109657947B | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 郑庆华;高宇达;阮建飞;赵珮瑶;董博;孙铭潞;田雨润 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q50/26;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 徐文权 |
地址: | 710049 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 企业 行业 分类 异常 检测 方法 | ||
本发明公开了一种面向企业行业分类的异常检测方法,包括:首先,提取纳税人行业信息中待挖掘的文本和非文本信息并进行特征处理和编码处理;其次,构建符合行业分类异常检测问题的深层网络结构,依据编码处理后数据的特征维数确定网络的输入、输出层的神经元个数;再次,基于所构建的深层网络结构,采用不同的训练策略通过交叉验证分别训练行业大类和行业明细的网络;最后,利用行业大类网络的降维特性融合SOS异常检测算法对行业大类进行异常检测,根据行业明细网络的重构特性对行业明细进行异常检测。本发明利用TADM模型对原始数据做异常检测,可以更加合理、准确地对国家的统计、税收、工商管理等宏观管理工作进行分析。
技术领域
本发明属于数据挖掘领域,特别涉及一种基于TADM(Two-level AnomalyDetection Model,2层级异常检测模型)的面向企业行业分类的异常检测方法。
背景技术
改革开放以后,我国国民经济快速发展,市场经济不断繁荣,国家的经济结构逐步完善,企业行业分工也逐渐细化。新时期,研究企业行业分类对于推进财政、税务、国家标准管理起到了基础性的作用,也为进一步分析国民经济行业和产业发展现状,把握国民经济发展趋势提供了依据。由国家质量监督检验检疫总局、国家标准化管理委员会发布的《国民经济行业分类》(GB/T 4754-2017)提供了企业经济活动的行业分类与代码,具体包括97个行业大类和1380个行业明细。工商管理部门在企业登记注册时需要根据企业经营范围等信息确定企业所属的国民经济行业分类。然而现有的企业行业分类主要通过人工实现,受限于工作人员的专业知识和经验,当面临海量的企业分类任务时,往往会出现分类错误的情况。错误的企业行业分类会对国家的统计、税收、工商管理等工作产生一系列不良的影响,因此,如何利用计算机程序对企业行业分类异常的情况进行检测和识别,已成为一个亟待解决的问题。
目前尚未有相关研究对检测企业行业分类异常提出相应的解决方案。公开技术旨在建立通用的异常检测方法,代表性的工作为:
文献1:一种基于自动编码机的分布式离散点检测方法及系统(201410225026.6)
文献2:一种基于密度的局部离群点检测方法(201710559390.X)
文献3:一种多维数据异常检测方法及装置(201710411852.3)
文献1提出了一种基于自动编码机的分布式离群点检测方法,利用分布式计算技术更新自动编码机模型参数,并根据样本的重构误差进行异常检测。
文献2设计了一种基于密度的局部离散点检测方法,考虑了样本点与其邻域样本点的分散程度,根据样本点及其邻域样本之间的距离的期望和方差定义了k邻域分散度,利用k邻域分散度重新定义了局部离群系数,通过计算样本点的邻域密度判断样本是否异常。
文献3利用重构网络对高维数据进行异常检测,构建重构模型,根据多维重构数据判断样本的异常情况。
上述传统方法虽然可以解决其特定的异常检测问题,但是很难直接拓展至行业分类的异常检测问题上,原因在于行业分类的异常检测具有多类别、多层次的特点。其一,企业行业分类属于多分类问题,类别多样且数据量大使异常检测问题变得复杂。文献1和3的自编码网络结构过于简单,只有一个隐层,无法有效提取数据的详细特征,在大规模数据集下严重缺乏泛化能力;文献2利用k邻域分散度定义了局部离群系数,但是在行业类别多且行业信息数据量很大的情况下k值的选取变得异常困难。其二,企业行业大类和明细间具有分层隶属关系,二者之间分别隶属不同的层级,且行业明细是对行业大类的扩展细化,任一企业都对应一个行业大类和一个行业明细,各自需要不同信息粒度(反映信息的详细程度)的数据进行异常分析,文献1-3都没有针对行业分类多层级异常检测问题的解决方案。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811489291.X/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理