[发明专利]一种具备模型预警更新机制的数据挖掘方法在审
申请号: | 201810327487.2 | 申请日: | 2018-04-12 |
公开(公告)号: | CN108509644A | 公开(公告)日: | 2018-09-07 |
发明(设计)人: | 勇萌哲;普雪飞 | 申请(专利权)人: | 成都优易数据有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 成都弘毅天承知识产权代理有限公司 51230 | 代理人: | 徐金琼 |
地址: | 611730 四川省成都市郫县德源镇(菁*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据挖掘 更新机制 业务目标 数据集 判定 预警 数据挖掘流程 标准流程 定义模型 建模分析 模型评估 数据理解 数据准备 行业数据 预警规则 重复执行 重新计算 更新 部署 挖掘 优化 | ||
本发明公开了一种具备模型预警更新机制的数据挖掘方法,涉及跨行业数据挖掘标准流程领域;其包括1:商业理解获得业务目标初步方案并根据业务目标定义模型失效判定原则;2:基于初步方案依次进行数据理解和数据准备获得适于建模分析的数据集;3:基于数据集和失效判定原则训练多个模型完成模型的建立和优化;4:对建立好的多个模型进行模型评估和初步部署后判断其是否满足预警规则需要更新,若满足,则重新计算模型完成更新后跳至步骤5;若不需要,则直接跳至步骤5;5:进行模型最终部署完成数据挖掘;本发明解决了现有数据挖掘流程因模型数量少导致重复执行流程带来的精度低、成本高的问题,达到了提高模型精度、降低成本的效果。
技术领域
本发明涉及跨行业数据挖掘标准流程领域,尤其是一种具备模型预警更新机制的数据挖掘方法。
背景技术
CRISP-DM(cross-industry standard process for data mining)“跨行业数据挖掘标准流程”是NCR、OHRA、SPSS、Daimler-Benz等全球企业一起开发出来的数据挖掘方法论,相对于现存的其他数据挖掘方法论,CRISP-DM方法论更具有优越性,因而被广泛地采用。
CRISP-DM方法论把数据挖掘实践定义为六个标准阶段,分别是商业理解、数据理解、数据准备、建立模型、模型评估和模型部署,以下分别加以简介:
一、商业理解:
商业理解是明确要达到的业务目标,并将其转化为数据挖掘主题;要从商业角度对业务部门的需求进行理解,并把业务需求的理解转化为数据挖掘的定义,拟定达成业务目标的初步方案;具体包括商业背景分析、商业成功标准的确定、形势评估、获得企业资源清单、获得企业的要求和设想、评估成本和收益、评估风险和意外、初步理解行业术语,并确定数据挖掘的目标和制定数据挖掘计划。
二、数据理解:
数据理解是找出可能的影响主题的因素,确定这些影响因素的数据载体、数据体现形式和数据存储位置。数据理解从数据收集开始,然后熟悉数据,具体包括以下工作内容:检测数据质量,对数据进行初步理解,简单描述数据,探测数据意义,并对数据中潜藏的信息和知识提出拟用数据加以验证的假设。
三、数据准备:
数据准备是将前面找到的数据进行变换、组合,建立数据挖掘工具软件要求格式和内容的宽表。数据准备阶段要从原始数据中形成作为建模分析对象的最终数据集;数据准备阶段的具体工作主要包括数据制表、记录处理、变量选择、数据转换、数据格式化和数据清理等,各项工作并不需要预先规定好执行顺序,而且数据准备工作还有可能多次执行。
四、建立模型:
建立模型是应用软件工具选择合适的建模方法,处理准备好的数据宽表,找出数据中隐藏的规律;在建立模型阶段,将选择和使用各种建模方法,并将模型参数进行优化,对同样的业务问题和数据准备,可能有多种数据挖掘技术方法可供选用,此时可优选提升度高、置信度高、简单而易于总结业务政策和建议的数据挖掘技术方法。在建模过程中,还可能会发现一些潜在的数据问题,要求回到数据准备阶段。建立模型阶段的具体工作包括:选择合适的建模技术、进行检验设计、建造模型。
五、模型评估:
模型评估是要从业务角度和统计角度进行模型结论的评估;要求检查建模的整个过程,以确保模型没有重大错误,并检查是否遗漏重要的业务问题。当模型评估阶段结束时,应对数据挖掘结果的部署计划达成一致。
六、模型部署:
模型部署又称为模型部署,建立模型本身并不是数据挖掘的目标,虽然模型使数据背后隐藏的信息和知识显现出来,但数据挖掘的根本目标是将信息和知识以某种方式组织和呈现出来,并用来改善运营和提高效率。当然,在实际的数据挖掘工作中,根据不同的企业业务需求,模型部署的具体工作可能简单到提交数据挖掘报告,也可能复杂到将模型集成到企业的核心运营系统中去。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都优易数据有限公司,未经成都优易数据有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810327487.2/2.html,转载请声明来源钻瓜专利网。