[发明专利]一种数据模型的训练方法及装置在审
申请号: | 201711175464.6 | 申请日: | 2017-11-22 |
公开(公告)号: | CN107958268A | 公开(公告)日: | 2018-04-24 |
发明(设计)人: | 王雪洁;李长山 | 申请(专利权)人: | 用友金融信息技术股份有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京友联知识产权代理事务所(普通合伙)11343 | 代理人: | 尚志峰,汪海屏 |
地址: | 100094 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据模型 训练 方法 装置 | ||
技术领域
本发明涉及数据挖掘技术领域,具体而言,涉及一种数据模型的训练方法及装置。
背景技术
利用基于大数据的挖掘分析为企业决策提供支撑,除了数据要保证质量准确的前提下,还需要对数据具备较好的业务理解,能够从海量数据中利用合适的挖掘算法,训练具有针对性的分析预测模型,并进行生产部署。图1示出了本发明背景技术中的经典的数据挖掘的流程示意图。经典的数据挖掘流程(CRISP-DM:Cross-Industry Standard Process for Data Minning)如图1所示,在对业务数据进行分析建模的过程中,业务建模人员基本上都会采用分析挖掘工具,如SPSS,SAS,R等对数据进行探查,处理和建模,将商业问题转化为数据问题,并将数据分析处理准备后进行建模。而在数据建模过程中,基于样本数据训练后的分析预测模型,需要对其进行评估(如准确率,误差等),判断是否可以投入到生产环境中,从而进行部署解决商业问题。
图2示出了本发明背景技术中的经典的数据建模的流程示意图。如图2所示,预处理(过滤,转换,合并等)后的数据,通过统计分析和可视化的探查,根据业务建模人员的经验和业务问题,选择不同的挖掘算法(分类,聚类,关联等)对模型进行训练评估,通过对输入的样本数据的训练,得到对应的算法模型参数值,并通过验证数据集,评估模型的准确率从而决定是否可以投入到生产环境。在生产环境中,从模型的角度,输入产生的业务数据,经过模型的计算后,产生对生产决策参考的分析预测结果。
在整个建模分析过程中,虚线框部分的流程以及生产环境部署过程,需要建模人员根据自己的业务领域知识,选择相应的挖掘算法进行训练,当训练结果不满足(误差较大等)要求时候,需要重新调整算法或者参数等,往往需要大量的尝试才可能找到相对优化的模型结果。一般来讲,这一步骤往往占用了整个分析挖掘项目的大部分时间。
发明内容
本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。
为此,本发明的第一个方面在于提出了一种数据模型的训练方法。
本发明的第二个方面在于提出了一种数据模型的训练装置。
有鉴于此,根据本发明的第一个方面,提出了一种数据模型的训练方法,包括:获取建模问题类型及样本数据,并识别样本数据类型;根据建模问题类型及样本数据,确定样本参数及可发布指标;根据建模问题类型、样本参数及预设模型选择策略,确定建模算法;根据建模算法训练数据模型,并将样本数据输入到数据模型得到输出结果;对输出结果进行评分,得到评分结果;判断评分结果是否满足可发布指标;当评分结果不满足可发布指标时,则优化预设模型选择策略,并返回继续根据建模问题类型、样本参数及预设模型选择策略,确定建模算法。
本发明提供的数据模型的训练方法,首先,识别获取到的样本数据的类型(如:样本数据是数字型或字符型、连续型或离散型等),根据样本数据的类型和获取到的建模问题类型(如:分类问题、聚类问题、关联问题等)确定样本参数(如:分类问题的分类指标、聚类问题的均值大小等)和可发布指标(如:准确率大于95%等),然后根据建模问题类型、样本参数及预设模型选择策略,在建模算法簇中选择出一个或几个建模算法,训练数据模型,最后,利用样本数据对数据模型进行评分,判断评分结果是否满足可发布指标,若不满足,则优化预设模型选择策略,返回重新确定建模算法。本发明通过预设模型选择策略自动选择相应的挖掘算法对样本数据进行建模,并通过评估数据模型实现对预设模型选择策略自动化地优化,不需要人工干预,大幅提升模型的客观性,减少建模人员的主观疏漏和错误,就能选出符合生产环境的可部署模型,降低了业务建模人员应用挖掘算法的门槛,提升了建模的精准性和效率。
根据本发明的上述数据模型的训练方法,还可以具有以下技术特征:
在上述技术方案中,优选地,根据建模问题类型、样本参数及预设模型选择策略,确定建模算法,具体包括:根据建模问题类型,确定建模算法类型的范围;根据样本参数及预设模型选择策略,在建模算法类型的范围内确定建模算法。
在该技术方案中,先要根据建模问题类型,确定建模算法类型的范围,例如建模问题类型为分类型问题,可以在建模算法簇中选定分类型问题对应的算法,如决策树、逻辑回归、模糊规则等,由于样本参数反映了样本数据的特征,再根据样本参数和预设模型选测策略,在建模算法类型的范围内,选定最后进行建模的一个或几个算法,确保建模更加准确可靠,提升建模效率。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于用友金融信息技术股份有限公司,未经用友金融信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711175464.6/2.html,转载请声明来源钻瓜专利网。