[发明专利]一种自动建模方法、装置及其存储介质在审
申请号: | 201811175137.5 | 申请日: | 2018-10-08 |
公开(公告)号: | CN109241669A | 公开(公告)日: | 2019-01-18 |
发明(设计)人: | 田斌;覃进学;赵神州;王纯斌;赵红军 | 申请(专利权)人: | 成都四方伟业软件股份有限公司 |
主分类号: | G06F17/50 | 分类号: | G06F17/50;G06K9/62 |
代理公司: | 北京超凡志成知识产权代理事务所(普通合伙) 11371 | 代理人: | 郭新娟 |
地址: | 610000 四川省*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 特征字段 自动建模 目标变量 存储介质 模型分析 特征子集 建模 模型参数 模型建立 目标匹配 数据建模 专业数据 自动获取 自动模型 规范化 自动化 分析 | ||
本发明提供了一种自动建模方法、装置及其存储介质,涉及数据建模技术领域。该自动建模方法包括:获取与模型分析目标对应的特征字段;对所述特征字段进行类型标记,并标记出所述特征字段中的目标变量;对所述特征字段和所述目标变量进行规范化处理,基于规范化后的目标变量从所述特征字段中确定特征子集;采用所述特征子集进行建模。该自动建模方法通过对模型分析目标匹配的特征字段进行自动获取、处理并将其用于自动模型建立,无需人工进行专业数据分析、提取和模型参数调整,提高了模型建立的自动化程度和建模效率。
技术领域
本发明涉及数据建模技术领域,具体而言,涉及一种自动建模方法、装置及其存储介质。
背景技术
随着企业信息化建设的逐步完成,各行业的企业都建立了自己的信息系统,存放了大量的业务数据,信息技术发展从之前的积累数据向现在的利用数据创造价值转变,而在这转变的过程中,机器学习技术无疑是利用历史数据提高业务能力的有效手段。
机器学习建模过程是一个复杂的系统工程,整个流程包括业务理解、数据理解、数据准备、特征工程、模型构建及评估等步骤。全流程不仅需要建模人员对业务有非常深入的理解,还需要对建模中涉及到的技术非常熟悉,因此要求极高。虽然目前对机器学习建模的全流程研究均比较成熟,但这些方法的实现都需建模人员全程参与,需建模人员对建模全流程的数据处理和特征选择技术要求有较好地基础,无法实现从原始数据到建模结果的自动完成。但对于很多行业,尤其是传统行业的业务部门的业务人员,机器学习技术了解甚少,对于他们来说建模工作需要较高的技术门槛。
发明内容
有鉴于此,本发明实施例的目的在于提供一种自动建模方法、装置及其存储介质,以解决上述问题。
第一方面,本发明实施例提供了一种自动建模方法,所述自动建模方法包括:获取与模型分析目标对应的特征字段;对所述特征字段进行类型标记,并标记出所述特征字段中的目标变量;对所述特征字段和所述目标变量进行规范化处理,基于规范化后的目标变量从所述特征字段中确定特征子集;采用所述特征子集进行建模。
综合第一方面,所述特征字段包括离散特征字段和连续特征字段,所述对所述特征字段进行类型标记,包括:将所述特征字段划分为离散特征字段和连续特征字段。
综合第一方面,所述对所述特征字段和所述目标变量进行规范化处理,包括:对存在缺失值的特征字段进行缺失值处理;对存在异常值的特征字段进行异常值处理。
综合第一方面,所述对存在缺失值的特征字段进行缺失值处理,包括:确定所述特征字段中的缺失字段占比;在所述缺失字段占比低于第一阈值时,删除所述缺失字段所属的个例;在所述缺失字段占比不低于所述第一阈值时,对所述缺失字段进行插补操作。
综合第一方面,在所述对存在异常值的特征字段进行异常值处理之前,所述自动建模方法还包括:根据所述模型分析目标确定所述特征字段中各个变量的预设取值范围,确定超出所述预设取值范围的变量为异常值;根据拉依达准则将绝对值大于3σ的变量确定为异常值。
综合第一方面,所述基于规范化后的目标变量从所述特征字段中确定特征子集,包括:对所述特征字段进行相关性处理;将完成相关性处理后的所述特征字段分割成训练集和测试集;基于规范化后的目标变量确定验证模型,采用所述训练集对所述验证模型进行训练;根据所述模型分析目标对应的应用场景确定评估指标以及评估指标阈值,采用所述测试集对训练后的所述验证模型进行评估;在所述评估指标大于所述评估指标阈值时,循环执行所述“对所述特征字段进行相关性处理”至“采用所述测试集对训练后的所述验证模型进行评估”的步骤;在所述评估指标不大于所述评估指标阈值时,将所述评估指标不大于所述评估指标阈值时的特征字段作为特征子集。
综合第一方面,所述采用所述特征子集进行建模,包括:基于所述特征子集对应的所述评估指标确定最优模型参数;基于所述最优模型参数以及所述特征子集建立模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于成都四方伟业软件股份有限公司,未经成都四方伟业软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811175137.5/2.html,转载请声明来源钻瓜专利网。