[发明专利]大数据平台上的自动回归诊断方法有效
申请号: | 201810933414.8 | 申请日: | 2018-08-15 |
公开(公告)号: | CN109284320B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 张毅骏;张瑞瑞;陈远猷;张瀚潇 | 申请(专利权)人: | 上海派拉软件股份有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F17/18 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 翁若莹;柏子雵 |
地址: | 201200 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种大数据平台上的自动回归诊断方法,其特征在于,包括以下步骤:将数据源导入到大数据平台上;对导入大数据平台的数据进行放回样本的随机抽样;在各个节点上,分别利用核心算法对随机抽样得到的每份样本进行计算,得到每份样本所对应的回归模型;对得到的各回归模型进行交叉验证,计算得到最终的回归模型。采用本发明提供的方法后,回归建模能完全自动化进行,即回归诊断的工作由算法直接完成,无需投入大量的建模成本,提升回归建模与诊断的效率。 | ||
搜索关键词: | 数据 平台 自动 回归 诊断 方法 | ||
【主权项】:
1.一种大数据平台上的自动回归诊断方法,其特征在于,包括以下步骤:步骤1、将数据源导入到大数据平台上,大数据平台中每台用于计算的服务器为一个节点;步骤2、确定数据抽样个数和每份样本大小后,对导入大数据平台的数据进行放回样本的随机抽样;步骤3、在各个节点上,分别利用核心算法对随机抽样得到的每份样本进行计算,得到每份样本所对应的回归模型;步骤4、对步骤3得到的各回归模型进行交叉验证,计算得到最终的回归模型,其中,步骤3中所述的核心算法包括以下步骤:步骤301、设定迭代停止条件;步骤302、对当前样本的数据进行线性模型的拟合;步骤303、计算步骤302得到的模型的指标,判断指标是否满足步骤301所设的迭代停止条件,若满足,则将模型作为当前样本对应的回归模型输出,若不满足,则进入步骤304;步骤304、对每个自变量单独求取当前自变量对因变量对应的Box‑Cox转换的转换系数,利用转换系数的均值,对因变量进行Box‑Cox转换;步骤305、计算方差膨胀系数,删除自变量中方差膨胀系数大于等于设定阈值的自变量;步骤306、计算AIC指标的中位数,删除自变量中AIC指标大于AIC指标中位数的自变量;步骤307、计算偏R平方,保留自变量中偏R平方小于等于A1且大于等于A2的自变量,A1、A2为预先设定的阈值;步骤308、计算样本数据中所有数据的学生氏残差的B%分位数,B为预先设定的阈值,删除样本数据中学生氏残差大于所有数据的学生氏残差的B%分位数的数据;步骤309、计算样本数据中所有数据的删后残差,并计算所有数据删后残差的B%分位数,删除删后残差大于所有数据删后残差的B%分位数的数据;步骤310、计算样本数据中所有数据的杠杆值,并计算所有数据杠杆值的B%分位数,删除杠杆值大于所有数据杠杆值的B%分位数的数据;步骤311、计算样本数据中各数据的库克距离,并计算所有数据的库克距离C%分位数,C为预先设定的阈值,且C>B,删除库克距离大于所有数据的库克距离C%分位数的数据;步骤312、对当前样本中剩余的数据进行线性模型的拟合,若遍历所有样本,则返回步骤4,若未遍历所有样本,则返回步骤3。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海派拉软件股份有限公司,未经上海派拉软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810933414.8/,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置