[发明专利]大数据平台上的自动回归诊断方法有效
申请号: | 201810933414.8 | 申请日: | 2018-08-15 |
公开(公告)号: | CN109284320B | 公开(公告)日: | 2021-10-26 |
发明(设计)人: | 张毅骏;张瑞瑞;陈远猷;张瀚潇 | 申请(专利权)人: | 上海派拉软件股份有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F17/18 |
代理公司: | 上海申汇专利代理有限公司 31001 | 代理人: | 翁若莹;柏子雵 |
地址: | 201200 上海市浦*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 平台 自动 回归 诊断 方法 | ||
1.一种大数据平台上的自动回归诊断方法,其特征在于,包括以下步骤:
步骤1、将数据源导入到大数据平台上,大数据平台中每台用于计算的服务器为一个节点;
步骤2、确定数据抽样个数和每份样本大小后,对导入大数据平台的数据进行放回样本的随机抽样;
步骤3、在各个节点上,分别利用核心算法对随机抽样得到的每份样本进行计算,得到每份样本所对应的回归模型;
步骤4、对步骤3得到的各回归模型进行交叉验证,计算得到最终的回归模型,其中,步骤3中所述的核心算法包括以下步骤:
步骤301、设定迭代停止条件,迭代停止的条件包括模型的 R 平方和模型的均方误差;
步骤302、对当前样本的数据进行线性模型的拟合;
步骤303、计算步骤302得到的模型的R 平方和均方误差,判断指标是否满足步骤301所设的迭代停止条件,若满足,则将模型作为当前样本对应的回归模型输出,若不满足,则进入步骤304;
步骤304、对每个自变量单独求取当前自变量对因变量对应的 Box-Cox 转换的转换系数,利用转换系数的均值,对因变量进行 Box-Cox 转换;
步骤305、计算方差膨胀系数,删除自变量中方差膨胀系数大于等于设定阈值的自变量;
步骤306、计算AIC 指标的中位数,删除自变量中AIC 指标大于 AIC 指标中位数的自变量;
步骤307、计算偏 R 平方,保留自变量中偏 R 平方小于等于A1且大于等于A2的自变量,A1、A2为预先设定的阈值;
步骤308、计算样本数据中所有数据的学生氏残差的B%分位数,B为预先设定的阈值,删除样本数据中学生氏残差大于所有数据的学生氏残差的B%分位数的数据;
步骤309、计算样本数据中所有数据的删后残差,并计算所有数据删后残差的B%分位数,删除删后残差大于所有数据删后残差的B%分位数的数据;
步骤310、计算样本数据中所有数据的杠杆值,并计算所有数据杠杆值的B%分位数,删除杠杆值大于所有数据杠杆值的B%分位数的数据;
步骤311、计算样本数据中各数据的库克距离,并计算所有数据的库克距离 C%分位数,C为预先设定的阈值,且CB,删除库克距离大于所有数据的库克距离 C%分位数的数据;
步骤312、对当前样本中剩余的数据进行线性模型的拟合,若遍历所有样本,则返回步骤4,若未遍历所有样本,则返回步骤3。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海派拉软件股份有限公司,未经上海派拉软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810933414.8/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置