[发明专利]大数据平台上的自动回归诊断方法有效

专利信息
申请号: 201810933414.8 申请日: 2018-08-15
公开(公告)号: CN109284320B 公开(公告)日: 2021-10-26
发明(设计)人: 张毅骏;张瑞瑞;陈远猷;张瀚潇 申请(专利权)人: 上海派拉软件股份有限公司
主分类号: G06F16/25 分类号: G06F16/25;G06F17/18
代理公司: 上海申汇专利代理有限公司 31001 代理人: 翁若莹;柏子雵
地址: 201200 上海市浦*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 平台 自动 回归 诊断 方法
【权利要求书】:

1.一种大数据平台上的自动回归诊断方法,其特征在于,包括以下步骤:

步骤1、将数据源导入到大数据平台上,大数据平台中每台用于计算的服务器为一个节点;

步骤2、确定数据抽样个数和每份样本大小后,对导入大数据平台的数据进行放回样本的随机抽样;

步骤3、在各个节点上,分别利用核心算法对随机抽样得到的每份样本进行计算,得到每份样本所对应的回归模型;

步骤4、对步骤3得到的各回归模型进行交叉验证,计算得到最终的回归模型,其中,步骤3中所述的核心算法包括以下步骤:

步骤301、设定迭代停止条件,迭代停止的条件包括模型的 R 平方和模型的均方误差;

步骤302、对当前样本的数据进行线性模型的拟合;

步骤303、计算步骤302得到的模型的R 平方和均方误差,判断指标是否满足步骤301所设的迭代停止条件,若满足,则将模型作为当前样本对应的回归模型输出,若不满足,则进入步骤304;

步骤304、对每个自变量单独求取当前自变量对因变量对应的 Box-Cox 转换的转换系数,利用转换系数的均值,对因变量进行 Box-Cox 转换;

步骤305、计算方差膨胀系数,删除自变量中方差膨胀系数大于等于设定阈值的自变量;

步骤306、计算AIC 指标的中位数,删除自变量中AIC 指标大于 AIC 指标中位数的自变量;

步骤307、计算偏 R 平方,保留自变量中偏 R 平方小于等于A1且大于等于A2的自变量,A1、A2为预先设定的阈值;

步骤308、计算样本数据中所有数据的学生氏残差的B%分位数,B为预先设定的阈值,删除样本数据中学生氏残差大于所有数据的学生氏残差的B%分位数的数据;

步骤309、计算样本数据中所有数据的删后残差,并计算所有数据删后残差的B%分位数,删除删后残差大于所有数据删后残差的B%分位数的数据;

步骤310、计算样本数据中所有数据的杠杆值,并计算所有数据杠杆值的B%分位数,删除杠杆值大于所有数据杠杆值的B%分位数的数据;

步骤311、计算样本数据中各数据的库克距离,并计算所有数据的库克距离 C%分位数,C为预先设定的阈值,且CB,删除库克距离大于所有数据的库克距离 C%分位数的数据;

步骤312、对当前样本中剩余的数据进行线性模型的拟合,若遍历所有样本,则返回步骤4,若未遍历所有样本,则返回步骤3。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海派拉软件股份有限公司,未经上海派拉软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810933414.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top