[发明专利]一种基于时序数据的在线监控数据质量方法在审
申请号: | 202010269904.X | 申请日: | 2020-04-08 |
公开(公告)号: | CN111429022A | 公开(公告)日: | 2020-07-17 |
发明(设计)人: | 赖欣;刘佳琦;王嘉寅;张选平;朱晓燕 | 申请(专利权)人: | 西安交通大学 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06 |
代理公司: | 西安通大专利代理有限责任公司 61200 | 代理人: | 高博 |
地址: | 710049 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时序 数据 在线 监控 质量 方法 | ||
本发明公开了一种基于时序数据的在线监控数据质量方法,输入包括数据质量状态、数据质量不合格率、数据产生时间的时序数据,对时序数据进行数值化预处理;分别采用SESOP、SESOP‑MFI、STSSO和STSSO‑MFIR方法计算统计量,训练监控模型;通过计算得到统计量序列,利用对统计量序列的监控,并根据情况设定平均运行步长获得控制极限;监控质量风险,根据被监控数据的输入,实现输入一条数据及监控一条数据的实时监控。本发明能够更为快速稳定的对不同阶段的数据质量情况进行监控,并对发生的质量恶化做出预警。
技术领域
本发明属于数据预测技术领域,具体涉及一种基于时序数据的在线监控数据质量方法。
背景技术
在过去的几十年中,统计过程控制(英文名称:Statistical Process Control,英文缩写:SPC)方法被广泛应用于质量结果的监控。通过评估一系列质量案例,控制图(英文名称:Control Chart)可以检测质量的变化并对数据质量的恶化或改善发出警报,能够帮助确定问题的根源并提供有关解决问题的思路[1]。控制图方法用于测量、记录和评估过程质量特性,以监控过程是否处于受控(英文名称:in control,英文缩写:IC)状态,代表方法有指数加权移动平均(英文名称:Exponentially Weighted Moving Average,英文缩写:EWMA),累积总和(英文名称:Cumulative Sum,英文缩写:CUSUM),可变寿命调整显示(英文名称:Variable Life-Adjusted Display,英文缩写:VLAD)和休哈特(英文名称:Shewhart)。
现有方法均旨在监控数据质量平均水平的变化,即质量监控模型的位置参数(英文名称:location parameters)的变化,而无法监控质量的“波动性”,即质量监控模型的比例参数(英文名称:scale parameters)的变化,后者对数据质量评估同样至关重要。另一方面,现有方法的警报控制极限(英文名称:control limit)为固定值,这意味着监控过程中的所有时刻都具有相同的权重,从而使它们在监控质量风险的波动性方面效果较差。因此,需要能够同时检测位置参数和比例参数变化的控制图来有效地监控数据质量,以提高数据的应用价值。
发明内容
本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于时序数据的在线监控数据质量方法,解决现有大多数方法无法对质量的“波动性”(即质量监控模型的比例参数)进行有效监控的问题;以及解决现有方法的警报控制极限(英文名称:control limit)是固定值从而对早期波动不敏感的问题。
本发明采用以下技术方案:
一种基于时序数据的在线监控数据质量方法,包括以下步骤:
S1、输入包括数据质量状态、数据质量不合格率、数据产生时间的时序数据,对时序数据进行数值化预处理;
S2、分别采用SESOP、SESOP-MFI、STSSO和STSSO-MFIR方法计算统计量Zn,训练监控模型;
S3、通过步骤S2计算得到统计量Zn序列,利用对统计量Zn序列的监控,并根据情况设定平均运行步长获得控制极限;
S4、监控质量风险,根据被监控数据的输入,实现输入一条数据及监控一条数据的实时监控。
具体的,步骤S2中,采用SESOP和SESOP-MFIR计算统计量Zn具体为:
S20101、利用训练数据,计算Z1并储存;
S20102、利用训练数据,计算统计量Zn并储存,通过建立风险调控模型得出数据质量不合格率pn。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安交通大学,未经西安交通大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010269904.X/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置