[发明专利]数据质量监控方法、装置及相关设备有效
申请号: | 202110706395.7 | 申请日: | 2021-06-24 |
公开(公告)号: | CN113342939B | 公开(公告)日: | 2023-02-07 |
发明(设计)人: | 曹红姣 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/215;G06Q10/0639;G06N20/00 |
代理公司: | 深圳市赛恩倍吉知识产权代理有限公司 44334 | 代理人: | 刘丽华 |
地址: | 518000 广东省深圳市福田区益田路503*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据 质量 监控 方法 装置 相关 设备 | ||
1.一种数据质量监控方法,用于监控预设数据供应端提供的数据质量,其特征在于,所述数据质量监控方法包括:
获取预设数据供应端提供的原始历史数据对应的问题指标集,所述问题指标集包括所述原始历史数据中存在的多项问题指标的集合,包括数据范围问题指标、数据总数问题指标、阈值问题指标以及重复数据问题指标,并确定所述问题指标集对应的问题分析文本集,所述问题分析文本集包括对每一批原始历史数据中的多项问题指标进行问题分析的文本集合;
调用TF-IDF算法对所述问题分析文本集进行权重计算,得到权重向量矩阵,包括:
对所述问题分析文本集进行去停用词处理,得到第一问题分析文本集;
对所述第一问题分析文本集进行分词处理,得到问题分析文本特征词向量矩阵;
调用TF-IDF算法处理所述问题分析文本特征词向量矩阵,得到每一所述问题指标的词频与逆向文件频率;
按照预设数据模型处理所述词频与所述逆向文件频率,得到权重向量矩阵;
根据所述权重向量矩阵,选取权重靠前的预设数量的问题指标作为目标问题指标,并根据所述预设数量调整所述目标问题指标的权重,得到目标权重,包括:
获取预设数量的所述目标问题指标间的权重比;
根据所述权重比确定权重总份数以及每个所述目标问题指标的权重子份数;
计算所述权重子份数与所述权重总份数的占比,得到目标权重;
获取并解析所述预设数据供应端提供的新数据,得到目标问题指标值,并根据所述目标问题指标值与所述目标权重得到所述新数据的健康指数;
调用预先训练好的影响程度预测模型处理所述目标问题指标值,得到所述目标问题指标的影响程度,根据所述影响程度确定所述目标问题指标对应的指标值区间,并根据所述指标值区间计算预设健康指数阈值,其中,所述影响程度与指标值区间存在映射关系;
检测所述健康指数是否大于预设健康指数阈值;
当检测结果为所述健康指数大于所述预设健康指数阈值时,调用预先设置的数据质量评价规则解析所述新数据,得到数据质量评价结果;
根据所述数据质量评价结果清洗所述新数据,得到目标新数据。
2.根据权利要求1所述的数据质量监控方法,其特征在于,所述根据所述目标问题指标值与所述目标权重得到所述新数据的健康指数包括:
确定每一所述目标问题指标值对应的目标权重;
乘积处理每一所述目标问题指标值与对应的所述目标权重,得到第一健康指数;
求和处理所述第一健康指数,得到所述新数据的健康指数。
3.根据权利要求1所述的数据质量监控方法,其特征在于,所述根据所述影响程度确定所述目标问题指标对应的指标值区间包括:
获取所述影响程度;
确定预先设置的所述影响程度与指标值区间的目标映射关系;
根据所述影响程度遍历所述目标映射关系,得到所述影响程度对应的指标值区间。
4.根据权利要求1所述的数据质量监控方法,其特征在于,所述调用预先设置的数据质量评价规则解析所述新数据,得到数据质量评价结果包括:
获取与所述数据质量评价规则对应的预设评价模型;
基于所述预设评价模型处理所述新数据,得到初始数据质量评价结果;
按照预设数据格式处理所述初始数据质量评价结果,得到数据质量评价结果。
5.根据权利要求1所述的数据质量监控方法,其特征在于,所述根据所述数据质量评价结果清洗所述新数据,得到目标新数据包括:
解析所述数据质量评价结果,得到异常类型;
当所述异常类型为新数据存在缺失值时,启动相应的数据清洗规则进行填补或剔除处理;
当所述异常类型为新数据存在异常值时,启动相应的数据清洗规则对异常值进行过滤处理;
当所述异常类型为新数据存在重复值时,启动相应的数据清洗规则是对重复的数据进行清除处理。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110706395.7/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置