[发明专利]数据质量监控方法、装置及相关设备有效

专利信息
申请号: 202110706395.7 申请日: 2021-06-24
公开(公告)号: CN113342939B 公开(公告)日: 2023-02-07
发明(设计)人: 曹红姣 申请(专利权)人: 中国平安人寿保险股份有限公司
主分类号: G06F16/33 分类号: G06F16/33;G06F16/335;G06F16/215;G06Q10/0639;G06N20/00
代理公司: 深圳市赛恩倍吉知识产权代理有限公司 44334 代理人: 刘丽华
地址: 518000 广东省深圳市福田区益田路503*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 数据 质量 监控 方法 装置 相关 设备
【权利要求书】:

1.一种数据质量监控方法,用于监控预设数据供应端提供的数据质量,其特征在于,所述数据质量监控方法包括:

获取预设数据供应端提供的原始历史数据对应的问题指标集,所述问题指标集包括所述原始历史数据中存在的多项问题指标的集合,包括数据范围问题指标、数据总数问题指标、阈值问题指标以及重复数据问题指标,并确定所述问题指标集对应的问题分析文本集,所述问题分析文本集包括对每一批原始历史数据中的多项问题指标进行问题分析的文本集合;

调用TF-IDF算法对所述问题分析文本集进行权重计算,得到权重向量矩阵,包括:

对所述问题分析文本集进行去停用词处理,得到第一问题分析文本集;

对所述第一问题分析文本集进行分词处理,得到问题分析文本特征词向量矩阵;

调用TF-IDF算法处理所述问题分析文本特征词向量矩阵,得到每一所述问题指标的词频与逆向文件频率;

按照预设数据模型处理所述词频与所述逆向文件频率,得到权重向量矩阵;

根据所述权重向量矩阵,选取权重靠前的预设数量的问题指标作为目标问题指标,并根据所述预设数量调整所述目标问题指标的权重,得到目标权重,包括:

获取预设数量的所述目标问题指标间的权重比;

根据所述权重比确定权重总份数以及每个所述目标问题指标的权重子份数;

计算所述权重子份数与所述权重总份数的占比,得到目标权重;

获取并解析所述预设数据供应端提供的新数据,得到目标问题指标值,并根据所述目标问题指标值与所述目标权重得到所述新数据的健康指数;

调用预先训练好的影响程度预测模型处理所述目标问题指标值,得到所述目标问题指标的影响程度,根据所述影响程度确定所述目标问题指标对应的指标值区间,并根据所述指标值区间计算预设健康指数阈值,其中,所述影响程度与指标值区间存在映射关系;

检测所述健康指数是否大于预设健康指数阈值;

当检测结果为所述健康指数大于所述预设健康指数阈值时,调用预先设置的数据质量评价规则解析所述新数据,得到数据质量评价结果;

根据所述数据质量评价结果清洗所述新数据,得到目标新数据。

2.根据权利要求1所述的数据质量监控方法,其特征在于,所述根据所述目标问题指标值与所述目标权重得到所述新数据的健康指数包括:

确定每一所述目标问题指标值对应的目标权重;

乘积处理每一所述目标问题指标值与对应的所述目标权重,得到第一健康指数;

求和处理所述第一健康指数,得到所述新数据的健康指数。

3.根据权利要求1所述的数据质量监控方法,其特征在于,所述根据所述影响程度确定所述目标问题指标对应的指标值区间包括:

获取所述影响程度;

确定预先设置的所述影响程度与指标值区间的目标映射关系;

根据所述影响程度遍历所述目标映射关系,得到所述影响程度对应的指标值区间。

4.根据权利要求1所述的数据质量监控方法,其特征在于,所述调用预先设置的数据质量评价规则解析所述新数据,得到数据质量评价结果包括:

获取与所述数据质量评价规则对应的预设评价模型;

基于所述预设评价模型处理所述新数据,得到初始数据质量评价结果;

按照预设数据格式处理所述初始数据质量评价结果,得到数据质量评价结果。

5.根据权利要求1所述的数据质量监控方法,其特征在于,所述根据所述数据质量评价结果清洗所述新数据,得到目标新数据包括:

解析所述数据质量评价结果,得到异常类型;

当所述异常类型为新数据存在缺失值时,启动相应的数据清洗规则进行填补或剔除处理;

当所述异常类型为新数据存在异常值时,启动相应的数据清洗规则对异常值进行过滤处理;

当所述异常类型为新数据存在重复值时,启动相应的数据清洗规则是对重复的数据进行清除处理。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110706395.7/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top