[发明专利]一种基于大数据技术的政务数据质量评估和异常数据修复技术在审
申请号: | 201910156894.6 | 申请日: | 2019-03-01 |
公开(公告)号: | CN109992576A | 公开(公告)日: | 2019-07-09 |
发明(设计)人: | 练海荣 | 申请(专利权)人: | 苏州龙石信息科技有限公司 |
主分类号: | G06F16/21 | 分类号: | G06F16/21;G06F16/215 |
代理公司: | 北京和联顺知识产权代理有限公司 11621 | 代理人: | 赵宇 |
地址: | 215000 江苏省苏州市工业园*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了数据分析技术领域的一种基于大数据技术的政务数据质量评估和异常数据修复技术,先建立建立数据库,再进行数据质量评估,最后进行数据质量修复;本发明通过对数据字段进行空值、值域、规范、逻辑、引用性、重复数据检查,从数据完整性、关联性、唯一性、准确性、一致性以及规范性六个维度综合评估数据质量,并生产数据质量评估报告,由使用者对数据进行手工修复或规则修复或深度学习修复,帮助政府打破内部数据壁垒、盘活数据资产、提升数据价值,对外提供统一的智能化数据服务,进一步深挖和释放大数据的价值红利。 | ||
搜索关键词: | 质量评估 修复 大数据 异常数据 数据分析技术 建立数据库 数据完整性 唯一性 内部数据 生产数据 数据服务 数据资产 数据字段 重复数据 综合评估 关联性 智能化 维度 红利 壁垒 引用 释放 检查 帮助 统一 学习 | ||
【主权项】:
1.一种基于大数据技术的政务数据质量评估技术,其特征在于,具体步骤如下:第一步,建立数据库所述数据库包括基础库和主题库,所述基础库建设的解决方案结合目前政府数据中存在的问题,按照统筹规划、一建共享的思路,以主要数据来源部门为基础,通过数据的采集交换、加工处理、信息整合和挖掘分析等手段,整合人社、民政、信用、公安、工商、卫生、教育、交通等其他委办局的数据,配套标准规范体系,构建基础库,并在此基础库上提供面向政府部门和社会公众的数据共享服务,对应的客户包括发改委、经信委、大数据局;所述主题库以整体战略规划和面向对象的方法论为依据,结合客户的业务特色,通过数据采集交换、数据整合、关联分析等手段,建立特色的主题库,盘活数据资产,为打造创新专题应用奠定基础,如市场监督管理局的法人库、特种设备库、食品库、药品库、证照库,公安局的人口库、证照库、刑事侦查库、治安管理库、出入境库,民政局的人口库、社会组织库、老龄库、福利库、婚姻库等;第二步,数据质量评估(1)通用规则管理所述通用规则管理包括通用、网络、日期、字符和数值五组规则,所述通用包括身份证、手机号码、邮箱、邮政编码和固定电话,所述身份证的规则表达式为^[1‑9]\d{7}((0\d)|(1[0‑2]))(([0|1|2]\d)|3[0‑1])\d{3}$|^[1‑9]\d{5}[1‑9]\d{3}((0\d)|(1[0‑2]))(([0|1|2]\d)|3[0‑1])\d{3}([0‑9]|X)$,所述身份证的规则描述为二代身份证,如420106198311136666,固定长度为18位,前17位为数字,最后一位为数字或者字母x,且必须为合法有效的身份证号码;一代身份证:如420106831113666,固定长度为15位,7至12位为六位年月日;所述手机号码的规则表达式为^1([38][0‑9]|4[579]|5[0‑3,5‑9]|6[6]|7[0135678]|9[89])\d{8}$,所述手机号码的规则描述为如13666666666,以数字1开头,固定长度为11位;所述邮箱的规则表达式为^\w+([‑+.]\w+)*@\w+([‑.]\w+)*\.\w+([‑.]\w+)*$,所述邮箱的规则描述为如123@mail.com,邮箱名字中只能出现英文字母、数字和下划线且不能以下划线开头,并以.com、.cn、.edu等字符结尾;所述邮政编码的规则表达式为[1‑9]\d{5}(?!\d),所述邮政编码的规则描述为开头不能为0,共6位的数字;所述固定电话的规则表达式为\d{3}‑\d{8}|\d{4}‑\d{7},所述固定电话的规则描述为如027‑88880808‑1,其中027为区号,1为分机号,以“‑”隔开,区号和分机号可不填;所述网络包括IPv4地址、IPv6地址和MAC地址,所述IPv4地址的规则表达式为^((25[0‑5]|2[0‑4]\d|[01]?\d\d?)\.){3}(25[0‑5]|2[0‑4]\d|[01]?\d\d?)$,所述IPv4地址的规则描述为如000.000.000.000,由4个0~255的数值组成,以“.”隔开;所述IPv6地址的规则表达式为^([\da‑fA‑F]{1,4}:){7}[\da‑fA‑F]{1,4}$,所述IPv6地址的规则描述为如CDCD:910A:222:9:8475:11:390:2020,由8个四位十六进制的数值组成,以“:”隔开,同时支持简写或混合写法,但是建议使用标准写法;所述MAC地址的规则表达式为[0‑9a‑fA‑F]{2}(:[0‑9a‑fA‑F]{2}){5},所述MAC地址的规则描述为如00‑00‑00‑00‑00‑00,以6个两位十六进制数组成,以“‑”隔开;所述日期包括YYYY.MM.DD、YYYYMMDD、YYYY/MM/DD、YYYY年MM月DD日、YYYY、和YYYYMM,其中,所述YYYY为具体年份,所述MM为具体月份,所述DD为具体日期,所述YYYY/MM/DD的规则表达式为(\d{4})\/(\d{1,2})\/(\d{1,2});所述数值包括非负整数、整数、非负浮点数、浮点数、整数带百分号、浮点数百分号、整数带千分号和浮点数千分号,所述非负整数的规则表达式为^[1‑9]\d*|0$,所述非负整数的规则描述为非负整数格式的字符串,如28;所述整数的规则表达式为^‑?[1‑9]\d*$,所述整数的规则描述为整数格式的字符串;所述非负浮点数的规则表达式^\d+(\.\d+)?$,所述非负浮点数的规则描述为为非负浮点数格式的字符串;所述浮点数的规则表达式为^(‑?\d+)(\.\d+)?$,所述浮点数的规则描述为浮点数格式的字符串;(2)数据质量模型依据所述通用规则管理的关联关系建立数据质量模型,所述数据质量模型为基于DQAF的数据质量评估模型,所述数据质量评估模型包括实体表、关联关系和规则描述,所述实体表的实体表名称选自数据库,所述关联关系为主表和字表之间的关联关系,所述规则描述分为空值检查、值域检测、规范检查、逻辑检查、重复数据检查和引用完整性检查六组规则类型;(3)质量监测任务依据所述数据质量模型的名称,导出所述数据质量模型的各项数据,依据质量模型名称、质量模型描述、执行策略、最近执行状态和最近执行时间等对所述数据质量模型进行评估,完成质量检测任务;(4)质量监测报告依据所述质量检测任务,生成质量检测报告;(5)质量评估报告依据所述质量检测报告的内容,从数据完整性、关联性、唯一性、准确性、一致性以及规范性六个唯独综合评估数据质量,对所述数据库中的数据生成基于数据库类别和数据库名称的质量评估报告,所述质量评估报告包括质量评分、质量评分图和数据质量模型评分排行榜,所述质量评分包括总体质量评分、质量模型数和模型规则数;所述质量评分图包括质量评分趋势图和数据总量分布图;所述数据质量模型评分排行榜按照数据质量模型评分排名。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于苏州龙石信息科技有限公司,未经苏州龙石信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910156894.6/,转载请声明来源钻瓜专利网。
- 上一篇:大数据的分布式存储系统
- 下一篇:获取中文数据库结构的方法及装置