[发明专利]基于知识库的政务数据质量评价方法在审
申请号: | 202111202973.X | 申请日: | 2021-10-15 |
公开(公告)号: | CN113902319A | 公开(公告)日: | 2022-01-07 |
发明(设计)人: | 承孝敏;秦加奇;陈钢 | 申请(专利权)人: | 长三角信息智能创新研究院 |
主分类号: | G06Q10/06 | 分类号: | G06Q10/06;G06Q50/26;G06N3/04;G06N3/08 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 董杰 |
地址: | 241000 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 知识库 政务 数据 质量 评价 方法 | ||
本发明公开了一种基于知识库的政务数据质量评价方法,包括:步骤1、选取一体化政务服务能力较高的城市的政务服务网站作为数据指标知识库形成的来源,构建数据指标知识库;步骤2、评价数据覆盖率;步骤3、评价数据值质量;步骤4、计算数据质量等级。该方法能够给出全局性数据维度扩充及数据值改进建议,驱动政府部门完善并修正相关数据目录、数据项和数据值;同时,还可以满足单一政府部门业务的需要以及数据共享、互操作与业务发展的进一步要求。
技术领域
本发明涉及一种基于知识库的政务数据质量评价方法。
背景技术
数据质量是政务大数据的重中之重,事关提升城市治理能力的最终成效。科学的数据质量评价体系不但能够提升政务大数据的可用性,而且还能为有效分析数据、反哺数据提供便利。为了能够让政务大数据解决更多业务问题,在理想情况下数据维度越多越好,数据准确性越高越好。
但是,现有的数据质量评价方法没有考虑数据成熟度因素,导致数据质量评价效果差,准确性低。
发明内容
本发明的目的是提供一种基于知识库的政务数据质量评价方法,该方法能够给出全局性数据维度扩充及数据值改进建议,驱动政府部门完善并修正相关数据目录、数据项和数据值;同时,还可以满足单一政府部门业务的需要以及数据共享、互操作与业务发展的进一步要求。
为了实现上述目的,本发明提供了一种基于知识库的政务数据质量评价方法,该基于知识库的政务数据质量评价方法包括:
步骤1、选取一体化政务服务能力较高的城市的政务服务网站作为数据指标知识库形成的来源,构建数据指标知识库;
步骤2、评价数据覆盖率;
步骤3、评价数据值质量;
步骤4、计算数据质量等级。
优选地,步骤1中包括:
步骤1.1、构建来源部门:首先,对中文RoBERTa预训练语言模型采用政务领域语料库进行无监督训练,获取拥有政务领域知识的RoBERTa预训练语言模型;其次,使用政务领域知识的RoBERTa预训练语言模型对政务服务清单文本和权力清单文本进行语义提取,得到政务服务清单文本词向量和权力清单文本词向量;最后,计算服务清单文本词向量和权力清单文本词向量的余弦相似度,选取相似度最高的文本进行匹配,形成来源部门;
步骤1.2、构建数据目录:首先,获取城市政务服务网中个人办事和法人办事的网页数据,使用xpath和BeautifulSoup以及JSON数据解析方法对网页进行数据清洗和相关数据的数据提取,提取出对应的自然人事件和法人事件;将提取的数据进行规整,通过pymysql技术连接到本地MySQL数据库,将规整后的数据存入数据库中;运用词向量计算文本相似度,设定指定阈值,对相似自然人事件和法人事件进行融合,形成数据目录;
步骤1.3、构建数据项:首先,获取办事结果表格、证书图片等,对表格数据直接处理得到目录对应的数据项;对证书图片应用OCR算法进行文本提取,获取具体文本后再进行文本处理获取数据项,在完成数据目录、数据项和来源部门构建后,数据指标知识库构建完成,并以此对政务数据按数据目录、数据项和来源部门进行匹配和识别;其中,基于词向量计算相似度时,若相似度超过指定阈值,则认为数据目录或数据项或来源部门匹配成功。
优选地,步骤1.3包括:
步骤1.3.1、使用卷积神经网络作为特征提取网络,提取事项申请材料图片中信息生成特征图;
步骤1.3.2、使用文本检测模型处理特征图定位到文字框;
步骤1.3.3、使用CRNN+CTC、CNN+RNN+Attention或CNN+Seq2Seq+Attention模型实现对文字框中的文字内容识别;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于长三角信息智能创新研究院,未经长三角信息智能创新研究院许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111202973.X/2.html,转载请声明来源钻瓜专利网。
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置