[发明专利]一种政务大数据预处理系统及处理方法有效
申请号: | 201410578565.8 | 申请日: | 2014-10-24 |
公开(公告)号: | CN104361031B | 公开(公告)日: | 2018-06-19 |
发明(设计)人: | 王茜;史晨昱;白峰;李安颖;刘守仓;杜威 | 申请(专利权)人: | 西安未来国际信息股份有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 西安弘理专利事务所 61214 | 代理人: | 罗笛 |
地址: | 710075 陕西省西安*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种政务大数据预处理系统,包括数据抽取模块、非结构化数据抽取模块、数据预处理模块、分布式调度框架和管理控制台,数据抽取模块和非结构化数据抽取模块均与分布式调度框架连接。本发明一种政务大数据预处理系统,解决了现有预处理系统面对大数据预处理时的效率低下、精确性差、负载不均衡、并行工作能力差、不智能等问题。本发明还提供了一种政务大数据处理的方法,解决了现有预处理系统面对大数据预处理时的效率低下、精确性差、负载不均衡、并行工作能力差、不智能等问题。 1 | ||
搜索关键词: | 预处理系统 大数据 预处理 非结构化数据 数据抽取模块 分布式调度 抽取模块 工作能力 不均衡 并行 数据预处理模块 管理控制台 框架连接 数据处理 智能 | ||
【主权项】:
1.一种政务大数据处理方法,其特征在于,利用政务大数据预处理系统,其结构为:包括结构化数据抽取模块(1)、非结构化数据抽取模块(2)、数据预处理模块、分布式调度框架和管理控制台,所述结构化数据抽取模块(1)和所述非结构化数据抽取模块(2)均与分布式调度框架连接;所述数据预处理模块包括数据检验单元(3)、数据转换单元(4)、数据合并单元(5)、数据压缩单元(6)、数据去重单元(7)和数据写入单元(8);所述分布式调度框架由客户端(9)、分布式调度系统(10)和处理端(11)组成;所述管理控制台包括数据源管理单元(12)、任务调度管理单元(13)、信息统计单元(14)、数据校验单元(15)和故障回退控制单元(16);具体按照以下步骤实施:步骤1,系统根据客户需求,通过数据源管理单元向后台处理系统发送数据抽取请求,后台处理系统根据接收到的数据抽取请求后,利用结构化数据抽取模块(1)、非结构化数据抽取模块(2)从结构化数据库或非结构化数据库中抽取数据,所述数据抽取请求包括结构化数据抽取请求和非结构化数据抽取请求;步骤2,判断抽取的数据是否为统一的数据格式,如果抽取的数据是统一的数据格式,则执行步骤3;如果抽取的数据不是统一的数据格式,则将抽取的数据按照系统需求统一格式后并执行步骤3;步骤3,判断统一格式后的数据是否符合分析要求,如果统一格式后的数据符合分析要求,则将统一格式后的数据通过数据写入单元存储到大数据存储与管理系统;如果统一格式后的数据不符合分析要求,则将统一格式后的数据发送给分布式调度框架,并执行步骤4;步骤4,分布式调度框架对统一格式后的数据进行判断,并将其发送给数据预处理模块进行处理;具体按照以下步骤实施:步骤4.1,分布式调度框架判断统一格式后的数据是否需要去重,如果有去重需要,则将统一格式后的数据发送给数据去重单元对其进行去重;如果没有去重需要,则执行步骤4.2;步骤4.2,分布式调度框架判断步骤4.1得到的数据是否需要合并,如果有合并需要,则将数据进行合并,并执行步骤4.3;如果没有合并需要,则执行步骤4.3;步骤4.3,分布式调度框架将步骤4.2处理得到的数据与处理前的数据进行比较,检查其是否有错误、残缺和遗漏,如果没有错误、残缺和遗漏则将步骤4.2处理得到的数据存储到大数据存储与管理系统中;如果有错误、残缺和遗漏,则重新执行步骤4.1~步骤4.3;步骤5,数据写入单元将步骤4中经过处理的数据存储到大数据存储与管理系统中。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安未来国际信息股份有限公司,未经西安未来国际信息股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201410578565.8/,转载请声明来源钻瓜专利网。