[发明专利]一种信息系统服务平台用数据采集系统在审

申请号：	201510660461.6	申请日：	2015-10-15
公开（公告）号：	CN105653573A	公开（公告）日：	2016-06-08
发明（设计）人：	姚致清;胡韵华;李志勇;张喜玲;韩万林;杨慧霞;闫黎明;贠雨含;刘政;蒋冠前;陈勇;苏静;杨静	申请（专利权）人：	许昌开普电气研究院;《电力系统保护与控制》杂志社
主分类号：	G06F17/30	分类号：	G06F17/30
代理公司：	暂无信息	代理人：	暂无信息
地址：	461000 河***	国省代码：	河南;41
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种信息系统服务平台数据采集系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

背景技术

设立在许昌开普研究院的“中国电器工业继电保护及自动化设备协会”，隶属中国电气工业协会，下属有30多个行业协会分支机构，拥有一万多家行业企业会员。协会需要搜集大量的企业信息，目前对于企业信息的搜集停留在过去手工收集，手工整理，手工做报表的传统信息化水平。随着行业规模不断壮大，大量的离线业务数据零散的分布在单机PC中，形成一个个信息孤岛，使得难以对业务数据进行快速历史、横向对比、纵向研究等有效的分析和利用，削弱了服务质量，降低了工作效率，影响了研究院对协会成员的服务质量。为消除以上问题、弥补不足、建立健全统计工作网络、增加统计企业数量、缩短统计工作时间、更好服务行业企业，我们开发了行业数据采集系统。

发明内容

许昌开普电气研究院的数据采集主要分为结构化和半结构化数据采集和非机构化数据采集（通过网络爬虫方式获取网络数据）。在许昌开普电气研究院的数据仓库（EDW）系统中，数据由数据源系统加载到数据仓库（EDW）的各个数据层中，并通过提供数据接口给相关使用者。其实现的困难在于数据采集（数据整合）系统将面临的数据环境复杂，包括巨大的加载数据量、错综复杂的数据关系和参差不齐的数据质量，这些都使数据采集的架构和应用设计需要解决的问题。

结构化和半结构化数据采集

结构化和半结构化数据采集模型如图1所示。图1中：

1、用系统的BPM平台可以支持多个应用，每个应用是一个运行时的实例；

2、一个应用包含有一个或多个模块，在应用上可以定义角色、函数、样式、组件等技术的工件，并应用于各个业务模块；

3、一个模块式一组业务功能的集合，他包括表单、工作流、视图、报表、任务等。

通过高效的数据采集系统结构、层次化的应用功能划分和标准的程序模板，数据仓库（EDW）系统能够达到以下目标：

1、支持在此框架下实现行业信息系统服务平台所需要的数据采集功能；

2、支持在规定的批处理时间窗口（BatchWindow）内能够完成数据加载工作，即需要满足日常数据加载的性能需求；

3、能够支持有效的应用程序开发模式，提高开发效率，尽量减少应用开发成本；

4、减少系统维护的复杂性，支持后续增加新数据或功能的开发工作；

5、和上系统接口的松耦合设计，避免上系统的变更导致数据采集程序本身频繁变更。

许昌开普电气研究院的数据仓库（EDW）系统数据采集复杂，应用系统数据需求旺盛，数据质量参差不齐，结合以上系统目标及设计原则，采用的是BPM数据采集工具。BPM的数据结构设计如图2所示。图2中：

1、设计时数据--包含发Form、View、WorkFlow的设计模板，仅在系统设计时被改变和存储；

2、授权类数据—包含User、Role、Dept信息，表现用户的基本信息、角色信息、组织架构，以及定义对系统各功能模块的访问权限；

3、运行时数据—包含Counter、Document、WorkFlowstate数据，分别存储计算器、文档、工作流状态。考虑到需要不同的实例（一个实例对应一个应用，比如可以为不同的应用系统分别建立不同的实例）逻辑上分开，所以对于每一个不同的实例，提供不同的数据源定义。

非结构化数据采集示例

非结构化数据采集模型如图3所示。本系统通过开发的数据爬虫技术，可以通过互联网把数据爬虫到hadoop平台中，通过Hadoop处理快速非机构化的文本，把数据整合到关系型数据库中进行分析。利用Hadoop实现了一个分布式文件系统（HadoopDistributedFileSystem），简称HDFS。HDFS有高容错性的特点，并且设计用来部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（highthroughput）来访问应用程序的数据，适合那些有着超大数据集（largedataset）的应用程序。HDFS放宽了（relax）POSIX的要求，可以以流的形式访问（streamingaccess）文件系统中的数据。Hadoop带有用Java语言编写的框架，运行在Linux生产平台上Hadoop上的应用程序也可以使用其他语言编写，比如C++。Hadoop的MapReduce功能实现了将单个任务打碎，并将碎片任务(Map)发送到多个节点上，之后再以单个数据集的形式加载(Reduce)到数据仓库里。实现非结构化数据的自动采集。

附图清单：

图1结构化和半结构化数据采集模型

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于许昌开普电气研究院;《电力系统保护与控制》杂志社，未经许昌开普电气研究院;《电力系统保护与控制》杂志社许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201510660461.6/2.html，转载请声明来源钻瓜专利网。

上一篇：一种基于混成时空Petri网模型上的CPS物理实体的形式化建模方法
下一篇：数据处理方法及装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种信息系统服务平台用数据采集系统在审

专利文献下载