[发明专利]一种基于服务总线的数据交换方法有效
申请号: | 201611226752.5 | 申请日: | 2016-12-27 |
公开(公告)号: | CN106709016B | 公开(公告)日: | 2018-03-27 |
发明(设计)人: | 张保国;任万明;郑勇;隋金雁;王统敏;毛向明;刘鹏;李首岳;吴迪;王岩岩 | 申请(专利权)人: | 山东麦港数据系统有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;H04L29/08 |
代理公司: | 济南诚智商标专利事务所有限公司37105 | 代理人: | 李修杰 |
地址: | 250101 山东省济南市高*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 服务 总线 数据 交换 方法 | ||
1.一种基于服务总线的数据交换方法,其特征是,包括以下过程:
数据流的自动调度:以数据流形式进行多数据源的自动调度;
多源异构数据间的数据互联互通:对多源异构数据进行抽取转换,处理后数据与源数据进行交换;
数据的输入输出:将多源异构数据进行有效输入输出;
数据流的自动调度过程包括以下步骤:
S11,定义作业:定义作业执行的开始时间,作业执行间隔时间,以及作业启动周期;
S12,定义作业执行程序:选择作业执行过程中需要调用的任务和顺序,根据顺序形成执行过程;
S13,启动作业:作业启动后,会根据预先定义的作业参数进行定时执行;
S14,作业异常处理:当作业执行过程中出现错误时,作业自动停止,并在错误位置重新执行,重新执行后如果仍有错误则显示红色标识块提示检查程序内容;
S15,作业执行完成:作业执行完成后相关数据已调用完毕,可从目标库中或文件中进行查找使用;
多源异构数据间的数据互联互通过程包括以下步骤:
S21,定义数据源:设置数据库的登录用户名和密码,以及数据库中文件的访问路径;
S22,定义数据落地:对数据库的访问路径及登录用户名和密码进行测试,测试数据源连接是否正常,并进行多库抽取测试目标数据落地路径是否畅通;
S23,数据抽取:使用JDBC或程序接口方式提取数据源中的数据;
S24,数据清洗、整理:对数据进行筛选、过滤处理;
S25,数据转换:对数据进行转换,转为标准的数据格式;
S26,数据加载:根据业务需要将转换后的数据加载到数据库中,用于数据挖掘、统计分析展现,所述数据库包括MySQL、SQLServer和Oracle数据库;
S27,数据回传:对需要回传的数据加载后写回数据源,进行数据交互;
采用所述服务总线进行数据交换的操作过程如下:
步骤一:建立Hbase表结构或Hive数据仓库,设置数据抽取后进入Hbase或Hive;如果采用Hive数据仓库形式进行存储,定义Hive中数据表结构,用SQL语句的语法形式对Hive中的文件内容进行读取;若采用HBase形式存储数据,HBase是Hadoop的分布式数据库,HBase数据文件存储在HDFS中,对HBase的操作遵循语法规则增删查改即可;
步骤二:定义数据源的地址、端口,通过连接测试确保数据库或文件网络访问正常;
步骤三:查询Hbase或Hive中的数据截止点,有效防止数据重复抽取,除平台第一次抽取全量数据外,以后使用过程中都为增量数据抽取;
步骤四:定义作业名称,选取抽取时间,定时定量抽取,按照作业顺序进行统一调度管理,让作业逻辑清晰可维护;
步骤五:针对实际业务建立数据模型,定义数据结构,厘清数据间的关系和脉络,定期对数据质量进行跟踪和改进,组织数据抽取、清洗、转换方式,在数据清洗整合过程中,对不完整的数据、错误的数据、重复的数据进行检查过滤,按照数据的规范要求对相关业务数据进行位数及其他关键数据项非空校验检查;数据模型是通过算法推导出新的公式,寻找影响数据间因素的相关性,通过加载大量数据进行算法验证,检验公式的正确性与准确性,公式的准确率越高,模型越精确,将该模型公式转换成模型算法,通过java代码以程序编码形式实现最终展现在界面上;
步骤六:点击“执行作业”,程序根据预先定义的规则与逻辑逐步执行,作业在启动执行中、执行成功、执行失败等状态以颜色标识;
步骤七:当多个作业执行时,采取排队方式,程序可自行调度,所有调度信息存储成元数据,调度程序读取元数据信息安排作业调度顺序和作业状态监管;
步骤八:当作业正常执行完成后,到Hbase或Hive中查找相关内容即可,数据已按照既定方式进入Hadoop分布式集群中进行存储,供数据分析使用;
由于使用了Hadoop和Sqoop的API接口功能,不需要在多源数据服务器上部署,只需在Hadoop集群中搭建基础组件;在数据自动调用处理过程中,底层通过Hadoop的MapReduce执行,当业务过程中进行全过程监管。
2.根据权利要求1所述的一种基于服务总线的数据交换方法,其特征是,在步骤S24中,对数据进行筛选、过滤处理的过程包括空值处理、规范数据格式、拆分数据、验证数据的正确性和数据替换。
3.根据权利要求1或2所述的一种基于服务总线的数据交换方法,其特征是,所述服务总线包括:
服务请求监听器:用于进行服务监听,接受来自客户端的数据请求;
服务定义模块:用于为数据服务提供接入口,按照不同业务、数据请求模式将数据服务划分为不同的数据服务;
接口控制模块:用于按照请求业务和数据的不同调用不同的服务接口;
日志监控模块:用于每次请求、响应后进行操作留痕,为日后数据追查、统计使用;
管道管理模块:用于为程序提供多种传输管道,进行处理不同服务业务请求;
服务解释处理器:用于根据请求的具体业务情况将数据提交到不同的数据传输管道中;
传输管道:用于将数据从数据源数据库进行数据抽取、加密、压缩、转换处理后保存到数据库中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东麦港数据系统有限公司,未经山东麦港数据系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611226752.5/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置