[发明专利]一种基于服务总线的数据交换方法有效

专利信息
申请号: 201611226752.5 申请日: 2016-12-27
公开(公告)号: CN106709016B 公开(公告)日: 2018-03-27
发明(设计)人: 张保国;任万明;郑勇;隋金雁;王统敏;毛向明;刘鹏;李首岳;吴迪;王岩岩 申请(专利权)人: 山东麦港数据系统有限公司
主分类号: G06F17/30 分类号: G06F17/30;H04L29/08
代理公司: 济南诚智商标专利事务所有限公司37105 代理人: 李修杰
地址: 250101 山东省济南市高*** 国省代码: 山东;37
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种基于服务总线的数据交换方法,它包括以下过程数据流的自动调度以数据流形式进行多数据源的自动调度;多源异构数据间的数据互联互通对多源异构数据进行抽取转换,处理后数据与源数据进行交换;数据的输入输出将多源异构数据进行有效输入输出。本发明从多数据源以数据流形式进行自动调度,抽取转换,经过处理的数据与源数据交换或转发到其他目标位置,将多源异构数据进行有效的输入输出,通过采用能够实现数据流自动调度和交换的服务总线,利用数据交换引擎收集并处理数据调用服务请求,通过数据接口实现数据的共享交换。使所有的业务数据互联互通,实现数据在系统中进行自动流转,可以方便参与上层的业务流程。
搜索关键词: 一种 基于 服务 总线 数据 交换 方法
【主权项】:
一种基于服务总线的数据交换方法,其特征是,包括以下过程:数据流的自动调度:以数据流形式进行多数据源的自动调度;多源异构数据间的数据互联互通:对多源异构数据进行抽取转换,处理后数据与源数据进行交换;数据的输入输出:将多源异构数据进行有效输入输出;数据流的自动调度过程包括以下步骤:S11,定义作业:定义作业执行的开始时间,作业执行间隔时间,以及作业启动周期;S12,定义作业执行程序:选择作业执行过程中需要调用的任务和顺序,根据顺序形成执行过程;S13,启动作业:作业启动后,会根据预先定义的作业参数进行定时执行;S14,作业异常处理:当作业执行过程中出现错误时,作业自动停止,并在错误位置重新执行,重新执行后如果仍有错误则显示红色标识块提示检查程序内容;S15,作业执行完成:作业执行完成后相关数据已调用完毕,可从目标库中或文件中进行查找使用;多源异构数据间的数据互联互通过程包括以下步骤:S21,定义数据源:设置数据库的登录用户名和密码,以及数据库中文件的访问路径;S22,定义数据落地:对数据库的访问路径及登录用户名和密码进行测试,测试数据源连接是否正常,并进行多库抽取测试目标数据落地路径是否畅通;S23,数据抽取:使用JDBC或程序接口方式提取数据源中的数据;S24,数据清洗、整理:对数据进行筛选、过滤处理;S25,数据转换:对数据进行转换,转为标准的数据格式;S26,数据加载:根据业务需要将转换后的数据加载到数据库中,用于数据挖掘、统计分析展现,所述数据库包括MySQL、SQLServer和Oracle数据库;S27,数据回传:对需要回传的数据加载后写回数据源,进行数据交互;采用所述服务总线进行数据交换的操作过程如下:步骤一:建立Hbase表结构或Hive数据仓库,设置数据抽取后进入Hbase或Hive;如果采用Hive数据仓库形式进行存储,定义Hive中数据表结构,用SQL语句的语法形式对Hive中的文件内容进行读取;若采用HBase形式存储数据,HBase是Hadoop的分布式数据库,HBase数据文件存储在HDFS中,对HBase的操作遵循语法规则增删查改即可;步骤二:定义数据源的地址、端口,通过连接测试确保数据库或文件网络访问正常;步骤三:查询Hbase或Hive中的数据截止点,有效防止数据重复抽取,除平台第一次抽取全量数据外,以后使用过程中都为增量数据抽取;步骤四:定义作业名称,选取抽取时间,定时定量抽取,按照作业顺序进行统一调度管理,让作业逻辑清晰可维护;步骤五:针对实际业务建立数据模型,定义数据结构,厘清数据间的关系和脉络,定期对数据质量进行跟踪和改进,组织数据抽取、清洗、转换方式,在数据清洗整合过程中,对不完整的数据、错误的数据、重复的数据进行检查过滤,按照数据的规范要求对相关业务数据进行位数及其他关键数据项非空校验检查;数据模型是通过算法推导出新的公式,寻找影响数据间因素的相关性,通过加载大量数据进行算法验证,检验公式的正确性与准确性,公式的准确率越高,模型越精确,将该模型公式转换成模型算法,通过java代码以程序编码形式实现最终展现在界面上;步骤六:点击“执行作业”,程序根据预先定义的规则与逻辑逐步执行,作业在启动执行中、执行成功、执行失败等状态以颜色标识;步骤七:当多个作业执行时,采取排队方式,程序可自行调度,所有调度信息存储成元数据,调度程序读取元数据信息安排作业调度顺序和作业状态监管;步骤八:当作业正常执行完成后,到Hbase或Hive中查找相关内容即可,数据已按照既定方式进入Hadoop分布式集群中进行存储,供数据分析使用;由于使用了Hadoop和Sqoop的API接口功能,不需要在多源数据服务器上部署,只需在Hadoop集群中搭建基础组件;在数据自动调用处理过程中,底层通过Hadoop的MapReduce执行,当业务过程中进行全过程监管。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东麦港数据系统有限公司,未经山东麦港数据系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201611226752.5/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top