[发明专利]可视化大数据中台-资源调用和算法在审
申请号: | 201910306977.9 | 申请日: | 2019-05-23 |
公开(公告)号: | CN111984709A | 公开(公告)日: | 2020-11-24 |
发明(设计)人: | 李晶磊;李燕芳;潘情;张云洁 | 申请(专利权)人: | 云南青年学园科技有限公司 |
主分类号: | G06F16/25 | 分类号: | G06F16/25;G06F16/26 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 650000 云南省昆明市官*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 可视化 数据 资源 调用 算法 | ||
1.可视化大数据中台-资源调用和算法,包括开放性的系统架构,数据开发IDE模块,数据管理,离线调度系统,数据集成,运营数据可视化,ETL系统;
所述开放性的系统架构包括控制层,服务层,应用层,所述控制层是业务分析基础平台离线加工的核心,工作流调度引擎承接着整个业务分析基础平台的调度包括:工作流的转实例、工作流调度,协调、控制所有任务的执行;所述服务层,为应用层或外部其他应用提供服务;所述应用层,基于底层服务直接和用户进行交互,为用户提供可视化的操作的界面;
所述数据开发IDE模块,提供一站式的集成开发环境,可满足业务分析环境下的快速数仓建模、数据查询、ETL开发、算法开发需求,并提供多人在线协同开发、文件版本控制功能;
所述数据管理为用户提供租户范围内数据表搜索、数据表详情查看、数据表权限管理、收藏数据表功能;
所述离线调度系统为用户提供百万量级任务的离线调度服务,并提供可视化运维界面、在线日志查询、监控告警功能;
所述数据集成提供多种异构数据源的快速集成服务,为跨平台的异构数据提供快速数据整合的能力;
所述运营数据可视化提供创建交互性的、可视化的分析所需要的所有功能;
所述ETL系统,创建ETL系统的时候,应并存的两条主线:规划设计主线和数据流主线规划设计主线:需求和实现、架构、系统实施、测试和发布;数据流主线:抽取、清洗、规格化、提交。
2.根据权利要求1所述的可视化大数据中台-资源调用和算法,其特征在于:所述数据开发IDE模块,提供可视化工作流程设计器功能,类似Kettle的工具,支持用户对流程进行设计并编辑,对流程中的每一个任务节点进行相应的开发工作;提供本地数据上传功能,支持本地文本数据快速上云;提供海量异构数据源的数据快速集成能力;跨项目发布,快速将任务及代码部署到其他项目的调度系统,协同开发,代码版本管理,多人协同模式下的代码锁管理和冲突检测机制;提供Max Compute(原ODPS)表搜索、资源搜索引用、自定义函数搜索引用、数据查询功能,用户可轻松索引数据。
3.根据权利要求1所述的可视化大数据中台-资源调用和算法,其特征在于:所述数据管理可搜索全局的元数据信息,支持多种搜索方式,结果智能排序;灵活可扩展的数据类目,可方便的建立自己专属的导航结构;一目了然的查看数据的业务属性;表的描述、数据开发者、所属业务线、存储信息;字段描述、安全等级、主外键标识;对数据可靠性、易用性和稳定性综合评价,并量化打分;数据产出情况全面直观;分区信息包含产出的记录数、大小、产出时间;数据的产出耗时、执行的代码、日志信息,以及数据结构的变更历史;数据血缘信息;数据表上、下游的依赖情况。
4.根据权利要求1所述的可视化大数据中台-资源调用和算法,其特征在于:所述调度系统可支撑的job数量达到百万级,执行框架采用分布式架构,并发作业数可线性扩展,支持多时间粒度的调度周期:分钟、小时、日、周、月、年,支持节点空跑、暂停、一次性运行等特殊状态控制,可视化展示调度任务DAG图,极大地方便用户对线上任务进行运维管理,支持实时任务运行状态监控告警功能,短信、邮件的告警方式,支持单任务重跑、多任务重跑、杀进程、置成功、暂停等线上运维操作功能,支持补数据(串行执行多周期实例),提供全局的任务统计信息汇总界面,任务统计内容包括:总调度任务数、出错调度任务数、运行调度任务数、计算资源消耗Top10调度任务、计算时间消耗Top10调度任务、任务类型分布等信息。
5.根据权利要求1所述的可视化大数据中台-资源调用和算法,其特征在于:所述数据集成支持以多种数据通道,能精确识别脏数据,进行过滤、采集、展示,为用户提供可靠的脏数据处理,让用户准确把控数据质量,提供作业全链路的流量、数据量、脏数据探测和运行时汇报,强劲的传输速度,极致优化的单通道插件性能,单进程一定能够打满单机网卡(200MB/s),全新的分布式模型,吞吐量无限水平扩展,我们能够提供GB级、乃至于TB级数据流量,精确且强大的流控保证,支持通道、记录流、字节流三种流控模式,完备且健全的容错处理,能够做到线程级别、进程级别、作业级别多层次局部/全局的重试,更加清晰易用的插件接口,让插件开发人员专注于业务开发,而不再关注框架细节。
6.根据权利要求1所述的可视化大数据中台-资源调用和算法,其特征在于:所述ETL系统包括数据抽取,数据清洗,数据转换,数据装载,所述数据抽取对于源数据的不同来源,有以下不同的实现方,1)对于与存放DW的数据库系统相同的数据源处理方法,在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写Select语句直接访问;
2)对于与DW数据库系统不同的数据源的处理方法,对于这一类数据源,一般情况下也可以通过ODBC的方式建立数据库链接,如果不能建立数据库链接,可以有两种方式完成,一种是通过工具将源数据导出成文本或者是表格文件,然后再将这些源系统文件导入到ODS(Operating Data Source)中,另外一种方法是通过程序接口来完成;
3)对于文件类型数据源,可以利用数据库工具将这些数据导入到指定的数据库,然后从指定的数据库中抽取,或者还可以借助工具实现,如SQLServer2005的SSIS服务的平面数据源和平面目标等组件导入ODS中去;
所述数据清洗,可能包括几个独立的步骤,包括有效值检测(如是否是已有的邮政编码,是否在有效值范围内)、一致性检测(如邮政编码与城市代码是否一致)、删除重复记录(如是否有同一个客户出现两次而相关的属性略有不同)、检测是否有复杂的业务规则和过程需要增强(如白金客户是否有相关的信用状态),数据清洗步骤的结果往往半永久保存,因为需要的转换往往难度非常大,并且是不可逆的;
所述数据转换的任务主要进行不一致的数据转换、数据粒度的转换,以及一些服务规则的计算1)、不一致数据转换:这个过程是一个整合的过程,将不同业务系统的相同类型的数据统一,比如同一个供应商在结算系统的编码是XX0001,而在CRM中编码是YY0001,这样在抽取过来之后统一转换成一个编码;2)、数据粒度的转换:业务系统一般存储非常明细的数据,而数据仓库中数据是用来分析的,不需要非常明细的数据,一般情况下,会将业务系统数据按照数据仓库粒度进行聚合;
所述数据装载,是将数据物理地组织成简单、对称的框架模型,我们称之为维度模型,这种框架大大地降低了查询时间,简化了开发过程,许多查询工具都需要维度框架,也是构建OLAP立方体的必要的基础。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南青年学园科技有限公司,未经云南青年学园科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910306977.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高度集成化软包电池模组
- 下一篇:一种盘式轴向多用受力检测装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置