[发明专利]可视化大数据中台-资源调用和算法在审

专利信息
申请号: 201910306977.9 申请日: 2019-05-23
公开(公告)号: CN111984709A 公开(公告)日: 2020-11-24
发明(设计)人: 李晶磊;李燕芳;潘情;张云洁 申请(专利权)人: 云南青年学园科技有限公司
主分类号: G06F16/25 分类号: G06F16/25;G06F16/26
代理公司: 暂无信息 代理人: 暂无信息
地址: 650000 云南省昆明市官*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 可视化 数据 资源 调用 算法
【权利要求书】:

1.可视化大数据中台-资源调用和算法,包括开放性的系统架构,数据开发IDE模块,数据管理,离线调度系统,数据集成,运营数据可视化,ETL系统;

所述开放性的系统架构包括控制层,服务层,应用层,所述控制层是业务分析基础平台离线加工的核心,工作流调度引擎承接着整个业务分析基础平台的调度包括:工作流的转实例、工作流调度,协调、控制所有任务的执行;所述服务层,为应用层或外部其他应用提供服务;所述应用层,基于底层服务直接和用户进行交互,为用户提供可视化的操作的界面;

所述数据开发IDE模块,提供一站式的集成开发环境,可满足业务分析环境下的快速数仓建模、数据查询、ETL开发、算法开发需求,并提供多人在线协同开发、文件版本控制功能;

所述数据管理为用户提供租户范围内数据表搜索、数据表详情查看、数据表权限管理、收藏数据表功能;

所述离线调度系统为用户提供百万量级任务的离线调度服务,并提供可视化运维界面、在线日志查询、监控告警功能;

所述数据集成提供多种异构数据源的快速集成服务,为跨平台的异构数据提供快速数据整合的能力;

所述运营数据可视化提供创建交互性的、可视化的分析所需要的所有功能;

所述ETL系统,创建ETL系统的时候,应并存的两条主线:规划设计主线和数据流主线规划设计主线:需求和实现、架构、系统实施、测试和发布;数据流主线:抽取、清洗、规格化、提交。

2.根据权利要求1所述的可视化大数据中台-资源调用和算法,其特征在于:所述数据开发IDE模块,提供可视化工作流程设计器功能,类似Kettle的工具,支持用户对流程进行设计并编辑,对流程中的每一个任务节点进行相应的开发工作;提供本地数据上传功能,支持本地文本数据快速上云;提供海量异构数据源的数据快速集成能力;跨项目发布,快速将任务及代码部署到其他项目的调度系统,协同开发,代码版本管理,多人协同模式下的代码锁管理和冲突检测机制;提供Max Compute(原ODPS)表搜索、资源搜索引用、自定义函数搜索引用、数据查询功能,用户可轻松索引数据。

3.根据权利要求1所述的可视化大数据中台-资源调用和算法,其特征在于:所述数据管理可搜索全局的元数据信息,支持多种搜索方式,结果智能排序;灵活可扩展的数据类目,可方便的建立自己专属的导航结构;一目了然的查看数据的业务属性;表的描述、数据开发者、所属业务线、存储信息;字段描述、安全等级、主外键标识;对数据可靠性、易用性和稳定性综合评价,并量化打分;数据产出情况全面直观;分区信息包含产出的记录数、大小、产出时间;数据的产出耗时、执行的代码、日志信息,以及数据结构的变更历史;数据血缘信息;数据表上、下游的依赖情况。

4.根据权利要求1所述的可视化大数据中台-资源调用和算法,其特征在于:所述调度系统可支撑的job数量达到百万级,执行框架采用分布式架构,并发作业数可线性扩展,支持多时间粒度的调度周期:分钟、小时、日、周、月、年,支持节点空跑、暂停、一次性运行等特殊状态控制,可视化展示调度任务DAG图,极大地方便用户对线上任务进行运维管理,支持实时任务运行状态监控告警功能,短信、邮件的告警方式,支持单任务重跑、多任务重跑、杀进程、置成功、暂停等线上运维操作功能,支持补数据(串行执行多周期实例),提供全局的任务统计信息汇总界面,任务统计内容包括:总调度任务数、出错调度任务数、运行调度任务数、计算资源消耗Top10调度任务、计算时间消耗Top10调度任务、任务类型分布等信息。

5.根据权利要求1所述的可视化大数据中台-资源调用和算法,其特征在于:所述数据集成支持以多种数据通道,能精确识别脏数据,进行过滤、采集、展示,为用户提供可靠的脏数据处理,让用户准确把控数据质量,提供作业全链路的流量、数据量、脏数据探测和运行时汇报,强劲的传输速度,极致优化的单通道插件性能,单进程一定能够打满单机网卡(200MB/s),全新的分布式模型,吞吐量无限水平扩展,我们能够提供GB级、乃至于TB级数据流量,精确且强大的流控保证,支持通道、记录流、字节流三种流控模式,完备且健全的容错处理,能够做到线程级别、进程级别、作业级别多层次局部/全局的重试,更加清晰易用的插件接口,让插件开发人员专注于业务开发,而不再关注框架细节。

6.根据权利要求1所述的可视化大数据中台-资源调用和算法,其特征在于:所述ETL系统包括数据抽取,数据清洗,数据转换,数据装载,所述数据抽取对于源数据的不同来源,有以下不同的实现方,1)对于与存放DW的数据库系统相同的数据源处理方法,在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写Select语句直接访问;

2)对于与DW数据库系统不同的数据源的处理方法,对于这一类数据源,一般情况下也可以通过ODBC的方式建立数据库链接,如果不能建立数据库链接,可以有两种方式完成,一种是通过工具将源数据导出成文本或者是表格文件,然后再将这些源系统文件导入到ODS(Operating Data Source)中,另外一种方法是通过程序接口来完成;

3)对于文件类型数据源,可以利用数据库工具将这些数据导入到指定的数据库,然后从指定的数据库中抽取,或者还可以借助工具实现,如SQLServer2005的SSIS服务的平面数据源和平面目标等组件导入ODS中去;

所述数据清洗,可能包括几个独立的步骤,包括有效值检测(如是否是已有的邮政编码,是否在有效值范围内)、一致性检测(如邮政编码与城市代码是否一致)、删除重复记录(如是否有同一个客户出现两次而相关的属性略有不同)、检测是否有复杂的业务规则和过程需要增强(如白金客户是否有相关的信用状态),数据清洗步骤的结果往往半永久保存,因为需要的转换往往难度非常大,并且是不可逆的;

所述数据转换的任务主要进行不一致的数据转换、数据粒度的转换,以及一些服务规则的计算1)、不一致数据转换:这个过程是一个整合的过程,将不同业务系统的相同类型的数据统一,比如同一个供应商在结算系统的编码是XX0001,而在CRM中编码是YY0001,这样在抽取过来之后统一转换成一个编码;2)、数据粒度的转换:业务系统一般存储非常明细的数据,而数据仓库中数据是用来分析的,不需要非常明细的数据,一般情况下,会将业务系统数据按照数据仓库粒度进行聚合;

所述数据装载,是将数据物理地组织成简单、对称的框架模型,我们称之为维度模型,这种框架大大地降低了查询时间,简化了开发过程,许多查询工具都需要维度框架,也是构建OLAP立方体的必要的基础。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云南青年学园科技有限公司,未经云南青年学园科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201910306977.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top