[发明专利]可视化大数据中台-资源调用和算法在审

申请号：	201910306977.9	申请日：	2019-05-23
公开（公告）号：	CN111984709A	公开（公告）日：	2020-11-24
发明（设计）人：	李晶磊;李燕芳;潘情;张云洁	申请（专利权）人：	云南青年学园科技有限公司
主分类号：	G06F16/25	分类号：	G06F16/25;G06F16/26
代理公司：	暂无信息	代理人：	暂无信息
地址：	650000 云南省昆明市官***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	可视化数据资源调用算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.可视化大数据中台-资源调用和算法，包括开放性的系统架构，数据开发IDE模块，数据管理，离线调度系统，数据集成，运营数据可视化，ETL系统；

所述开放性的系统架构包括控制层，服务层，应用层，所述控制层是业务分析基础平台离线加工的核心，工作流调度引擎承接着整个业务分析基础平台的调度包括:工作流的转实例、工作流调度，协调、控制所有任务的执行；所述服务层，为应用层或外部其他应用提供服务；所述应用层，基于底层服务直接和用户进行交互，为用户提供可视化的操作的界面；

所述数据开发IDE模块，提供一站式的集成开发环境，可满足业务分析环境下的快速数仓建模、数据查询、ETL开发、算法开发需求，并提供多人在线协同开发、文件版本控制功能；

所述数据管理为用户提供租户范围内数据表搜索、数据表详情查看、数据表权限管理、收藏数据表功能；

所述离线调度系统为用户提供百万量级任务的离线调度服务，并提供可视化运维界面、在线日志查询、监控告警功能；

所述数据集成提供多种异构数据源的快速集成服务，为跨平台的异构数据提供快速数据整合的能力；

所述运营数据可视化提供创建交互性的、可视化的分析所需要的所有功能；

所述ETL系统，创建ETL系统的时候，应并存的两条主线：规划设计主线和数据流主线规划设计主线：需求和实现、架构、系统实施、测试和发布；数据流主线：抽取、清洗、规格化、提交。

2.根据权利要求1所述的可视化大数据中台-资源调用和算法，其特征在于：所述数据开发IDE模块，提供可视化工作流程设计器功能，类似Kettle的工具，支持用户对流程进行设计并编辑，对流程中的每一个任务节点进行相应的开发工作；提供本地数据上传功能，支持本地文本数据快速上云；提供海量异构数据源的数据快速集成能力；跨项目发布，快速将任务及代码部署到其他项目的调度系统，协同开发，代码版本管理，多人协同模式下的代码锁管理和冲突检测机制；提供Max Compute（原ODPS）表搜索、资源搜索引用、自定义函数搜索引用、数据查询功能，用户可轻松索引数据。

3.根据权利要求1所述的可视化大数据中台-资源调用和算法，其特征在于：所述数据管理可搜索全局的元数据信息，支持多种搜索方式，结果智能排序；灵活可扩展的数据类目，可方便的建立自己专属的导航结构；一目了然的查看数据的业务属性；表的描述、数据开发者、所属业务线、存储信息；字段描述、安全等级、主外键标识；对数据可靠性、易用性和稳定性综合评价，并量化打分；数据产出情况全面直观；分区信息包含产出的记录数、大小、产出时间；数据的产出耗时、执行的代码、日志信息，以及数据结构的变更历史；数据血缘信息；数据表上、下游的依赖情况。

4.根据权利要求1所述的可视化大数据中台-资源调用和算法，其特征在于：所述调度系统可支撑的job数量达到百万级，执行框架采用分布式架构，并发作业数可线性扩展，支持多时间粒度的调度周期：分钟、小时、日、周、月、年，支持节点空跑、暂停、一次性运行等特殊状态控制，可视化展示调度任务DAG图，极大地方便用户对线上任务进行运维管理，支持实时任务运行状态监控告警功能，短信、邮件的告警方式，支持单任务重跑、多任务重跑、杀进程、置成功、暂停等线上运维操作功能，支持补数据（串行执行多周期实例），提供全局的任务统计信息汇总界面，任务统计内容包括：总调度任务数、出错调度任务数、运行调度任务数、计算资源消耗Top10调度任务、计算时间消耗Top10调度任务、任务类型分布等信息。

5.根据权利要求1所述的可视化大数据中台-资源调用和算法，其特征在于：所述数据集成支持以多种数据通道，能精确识别脏数据，进行过滤、采集、展示，为用户提供可靠的脏数据处理，让用户准确把控数据质量，提供作业全链路的流量、数据量、脏数据探测和运行时汇报，强劲的传输速度，极致优化的单通道插件性能，单进程一定能够打满单机网卡（200MB/s），全新的分布式模型，吞吐量无限水平扩展，我们能够提供GB级、乃至于TB级数据流量，精确且强大的流控保证，支持通道、记录流、字节流三种流控模式，完备且健全的容错处理，能够做到线程级别、进程级别、作业级别多层次局部/全局的重试，更加清晰易用的插件接口，让插件开发人员专注于业务开发，而不再关注框架细节。

6.根据权利要求1所述的可视化大数据中台-资源调用和算法，其特征在于：所述ETL系统包括数据抽取，数据清洗，数据转换，数据装载，所述数据抽取对于源数据的不同来源，有以下不同的实现方，1）对于与存放DW的数据库系统相同的数据源处理方法，在DW数据库服务器和原业务系统之间建立直接的链接关系就可以写Select语句直接访问；

2）对于与DW数据库系统不同的数据源的处理方法，对于这一类数据源，一般情况下也可以通过ODBC的方式建立数据库链接，如果不能建立数据库链接，可以有两种方式完成，一种是通过工具将源数据导出成文本或者是表格文件，然后再将这些源系统文件导入到ODS(Operating Data Source)中，另外一种方法是通过程序接口来完成；

3）对于文件类型数据源，可以利用数据库工具将这些数据导入到指定的数据库，然后从指定的数据库中抽取，或者还可以借助工具实现，如SQLServer2005的SSIS服务的平面数据源和平面目标等组件导入ODS中去；

所述数据清洗，可能包括几个独立的步骤，包括有效值检测（如是否是已有的邮政编码，是否在有效值范围内）、一致性检测（如邮政编码与城市代码是否一致）、删除重复记录（如是否有同一个客户出现两次而相关的属性略有不同）、检测是否有复杂的业务规则和过程需要增强（如白金客户是否有相关的信用状态），数据清洗步骤的结果往往半永久保存，因为需要的转换往往难度非常大，并且是不可逆的；

所述数据转换的任务主要进行不一致的数据转换、数据粒度的转换，以及一些服务规则的计算1）、不一致数据转换：这个过程是一个整合的过程，将不同业务系统的相同类型的数据统一，比如同一个供应商在结算系统的编码是XX0001,而在CRM中编码是YY0001，这样在抽取过来之后统一转换成一个编码；2）、数据粒度的转换：业务系统一般存储非常明细的数据，而数据仓库中数据是用来分析的，不需要非常明细的数据，一般情况下，会将业务系统数据按照数据仓库粒度进行聚合；

所述数据装载，是将数据物理地组织成简单、对称的框架模型，我们称之为维度模型，这种框架大大地降低了查询时间，简化了开发过程，许多查询工具都需要维度框架，也是构建OLAP立方体的必要的基础。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于云南青年学园科技有限公司，未经云南青年学园科技有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910306977.9/1.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]可视化大数据中台-资源调用和算法在审

专利文献下载