[发明专利]用于不同类型数据仓库的数据检索装置及方法有效
申请号: | 201911274020.7 | 申请日: | 2019-12-12 |
公开(公告)号: | CN111046113B | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 杨燊;谢赟;葛兵;韩欣 | 申请(专利权)人: | 上海德拓信息技术股份有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2458;G06F16/215;G06F16/23 |
代理公司: | 上海湾谷知识产权代理事务所(普通合伙) 31289 | 代理人: | 杨希 |
地址: | 200233 上海*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 不同类型 数据仓库 数据 检索 装置 方法 | ||
本发明公开了一种用于不同类型数据仓库的数据检索装置,包括:对不同类型数据仓库的数据配置定时检索或实时检索的检索方式选择模块;根据选定的检索方式以及需要检索的数据仓库的配置信息,提供相应数据检索接口的查询下载模块;利用数据检索接口对相应数据仓库中的大数据量进行分段,建立并发任务的分段并发任务模块;在进行并发任务下载数据的过程中,对数据进行轮询,并判断数据是否完整的轮询模块;根据相应数据仓库中大数据的种类和大数据的分区层次进行数据分类的分类模块;用于对分类后的数据中预设类型的特殊业务字段进行数据清洗和规则匹配的清洗匹配模块。可以灵活、高效且可扩展地对不同数据仓库的数据进行检索和下载。
技术领域
本发明涉及数据检索技术领域,尤其涉及不同类型数据仓库的数据检索装置及方法。
背景技术
当前许多大数据公司都使用一些数据仓库来进行大数据计算相关业务。例如利用阿里云的大数据计算服务MaxCompute,并在其可视化平台DataWorks上进行一站式的数据同步、业务流程设计、数据开发、管理和运维功能。其中许多任务会对数据进行分区存储,比如按天分区存储数据,但是由于数据仓库的种类和数据来源的不同等原因导致存储的数据表字段类型、格式等都存在许多差异,且在这个过程中还伴随着脏数据的产生,从数据仓库检索和下载数据过程中往往没有一个通用型和可扩展的模型可以解决这个问题。
发明内容
本发明的目的在于提供用于不同类型数据仓库的数据检索装置及方法,可以灵活、高效且可扩展地对不同数据仓库的数据进行检索和下载。
实现上述目的的技术方案是:
一种用于不同类型数据仓库的数据检索装置,包括:
用于对不同类型数据仓库的数据配置定时检索或实时检索的检索方式选择模块;
根据选定的检索方式以及需要检索的数据仓库的配置信息,提供相应数据仓库的数据检索接口的查询下载模块;
利用数据检索接口对相应数据仓库中的大数据量进行分段,建立并发任务的分段并发任务模块;
在所述分段并发任务模块进行并发任务下载数据的过程中,对数据进行轮询,并判断数据是否完整的轮询模块;
根据相应数据仓库中大数据的种类和大数据的分区层次进行数据分类的分类模块;以及
用于对分类后的数据中预设类型的特殊业务字段进行数据清洗和规则匹配的清洗匹配模块。
优选的,将需要检索的数据仓库的相关连接配置信息以数据字典表的形式配置,或在配置文件中进行配置,所述查询下载模块提供数据检索的统一API接口。
优选的,所述分段并发任务模块利用java线程池对大数据量进行批量并发下载。
优选的,所述轮询模块在轮询过程中若部分数据超过约定的最大时长时还未查询完毕,则终止对这部分数据的查询,并将这些未查询到的数据记录下来生成异常数据记录。
优选的,所述实时检索指:在加载配置信息进行指定数据仓库的连接后,通过时间频率对数据仓库项目下的所有数据进行实时更新处理;
所述定时检索指:在加载配置信息进行指定数据仓库的连接后,通过定时对数据仓库项目下的所有数据进行定时更新处理。
一种基于上述数据检索装置的数据检索方法,包括:
针对需要检索的数据仓库,通过所述检索方式选择模块选择定时检索方式或实时检索方式;
所述查询下载模块根据定时检索方式或实时检索方式,以及需要检索的数据仓库的配置信息,提供相应数据仓库的数据检索接口;
所述分段并发任务模块根据数据检索接口对相应数据仓库中的大数据量进行分段,建立并发任务;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海德拓信息技术股份有限公司,未经上海德拓信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911274020.7/2.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置