[发明专利]HIVE库的扩容方法以及装置、处理器和电子设备在审
申请号: | 202310197006.1 | 申请日: | 2023-02-28 |
公开(公告)号: | CN116204531A | 公开(公告)日: | 2023-06-02 |
发明(设计)人: | 王淼 | 申请(专利权)人: | 中国邮政储蓄银行股份有限公司 |
主分类号: | G06F16/22 | 分类号: | G06F16/22;G06F16/242;G06F16/28;G06N20/00 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 史璐璐 |
地址: | 100032*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | hive 扩容 方法 以及 装置 处理器 电子设备 | ||
本申请提供了一种HIVE库的扩容方法以及装置、处理器和电子设备,通过获取SQL文件,并解析SQL文件,得到SQL文件中包含的HIVE SQL作业对应的当前作业参数组,当前作业参数组至少包括以下参数:HIVE SQL作业对应的当前SQL操作、HIVE SQL作业对应的当前作业名、HIVE SQL作业当前对应的HIVE库表的表名、HIVE库表的当前容量大小以及HIVE SQL作业对应的当前源数据量;控制每个HIVE SQL作业对应的作业参数组输入至预设机器学习模型中,以得到每个HIVE库表的空间增量;依据空间增量,对与空间增量对应的HIVE库表进行扩容操作,解决了现有技术中大数据平台中采用的人工申请扩容审批的方式存在扩容方案时效性差,扩容结果等待时间长,空间增量难以科学估算的问题。
技术领域
本申请涉及大数据处理领域,具体而言,涉及一种HIVE库的扩容方法以及装置、处理器和电子设备。
背景技术
现有技术中,企业中的大数据平台中存在不同租户进行HIVE SQL作业。各个租户一般拥有多个HIVE库。每个HIVE库涉及多个同业务的HIVE SQL作业。所以每个HIVE库的空间是独立的并随着时间进行变化的。尽管大数据平台随着业务数据量的增长也在不断扩容。但是在同一时间内,大数据平台的总容量是不变的。在大数据平台管理过程中,需要对每个HIVE库的空间进行限制。每个HIVE库能使用的空间都对应着一个最大值,即限额。各租户都需要人工提交“HIVE库限额扩容申请表”至集群管理员进行扩容的申请。管理员在进行扩容审批时难以预估HIVE库容量增量的大小。特别是在HIVE SQL在执行时,其短时需要容量增量大。作业完毕后便不再需要短时扩展的容量。
目前采用的人工申请审批的扩容方案时效性差,存在着等待时间长,容量增量难以科学估算的问题。为避免出现作业因为容量不足而无法执行的问题,常常采取以较大容量增量进行扩容的办法,难以对资源进行有效利用。
现有技术中存在的上述问题,还未提出有效的解决方法。
发明内容
本申请的主要目的在于提供一种HIVE库的扩容方法以及装置、处理器和电子设备,以至少解决现有技术中大数据平台中采用的人工申请扩容审批的方式存在扩容方案时效性差,扩容结果等待时间长,空间增量难以科学估算的问题。
为了实现上述目的,根据本申请的一个方面,提供了一种HIVE库的扩容方法,具体包括:获取SQL文件,并解析SQL文件,得到SQL文件中包含的HIVE SQL作业对应的当前作业参数组,当前作业参数组至少包括以下参数:HIVE SQL作业对应的当前SQL操作、HIVE SQL作业对应的当前作业名、HIVE SQL作业当前对应的HIVE库表的表名、HIVE库表的当前容量大小以及HIVE SQL作业对应的当前源数据量,SQL文件包含至少一个HIVE SQL作业的信息,HIVE库表与HIVE SQL作业之间存在一一对应的映射关系,HIVE数据库中包含有多个HIVE库表;控制每个HIVE SQL作业对应的作业参数组输入至预设机器学习模型中,以得到每个HIVE库表对应的空间增量,其中,HIVE库表的空间增量用于为执行HIVE SQL作业提供容量支持;依据空间增量,对与空间增量对应的HIVE库表进行扩容操作。
进一步地,在控制每个HIVE SQL作业对应的作业参数组输入至预设模型中之前,方法包括:获取多个HIVE SQL作业对应的多组历史作业参数组,每组历史作业参数组至少包括以下参数:HIVE SQL作业当次对应的SQL操作,HIVE SQL作业对应的当次作业名,HIVESQL作业当次对应的HIVE库表的表名,HIVE库表的当次容量大小,HIVE SQL作业执行时对应的HIVE库表的使用空间峰值HIVE SQL作业当次对应的源数据量,HIVE库表与HIVE SQL作业之间存在一一对应的映射关系,每个HIVE SQL作业对应多组历史作业参数组;获取多个HIVE SQL作业对应的多个当前源数据量,HIVE SQL作业与当前源数据量之间一一对应;依据多组历史作业参数组以及多个当前源数据量,通过预设机器学习算法,构建预设机器学习模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国邮政储蓄银行股份有限公司,未经中国邮政储蓄银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310197006.1/2.html,转载请声明来源钻瓜专利网。