[发明专利]数据仓库的冷热数据识别方法、装置及电子设备有效
申请号: | 202011603968.5 | 申请日: | 2020-12-29 |
公开(公告)号: | CN113064930B | 公开(公告)日: | 2023-04-28 |
发明(设计)人: | 邓娟;刘晓斌;董宇 | 申请(专利权)人: | 中国移动通信集团贵州有限公司;中国移动通信集团有限公司 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06F16/28 |
代理公司: | 北京国昊天诚知识产权代理有限公司 11315 | 代理人: | 徐晨影;朱文杰 |
地址: | 550081 贵*** | 国省代码: | 贵州;52 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据仓库 冷热 数据 识别 方法 装置 电子设备 | ||
本申请公开了一种数据仓库的冷热数据识别方法、装置及电子设备,以至少解决现有技术中的冷热数据识别方法存在的识别效率和准确率低的问题。所述方法包括:获取数据仓库中的业务数据表在指定统计周期内的历史访问记录;基于所述指定统计周期内的历史访问记录,确定所述业务数据表的处理周期及在所述指定统计周期内的访问频率信息;基于预先建立的冷热数据识别模型和所述业务数据表的处理周期、在所述指定统计周期内的访问频率信息及所述指定统计周期,确定所述业务数据表在所述指定统计周期内的冷热数据分界时间点;基于所述冷热数据分界时间点,识别所述业务数据表中的冷数据和热数据。
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据仓库的冷热数据识别方法、装置及电子设备。
背景技术
数据仓库(Data Warehouse,DW)出于企业的分析性报告和决策支持多点目的而创建的一个数据存储集合,其用于对多样的业务数据进行筛选与整合。数据仓库具有业务数据量大、种类多样等特征。如何有效识别数据仓库中业务数据的冷热属性,以便对不同属性的业务数据进行分离存储、备份或者销毁等处理,对于数据仓库的管理尤为重要。
目前,对数据仓库中业务数据的冷热属性的识别,主要通过人工逐个统计各个业务数据的访问情况,根据统计结果来区分业务数据的冷热属性,比如,如果某个业务数据频繁被访问,则可将该业务数据作为热数据,反之,则可将该业务数据作为冷数据。可见,现有技术中的冷热数据识别方法主要依赖于业务人员的经验,因而识别结果的准确率无法得到保证。并且,随着数据仓库对接的业务规模的数量级不断增大,数据仓库中的业务数据的数据量也会急剧增长,若通过人工逐个统计业务数据的访问情况,将会影响识别效率。
发明内容
本申请实施例提供一种数据仓库的冷热数据识别方法、装置及电子设备,以至少解决现有技术中的冷热数据识别方法存在的识别效率和准确率低的问题。
为了解决上述技术问题,本申请实施例采用下述技术方案:
第一方面,本申请实施例提供一种数据仓库的冷热数据识别方法,包括:
获取数据仓库中的业务数据表在指定统计周期内的历史访问记录;
基于所述指定统计周期内的历史访问记录,确定所述业务数据表的处理周期及在所述指定统计周期内的访问频率信息;
基于预先建立的冷热数据识别模型和所述业务数据表的处理周期、在所述指定统计周期内的访问频率信息及所述指定统计周期,确定所述业务数据表在所述指定统计周期内的冷热数据分界时间点;
基于所述冷热数据分界时间点,识别所述业务数据表中的冷数据和热数据。
可选地,所述访问频率信息包括总访问频率和在所述指定统计周期的各个子周期内的访问频率;
基于预先建立的冷热数据识别模型和所述业务数据表的处理周期、在所述指定统计周期内的访问频率信息及所述指定统计周期,确定所述业务数据表在所述指定统计周期内的冷热数据分界时间点,包括:
将所述业务数据表的处理周期、所述指定统计周期及在所述指定统计周期内的总访问频率输入到所述冷热数据识别模型,以得到所述业务数据表的冷热数据比例,其中,所述冷热数据识别模型是以样本数据表的处理周期、在统计周期内的总访问频率及统计周期作为训练样本,以所述样本数据表的冷热数据比例作为标签,基于预设的第一分类算法进行训练得到;
基于所述冷热数据比例和所述业务数据表在所述指定统计周期内的总访问频率,确定与所述业务数据表相匹配的访问频率阈值;
基于所述访问频率阈值和所述业务数据表在所述指定统计周期的各个子周期内的访问频率,确定所述业务数据表在所述指定统计周期内的冷热数据分界时间点。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国移动通信集团贵州有限公司;中国移动通信集团有限公司,未经中国移动通信集团贵州有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011603968.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:用于喷射涂料和其他涂层的喷枪
- 下一篇:一种数据清洗方法和装置
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置