[发明专利]数据表清理方法、装置及服务器有效
申请号: | 202110633592.0 | 申请日: | 2021-06-07 |
公开(公告)号: | CN113268477B | 公开(公告)日: | 2023-06-23 |
发明(设计)人: | 杨雄威;韦星宁;李奕锴 | 申请(专利权)人: | 中国联合网络通信集团有限公司 |
主分类号: | G06F16/215 | 分类号: | G06F16/215;G06F16/28;G06N3/006 |
代理公司: | 北京同立钧成知识产权代理有限公司 11205 | 代理人: | 朱颖;刘芳 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 数据表 清理 方法 装置 服务器 | ||
1.一种数据表清理方法,其特征在于,包括:
获取预设时间段内数据库的指标集,其中所述指标集包含所有数据表的元数据特征参数和所述数据库的关系特征参数,所述关系特征参数包括上游表数量、下游表数量、上游表距今更新天数、下游表归属存储是否生效、存在天数、距今更新天数、表名类别、数据行数、数据表大小、是否存在白名单、归属存储是否生效、日均增长、周均增长、月均增长、日增环比、周增环比以及月增环比中的至少一种,所述元数据特征参数包括用户名、表名、数据库名、生成日期、表更新时间、数据表行数、数据表大小中的至少一种;
将所述指标集输入预设随机森林模型中,获得所述数据库中所有数据表的评估值,其中所述预设随机森林模型是根据所述数据库的存储代码、数据库中所有数据表的元数据信息以及每个数据表的评估值进行训练获得的;
清理所述数据库中评估值最小的数据表,获得清理后的数据库;
所述预设随机森林模型的训练步骤,包括:
获取数据库的存储代码、数据库中所有数据表的元数据信息以及每个数据表的评估值,并将所述数据库的存储代码进行解析获得关系特征信息;
将所述关系特征信息以及所述数据库中所有数据表的元数据信息进行数据处理,获得元数据特征参数和关系特征参数,并将所述元数据特征参数和关系特征参数以及所述每个数据表的评估值作为样本集;
按照预设比例将所述样本集分为训练集和验证集,采用随机森林算法对所述训练集进行建模,获得随机森林模型,并根据所述验证集验证对所述随机森林模型进行验证。
2.根据权利要求1所述的方法,其特征在于,在所述获取预设时间段内数据库的指标集之后,还包括:
根据独热编码对所述指标集进行预处理,将所述指标集中元数据特征参数和关系特征参数中的离散参数变为连续特征参数。
3.根据权利要求1所述的方法,其特征在于,所述将所述数据库的存储代码进行解析获得关系特征信息,包括:
根据图数据库对所述存储代码进行解析,获得所述数据库的数据表关系图谱;
根据所述数据库中所有数据表的受众量、更新量级以及更新频次对所述数据表关系图谱进行评估,获得所述数据库的关系特征信息。
4.一种数据表清理装置,其特征在于,包括:
获取模块,用于获取预设时间段内数据库的指标集,其中所述指标集包含所有数据表的元数据特征参数和所述数据库的关系特征参数,所述关系特征参数包括上游表数量、下游表数量、上游表距今更新天数、下游表归属存储是否生效、存在天数、距今更新天数、表名类别、数据行数、数据表大小、是否存在白名单、归属存储是否生效、日均增长、周均增长、月均增长、日增环比、周增环比以及月增环比中的至少一种,所述元数据特征参数包括用户名、表名、数据库名、生成日期、表更新时间、数据表行数、数据表大小中的至少一种;
输入模块,用于将所述指标集输入预设随机森林模型中,获得所述数据库中所有数据表的评估值,其中所述预设随机森林模型是根据所述数据库的存储代码、数据库中所有数据表的元数据信息以及每个数据表的评估值进行训练获得的,所述预设随机森林模型的训练步骤,具体包括:获取数据库的存储代码、数据库中所有数据表的元数据信息以及每个数据表的评估值,并将所述数据库的存储代码进行解析获得关系特征信息;将所述关系特征信息以及所述数据库中所有数据表的元数据信息进行数据处理,获得元数据特征参数和关系特征参数,并将所述元数据特征参数和关系特征参数以及所述每个数据表的评估值作为样本集;按照预设比例将所述样本集分为训练集和验证集,采用随机森林算法对所述训练集进行建模,获得随机森林模型,并根据所述验证集验证对所述随机森林模型进行验证;
清理模块,用于清理所述数据库中评估值最小的数据表,获得清理后的数据库。
5.根据权利要求4所述的装置,其特征在于,所述数据表清理装置还包括:
预处理模块,用于根据独热编码对所述指标集进行预处理,将所述指标集中元数据特征参数和关系特征参数中的离散参数变为连续特征参数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信集团有限公司,未经中国联合网络通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110633592.0/1.html,转载请声明来源钻瓜专利网。