[发明专利]一种冗余代码的识别方法、装置和设备在审
申请号: | 202110439936.4 | 申请日: | 2021-04-23 |
公开(公告)号: | CN113064597A | 公开(公告)日: | 2021-07-02 |
发明(设计)人: | 夏雯君;李海波 | 申请(专利权)人: | 中国工商银行股份有限公司 |
主分类号: | G06F8/41 | 分类号: | G06F8/41 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 任默闻;王涛 |
地址: | 100140 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 冗余 代码 识别 方法 装置 设备 | ||
1.一种冗余代码的识别方法,其特征在于,包括:
获取目标源代码的执行计划信息集;其中,所述执行计划信息集中包含所述目标源代码中各个结构化查询语句对应的至少一个执行计划片段;
确定所述执行计划信息集中各个执行计划片段的目标特征向量;
基于所述各个执行计划片段的目标特征向量,利用聚类算法对所述各个执行计划片段进行相似度匹配,得到至少一组匹配成功的相似执行计划片段;
获取所述相似执行计划片段的生产运维信息;
根据所述生产运维信息,确定所述至少一组相似执行计划片段中的待调整冗余执行计划片段。
2.根据权利要求1所述的方法,其特征在于,获取目标源代码的执行计划信息集,包括:
获取所述目标源代码;
确定所述目标源代码对应的结构化查询语句信息集;
获取所述目标源代码对应的数据库表统计信息;
根据所述数据库表统计信息和所述结构化查询语句信息集,生成所述各个结构化查询语句的执行计划;
将所述各个结构化查询语句的执行计划按STAGE分割,得到多个执行计划片段;
将所述多个执行计划片段按照树形结构进行解析,得到所述目标源代码的执行计划信息集。
3.根据权利要求2所述的方法,其特征在于,确定所述目标源代码对应的结构化查询语句信息集,包括:
对所述目标源代码进行分割整形,得到多个结构化查询语句;
标记所述多个结构化查询语句的属性;其中,所述属性包括:增量属性和存量属性;
基于所述多个结构化查询语句的属性,得到结构化查询语句信息集;其中,所述结构化查询语句信息集中包含各个结构化查询语句的属性和特征信息,所述特征信息包括:结构化查询语句在所述目标源代码中的路径、原结构化查询语句、所属的作业、作业组和应用。
4.根据权利要求1所述的方法,其特征在于,确定所述执行计划信息集中各个执行计划片段的目标特征向量,包括:
利用规则匹配法提取所述各个执行计划片段的特征数据,得到所述各个执行计划片段的特征信息集;
对所述各个执行计划片段的特征信息集进行预处理,得到所述各个执行计划片段的初始特征向量;
对所述各个执行计划片段的初始特征向量进行归一化处理,得到所述各个执行计划片段的目标特征向量。
5.根据权利要求1所述的方法,其特征在于,在得到至少一组匹配成功的相似执行计划片段之后,还包括:
将所述至少一组匹配成功的相似执行计划片段加入第一冗余信息集中;
确定所述第一冗余信息集中每组相似执行计划片段的代价估算均值;
将代价估算均值小于等于第一预设阈值的各组相似执行计划片段从所述第一冗余信息集中移除,得到第二冗余信息集;
根据执行计划片段对应的结构化查询语句的属性对所述第二冗余信息集中的各组相似执行计划片段进行分类,得到多组增量冗余信息集和存量冗余信息集。
6.根据权利要求5所述的方法,其特征在于,根据所述生产运维信息,确定所述至少一组相似执行计划片段中的待调整冗余执行计划片段,包括:
在确定一组相似执行计划片段对应的增量冗余信息集为空并且所述存量冗余信息集非空的情况下,根据所述存量冗余信息集中各个执行计划片段的生产运维信息,确定所述存量冗余信息集的平均资源消耗;
在所述平均资源消耗大于第二预设阈值的情况下,将所述存量冗余信息集中的执行计划片段加入所述待调整冗余信息集中;
在所述平均资源消耗小于等于第二预设阈值的情况下,将所述存量冗余信息集中的执行计划片段移除。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国工商银行股份有限公司,未经中国工商银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110439936.4/1.html,转载请声明来源钻瓜专利网。
- 上一篇:藻毒素降解酶及复合材料与应用
- 下一篇:一种屏蔽丝毛刷整形机