[发明专利]代码相似函数检测方法、装置、电子设备及存储介质在审
申请号: | 202110983815.6 | 申请日: | 2021-08-25 |
公开(公告)号: | CN115729797A | 公开(公告)日: | 2023-03-03 |
发明(设计)人: | 刘江虹 | 申请(专利权)人: | 北京有竹居网络技术有限公司 |
主分类号: | G06F11/36 | 分类号: | G06F11/36;G06F8/41;G06F8/75 |
代理公司: | 上海光栅知识产权代理有限公司 31340 | 代理人: | 关浩;马雯雯 |
地址: | 101299 北京市平*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 代码 相似 函数 检测 方法 装置 电子设备 存储 介质 | ||
1.一种代码相似函数检测方法,其特征在于,所述方法包括:
解析待检测代码,得到抽象语法树;
通过遍历所述抽象语法树,得到所述抽象语法树中至少两个子树,所述子树用于表征所述待检测代码中的函数体;
根据各所述子树的节点,确定至少两个相似子树,并将所述至少两个相似子树对应的函数体,确定为相似函数,其中,各所述相似子树的对应节点的类型相同。
2.根据权利要求1所述的方法,其特征在于,通过遍历所述抽象语法树,得到所述抽象语法树中至少两个子树,包括:
基于预设算法,对所述抽象语法树进行遍历,获得至少两个节点;
根据各所述节点的节点信息,确定至少两个子树。
3.根据权利要求2所述的方法,其特征在于,所述节点信息中包括节点类型;根据各所述节点的节点信息,确定至少两个子树,包括:
根据各所述节点的节点信息,确定各所述节点的节点类型;
根据各所述节点的节点类型,确定至少两个子树。
4.根据权利要求2所述的方法,其特征在于,所述预设算法包括深度优先遍历算法,基于预设算法,对所述抽象语法树进行遍历,获得至少两个节点,包括:
基于深度优先遍历算法,对所述抽象语法树进行前序遍历,获得至少两个节点。
5.根据权利要求1所述的方法,其特征在于,根据各所述子树的节点,确定至少两个相似子树,包括:
获取各所述子树的至少两个节点的节点类型;
根据各所述子树的至少两个节点的节点类型,确定子树类型;
将所述子树类型相同的子树,确定为相似子树。
6.根据权利要求5所述的方法,其特征在于,根据各所述子树的至少两个节点的节点类型,确定子树类型,包括:
对各所述子树中的至少两个节点的节点类型进行哈希计算,生成与各所述子树分别对应的类型哈希值;
根据各所述子树对应的类型哈希值,确定子树类型。
7.根据权利要求5所述的方法,其特征在于,所述方法还包括:
获取各所述子树中预设长度的节点,生成目标节点;
对各所述子树中的至少两个节点的节点类型进行哈希计算,生成与各所述子树分别对应的类型哈希值,包括:
对各所述子树中的目标节点的节点类型进行哈希计算,生成与各所述子树分别对应的类型哈希值。
8.根据权利要求5所述的方法,其特征在于,所述方法还包括:
将所述抽象语法树中的各节点存储至第一字典数据,其中,所述第一字典数据的键表征存储地址,所述第一字典数据的值用于表征所述抽象语法树中的各节点的集合;
将所述相似子树存储至第二字典数据,其中,所述第二字典数据的键表征所述相似子树的子树类型,所述第二字典数据的值用于表征所述相似子树的节点的集合;
将所述至少两个相似子树对应的函数体,确定为相似函数,包括:
根据所述第一字典数据和所述第二字典数据,确定所述相似子树对应的各节点的节点位置;
根据所述节点位置,对所述相似子树对应的各节点进行还原,生成所述相似函数。
9.根据权利要求1-8任一项所述的方法,其特征在于,解析待检测代码,得到抽象语法树,包括:
加载预设的Babel编辑器;
通过所述Babel编辑器以及预设的解析关键字,对待检测代码进行解析,得到对应的抽象语法树。
10.一种代码相似函数检测装置,其特征在于,包括:
解析模块,用于解析待检测代码,得到抽象语法树;
遍历模块,用于通过遍历所述抽象语法树,得到所述抽象语法树中至少两个子树,所述子树用于表征所述待检测代码中的函数体;
确定模块,用于根据各所述子树的节点,确定至少两个相似子树,并将所述至少两个相似子树对应的函数体,确定为相似函数,其中,各所述相似子树的对应节点的类型相同。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京有竹居网络技术有限公司,未经北京有竹居网络技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110983815.6/1.html,转载请声明来源钻瓜专利网。