[发明专利]一种数据处理方法和装置在审
申请号: | 202111369264.0 | 申请日: | 2021-11-18 |
公开(公告)号: | CN114065726A | 公开(公告)日: | 2022-02-18 |
发明(设计)人: | 黄振桓 | 申请(专利权)人: | 北京迪力科技有限责任公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F16/14;G06F16/16 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 韩丽波 |
地址: | 100096 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 数据处理 方法 装置 | ||
1.一种数据处理方法,其特征在于,包括:
获取源代码项目文件,所述源代码项目文件包括一个或多个文件,所述文件包括所述文件的路径;
根据所述源代码项目文件,提取所述源代码项目文件中所述文件的名称和所述文件的路径,生成第一结构数据,所述第一结构数据包括所述文件的名称和所述文件的路径;
获取第二结构数据,所述第二结构数据为待比较的结构数据,所述第二结构数据包括待比较代码文件的文件名称和路径;
根据所述第一结构数据和所述第二结构数据,生成第一比较结果,所述第一比较结果指示所述源代码项目文件与所述待比较代码文件的相似性。
2.根据权利要求1所述的方法,其特征在于,所述第一结构数据为结构化数据,所述第一结构数据中所述源代码项目文件的所述文件的名称和所述文件的路径分别存储至指定存储区域。
3.根据权利要求1-2中任一项所述的方法,其特征在于,根据所述第一结构数据和所述第二结构数据,生成所述第一比较结果,包括:
采用树的相似性比对算法,计算所述第一结构数据和所述第二结构数据的相似性,生成所述第一比较结果。
4.根据权利要求2-3中任一项所述的方法,其特征在于,当所述第一结构数据为结构化数据时,根据所述源代码项目文件,提取所述源代码项目文件中所述文件的名称和所述文件的路径,包括:
遍历所述源代码项目文件,提取所述源代码项目文件中所述文件的名称和所述文件的路径。
5.根据权利要求1所述的方法,其特征在于,所述第一结构数据为非结构化数据,所述第一结构数据中所述源代码项目文件的所述文件的名称和所述文件的路径以文本文件形式存储。
6.根据权利要求1或者5所述的方法,其特征在于,根据所述第一结构数据和所述第二结构数据,生成所述第一比较结果,包括:
采用文本相似性算法,计算所述第一结构数据和所述第二结构数据的相似性,生成所述第一比较结果。
7.根据权利要求5-6中任一项所述的方法,其特征在于,当所述第一结构数据为非结构化数据时,根据所述源代码项目文件,提取所述源代码项目文件中所述文件的名称和所述文件的路径,包括:
采用深度优先算法或者广度优先算法遍历所述源代码项目文件,提取所述源代码项目文件中所述文件的名称和所述文件的路径。
8.根据权利要求1-7中任一项所述的方法,其特征在于,所述方法还包括:
获取多个所述第二结构数据,所述多个第二结构数据分别对应不同的得到所述待比较代码文件;
根据所述第一结构数据和所述多个第二结构数据,生成多个所述第一比较结果;
根据所述多个第一比较结果,确定相似程度最高的所述第一比较结果,并确定所述相似程度最高的第一比较结果对应的所述待比较代码文件;
根据所述源代码项目文件和所述相似程度最高的第一比较结果对应的所述待比较代码文件,生成第二比较结果,所述第二比较结果指示所述源代码项目文件与所述相似程度最高的第一比较结果对应的所述待比较代码文件的相似性。
9.根据权利要求8所述的方法,其特征在于,根据所述源代码项目文件和所述相似程度最高的第一比较结果对应的所述待比较代码文件,生成所述第二比较结果,包括:
采用抽象结构树AST算法或者局部敏感哈希LSH算法,计算所述源代码项目文件和所述相似程度最高的第一比较结果对应的所述待比较代码文件的相似性,生成所述第二比较结果。
10.一种数据处理装置,其特征在于,包括:
获取模块,用于获取源代码项目文件,所述源代码项目文件包括一个或多个文件,所述文件的名称和所述文件的路径;
处理模块,用于根据所述源代码项目文件,提取所述源代码项目文件中所述文件的名称和所述文件的路径,生成第一结构数据,所述第一结构数据包括所述文件的名称和所述文件的路径;
所述获取模块,还用于获取第二结构数据,所述第二结构数据为待比较的结构数据,所述第二结构数据包括待比较代码文件的文件名称和路径;
所述处理模块,还用于根据所述第一结构数据和所述第二结构数据,生成第一比较结果,所述第一比较结果指示所述源代码项目文件与所述待比较代码文件的相似性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京迪力科技有限责任公司,未经北京迪力科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111369264.0/1.html,转载请声明来源钻瓜专利网。