[发明专利]一种多级特征提取方法有效
申请号: | 201910857082.4 | 申请日: | 2019-09-11 |
公开(公告)号: | CN110704308B | 公开(公告)日: | 2022-09-09 |
发明(设计)人: | 程华;王明扬;吕正辉 | 申请(专利权)人: | 无锡江南计算技术研究所;程华 |
主分类号: | G06F11/36 | 分类号: | G06F11/36 |
代理公司: | 浙江千克知识产权代理有限公司 33246 | 代理人: | 雷娴 |
地址: | 214100 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 多级 特征 提取 方法 | ||
1.一种多级特征提取方法,其特征在于,包括:
获取并存储代码库各软件项目的混合特征集合;
所述混合特征集合包括表征所述软件项目中各文件夹结构的文件夹级特征、表征所述软件项目中各文件语义的文件级特征、表征所述软件项目中各函数语义和语法的函数级特征、表征所述软件项目中各代码段语法、语义、文本的代码段级特征;
在获取并存储所述混合特征集合之后,还包括:
根据待检测软件项目的检测需要获取待检测软件项目的文件夹级特征、文件级特征、函数级特征和代码段级特征中的一项或者多项;
将所获取的所述待检测软件项目的一项或者多项特征与所述代码库中软件项目的混合特征集中的对应特征进行特征匹配;
获取软件项目中各文件夹的文件夹统计信息以及各文件夹内所含文件、函数和变量之间的关联信息作为对应软件项目的文件夹级特征;
所述文件夹内所含文件、函数和变量之间的关联信息包括文件关联图和函数跨文件调用图;获取软件项目中各文件的文件统计信息以及各文件内函数之间的关联信息作为对应软件项目的文件级特征;
所述文件统计信息包括API调用类型、API调用次数、静态变量类型、静态变量定义次数、静态变量使用次数;
所述文件内函数之间的关联信息包括函数调用关系图;获取软件项目中各函数的函数统计信息、函数内代码的结构化语义信息、函数内代码的结构化语法信息作为对应软件项目的函数级特征;所述函数统计信息包括代码结构统计信息、变量统计信息;
所述函数内代码的结构化语义信息包括代码程序依赖图;
所述函数内代码的结构化语法信息包括代码抽象语法树;
获取软件项目中各代码段的原始文本信息、符号信息、以及变量在不同上下文中的定义和使用信息;
所述代码段的原始文本信息包括代码段经标准预处理后形成的字符串信息;
代码段符号信息包括基于所述代码原始文件的符号序列。
2.根据权利要求1所述的一种多级特征提取方法,其特征在于:
所述文件夹统计信息包括文件夹的文件数量、文件类型、文件大小、编程语言。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于无锡江南计算技术研究所;程华,未经无锡江南计算技术研究所;程华许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910857082.4/1.html,转载请声明来源钻瓜专利网。