[发明专利]一种面向漏洞检测的二进制代码相似性分析方法有效
申请号: | 202011555496.0 | 申请日: | 2020-12-24 |
公开(公告)号: | CN112733137B | 公开(公告)日: | 2021-11-16 |
发明(设计)人: | 王莘;姜训智;程蕾蓉 | 申请(专利权)人: | 哈尔滨工业大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F21/57;G06F8/41;G06F8/53 |
代理公司: | 哈尔滨市阳光惠远知识产权代理有限公司 23211 | 代理人: | 张宏威 |
地址: | 150001 黑龙*** | 国省代码: | 黑龙江;23 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 漏洞 检测 二进制 代码 相似性 分析 方法 | ||
1.一种面向漏洞检测的二进制代码相似性分析方法,其特征是:包括以下步骤:
步骤1:选定源代码漏洞库;
步骤2:将源代码漏洞库中代码进行编译,形成二进制文件;
步骤3:根据得到的二进制文件,通过词嵌入模型对二进制文件进行训练,生成指令的嵌入向量;
所述步骤3具体为:
步骤3.1:利用词嵌入模型对二进制文件进行训练,生成指令的嵌入向量,一个汇编指令是由一个操作码和两个操作数组成的序列:ins=Opcode,Operand1,Operand2;空操作数由特殊标记EMPTY代替,所有操作码和操作数组成一个集合,每个操作码和操作数都被分配一个索引号;一条指令抽象为三个整数的序列,其中每个整数代表一个操作码或操作数的索引,一个基本块是一个汇编指令序列b=ins1,ins2,...,insn,即包含三个有序整数的序列;
一个汇编函数是一组基本块f={b1,b2,...,bm},当两个汇编函数对所有的输入产生完全相同的输出,那么就是相同的;
步骤3.2:基于PV-DM模型设计的词嵌入模型,PV-DM模型基于文档中的标记学习文档表示,文档是按顺序布局的,通过汇编函数表示为控制流图CFG,将控制流图建模为多个序列,每个序列对应于一个潜在的执行轨迹,所述轨迹包含线性布局的汇编指令,给定一个二进制文件,使用angr对二进制文件进行反汇编,提取出一个汇编函数列表、基本块和控制流图;对于函数fs中的每个序列bi,神经网络从一开始就遍历指令,对于每一条指令insj,通过利用前一个指令insj-1和下一个指令insj+1和指令所在的函数向量,最大化在其当前指令处的概率,来预测当前指令tc,通过下式表示概率:
邻居指令提供的向量捕捉词汇语义关系,函数的向量记住了给定上下文中无法预测的内容;对每个操作数和操作码构建词典,将操作数平均后与操作码拼接形成指令的向量表示;
步骤4:对指令嵌入向量进行分析,生成基本块嵌入向量;
步骤5:对生成的基本块嵌入向量进行相似性检测,确定二进制文件是否包含漏洞。
2.根据权利要求1所述的一种面向漏洞检测的二进制代码相似性分析方法,其特征是:所述步骤1中选用OpenSSL作为源代码漏洞库。
3.根据权利要求1所述的一种面向漏洞检测的二进制代码相似性分析方法,其特征是:所述步骤2具体为:将源代码漏洞库中代码通过不同的优化级别和编译选项编译成对应的二进制文件。
4.根据权利要求1所述的一种面向漏洞检测的二进制代码相似性分析方法,其特征是:所述步骤4具体为:
对指令嵌入向量进行分析,生成基本块嵌入向量,通过anger生成函数的ICFG,通过为字符串和库函数创建虚拟节点,并从调用点向这些虚拟节点绘制边,使得两个图形在终端虚拟节点上合并成一个,将合成的图和基本块的嵌入输入TADW算法中,通过交替最小二乘ALS算法最小化损失函数,多次迭代优化后,生成基本块的嵌入。
5.根据权利要求1所述的一种面向漏洞检测的二进制代码相似性分析方法,其特征是:所述步骤5具体为:
基于基本块嵌入向量进行相似性检测,将两个函数所对应的向量进行余弦相似度比较,对相似度大于阈值0.5的函数,再分别对每对基本块的向量进行余弦相似度度量,最后得到二进制文件包含的top K个漏洞。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学,未经哈尔滨工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011555496.0/1.html,转载请声明来源钻瓜专利网。