[发明专利]基于注意力机制的恶意代码检测方法在审

专利信息
申请号: 202110390469.0 申请日: 2021-04-12
公开(公告)号: CN112861135A 公开(公告)日: 2021-05-28
发明(设计)人: 汪洁;殷雪峰 申请(专利权)人: 中南大学
主分类号: G06F21/56 分类号: G06F21/56;G06N3/04;G06N3/08
代理公司: 长沙永星专利商标事务所(普通合伙) 43001 代理人: 周咏;米中业
地址: 410083 湖南*** 国省代码: 湖南;43
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 注意力 机制 恶意代码 检测 方法
【权利要求书】:

1.一种基于注意力机制的恶意代码检测方法,包括如下步骤:

S1.获取恶意代码及正常程序作为基础数据,并构建特征库;

S2.将步骤S1得到的恶意代码进行区块划分;

S3.将步骤S2得到的划分后的恶意代码进行处理,从而得到双通道恶意代码图片;

S4.构建恶意代码检测初步模型;

S5.采用步骤S3得到的双通道恶意代码图片,以及步骤S1获取的正常程序,对步骤S4构建的恶意代码检测初步模型进行训练,从而得到最终的恶意代码检测模型;

S6.采用步骤S5得到的恶意代码检测模型进行恶意代码检测。

2.根据权利要求1所述的基于注意力机制的恶意代码检测方法,其特征在于步骤S1所述的获取恶意代码及正常程序作为基础数据,并构建特征库,具体为从采用如下步骤构建特征库:

A.获取恶意代码数据集和正常程序数据集;

B.对获取的恶意代码进行反汇编,并按照函数进行分块;

C.采用3-gram模型对每个函数内的操作码进行切分,从而得到3-gram特征;

D.采用如下算式计算每个3-gram特征的频率fy(Di):

式中D为3-gram特征集合;Di为所有3-gram特征中的第i个特征;y为恶意代码样本;S(Di,y)为样本y中特征Di的总数;样本中每个3-gram特征的频率在区间[0,1]内;

E.对步骤D计算得到的每个3-gram特征的频率fy(Di)进行离散化处理;

F.采用如下算式计算每个3-gram特征的信息熵H(X):

式中p(xi)为3-gram特征X的取值属于xi区间的概率;n为对连续3-gram特征X离散化后得到的取值区间的总数;log()为取底数为2的对数操作;

G.采用如下算式计算每个3-gram特征的条件熵H(Y|X):

H(Y|X)=∑x∈Xp(x)H(Y|X=x)

式中Y为样本标签,用于表示代码是否为恶意代码;

H.计算3-gram特征X的信息增益G(X)为G(X)=H(X)-H(Y|X);

I.得到每个3-gram特征的信息增益后,保留信息增益值最大的前若干个3-gram特征和对应的信息增益值,并将剩余的3-gram特征的信息增益值直接设置为0,从而构成最终的特征库。

3.根据权利要求2所述的基于注意力机制的恶意代码检测方法,其特征在于步骤S2所述的将步骤S1得到的恶意代码进行区块划分,具体为将恶意代码按照函数划分为若干个区块,并根据特征库去掉无用函数。

4.根据权利要求3所述的基于注意力机制的恶意代码检测方法,其特征在于步骤S3所述的将步骤S2得到的划分后的恶意代码进行处理,从而得到双通道恶意代码图片,具体为采用如下步骤得到双通道恶意代码图片:

a.计算每个函数内所包含的3-gram特征的信息增益总和,并删除信息增益总和为0的函数;

b.获取步骤a得到的每个函数的操作码;

c.将操作码映射到设定的整数区间,保证每一个整数代表一种操作码;

d.将每个函数中的操作码进行转换得到一维向量,将得到的一维向量进行拼接得到单通道恶意代码图片;

e.针对步骤d得到的单通道恶意代码图片,将图片中每一个像素与其之后的两个像素重新组成新的3-gram特征,并与步骤S1构建的特征库进行比较,从而得到像素所对应的新的信息增益值;

f.将步骤e得到的像素所对应的新的信息增益值与设定值yy相乘,得到像素权重值;xx为特征库中信息增益的最大值;

g.在步骤d得到的单通道恶意代码图片上,添加一个新的图像通道,图像通道的值为对应像素的像素权重值,从而得到最终的双通道恶意代码图片。

5.根据权利要求4所述的基于注意力机制的恶意代码检测方法,其特征在于步骤S4所述的构建恶意代码检测初步模型,具体为采用如下步骤构建恶意代码检测初步模型:

恶意代码检测初步模型包括输入层、第一卷积层、第一池化层、第二卷积层、第二池化层、第三卷积层、第三池化层、压缩操作层、激励操作层、全连接层和softmax函数层;

输入层:用于接收双通道恶意代码图片;

第一卷积层:用于对输入层的数据进行二维卷积,并输出到第一池化层;

第一卷积层中卷积核的大小为1*3,步长为1;

第一池化层:用于对第一卷积层输出的数据进行池化处理,从而更好的捕获局部特征;

第二卷积层:用于对第一池化层的数据进行二维卷积,并输出到第二池化层;第二卷积层中卷积核的大小为3*3,步长为1;

第二池化层:用于对第二卷积层输出的数据进行池化处理,从而更好的捕获局部特征;

第三卷积层:用于对第二池化层的数据进行二维卷积,并输出到第三池化层;第一卷积层中卷积核的大小为3*3,步长为1;

第三池化层:用于对第三卷积层输出的数据进行池化处理,从而更好的捕获局部特征;

压缩操作层:对第三池化层输出的H*W*C特征进行压缩和global average pooling,从而得到1*1*C大小的特征向量;H为特征通道的高;W为特征通道的宽;C为特征通道的数量;

激励操作层:包括两个全连接层和两个激活函数,第一全连接层的神经元个数和两个激活函数均自行设定;第二全连接层的神经元个数为C;将权重值分别和原特征通道的二维矩阵相乘,从而得到加权后的大小为H*W*C的特征,并进行扁平化处理,并输出到全连接层;

全连接层:用于对上述步骤得到的特征进行拟合;

softmax函数层:用于完成对恶意代码的识别。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中南大学,未经中南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110390469.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top