[发明专利]基于统计学习的恶意代码多模型交叉检测方法有效
申请号: | 201810815327.2 | 申请日: | 2018-07-24 |
公开(公告)号: | CN109033836B | 公开(公告)日: | 2021-07-20 |
发明(设计)人: | 王志;余沛然;孙心怡;魏然;邱克帆 | 申请(专利权)人: | 南开大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56 |
代理公司: | 天津耀达律师事务所 12223 | 代理人: | 侯力 |
地址: | 300071*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 统计 学习 恶意代码 模型 交叉 检测 方法 | ||
1.基于ConformalPrediction算法的统计学习预测方法,其特征在于,该方法以多种机器学习模型为底层,选用统计学习算法,计算一个待测样本x的显著度p-value,步骤如下:
第1步、计算显著度p-value
第1.1、输入:已知集合D包含n个恶意代码样本:D={z1,…,zn-1},zi∈Z,其中恶意代码样本可重复但无顺序,多为已被分类或聚类算法处理后的具有某种相似性的恶意代码样本的集合;
①恶意代码样本z,待检测的未知代码样本,预测该代码样本与已知恶意代码样本集合的p-value;
②不一致性度量函数A:Z(*)×Z→R,该函数的输入为一个已知恶意代码样本集合和一个未知代码样本,返回值为一个实数,该实数可反映出输入代码样本与输入恶意代码样本集合的相似程度;
③显著水平ε,数值ε可由用户指定,反映用户可接受的最大出错概率;
第1.2、输出:
恶意代码样本z的p-value值pn;同时,若pn大于显著水平ε,则输出True,否则输出False;
第2步、恶意代码变异的检测
使用基于时间窗平均p-values的APV算法来检测恶意代码的变异过程;根据时间轴上的先后顺序将恶意代码样本切割成不同的时间窗大小;每个时间窗的APV值是基于之前所有时间窗的样本集合作为已知样本集合,依次计算当前时间窗每个样本的p-value值,然后求该时间窗的样本的APV值;每个不一致度量函数都会在时间窗内得到一个APV值;
时间窗的APV值随时间的变化趋势反应了恶意数据在统计规律上随时间的变化;如果某个检测模型的APV值随时间逐渐降低,说明新的恶意代码样本的统计规律在该检测模型的观测角度,逐渐与已知的恶意代码样本统计规律产生差异,检测模型正在遭受恶意代码变异过程的影响,但并不一定出现检测模型的退化;恶意代码变异过程是一种量变过程,当恶意代码的得分超过检测模型在训练过程确定的最佳阈值,产生质变,检测模型出现退化现象;如果某个检测模型在新的时间窗内,APV值没有出现下降,说明当前时间窗恶意数据的分布规律在该检测模型的观测角度,没有出现恶意代码变异过程;
第3步、多模型共同防御
通过多模型从不同角度对恶意代码样本的分布规律进行建模,每个机器学习模型都会对该样本给出一个得分;由于这些得分不具有可比性,所以使用ConformalPrediction算法,将这些得分转换成可进行比较的统计量p-value;
统计量p-value是得分高于或等于被检测恶意代码样本得分的样本数量与总数的比值;一个样本的p-value越大表示该样本在已知的恶意代码样本集合中越显著;对于同一个样本,每个机器学习模型都生成一个p-value值;由于恶意代码的变异,可能导致平台上的部分机器学习模型无效;通过统计量p-value所表示的显著度,将选取显著度最高的模型预测结果,作为多模型共同防御的最终预测结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学,未经南开大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810815327.2/1.html,转载请声明来源钻瓜专利网。