[发明专利]面向概念漂移的可解释Android恶意软件检测方法有效
申请号: | 202111033119.5 | 申请日: | 2021-09-03 |
公开(公告)号: | CN113901463B | 公开(公告)日: | 2023-06-30 |
发明(设计)人: | 张炳;文峥;高原;赵旭阳;任家东 | 申请(专利权)人: | 燕山大学 |
主分类号: | G06F21/56 | 分类号: | G06F21/56;G06F18/214;G06N20/20 |
代理公司: | 石家庄众志华清知识产权事务所(特殊普通合伙) 13123 | 代理人: | 田秀芬 |
地址: | 066004 河北*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 概念 漂移 可解释 android 恶意 软件 检测 方法 | ||
1.一种面向概念漂移的可解释Android恶意软件检测方法,其特征在于:包括以下步骤:
步骤1,收集若干份人工Android恶意应用软件分析报告,组成Android恶意应用软件人工分析报告样本库;
步骤2,收集若干个的恶意与良性Android应用软件样本,组成初始Android应用软件样本库,其中恶意样本与良性样本数量保持一致;
步骤3,在Android恶意应用软件人工分析报告库中,提取Android恶意应用软件逆向分析高频词,其中排名前A的有效单词,作为检测模型使用的特征种类;
步骤4,根据初始Android应用软件样本库,使用自动化机器学习算法,对应每种检测模型使用的特征种类,构建筛选特征向量,训练特征分量筛选模型,其数量为A个;
步骤5,根据每个特征分量筛选模型,使用可解释机器学习算法,分别计算其筛选特征向量中所有分量的沙普利平均绝对值,其中排名前B的分量,作为一个检测模型使用的子特征向量;
步骤6,合并所有检测模型使用的子特征向量,作为检测模型使用的特征;根据初始Android应用软件样本库,提取检测模型使用的特征对应数据,组成初始训练数据集;
步骤7,在初始训练数据集上,使用基于树模型的机器学习算法,训练初始检测模型,并输出检测模型使用的特征,作为人工验证检测模型的依据;
步骤8,对未知安全性的Android恶意软件,提取检测模型使用的特征对应数据,输入训练好的初始检测模型中,检测出该应用是否为Android恶意软件;
步骤9,根据国内外主流应用市场和安全网站,使用爬虫技术,获取Android恶意软件样本,组成模型迁移恶意软件样本库,其中恶意软件公布时间距收集日期不大于C月,恶意软件数量为D个;
步骤10,根据模型迁移恶意软件样本库,提取检测模型使用的特征对应数据,组成模型迁移数据集;
步骤11,根据模型迁移数据集与初始训练数据集,使用同分布检验算法,计算检验统计量,判定Android恶意软件是否出现概念漂移;
步骤12,若Android恶意软件出现概念漂移,使用迁移学习领域自适应算法,迁移初始检测模型,迭代E次,训练新检测模型,替代初始检测模型;
步骤13,以时间间隔C月为周期,重复执行步骤8-12处理,更新检测模型,检测Android恶意软件。
2.根据权利要求1所述的一种面向概念漂移的可解释Android恶意软件检测方法,其特征在于:步骤3中,所述提取Android恶意应用软件逆向分析高频词的方法为词频统计算法,所述排名前A的有效单词为Android编程语言关键字。
3.根据权利要求1所述的一种面向概念漂移的可解释Android恶意软件检测方法,其特征在于:步骤4中,包括以下子步骤:
4.1从初始Android应用软件样本库中投影一种检测模型使用的特征种类;
4.2若该种特征已被投影过,选择一种检测模型使用的特征种类中未被投影过的特征,执行步骤4.1;
4.3若该种特征未被投影过,将投影后数据中包含的该种特征全部互异数据,作为该种特征的筛选特征向量;构建特征分量筛选数据集,其中包括所有样本的样本特征向量;
4.4将特征分量筛选数据集输入自动化机器学习算法中,选择输出管道中准确率最高的管道,作为该种特征的特征分量筛选模型;
4.5若存在未输出特征分量筛选模型的特征种类,执行步骤4.1。
4.根据权利要求3所述的一种面向概念漂移的可解释Android恶意软件检测方法,其特征在于:步骤4.4中,所述自动化机器学习算法为TPOT自动化机器学习算法,选择输出管道中准确率最高的管道应用基于树的机器学习模型。
5.根据权利要求1所述的一种面向概念漂移的可解释Android恶意软件检测方法,其特征在于:步骤5中,排名前B的分量,其沙普利平均绝对值的和不少于剩余分量沙普利平均绝对值的和的F倍,F为不小于4的正整数。
6.根据权利要求1所述的一种面向概念漂移的可解释Android恶意软件检测方法,其特征在于:步骤5中,所述可解释机器学习算法为SHAP算法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于燕山大学,未经燕山大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111033119.5/1.html,转载请声明来源钻瓜专利网。