[发明专利]基于机器学习的多态蠕虫特征提取及多态蠕虫辨识方法有效
申请号: | 201910226995.6 | 申请日: | 2019-03-25 |
公开(公告)号: | CN110022313B | 公开(公告)日: | 2021-09-17 |
发明(设计)人: | 王方伟;王长广;杨少杰;赵冬梅 | 申请(专利权)人: | 河北师范大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06 |
代理公司: | 石家庄新世纪专利商标事务所有限公司 13100 | 代理人: | 董金国 |
地址: | 050024 河*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 机器 学习 蠕虫 特征 提取 辨识 方法 | ||
本发明公开了一种基于机器学习的多态蠕虫特征提取及多态蠕虫辨识方法,特征提取方法包括加载多态蠕虫并划分为测试集及训练集,建立、训练并校验恶意多态蠕虫行为特征数学模型步骤。辨识方法实时监控程序运行状态,记录多态蠕虫特征提取实验结果。本发明能够更加快速准确的提取出多态蠕虫的特征,能够实时应用于网络流量的监控之中,程序的扩展性强、便于控制、可视化窗口更为人性化。
技术领域
本发明涉及一种多态蠕虫特征提取方法及多态蠕虫辨识方法,尤其涉及一种基于机器学习的多态蠕虫特征提取及多态蠕虫辨识方法,属于网络安全技术领域。
背景技术
随着互联网在各个领域的广泛推广及应用,蠕虫已经成为当前网络空间安全及主机安全的主要威胁之一,对于多态蠕虫的快速感知和提高特征提取准确度问题成为了互联网安全中的重要问题。随着计算机网络技术的不断发展,多态蠕虫呈现出变种快,传播速度迅速,破坏力大,自我繁殖能力强,难以发现的特点,对社会生产生活造成了不可估量的损失。随着多态蠕虫产生方式及传播方式的不断进步,其传播能够在短时间内遍及全球,并对网络环境造成强力的打击,其传播还可通过个人主机进行繁殖和内网传递,传统的序列比对方式已经无法有效进行快速提取及提供网络正常环境保护。因此,提高多态蠕虫提取的准确性及提取效率成为了亟待解决的问题。
发明内容
本发明要解决的技术问题是提供一种基于机器学习的多态蠕虫特征提取及多态蠕虫辨识方法。
为解决上述技术问题,本发明采用的技术方案是:
技术方案一:
一种基于机器学习的多态蠕虫特征提取方法,包括以下步骤:
步骤1:加载多态蠕虫并划分为测试集及训练集:构建正则表达式进行分词,逐条加载多态蠕虫数据集,将恶意蠕虫数据集按照预设比例分为测试集及训练集;测试集及训练集进一步分组形成文件集,各恶意蠕虫分别与文件集中的一个文件对应;
步骤2:训练恶意多态蠕虫行为模型:采用无监督机器学习方式提取所述训练集中的恶意蠕虫的1项以上的子行为特征,获得的恶意多态蠕虫行为模型为各子行为特征按权重加权平均。
所述的基于机器学习的多态蠕虫特征提取方法还包括步骤3:精炼恶意多态蠕虫行为特征数学模型:利用有监督学习方式使用测试集中的恶意蠕虫再次提取的恶意蠕虫的子行为特征,步骤2和步骤3提取的相同子行为特征且对应权值差异小于预设值,其余行为特征舍弃。
所述步骤1中的正则表达式为“GET.*http/1.1.*\\r\\n.*?”。
所述步骤2中的恶意多态蠕虫行为模型中的各行为特征权值的计算方法均为:
所述正向词频的计算方法为:
所述特征转换的计算方法为:
所述逆文档频率的计算方法为:
技术方案二:
一种应用技术方案一所述的多态蠕虫特征提取方法的多态蠕虫辨识方法,包括以下步骤:
实时监控程序运行状态,记录多态蠕虫特征提取的日志并采用可视化窗口显示;所述日志包括了监控程序是否有异常状态、程序每个步骤时间节点、数据集分组状态、每条蠕虫代码段原始数据、初步对相应代码段所提取出的特征分析、程序测试后所确定的多态蠕虫特征。
采用上述技术方案所取得的技术效果在于:
1.采用改进hash计算的方法内存使用量不会随数据量和维度增加且正向词频值能够做到一一位置对应关系,提高正向词频计算准确度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河北师范大学,未经河北师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910226995.6/2.html,转载请声明来源钻瓜专利网。