[发明专利]一种基于机器学习的恶意加密流量识别方法有效
申请号: | 201810499683.8 | 申请日: | 2018-05-23 |
公开(公告)号: | CN108833360B | 公开(公告)日: | 2019-11-08 |
发明(设计)人: | 方勇;许益家;郑荣锋;李扬 | 申请(专利权)人: | 四川大学 |
主分类号: | H04L29/06 | 分类号: | H04L29/06;G06K9/62 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明是一种基于机器学习的流量识别技术,识别的对象是经过加密的恶意流量,本技术主要应用于流量识别领域,也可以辅助应用于网络攻击检测领域。本技术的技术核心是利用机器学习算法建立恶意加密流量识别模型,再通过模型去识别新流量。该技术的工作流程为读取大量已知属性流量数据,提取流量的统计性特征,将特征作为属性,使用随机森林算法建立模型,最后使用模型去识别新输入的流量。新输入流量的识别流程为提取流量统计性特征,输入模型进行识别,得出识别结果。本技术主要针对于加密和编码的流量,参与建模的数据全部由正常加密流量和恶意加密流量组成,这是因为如今非加密流量的识别技术已经很成熟,而对加密或编码流量的识别却十分困难,本技术为加密流量的识别提供了新的解决方法。 | ||
搜索关键词: | 加密流量 加密 加密流量识别 基于机器 流量识别 读取 机器学习算法 网络攻击检测 恶意流量 工作流程 技术核心 建立模型 流量数据 流量统计 输入流量 随机森林 统计性 建模 算法 应用 学习 成熟 | ||
【主权项】:
1.一种基于机器学习的恶意加密流量识别方法,其特征在于所述方法包括如下步骤:A、在数据采集层,采集大量数据流样本,所采集的数据流皆为加密流量,且恶意加密流量与正常流量的数量比例为1:5,在此基础上提取出其中具有优秀品质的流量作为样本,而“优秀品质的流量”定义为:数据流总数据包数在20到1000之间,数据流中携带着信息,数据流是一个完整的双向流而不是单向流;B、在统计性特征提取层,获取流量样本,提取出流量的统计性特征,流量的统计性特征主要包括4种应用层载荷信息统计性特征:比特值分布、比特值频率比、字节比较值、字符频数统计,以及28种传输层统计性特征:上行总包数、上行总字节数、下行总包数、下行总字节数、最小上行包长度、最大上行包长度、平均上行包长度、上行包长标准差、最小下行包长度、最大下行包长度、平均下行包长度、下行包长标准差、最小上行包时间间隔、最大上行包时间间隔、平均上行包时间间隔、上行包时间间隔标准差、最小下行包时间间隔、最大下行包时间间隔、平均下行包时间间隔、下行包时间间隔标准差、平均包到达时间间隔、平均包时间间隔标准差、上行包PSH标记数量、下行包PSH标记数量、上行包URG标记数量、下行包URG标记数量、每秒到达的包数、每秒到达的字节数;C、在建模数据备份层,将提取出的流统计性特征作为建模数据进行备份;D、在机器学习模型层,获取建模数据,建模数据来源于统计性特征提取层或建模数据备份层,然后使用随机森林算法进行模型建立,设置随机森林内决策树建立的个数为100,特征子集的大小为特征集大小的平方根,最后以建模数据作为输入,调整参数,建立随机森林模型;E、在模型识别层,提取所需识别数据流量的统计性特征,特征要求如步骤B所述,将提取出的特征作为输入传递给所建立的随机森林模型,最后模型返回识别结果,判断该流量是否属于恶意流量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810499683.8/,转载请声明来源钻瓜专利网。