[发明专利]一种基于机器学习的恶意加密流量识别方法有效

专利信息
申请号: 201810499683.8 申请日: 2018-05-23
公开(公告)号: CN108833360B 公开(公告)日: 2019-11-08
发明(设计)人: 方勇;许益家;郑荣锋;李扬 申请(专利权)人: 四川大学
主分类号: H04L29/06 分类号: H04L29/06;G06K9/62
代理公司: 北京润泽恒知识产权代理有限公司 11319 代理人: 莎日娜
地址: 610065 四川*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明是一种基于机器学习的流量识别技术,识别的对象是经过加密的恶意流量,本技术主要应用于流量识别领域,也可以辅助应用于网络攻击检测领域。本技术的技术核心是利用机器学习算法建立恶意加密流量识别模型,再通过模型去识别新流量。该技术的工作流程为读取大量已知属性流量数据,提取流量的统计性特征,将特征作为属性,使用随机森林算法建立模型,最后使用模型去识别新输入的流量。新输入流量的识别流程为提取流量统计性特征,输入模型进行识别,得出识别结果。本技术主要针对于加密和编码的流量,参与建模的数据全部由正常加密流量和恶意加密流量组成,这是因为如今非加密流量的识别技术已经很成熟,而对加密或编码流量的识别却十分困难,本技术为加密流量的识别提供了新的解决方法。
搜索关键词: 加密流量 加密 加密流量识别 基于机器 流量识别 读取 机器学习算法 网络攻击检测 恶意流量 工作流程 技术核心 建立模型 流量数据 流量统计 输入流量 随机森林 统计性 建模 算法 应用 学习 成熟
【主权项】:
1.一种基于机器学习的恶意加密流量识别方法,其特征在于所述方法包括如下步骤:A、在数据采集层,采集大量数据流样本,所采集的数据流皆为加密流量,且恶意加密流量与正常流量的数量比例为1:5,在此基础上提取出其中具有优秀品质的流量作为样本,而“优秀品质的流量”定义为:数据流总数据包数在20到1000之间,数据流中携带着信息,数据流是一个完整的双向流而不是单向流;B、在统计性特征提取层,获取流量样本,提取出流量的统计性特征,流量的统计性特征主要包括4种应用层载荷信息统计性特征:比特值分布、比特值频率比、字节比较值、字符频数统计,以及28种传输层统计性特征:上行总包数、上行总字节数、下行总包数、下行总字节数、最小上行包长度、最大上行包长度、平均上行包长度、上行包长标准差、最小下行包长度、最大下行包长度、平均下行包长度、下行包长标准差、最小上行包时间间隔、最大上行包时间间隔、平均上行包时间间隔、上行包时间间隔标准差、最小下行包时间间隔、最大下行包时间间隔、平均下行包时间间隔、下行包时间间隔标准差、平均包到达时间间隔、平均包时间间隔标准差、上行包PSH标记数量、下行包PSH标记数量、上行包URG标记数量、下行包URG标记数量、每秒到达的包数、每秒到达的字节数;C、在建模数据备份层,将提取出的流统计性特征作为建模数据进行备份;D、在机器学习模型层,获取建模数据,建模数据来源于统计性特征提取层或建模数据备份层,然后使用随机森林算法进行模型建立,设置随机森林内决策树建立的个数为100,特征子集的大小为特征集大小的平方根,最后以建模数据作为输入,调整参数,建立随机森林模型;E、在模型识别层,提取所需识别数据流量的统计性特征,特征要求如步骤B所述,将提取出的特征作为输入传递给所建立的随机森林模型,最后模型返回识别结果,判断该流量是否属于恶意流量。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201810499683.8/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top