[发明专利]一种基于机器学习的恶意加密流量识别方法有效

申请号：	201810499683.8	申请日：	2018-05-23
公开（公告）号：	CN108833360B	公开（公告）日：	2019-11-08
发明（设计）人：	方勇;许益家;郑荣锋;李扬	申请（专利权）人：	四川大学
主分类号：	H04L29/06	分类号：	H04L29/06;G06K9/62
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	610065 四川***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明是一种基于机器学习的流量识别技术，识别的对象是经过加密的恶意流量，本技术主要应用于流量识别领域，也可以辅助应用于网络攻击检测领域。本技术的技术核心是利用机器学习算法建立恶意加密流量识别模型，再通过模型去识别新流量。该技术的工作流程为读取大量已知属性流量数据，提取流量的统计性特征，将特征作为属性，使用随机森林算法建立模型，最后使用模型去识别新输入的流量。新输入流量的识别流程为提取流量统计性特征，输入模型进行识别，得出识别结果。本技术主要针对于加密和编码的流量，参与建模的数据全部由正常加密流量和恶意加密流量组成，这是因为如今非加密流量的识别技术已经很成熟，而对加密或编码流量的识别却十分困难，本技术为加密流量的识别提供了新的解决方法。
搜索关键词：	加密流量加密加密流量识别基于机器流量识别读取机器学习算法网络攻击检测恶意流量工作流程技术核心建立模型流量数据流量统计输入流量随机森林统计性建模算法应用学习成熟
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于机器学习的恶意加密流量识别方法，其特征在于所述方法包括如下步骤：A、在数据采集层，采集大量数据流样本，所采集的数据流皆为加密流量，且恶意加密流量与正常流量的数量比例为1:5，在此基础上提取出其中具有优秀品质的流量作为样本，而“优秀品质的流量”定义为：数据流总数据包数在20到1000之间，数据流中携带着信息，数据流是一个完整的双向流而不是单向流；B、在统计性特征提取层，获取流量样本，提取出流量的统计性特征，流量的统计性特征主要包括4种应用层载荷信息统计性特征：比特值分布、比特值频率比、字节比较值、字符频数统计，以及28种传输层统计性特征：上行总包数、上行总字节数、下行总包数、下行总字节数、最小上行包长度、最大上行包长度、平均上行包长度、上行包长标准差、最小下行包长度、最大下行包长度、平均下行包长度、下行包长标准差、最小上行包时间间隔、最大上行包时间间隔、平均上行包时间间隔、上行包时间间隔标准差、最小下行包时间间隔、最大下行包时间间隔、平均下行包时间间隔、下行包时间间隔标准差、平均包到达时间间隔、平均包时间间隔标准差、上行包PSH标记数量、下行包PSH标记数量、上行包URG标记数量、下行包URG标记数量、每秒到达的包数、每秒到达的字节数；C、在建模数据备份层，将提取出的流统计性特征作为建模数据进行备份；D、在机器学习模型层，获取建模数据，建模数据来源于统计性特征提取层或建模数据备份层，然后使用随机森林算法进行模型建立，设置随机森林内决策树建立的个数为100，特征子集的大小为特征集大小的平方根，最后以建模数据作为输入，调整参数，建立随机森林模型；E、在模型识别层，提取所需识别数据流量的统计性特征，特征要求如步骤B所述，将提取出的特征作为输入传递给所建立的随机森林模型，最后模型返回识别结果，判断该流量是否属于恶意流量。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于四川大学，未经四川大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810499683.8/，转载请声明来源钻瓜专利网。

上一篇：身份验证方法、装置、设备、存储介质及程序
下一篇：一种基于虚拟账号的身份认证方法及装置

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信
H04L29-00 H04L 1/00至H04L 27/00单个组中不包含的装置、设备、电路和系统
H04L29-02 .通信控制；通信处理
H04L29-12 .以数据终端为特征的
H04L29-14 .故障的应对措施
H04L29-04 ..用于多条通信线路的
H04L29-06 ..以协议为特征的

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于机器学习的恶意加密流量识别方法有效

专利文献下载