[发明专利]一种基于机器学习的数据流分类方法及系统有效
申请号: | 201810027661.1 | 申请日: | 2018-01-11 |
公开(公告)号: | CN110034966B | 公开(公告)日: | 2020-09-08 |
发明(设计)人: | 叶晓舟;张润滋;吴京洪 | 申请(专利权)人: | 中国科学院声学研究所;北京中科视云科技有限公司 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;G06K9/62 |
代理公司: | 北京方安思达知识产权代理有限公司 11472 | 代理人: | 陈琳琳;刘振 |
地址: | 100190 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 机器 学习 数据流 分类 方法 系统 | ||
1.一种基于机器学习的数据流分类方法,所述方法包括:
步骤1)捕获并根据输入规则过滤网络上的数据流,获取符合条件的数据包;
步骤2)根据数据包的五元组信息建立数据流,结合其反向的数据流建立应用流,提取指定的应用流特征信息,记录在应用流流表中;
步骤3)检测应用流是否完成交互过程;如果已完成,则将应用流特征信息封装成特征向量,调用机器学习分类器进行分类得到标签La,进入步骤4),否则,将所述应用流的分类结果标识为“未知应用”,转入步骤1);
步骤4)查找当前应用流所属的关联信息表,结合表内历史应用流的机器学习分类信息决定当前应用流的最终分类结果。
2.根据权利要求1所述的基于机器学习的数据流分类方法,其特征在于,所述输入规则为:端口、IP地址、协议字段是否在预设值域内。
3.根据权利要求1所述的基于机器学习的数据流分类方法,其特征在于,所述步骤2)具体包括:
步骤2-1)根据数据包的五元组信息:源IP,源端口,目的IP,目的端口和协议,通过哈希算法将数据包映射到对应的数据流;
步骤2-2)将方向相反的两条数据流构成应用流;
步骤2-3)提取应用流的特征信息,所述特征信息为用于机器学习分类器的各种特征字段,包括:应用流的交互时间、每一轮交互的数据包大小及间隔时间、交互的数据包总个数;
步骤2-4)将应用流及其特征信息记录在应用流流表中。
4.根据权利要求1所述的基于机器学习的数据流分类方法,其特征在于,所述步骤3)的机器学习分类器的采用决策树、最近邻、SVM和神经网络分类算法,采用监督机器学算法,将带有标签的训练数据集输入所述机器学习分类器完成训练。
5.根据权利要求1所述的基于机器学习的数据流分类方法,其特征在于,所述步骤4)具体包括:
步骤4-1)根据应用流的三元组信息:目的地址,目的端口,协议哈希值,查询所述应用流是否有所属的关联信息表;如果有,转入步骤4-2),否则,建立一个新的关联信息表;
所述关联信息表对每一个可能的分类标签维护一个权重得分V-score,初始值都为零;
步骤4-2)在所述应用流所属的关联信息表,将所有的V-score乘以衰减因子β,将标签La对应的V-score加1;
步骤4-3)选择数值最大的V-score对应的标签作为当前待分类应用流的最终分类结果。
6.一种基于机器学习的数据流分类系统,包括存储器、处理器和存储在存储器上的并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1~5之一所述方法的步骤。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学院声学研究所;北京中科视云科技有限公司,未经中国科学院声学研究所;北京中科视云科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810027661.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:海底地下岩石中的应急通信及电力网络建设方法与系统
- 下一篇:具有电设备的系统