[发明专利]基于负载映射与随机森林的非加密流量识别方法在审
申请号: | 201810449191.8 | 申请日: | 2018-05-11 |
公开(公告)号: | CN108737290A | 公开(公告)日: | 2018-11-02 |
发明(设计)人: | 邹学强;张玉;包秀国;金宇菲;张建忠 | 申请(专利权)人: | 南开大学;国家计算机网络与信息安全管理中心 |
主分类号: | H04L12/851 | 分类号: | H04L12/851 |
代理公司: | 泰州地益专利事务所 32108 | 代理人: | 谭建成 |
地址: | 300350*** | 国省代码: | 天津;12 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 随机森林 映射 随机森林分类器 加密流量识别 加密流量 流量负载 向量空间 预处理 应用类型识别 自然语言处理 时间复杂度 特征字符串 预处理阶段 准确度 分类阶段 加密负载 建模阶段 流量识别 模型分类 特征字符 训练集合 移动应用 可变 向量 局限 引入 转化 | ||
1.一种非加密移动应用流量识别方法,具体包括:
方法基于随机森林分类器,包括预处理阶段、随机森林分类器建模阶段和预测阶段;
预处理阶段,负责提取数据包负载中的有用信息,以降低训练和预测时的复杂度,且能降低噪声;
随机森林分类器建模阶段,将负载映射为向量空间中的TFIDF向量,以此进行随机森林分类器的训练;
预测阶段,对未知标签的流量,提取出数据包负载,经过预处理阶段,提取出有用信息,同样经过负载映射到向量空间,将该向量输入到分类器模型中,得到预测标签。
2.根据权利要求说明1所述方法,其特征在于,用于训练与测试的HTTP流量负载,仅截取”\r\n\r\n”之前的内容,删去无用的数据部分。
3.根据权利要求说明1所述方法,其特征在于,对流量负载依照空格、斜杠等分隔符进行分词,引入自然语言处理领域中的方法,计算单词的逆文档频率(TFIDF)以映射到向量空间,以TFIDF值衡量单词的重要程度,即建立的分类特征是重要单词的TFIDF值,训练流量样本集可被视为向量集合。
4.根据权利要求说明1所述方法,其特征在于,对所有单词的TFIDF值进行从高到低的排序,选择重要度高的单词建立词袋模型,将重要度低的单词从词袋中删去。
5.根据权利要求说明1所述方法,其特征在于,对训练向量集合,随机抽样生成数据子集D1、D2、......、DN,对于某数据子集Di,当建立随机森林分类器时,树的节点属性分裂方法采用二分法,假设某单词的TFIDF取值有k个,将这k个取值从小到大排列,记为{a1,a2,...,ak},基于划分点at可将Di分为两个子集和其中表示该单词的TFIDF取值不大于at的样本,表示该单词的TFIDF取值大于at的样本。
6.根据权利要求说明1所述方法,其特征在于,所述方法还包括:
在构建随机森林的第i棵树Ti时,若输入的所有训练样本都属于同一类Ck,则Ti为单节点树,并将类Ck作为该节点的类标记;否则,对于每一个特征A,对其可能取的每一个值a,计算基尼指数,计算公式定义为其中,Di1和Di2表示按照分割点a将数据集合划分成的两部分,Dim基尼指数计算公式为Ck表示Dim中属于第k类的样本子集,由于基尼指数刻画了集合的不确定性,故选择基尼指数最小的特征Ag及其对应的切分点作为最优特征和最优切分点,将训练数据集分配到两个子节点中,递归进行以上步骤,直到满足迭代停止的条件。
7.根据权利要求说明1所述方法,其特征在于,随机森林分类器对于每条样本x,都会输出该样本属于目标应用的概率P(Y=1|x),以及样本不属于目标应用的概率P(Y=0|x),选择概率值大的作为最终的标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学;国家计算机网络与信息安全管理中心,未经南开大学;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810449191.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种存储多路径负载均衡方法及系统
- 下一篇:一种网络流量表示的方法及装置