[发明专利]基于负载映射与随机森林的非加密流量识别方法在审

专利信息
申请号: 201810449191.8 申请日: 2018-05-11
公开(公告)号: CN108737290A 公开(公告)日: 2018-11-02
发明(设计)人: 邹学强;张玉;包秀国;金宇菲;张建忠 申请(专利权)人: 南开大学;国家计算机网络与信息安全管理中心
主分类号: H04L12/851 分类号: H04L12/851
代理公司: 泰州地益专利事务所 32108 代理人: 谭建成
地址: 300350*** 国省代码: 天津;12
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 随机森林 映射 随机森林分类器 加密流量识别 加密流量 流量负载 向量空间 预处理 应用类型识别 自然语言处理 时间复杂度 特征字符串 预处理阶段 准确度 分类阶段 加密负载 建模阶段 流量识别 模型分类 特征字符 训练集合 移动应用 可变 向量 局限 引入 转化
【权利要求书】:

1.一种非加密移动应用流量识别方法,具体包括:

方法基于随机森林分类器,包括预处理阶段、随机森林分类器建模阶段和预测阶段;

预处理阶段,负责提取数据包负载中的有用信息,以降低训练和预测时的复杂度,且能降低噪声;

随机森林分类器建模阶段,将负载映射为向量空间中的TFIDF向量,以此进行随机森林分类器的训练;

预测阶段,对未知标签的流量,提取出数据包负载,经过预处理阶段,提取出有用信息,同样经过负载映射到向量空间,将该向量输入到分类器模型中,得到预测标签。

2.根据权利要求说明1所述方法,其特征在于,用于训练与测试的HTTP流量负载,仅截取”\r\n\r\n”之前的内容,删去无用的数据部分。

3.根据权利要求说明1所述方法,其特征在于,对流量负载依照空格、斜杠等分隔符进行分词,引入自然语言处理领域中的方法,计算单词的逆文档频率(TFIDF)以映射到向量空间,以TFIDF值衡量单词的重要程度,即建立的分类特征是重要单词的TFIDF值,训练流量样本集可被视为向量集合。

4.根据权利要求说明1所述方法,其特征在于,对所有单词的TFIDF值进行从高到低的排序,选择重要度高的单词建立词袋模型,将重要度低的单词从词袋中删去。

5.根据权利要求说明1所述方法,其特征在于,对训练向量集合,随机抽样生成数据子集D1、D2、......、DN,对于某数据子集Di,当建立随机森林分类器时,树的节点属性分裂方法采用二分法,假设某单词的TFIDF取值有k个,将这k个取值从小到大排列,记为{a1,a2,...,ak},基于划分点at可将Di分为两个子集和其中表示该单词的TFIDF取值不大于at的样本,表示该单词的TFIDF取值大于at的样本。

6.根据权利要求说明1所述方法,其特征在于,所述方法还包括:

在构建随机森林的第i棵树Ti时,若输入的所有训练样本都属于同一类Ck,则Ti为单节点树,并将类Ck作为该节点的类标记;否则,对于每一个特征A,对其可能取的每一个值a,计算基尼指数,计算公式定义为其中,Di1和Di2表示按照分割点a将数据集合划分成的两部分,Dim基尼指数计算公式为Ck表示Dim中属于第k类的样本子集,由于基尼指数刻画了集合的不确定性,故选择基尼指数最小的特征Ag及其对应的切分点作为最优特征和最优切分点,将训练数据集分配到两个子节点中,递归进行以上步骤,直到满足迭代停止的条件。

7.根据权利要求说明1所述方法,其特征在于,随机森林分类器对于每条样本x,都会输出该样本属于目标应用的概率P(Y=1|x),以及样本不属于目标应用的概率P(Y=0|x),选择概率值大的作为最终的标签。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南开大学;国家计算机网络与信息安全管理中心,未经南开大学;国家计算机网络与信息安全管理中心许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201810449191.8/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top