[发明专利]一种基于URL的移动互联网流量分类方法有效
申请号: | 201910905186.8 | 申请日: | 2019-09-24 |
公开(公告)号: | CN110493088B | 公开(公告)日: | 2021-06-01 |
发明(设计)人: | 李超;金鑫;郭承青;石光;葛瑞海;庹宇鹏;周国桥;李娟 | 申请(专利权)人: | 国家计算机网络与信息安全管理中心;中国科学院信息工程研究所 |
主分类号: | H04L12/26 | 分类号: | H04L12/26;G06N3/08;G06N3/04;G06F16/955 |
代理公司: | 北京君尚知识产权代理有限公司 11200 | 代理人: | 余长江 |
地址: | 100029*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 url 移动 互联网 流量 分类 方法 | ||
本发明提供了一种基于URL的移动互联网流量分类方法,该方法建立在深度学习的基础上,通过分别标识URL数据集中所有唯一字母、数字和特殊字符,得到其字符级矩阵表示;标识URL数据集中唯一的单词,得到其单词级矩阵表示;然后基于卷积神经网络,进行同步训练,将各自的输出层合并得到一个完全连接层,最终得到分类模型。与现有技术相比,该发明通过最终训练完成的模型,能够提供自适应的、鲁棒性好的移动互联网流量分类,无需过多人工干预,能够更好地处理大量涌现的新的URL。
技术领域
本发明属于网络数据流流量识别领域,尤其涉及一种基于URL的移动互联网流量分类方法。
背景技术
网络数据流是一个多种应用业务数据混杂的集合,与传统互联网不同,移动互联网中的网络数据流是由各种终端应用APP生成的。随着移动互联网业务的演进与发展,应用开发者发布了海量的APP使得用户可以通过不同类型的APP接入移动互联网,这导致传统的基于特征库匹配的识别分类方法无法适用于分类繁多,不断涌现的移动网络流量分类。另一方面,APP生成的网络数据流大多是HTTP承载的,传统的面向端口、应用层协议等的分类方法也不能应用在移动互联网流量分类中。因此,亟需自适应的、鲁棒的移动互联网数据流流量分类方法。
近年来,研究者就移动互联网数据流流量分类技术展开了大量研究工作,并取得了积极成果,其中比较重要的相关研究成果包括:
1)基于应用特征字符串的流量分类方法。该算法首先利用人工分析构建特征字符串库,通过单模、多模或正则字符串匹配流量中的特征字段,根据匹配命中的结果为移动互联网流量分类。近年来在传统匹配算法上有了新的扩展,包括自动提取特征指纹自动化填充特征字符串库,减少人工干预。但是这种方法自动学习获取的流量指纹往往会带来较高的错误识别率,鲁棒性和扩展性不足。
2)基于自然语言处理的网络数据流分类方法。该方法采用自然语言处理的方法对移动网络流量中的特征字段进行建模,将杂乱无序的网络二进制数据流转化为可表征与量化的数据表达。进而可以采用机器学习的方法将不同网络数据流划分到特定的应用类别中。常见的基于自然语言处理的方法如NGRAM将每个网络数据流映射为一个one-hot的稀疏向量,通过多个字符组合构建多维度的特征向量。该方法生成one-hot向量是有限的,对于未定义的字符映射往往不能有效表征,这一定程度上丢失了原有数据流中的数据特征,并且稀疏向量的维度往往较高,会带来空间的爆炸,导致匹配效率较低。
3)基于网络空间流量行为的网络数据流分类方法。该方法通过网络数据自身的表现构建特征向量,包括五元组、包大小、包间隔、出入度比等一系列流量表现进行建模,将各个属性特征向量化。根据构建的特征向量采用机器学习的方法对不同网络数据流划分到具体的应用类别中。该方法不需要对流量自身内容进行分析,具有较好的鲁棒性,同时也可以对加密流量进行分析,但是基于流量自身行为进行建模往往依赖于网络流量的QoS状态,会对分类结果准确率有一定的抖动。此外,基于行为特征的网络数据流分类方法往往识别率较低,无法大范围应用于工业系统中。
发明内容
针对上述已有方法存在的问题,本发明了一种基于URL的移动互联网流量分类方法,该方法建立在深度学习的基础上,使用谷歌开源的TensorFlow来构建训练模型。与已公开的方法相对比,该方法通过最终训练完成的模型,能够提供自适应的、鲁棒性好的移动互联网流量分类,即无需过多人工干预,能够更好地处理大量涌现的新的URL。
本发明的技术方案如下:
一种基于URL的移动互联网流量分类方法,包括:
获取待分类URL数据;
将待分类数据输入训练完成的基于URL的移动互联网流量分类模型,获得分类结果;其中,
所述分类模型的构建方法包括以下步骤:
(1)获取URL训练数据集;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家计算机网络与信息安全管理中心;中国科学院信息工程研究所,未经国家计算机网络与信息安全管理中心;中国科学院信息工程研究所许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910905186.8/2.html,转载请声明来源钻瓜专利网。