[发明专利]应用识别方法、数据挖掘方法、装置及系统有效

专利信息
申请号: 201210592203.5 申请日: 2012-12-31
公开(公告)号: CN103051725A 公开(公告)日: 2013-04-17
发明(设计)人: 周韡;唐东;张洪丁 申请(专利权)人: 华为技术有限公司
主分类号: H04L29/08 分类号: H04L29/08;G06F17/30
代理公司: 暂无信息 代理人: 暂无信息
地址: 518129 广东*** 国省代码: 广东;44
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 应用 识别 方法 数据 挖掘 装置 系统
【说明书】:

技术领域

发明涉及通信技术领域,具体涉及一种应用识别方法、数据挖掘方法、装置及系统。

背景技术

随着宽带业务快速发展,给运营商带来机遇的同时也带来挑战,随着P2P、网络游戏、Web TV、VoIP、网上银行类、网络磁盘等应用的普及,带来了带宽管理、内容计费、信息安全处理等一系列问题。

深度包检测(Deep Packet Inspection,DPI)技术被认为是应对网络中多个业务运行所带来的管理问题的方法,即利用DPI技术能够对网络数据进行快速的解析,从而能使得运营商网络能支撑基于应用的业务,例如邮件类资费包、视频类资费包、游戏类资费包、特定下载软件的阻断等。

如图1A所示,为协议层次关系图,从传输层来看网络应用多承载于TCP和UDP之上,从七层承载来看,主要的承载协议包括HTTP/HTTPS、SSL、RTP、SIP、SOCKS5、SOCKS4等。而应用承载方式一般包括:流承载(仅前几包出现承载协议,后续包为纯应用数据,如图1B所示的);包承载(每个包拥有承载协议和应用数据,如图1C所示);

对于承载类协议的应用识别,目前DPI采用7层协议扫描的方式进行协议匹配,换句话即从下到上依次进行特征串匹配来识别,以HTTP协议为例,首先通过HTTP首行的HTTP请求方法及URI格式识别出HTTP协议,然后通过头域(例如HOST、REFERER、USER-AGENT等)内容的特征串匹配识别出应用,最后期待第二包进行内容校验(此步骤可选)。

此外,由于互联网应用更新速度远快于DPI的特征库的更新,且很多应用处于安全考虑越来越多的采用了SSL、HTTPS等加密方式进行数据传输,从而导致DPI识别性能的低下,而对于加密协议的应用识别,也仅仅只能识别到L7协议信息,L7上的运行的应用仍然无法识别;例如HTTPS等加密数据无法识别到应用,从而导致DPI识别失效。

发明内容

本发明实施例在于提供一种应用识别方法、数据挖掘方法、装置及系统,以提升的DPI识别性能和应用识别率。

第一方面,本发明实施例提供一种UBA数据挖掘方法,包括:

获得待处理数据,所述待处理数据包括多条记录,其中每条记录包括:成对应关系的应用信息、远端三元组信息;其中,所述远端三元组信息包括传输协议、服务器端IP地址和服务器端端口;

对所述待处理数据中远端三元组信息及应用信息相同的记录进行聚类处理,并根据所述待处理数据中远端三元组信息及应用信息相同的记录计算对应于所述远端三元组信息及应用信息的服务负载量,得到包含成对应关系的远端三元组信息、应用信息及服务负载量的聚类结果;

根据所述服务负载量的大小或比重从所述聚类结果中选取可信度高的成对应关系的远端三元组与应用信息;

向DPI子系统发送所述可信度高的成对应关系的远端三元组与应用信息。

结合第一方面,在第一种实现方式下,所述获得待处理数据包括:

针对每一种应用,根据所述应用对应的域名信息爬取与所述域名信息对应的IP地址信息,得到包含成对应关系的应用信息、域名信息和IP地址信息的爬取结果;

获得所述DPI子系统输出的第一协议识别结果,所述第一协议识别结果包括远端三元组信息;

根据所述爬取结果和所述第一协议识别结果,以所述爬取结果和第一协议识别结果中相同的IP地址作为关联条件,关联生成所述待处理数据,所述待处理数据包括多条记录,其中每条记录包括:成对应关系的应用信息和远端三元组信息。

结合第一方面,在第二种实现方式下,所述获得待处理数据包括:

获得所述DPI子系统输出的第一协议识别结果和爬取子系统输出的爬取结果,所述第一协议识别结果包括远端三元组信息,所述爬取结果包含成对应关系的应用信息、域名信息和IP地址信息;

根据所述爬取结果和所述第一协议识别结果,以所述爬取结果和第一协议识别结果中相同的IP地址作为关联条件,关联生成所述待处理数据,所述待处理数据包括多条记录,其中每条记录包括:成对应关系的应用信息和远端三元组信息。

结合第一方面,在第三种实现方式下,所述每条记录还包括:客户端IP地址和客户端端口,以及对应于应用信息和五元组信息的流量,其中客户端IP地址、客户端端口和远端三元组信息构成所述五元组信息,

所述获得待处理数据包括:

接收第一网络数据,所述第一网络数据包括一个或多个数据流,所述每个数据流包括一个或多个数据包;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201210592203.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top