[发明专利]应用识别方法、数据挖掘方法、装置及系统有效
申请号: | 201210592203.5 | 申请日: | 2012-12-31 |
公开(公告)号: | CN103051725A | 公开(公告)日: | 2013-04-17 |
发明(设计)人: | 周韡;唐东;张洪丁 | 申请(专利权)人: | 华为技术有限公司 |
主分类号: | H04L29/08 | 分类号: | H04L29/08;G06F17/30 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 518129 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 应用 识别 方法 数据 挖掘 装置 系统 | ||
技术领域
本发明涉及通信技术领域,具体涉及一种应用识别方法、数据挖掘方法、装置及系统。
背景技术
随着宽带业务快速发展,给运营商带来机遇的同时也带来挑战,随着P2P、网络游戏、Web TV、VoIP、网上银行类、网络磁盘等应用的普及,带来了带宽管理、内容计费、信息安全处理等一系列问题。
深度包检测(Deep Packet Inspection,DPI)技术被认为是应对网络中多个业务运行所带来的管理问题的方法,即利用DPI技术能够对网络数据进行快速的解析,从而能使得运营商网络能支撑基于应用的业务,例如邮件类资费包、视频类资费包、游戏类资费包、特定下载软件的阻断等。
如图1A所示,为协议层次关系图,从传输层来看网络应用多承载于TCP和UDP之上,从七层承载来看,主要的承载协议包括HTTP/HTTPS、SSL、RTP、SIP、SOCKS5、SOCKS4等。而应用承载方式一般包括:流承载(仅前几包出现承载协议,后续包为纯应用数据,如图1B所示的);包承载(每个包拥有承载协议和应用数据,如图1C所示);
对于承载类协议的应用识别,目前DPI采用7层协议扫描的方式进行协议匹配,换句话即从下到上依次进行特征串匹配来识别,以HTTP协议为例,首先通过HTTP首行的HTTP请求方法及URI格式识别出HTTP协议,然后通过头域(例如HOST、REFERER、USER-AGENT等)内容的特征串匹配识别出应用,最后期待第二包进行内容校验(此步骤可选)。
此外,由于互联网应用更新速度远快于DPI的特征库的更新,且很多应用处于安全考虑越来越多的采用了SSL、HTTPS等加密方式进行数据传输,从而导致DPI识别性能的低下,而对于加密协议的应用识别,也仅仅只能识别到L7协议信息,L7上的运行的应用仍然无法识别;例如HTTPS等加密数据无法识别到应用,从而导致DPI识别失效。
发明内容
本发明实施例在于提供一种应用识别方法、数据挖掘方法、装置及系统,以提升的DPI识别性能和应用识别率。
第一方面,本发明实施例提供一种UBA数据挖掘方法,包括:
获得待处理数据,所述待处理数据包括多条记录,其中每条记录包括:成对应关系的应用信息、远端三元组信息;其中,所述远端三元组信息包括传输协议、服务器端IP地址和服务器端端口;
对所述待处理数据中远端三元组信息及应用信息相同的记录进行聚类处理,并根据所述待处理数据中远端三元组信息及应用信息相同的记录计算对应于所述远端三元组信息及应用信息的服务负载量,得到包含成对应关系的远端三元组信息、应用信息及服务负载量的聚类结果;
根据所述服务负载量的大小或比重从所述聚类结果中选取可信度高的成对应关系的远端三元组与应用信息;
向DPI子系统发送所述可信度高的成对应关系的远端三元组与应用信息。
结合第一方面,在第一种实现方式下,所述获得待处理数据包括:
针对每一种应用,根据所述应用对应的域名信息爬取与所述域名信息对应的IP地址信息,得到包含成对应关系的应用信息、域名信息和IP地址信息的爬取结果;
获得所述DPI子系统输出的第一协议识别结果,所述第一协议识别结果包括远端三元组信息;
根据所述爬取结果和所述第一协议识别结果,以所述爬取结果和第一协议识别结果中相同的IP地址作为关联条件,关联生成所述待处理数据,所述待处理数据包括多条记录,其中每条记录包括:成对应关系的应用信息和远端三元组信息。
结合第一方面,在第二种实现方式下,所述获得待处理数据包括:
获得所述DPI子系统输出的第一协议识别结果和爬取子系统输出的爬取结果,所述第一协议识别结果包括远端三元组信息,所述爬取结果包含成对应关系的应用信息、域名信息和IP地址信息;
根据所述爬取结果和所述第一协议识别结果,以所述爬取结果和第一协议识别结果中相同的IP地址作为关联条件,关联生成所述待处理数据,所述待处理数据包括多条记录,其中每条记录包括:成对应关系的应用信息和远端三元组信息。
结合第一方面,在第三种实现方式下,所述每条记录还包括:客户端IP地址和客户端端口,以及对应于应用信息和五元组信息的流量,其中客户端IP地址、客户端端口和远端三元组信息构成所述五元组信息,
所述获得待处理数据包括:
接收第一网络数据,所述第一网络数据包括一个或多个数据流,所述每个数据流包括一个或多个数据包;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华为技术有限公司,未经华为技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201210592203.5/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种阻燃透明地板膜及其生产工艺
- 下一篇:铝穿孔吸隔声板
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置