[发明专利]网络异常事件感知方法和系统有效
申请号: | 201910064519.9 | 申请日: | 2019-01-23 |
公开(公告)号: | CN109787833B | 公开(公告)日: | 2020-05-08 |
发明(设计)人: | 毕军;缪睿;刘洪强;孙晨;周禹;曹捷;张铭 | 申请(专利权)人: | 清华大学 |
主分类号: | H04L12/24 | 分类号: | H04L12/24;H04L12/26;H04L12/803 |
代理公司: | 北京聿宏知识产权代理有限公司 11372 | 代理人: | 吴大建;张杰 |
地址: | 100084 北京市海淀区1*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络 异常 事件 感知 方法 系统 | ||
本发明公开了一种网络异常事件感知方法和系统。所述网络异常事件感知方法包括:为所有报文插入INT探测报头,对报文进行采样并标注采样报文的所述INT探测报头;对报文进行INT相关操作,所述INT相关操作包括为报文添加INT元数据,所述INT元数据记录交换机处理报文时的状态信息且被添加在所述INT探测报头之后;筛选包含至少一跳交换机的INT元数据的报文,复制并上传该报文;对上传的报文进行初步汇总,生成子事件;对生成的子事件进行进一步的汇总,得到事件的最终汇总。本发明的网络异常事件感知方法和系统获得了全量、准确、实时的网络事件,用于故障诊断、拓扑评估等方面。
技术领域
本发明涉及互联网信息技术领域,具体地说,涉及一种能够全量、准确捕捉物理网络设备中的统计信息及发生的事件的网络异常事件感知方法和系统。
背景技术
数据中心网络承载了云计算、电商、新零售等诸多应用,其网络服务的性能极大地影响了业务投递的指标。但是,数据中心网络的服务存在着诸多的不确定性。例如,软件bug、硬件故障、运维的误操作等等,这些事件都会潜在地造成业务性能的严重影响。然而,传统的数据中心网络的管理,更加侧重于从上到下的网络管控,即使得网络行为符合上层定义的逻辑和策略。忽略了从下到上的、精细的网络服务质量的数据化的反馈、检测与评估。这导致难以全量、准确捕捉物理网络设备中的统计信息及发生的事件,进而影响及时的网络诊断和修复。
网络测量是网络管理的重要环节。传统网络测量粒度较粗,包含如下几类:
1)网络计数器(counter)。包括网络设备内的诸多计数器(如SNMP counter, dropcounter)用于记录一段时间内累计(aggregate)的事件个数。但是,这类计数器仅能判断网络存在问题,但无法给出对于每个事件的详细信息。问题定位仍需要额外的人工工作,无法支持高可用性需求。
2)端到端的测量。例如微软发表的Pingmesh论文,这类测量只有端到端的信息而没有网络的信息,但无法预知探测报文经历的是那一条等价路径,无法定位到具体问题。同时,测量流量无法完全还原真实流量的质量。
3)主被动探测结合。例如微软发表的Everflow论文,大致原理如下。如图 1所示,网络运维人员通过交换机的Erspan功能,过滤、采集到特定的网络流量并上报给收集器。而后根据对特定流量的分析,从而检测网络异常事件的原因。但是,这类系统有如下几个缺陷。其一,流量的过滤和采集使用的是传统的头部空间解析(spatial filtering),而不是基于目标事件的采集(temporal filtering),如发生拥塞或延迟的报文,导致无法确保收集到全量网络事件。其二,空间解析带来大量无用报文的收集,使得该系统无法实时在线进行网络监控,只能做事后的推演和排查,从而大大降低了该系统的适用范围。经验表明,很多事件需要特定的多因素,或间歇性的触发,事后排查往往无法做到问题的尽快定位,某些情况甚至根本无法复现业务问题。
发明内容
本发明的目的在于提供一种网络异常事件感知方法和系统,以解决难以全量、准确捕捉物理网络设备中的统计信息及发生的事件的技术问题。
本发明第一方面提供了一种网络异常事件感知方法,所述网络异常事件感知方法包括:为所有报文插入INT探测报头,对报文进行采样并标注采样报文的所述INT探测报头;对报文进行INT相关操作,所述INT相关操作包括为报文添加INT元数据,所述INT元数据记录交换机处理报文时的状态信息且被添加在所述INT探测报头之后;筛选包含至少一跳交换机的INT元数据的报文,复制并上传该报文;对上传的报文进行初步汇总,生成子事件;对生成的子事件进行进一步的汇总,得到事件的最终汇总。
在本发明的一种改进实施方式中,所述对上传的报文进行初步汇总包括:将上传的报文分类为协议流量和可视化流量;将协议流量发送至交换机控制平面的 BGP通报器以进行处理;对可视化流量进行预处理;对预处理的可视化流量进行负载均衡;对均衡后的报文进行排队;将经排队的报文中的可视化数据聚合为流级子事件,并上报子事件。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于清华大学,未经清华大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910064519.9/2.html,转载请声明来源钻瓜专利网。