[发明专利]一种报文类别的确定、识别方法及装置在审
申请号: | 201910945810.7 | 申请日: | 2019-09-30 |
公开(公告)号: | CN112667750A | 公开(公告)日: | 2021-04-16 |
发明(设计)人: | 杨治国;何鸿业 | 申请(专利权)人: | 中兴通讯股份有限公司 |
主分类号: | G06F16/28 | 分类号: | G06F16/28;G06F16/2458;G06F40/151;G06F40/289 |
代理公司: | 北京康信知识产权代理有限责任公司 11240 | 代理人: | 张周洋 |
地址: | 518057 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 报文 类别 确定 识别 方法 装置 | ||
本发明提供了一种报文类别的确定、识别方法及装置,确定方法包括对报文进行采样,得到采样数据;对采样数据进行自然语言处理,得到与报文所对应的向量,其中,每一个报文唯一对应一个向量;根据向量确定报文的报文类别,解决了相关技术中流量识别效率较低问题,达到提高流量识别效率的效果。
技术领域
本发明涉及通信领域,具体而言,涉及一种报文类别的确定、识别方法及装置。
背景技术
移动运营商骨干网络是通过针对流量的检测识别来实现的流量计费、监控、安全控制等。当前常见的流量识别技术包括深度报文检测(Deep Packet Inspection,简称为DPI)方法。DPI通过检测L7层的报文结构特征,具备高精度的特点,该方法也是当前流量识别产品最常用的检测手段,但是该技术需要对要识别的应用或设备进行抓包,然后对获取到的数据包进行人工离线分析,提取出DPI所需的特征标记该应用,这种分析方式,对人的能力和经验依赖大,效率较低,无法在线提升流量的识别率,导致检测、识别效率较低。
针对相关技术中,流量识别效率较低的问题,目前尚未有合理的解决办法。
发明内容
本发明实施例提供了一种报文类别的确定、识别方法及装置,以至少解决相关技术中流量识别效率较低的问题。
根据本发明的一个实施例,提供了一种报文类别的确定方法,包括:
对报文进行采样,得到采样数据;
对所述采样数据进行自然语言处理,得到与所述报文所对应的向量,其中,每一个所述报文唯一对应一个所述向量;
根据所述向量确定所述报文的报文类别。
可选地,对所述采样数据进行自然语言处理,得到与所述报文所对应的向量,包括:
在所述采样数据包括报文负载的情况下,将所述报文负载进行分词处理,得到第一序列;
将所述第一序列映射为第一向量。
可选地,将所述报文负载进行分词处理,包括:
将所述报文负载中连续的高频字节转化为一个单一的序列元素,其中,所述高频字节为所述报文负载中,字节频率高于预设阈值的字节。
可选地,将所述第一序列映射为第一向量,包括:
将所述第一序列中的每个单词转换为词向量;
将所述第一序列所对应的所有词向量加权处理后得到所述第一向量。
可选地,将所述第一序列所对应的所有词向量加权处理后得到所述向量,包括:
在第一词向量所对应的第一单词的第一词频高于第二词向量所对应的第二单词的第二词频的情况下,所述第一词向量的第一权重高于所述第二词向量的第二权重,其中,所述第一单词和所述第二单词均为所述第一序列中的单词,所述第一词频用于指示所述第一单词在第一序列集合中所出现的频次,所述第二词频用于指示所述第二单词在所述第一序列集合中所出现的频次,所述第一序列集合为与所述第一序列的来源相同的多个序列的集合;和/或,
在第一词向量所对应的第一单词的第三词频高于所述第一单词的第四词频的情况下,提高所述第一词向量的第一权重,其中,所述第一单词为所述第一序列中的单词,所述第三词频用于指示所述第一单词在第一序列集合中所出现的频次,所述第四词频用于指示所述第一单词在第二序列集合中所出现的频次,所述第一序列集合为与所述第一序列的来源相同的多个序列的集合,所述第二序列集合为与所述第一序列的来源不相同的多个序列的集合。
可选地,根据所述向量确定所述报文的报文类别,包括:
将所述向量进行聚类处理,得到聚类结果;
根据所述聚类结果确定所述报文的报文类别。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中兴通讯股份有限公司,未经中兴通讯股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910945810.7/2.html,转载请声明来源钻瓜专利网。