[发明专利]一种网络流量数据的识别方法及设备在审
申请号: | 201810167055.X | 申请日: | 2018-02-28 |
公开(公告)号: | CN110210504A | 公开(公告)日: | 2019-09-06 |
发明(设计)人: | 苏龙华;徐军;董琪 | 申请(专利权)人: | 中移(苏州)软件技术有限公司;中国移动通信集团有限公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 郭润湘 |
地址: | 215163 江*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 流量数据 聚类中心 历史流量数据 网络流量数据 约束函数 聚类 聚类结果 聚类算法 参考 | ||
本发明公开了一种网络流量数据的识别方法及设备,用于解决现有技术中,存在的网络流量数据识别不准确的技术问题。所述方法包括:选取历史流量数据集,采用聚类算法对所述历史流量数据进行聚类,获得所述历史流量数据集的历史域类中心,其中,所述历史域类中心为所述历史流量数据集的聚类中心;将所述历史域类中心作为待识别的当前流量数据集的参考聚类中心,根据所述参考聚类中心,生成对当前流量数据集的聚类中心进行约束的约束函数,基于所述约束函数对所述当前流量数据集进行聚类,并根据所述聚类结果识别所述当前流量数据集中每个流量数据的类型,所述约束函数用于使所述当前流量数据集的聚类中心接近所述历史域类中心。
技术领域
本发明涉及计算机网络技术领域,尤其涉及一种网络流量数据的识别方法及设备。
背景技术
随着互联网技术的高速发展,网络的新应用层出不穷,对网络中流量数据的智能管理变得日益重要,而若要对流量数据进行智能管理,则首先需要对流量数据的类型进行识别。
目前,主要采用传统的聚类算法对流量数据进行识别,传统的聚类算法必须依赖大量且未失真的流量数据,然而流量数据在传送过程中很容易受到外界环境的噪声干扰从而导致数据的丢失或者失真,所以,在流量数据较小或受到外界环境噪声干扰的情况下,使用传统的聚类算法对流量数据进行识别时,就会严重降低识别的准确性。
所以,现有技术中,存在网络流量数据识别不准确的技术问题。
发明内容
本发明实施例提供一种网络流量数据的识别方法及设备,能够提高网络流量数据的识别准确度。
第一方面,提供一种网络流量数据的识别方法,该方法包括:
选取历史流量数据集,采用聚类算法对所述历史流量数据进行聚类,获得所述历史流量数据集的历史域类中心,其中,所述历史域类中心为所述历史流量数据集的聚类中心;
将所述历史域类中心作为待识别的当前流量数据集的参考聚类中心,根据所述参考聚类中心,生成对当前流量数据集的聚类中心进行约束的约束函数,基于所述约束函数对所述当前流量数据集进行聚类,并根据所述聚类结果识别所述当前流量数据集中每个流量数据的类型,所述约束函数用于使所述当前流量数据集的聚类中心接近所述历史域类中心。
采用本发明实施例提供的网络流量数据识别方法,可以通过获取网络中数据量充足的历史流量数据的历史域类中心来指导当前待识别的当前流量数据的聚类任务,也即将历史域类中心作为当前流量数据集的参考聚类中心,通过生成的对当前流量数据集的聚类中心进行约束使当前流量数据集的聚类中心能够无限接近历史域类中心的约束函数,来对当前流量数据集进行聚类,能够提高当前流量数据的聚类效果,进而提高当前流量数据的识别准确度。
可选的,所述生成的约束函数为:
所述基于所述约束函数对所述当前流量数据集进行聚类,包括:
根据所述约束函数以及聚类算法确定目标函数,所述目标函数为:
其中,C为聚类的类别总数,N表示流量样本的总数,xj为流量样本,γ是平衡参数且γ∈(0,+∞),||xj-vi||2表示第j个样本与第i个聚类中心之间的距离,β为平衡参数且β∈[0,+∞),为历史域类中心的第i个聚类中心,vi为第i类的聚类中心,μij表示第j个样本是第i个类的隶属度;
基于所述目标函数对所述当前流量数据集进行聚类。
可选的,所述基于所述目标函数对所述当前流量数据集进行聚类,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中移(苏州)软件技术有限公司;中国移动通信集团有限公司,未经中移(苏州)软件技术有限公司;中国移动通信集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810167055.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种印章识别方法和装置以及设备
- 下一篇:样本数据的生成方法、装置及电子设备