[发明专利]一种基于混合高斯的SDN流聚类方法有效
申请号: | 201510488828.0 | 申请日: | 2015-08-11 |
公开(公告)号: | CN105005629B | 公开(公告)日: | 2017-07-04 |
发明(设计)人: | 郑相涵;陈锋情 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 福州元创专利商标代理有限公司35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福州市*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 混合 sdn 流聚类 方法 | ||
技术领域
本发明涉及SDN数据流聚类,特别是一种基于混合高斯的SDN流聚类方法。
背景技术
软件定义网络(Software Defined Network,SDN),是Emulex网络一种新型网络创新架构,是网络虚拟化的一种实现方式,其核心技术OpenFlow通过将网络设备控制面与数据面分离开来,从而实现了网络流量的灵活控制,使网络作为管道变得更加智能。
目前在软件定义网络(SDN)环境下,针对SDN流的高效、准确地归类问题的研究还没有很大进展。
发明内容
有鉴于此,本发明的目的是提出一种基于混合高斯的SDN流聚类方法,使得聚类结果的准确度和聚类速度得到很大的提升。
本发明采用以下方案实现:一种基于混合高斯的SDN流聚类方法,具体包括以下步骤;
步骤S1:对原始SDN数据进行五元组记录,并且采用KMeans聚类算法,完成SND数据流与用户之间的映射关系;
步骤S2:利用高斯混合模型GMM以及公式对SDN数据流的概率密度分布进行估计,其中K为高斯模型的个数,ai为第i个高斯模型的权重,pi(x|θi)为第i个高斯模型的概率密度函数,所述pi(x|θi)的均值为μk,方差为σk;θi=(μi,∑i),μi,∑i为待求解的数据生成模型的参数;
步骤S3:采用流持续时间、数据包数量、流大小、数据包大小、数据包间隔时间作为SDN流向量属性,通过边信息获得SDN流等价集;
步骤S4:对高斯混合模型GMM的数据生成模型进行调整;
步骤S5:采用must-link成对点约束和cannot-link成对点约束来辅助聚类。
进一步的,所述步骤S4具体包括以下步骤:
步骤S41:将SDN流边信息的取值空间表示为其中,Y={y1,…,yi,…,yN},yi表示第i个数据点的聚类中心,表示在第s个等价集中第i个数据点的聚类中心,Ys表示第s个等价集Xs的概率分布,Xs包含Ns条数据流,所有等价集包含的数据条数x={x1,…xN}表示N条数据流,X={X1,…XM}表示M个等价集,Xs是X1至XM中的其中一个等价集,yi∈{1,…,K},K为聚类中心的个数;
步骤S42:建立基于约束最大化的log-likelyhood function:根据所述数据生成模型可以得到边缘概率分布为:其中θg是当前参数估计,θ是迭代计算后的参数估计,X表示等价集,Y为等价集在各个聚类中心点的分布概率,y=yi,表示每一个聚类中心的先验概率;
步骤S43:将log-likelyhood function简化为其中,每一个等价集的后验概率计算定义如下:其中为当前l类的权重,表示当前参数估计下x的概率,为等价集Xs的元素,表示旧的参数估计,θl表示新的参数估计,l表示第l的聚类中心;
步骤S44:使用带约束的最大似然估计的方法求解数据生成模型的参数,使得QC(θ,θg)的取值最大化;其中其中表示等价集Xs的元素;
进一步的,所述的五元组包括源IP、源端口、目标IP、目标端口以及协议。
进一步的,所述的SDN流等价集为独立同分布。
进一步的,所述SDN流的边信息包括目标ip、目标端口、协议。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510488828.0/2.html,转载请声明来源钻瓜专利网。