[发明专利]基于改进SVM的电力企业信息系统异常检测方案的优化方法在审
申请号: | 201910721565.1 | 申请日: | 2019-08-06 |
公开(公告)号: | CN110472678A | 公开(公告)日: | 2019-11-19 |
发明(设计)人: | 陈昌岭;徐立;刘飞鹏;郑义林;陈施;靳玉晨;王超 | 申请(专利权)人: | 国家电网有限公司;国网安徽省电力有限公司天长市供电公司 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06Q50/06 |
代理公司: | 34120 合肥顺超知识产权代理事务所(特殊普通合伙) | 代理人: | 谢永<国际申请>=<国际公布>=<进入国 |
地址: | 100032 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 网络性能指标 置信区间 电力信息系统 实时动态调整 参数优化 电力企业 基线参数 信息系统 性能评价 异常检测 阈值计算 核函数 残差 构建 改进 检测 优化 | ||
1.基于改进SVM的电力企业信息系统异常检测方案的优化方法,其特征在于,具体步骤如下:
第一步,了解SVM算法原理
支持向量机SVM的基本算法流程如下
首先根据分析对象特征设定初始样本群体{xi,yj},i,j=1,2,…n;xi与yj分别为算法的n维输入量和输出量;
式(1)给出了SVM算法的基本函数形式
上式中为算法的特征映射函数,将其视为被测对象的回归函数,将式(1)表述为
式(1)中的||ω||2为复杂度参数,用以描述f(·)的复杂度;C为惩罚系数,用以设定算法对错误分类的惩罚程度,从而提高全局最优解的存在概率;为经验风险值,用来描述算法分类结果与真实结果之间的差值,其中ε为不灵敏损失函数,其作用等价于算法中的松弛变量,用以清除真实值在某范围内的误差,其满足式(3)
|y-f(x)|ε=max{0,|y-f(x)|-ε} (3)
而经验风险可描述为
通过式(3)和式(4)代入,可将式(2)转变为
将拉格朗日乘子法用于上式,可将其转变为对偶优化问题的求解,如式(6)所示
上式中,K(xi,xj)为核函数,这也是确定算法有效性的关键函数,尤其在针对线性不可分的数据进行SVM优化的过程中,必须根据被测对象的特征选取合适的K(xi,xj),目前常用的核函数有线性核函数、多项式核函数、Sigmoid核函数和高斯核函数等,此处选取高斯核函数,即高斯径向基函数为例,如(7)所示
若其解以的形式给出,则代入式(7)后可得
其中的值为
将代入后,式(8)即转变为以下形式
上式的求解即为二元分类问题的求解;
第二步,构建网络性能指标模型
选取时间点序列作为监测和分析对象,在构建数据模型时,训练集即样本群中的每个个体均为时间序列中某一点上网络性能的对应指标,传统的建模方法是按照连续时间间隔的采样得到初始训练集,如式(11)所示
上式中,U和V分别为算法的输入和输出向量;t表示时间序列的末尾点;l表示元素数量;m表示嵌入维数;该方法缺点是基线和阈值的设定往往存在较大的滞后情况,无法对网络中各种性能指标快速且频繁变化状况进行实时的分析与识别,这就导致了许多异常点没有被及时检出,最终使得监测系统经常出现误报和漏报的情况;
在检索了电力企业累积的大量网络性能监测数据后发现,各个区域内网元的性能波动规律虽然在短时间内是无序的且随机变化的,但在较长的监测周期内依然是遵循一定规律的,尤其在1d的时间单位内,同时间段的变化规律相似性极高,因此提出采用同点时间序列构建网络性能变化模型的设计思路,即多日内同一时间点进行采样的方式,以更好的贴合电力企业网络性能的变化规律,如式(12)所示
上式中,U和V同样为系统的输入及输出向量,t、l、m与式(11)设定相同,n为一日内时间点设定数量;根据电力企业信息传输异常事件的特征分析,当网络出现异常点时,其造成的持续影响往往覆盖了多个时间点,导致了评估结果的偏差;而在本模型中,所有的时间点均为分散的,时间点之间的间隔也并不固定,这就显著的减少了异常点多发的时间段内的采样次数,提高了系统异常检测与评价方案稳定性与客观性;
第三步,核函数的选择及参数优化
在SVM算法中,起到关键影响作用的是核函数的选定与使用,针对电力企业网络性能波动特点,选取高斯径向基函数为SVM算法的核函数,在设置参数的过程中,最关键的两个参数即为惩罚参数c和核函数参数g;对SVM算法的改进也主要体现在对这两个参数的选定过程中,提出将参数寻优的工作分为两步进行,并通过交叉验证的方式快速逼近最优的c和g组合;
Step1,粗略寻优环节的验证与分析
参数寻优采用中国台湾林智仁教授研发的LibSVM软件来完成,x、y轴分别表示c、g取以2为底的对数后的值,而选定参数后的SVM分类器输出结果的准确率则通过z轴上的值来表示;利用LibSVM软件中的SVMcgForClass函数进行计算,在粗略寻优环节中,参数c的估值区间确定为(2-4,24),随机选择为2.3965,而参数g则估值在(2-4,24)之间,随机选定为4,将此组参数带入SVM算法,实现对训练集的二元化分类,通过大量的真实数据验证,其结果的准确率略超过93%;
Step2,精细寻优环节的验证与分析
在完成粗略寻优的基础上,通过精细寻优环节进一步参数准确性,将参数c和g分别在其估值区间内执行离散化操作,随后再次执行SVMcgForClass函数,进一步缩小了两个参数的取值范围,最终得到的最优参数组合为c=1.3272,g=1,将其分别带入所述惩罚系数与核函数后,SVM分类器输出结果的准确性上升至了95.58%,优化效果较为明显;
第四步,置信区间的确定
在完成了参数优化的工作之后,即可根据训练参差计算得到网络性能指标在时间序列模型上的置信区间,为了提高算法的真实度,在确定置信区间的过程中添加高斯白噪声干扰e~N(0,σ2)作为算法约束条件,并将其代入式(10)可得
考虑到样本训练集的规模足够庞大,因此可将样本方差近似等价与总体方差,简化可得
由于高丝白噪声是服从标准正态分布的,因此根据分位点α的定义可将上式转变为
进一步推导得到
上式中的1-α即为根据被控对象预先设定的置信度,根据式(16)则可计算出给对应的阈值波动范围,分别以选定置信度为95%和97%为例,前者通过检索正态分布表,得z0.05/2=1.96≈2,对应的阈值波动范围则为
后者同理查询可得z0.03/2≈3,计算出阈值波动范围为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国家电网有限公司;国网安徽省电力有限公司天长市供电公司,未经国家电网有限公司;国网安徽省电力有限公司天长市供电公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910721565.1/1.html,转载请声明来源钻瓜专利网。