[发明专利]一种基于时空信息的水文数据异常检测方法有效
申请号: | 202011397130.5 | 申请日: | 2020-12-03 |
公开(公告)号: | CN112506990B | 公开(公告)日: | 2022-10-04 |
发明(设计)人: | 许国艳;朱进;陆宇翔;李星;黄静 | 申请(专利权)人: | 河海大学 |
主分类号: | G06F16/2458 | 分类号: | G06F16/2458;G06V10/82;G06V10/774;G06V10/762;G06N3/04 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 向文 |
地址: | 210024 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 时空 信息 水文 数据 异常 检测 方法 | ||
1.一种基于时空信息的水文数据异常检测方法,其特征在于:包括如下步骤:
S1:划分出与待检测站点相关联的站点;
S2:根据划分出的站点,将水文数据的水位时间序列进行划分;
S3:根据划分好的水位时间序列,利用训练好的卷积神经网络模型得到模型输出结果,并使用马尔科夫链对模型输出结果进行残差值预测,根据模型输出结果和预测的残差值判断站点是否发生异常;
S4:通过步骤S3的方法获取到待检测站点和其所有关联站点的异常状况;
S5:采用DA-DS算法对步骤S4获取的结果进行融合,得到最终水文数据异常预测结果;
所述步骤S1中待检测站点相关联的站点的划分方法包括如下步骤:
A1:获取待检测站点的降雨量时间序列R0以及流域内其它任一站点的降雨量时间序列Ri,并且有Ri=<(r1,t1),(r2,t2),…(rn,tn)>,序列中的每个点<ri,ti>表示在ti时刻该站点的降雨量为ri,并定义R0为参考序列,Rm为测试序列;
A2:构造一个距离矩阵,矩阵中的元素i,j表示R0和Rm中ri之间的距离,该距离的计算方式如公式式中W(k)={w1,w2,...,wk}表示的是一条使得总弯曲代价最小的最佳匹配路径;
A3:重复步骤A1-A2,计算出R0与其它所有降雨量时间序列之间的相似性,根据公式计算出待检测站点与其它所有站点的相似度,并根据不同站点之间相似度的排序确定待检测站点的关联站点,式中,D(R0,Rm)表示两个降雨量时间序列DTW距离的历史最大距离;
所述步骤S2中水位时间序列的划分包括暴雨区间和非暴雨区间,该方法包括如下步骤:
B1:根据公式计算待检测站点t1,t2,...,tn时刻的加权累积降雨量a1,a2,...,an,并得到加权累积降雨量时间序列Q1=<(a1,t1),(a2,t2),...,(an,tn)>;
B2:对序列Q1加入一个过滤规则,即对于序列中的任一时刻ti的加权累积降雨量ai,设定阈值ε,如果满足ai>ε,则将点ai加入新的序列Q;
B3:将序列Q中的点按照P=(t1,t2,…,tn),(a1,a2,…,an)的格式输入DBSCAN聚类算法;然后使用DBSCAN聚类算法对集合P中的n个样本点进行聚类,用count(Center)表示当前核心点个数,在集合P中任意选择一个没有类别的核心对象作为种子;接着根据公式找到这个核心对象能够密度可达的所有点,形成一个聚类簇;最后在n-count(center)个样本点中继续选择没有类别的对象去寻找密度可达的所有点,得到另一个聚类簇,重复执行上述步骤直到所有对象都有类别为止,输出暴雨区间结果result=((c1,c2…cn),C);
所述步骤S3中建立的卷积神经网络模型网络结构依次包括输入层、卷积层、BN层、激活层、Flatten层、Dropout层、全连接层、输出层;
所述步骤S3具体包括如下步骤:
C1:将卷积神经网络的核心参数弃权率Dropout、批次数epoch以及批次大小batch_size用一维向量表示为Q=[Dropout,epoch,batch_size],将n个向量Q1,Q2,...,Qn作为SFLA算法中的个体,以均方误差的最小值为目标建立最优化网络,其中均方误差的计算公式为:其中yk,p表示的是训练样本p在k输出端的网络实际输出,dk,p为相应的给定输出,将n个向量中使得均方误差最小的向量记为Qmin,Qmin中的值即为SFLA算法为CNN搜索到的一组最优参数;
C2:将SFLA为卷积神经网络搜索到的最优的一组参数输入卷积神经网络并进行训练,得到初始水位预测值Lt,并根据公式et=xt-lt得到残差序列et,其中,lt表示的是预测的水位时间序列,xt表示的是原始的水位时间序列;
C3:根据马尔可夫链输入数据的格式输入残差序列et,模型经过训练后得到状态转移概率矩阵,得到残差序列的预测值Nt;
C4:输入给定样本数据集其中y为水位时间序列的实际值,x1为SFLA-CNN模型的水位预测序列,x2为MC的残差预测序列,然后由获取的样本数据集根据公式得到线性回归方程,表示为:
C5:对SFLA-CNN模型的预测值和MC的预测值组成的样本数据集根据公式进行最小二乘拟合,并得到拟合值Xt;
C6:根据OLS模型的拟合值Xt计算出置信度为1-α的置信区间,然后将实际值不在置信区间范围的判定为异常值;反之,为正常值;
所述步骤S4具体为:
输入待检测站点及其关联站点的降雨量时间序列集合R={R1,R2,...,Rn}和水位时间序列集合X={X1,X2,...,Xn},使用步骤S3的SFLAMC-CNN异常检测算法对待检测站点及其关联站点分别进行异常检测,并得到这些站点的异常检测结果以及AUC时间序列集合C={C1,C2,...,Cn};
所述步骤S5具体为:
D1:使用梯度优化指数平滑法对集合C中的时间序列分别进行训练,并得到待检测站点及其关联站点预测的AUC值集合c={c1,c2,...,cn},根据待检测站点及其关联站点实时预测的AUC值,根据公式m(A)=ES(auc),m(N)=1-m(A)为D-S证据理论中的基本概率动态赋值,其中m(A)表示异常状态的mass函数值,m(N)表示正常状态的mass函数值,ES(auc)表示梯度优化指数平滑法实时预测的AUC值;
D2:根据计算出反映不同状态冲突程度的k值,根据公式表示的合成规则对不同状态的mass函数进行合成;
D3:根据公式m(A)-m(N)>ε判断最终是否发生异常,即如果异常状态和正常状态的mass函数差值大于ε,则将该水位值判定为异常值;否则,判定为正常值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河海大学,未经河海大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011397130.5/1.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置