[发明专利]一种边缘时序数据异常检测和网络可编程控制方法有效
申请号: | 202110142428.X | 申请日: | 2021-02-02 |
公开(公告)号: | CN112966714B | 公开(公告)日: | 2022-05-31 |
发明(设计)人: | 吴迪;戴宁一;邓晗晖;江中凯;谢小峰;范喆;聂祥 | 申请(专利权)人: | 湖南大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04 |
代理公司: | 长沙新裕知识产权代理有限公司 43210 | 代理人: | 梁小林 |
地址: | 410081 湖*** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 边缘 时序 数据 异常 检测 网络 可编程 控制 方法 | ||
1.一种边缘时序数据异常检测和网络可编程控制方法,其特征在于:
构建了一种边缘长短时记忆网络,即EdgeLSTM,该网络结合了深度学习中注意力机制、Grid LSTM和机器学习算法中SVM,获取物联网边缘设备上的时序数据;根据基于Grid LSTM的注意力机制对物联网时序数据进行预测;通过基于Grid LSTM的注意力机制预测模型对边缘设备上的物联网时序数据进行预测得到真实值与预测值之间的误差;利用SVM算法来对上述误差进行异常检测,得到数据的异常情况;从而实现异常数据包的传输路径的追溯和屏蔽,以及数据新的传输路径的查找,具体包括以下步骤:
步骤一、对原始数据集进行探索性分析,
对于采集到的原始传感器的数据,进行初步的数据探索分析,查看一般变量与一般变量之间的相关性,以及一般变量与目标变量之间的相关性;观察每个变量的缺失值、异常值情况;
步骤二、数据集的预处理,
原始数据集是利用多个传感器采集到的数据,需要对原始数据集进行预处理,包括数据清洗、数据填充、数据下采样以及使用对数据进行归一化,其中min和max分别表示某一列特征的值的最小值和最大值,x表示该特征的所有值,xstd表示归一化后的值,取值范围为[0,1];
步骤三、数据集的划分,
将经过预处理之后的数据集进行分割,按照6:2:2的比例分割成训练集、验证集和测试集,其中训练集只包含正常的数据,而测试集和验证集中既包含正常的数据也包含异常的数据;
步骤四、搭建基于Enhanced Grid LSTM的注意力预测模型,
物联网时序数据中异常值的数据量比较小,使用训练集来对预测模型进行搭建,通过验证集为预测模型选择超参数以达到更好的效果,使用公式如下:
gu=σ(WuH)
9f=σ(WfH)
go=σ(WoH)
gc=tanh(WcH) (1)
其中,σ是逻辑sigmoid函数,其表达式为Wu,Wf,Wo,Wc分别表示不同状态下的权重矩阵;H=[I*xi,h]T,其中xi表示当前的输入,I表示转换后的映射矩阵,h表示前一时刻的输出向量;gu表示输入门,用来决定将要更新的信息;gf表示遗忘门,用来决定需要丢弃什么信息;go表示输出门,用来决定将要输出的信息到下一个细胞状态中;gc表示当前将要更新的信息到新的细胞当中;m′表示当前时刻记忆单元状态的输出,h′表示当前时刻隐藏单元状态的输出;
根据上述最基本LSTM神经网络的框架,通过这个框架将N维隐藏向量h1,h2,…,hi,…,hN和N维记忆向量m1,m2,…,mi,…,mN作为输入参数,最后输出N维隐藏向量h′1,h′2,…,h′i,…,h′N和N维记忆向量m′1,m′2,…,m′i,…,m′N,具体公式如下所示:
其中Wi(i=1,2,…,N)是权重矩阵Wiu,Wif,Wio,Wic拼接而成的权重矩阵;
对于每一个单元格,网格有N个边来接收隐藏状态向量和记忆状态向量,并且输出N个隐藏状态向量和记忆状态向量,一个数据点沿着某一侧的一对输入隐藏/记忆状态向量映射到Grid LSTM网络中;在边缘长短时记忆网络EdgeLSTM中,使用2维Grid LSTM单元,h1和h2分别表示时间维度和深度维度上的隐藏向量,m1和m2分别表示时间和深度方向上的记忆向量;因此在时间维度上使用h1和m1来进行2D网格LSTM单元计算,最后输出的是隐藏状态向量h′1和记忆状态向量m′1;相应地,在深度维度上对h2和m2进行计算,并得到隐藏状态向量h′2和记忆状态向量m′2;h1和h2产生了上述方程式1中使用的各种门控机制,并且m1和m2被组合成学习物联网时序数据复杂特征的主要记忆状态向量;在构建2D网格LSTM单元后,将这些单元连接起来形成2D网格LSTM网络,是由四个单元通过循环连接组成的,水平轴代表时间维度,垂直轴代表深度维度;
步骤五、数据的预测,
利用测试集来对已训练好的预测模型进行测试并评估,得到正常数据的预测值和异常数据的预测值;采用的评估指标是平均绝对百分比误差(Mean Absolute PercentageError,MAPE)、均方根误差(Root Mean Square Error,RMSE),平均绝对值误差(MeanAbsolute Error,MAE)和R2分数,具体计算公式如下:
其中,表示t时刻第i个样本的真实值,表示t时刻第i个样本的预测值,n表示样本的总数,表示t时刻样本的均值,MAPE的值越小越好,最小值是0;R2的值越大越好,最大值为1,表示模型对未知数据的拟合效果最好;
步骤六、数据异常检测,
通过步骤四、五,获得验证集在预测模型上的预测值以及测试集在预测模型上的预测值,并分别根据获得的预测值来构建验证集残差数据集和测试集残差数据集,然后使用验证集残差数据集来构建多类SVM检测模型,使用测试集残差数据集来测试多类SVM异常检测模型;采用的分类评估标准是精准率:Precision、召回率:Recall、Fβ分数,具体计算公式如下:
其中TP、TN、FP和FN是分类模型输出的四种结果,TP表示将正类预测为正类的数目,TN表示将负类预测为负类的数目,FP表示将负类预测为正类的数目,FN表示将正类预测为负类的数目;
步骤七、网络的可编程控制
在边缘服务器对所接收的数据进行异常检测后,若为异常数据,则通过接入点发起关于该数据包的追溯查询,接入点会通过广播方式发送一个包含异常数据包的源节点ID和异常数据包的ID的数据包;其周围所有节点从该数据包中提取出源节点的ID和异常数据包的ID,将它们以公式(10)的方式进行拼接,并查询是否在当前传感器节点的布鲁姆过滤器中存储;
Hash(pId||sId||lId||nId) (10)
其中,Hash表示其中一个哈希函数,pId表示当前数据包的ID,sId表示发送该数据包的源节点的ID,lId表示当前节点的ID,nId表示下一跳节点的ID,||表示拼接运算;经过循环迭代,直至最终节点与异常数据包的源节点的ID相同为止;为了避免这个可疑节点,源节点会通过新的路径进行数据包的发送,使源节点通过新路径传输数据。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南大学,未经湖南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110142428.X/1.html,转载请声明来源钻瓜专利网。
- 数据显示系统、数据中继设备、数据中继方法、数据系统、接收设备和数据读取方法
- 数据记录方法、数据记录装置、数据记录媒体、数据重播方法和数据重播装置
- 数据发送方法、数据发送系统、数据发送装置以及数据结构
- 数据显示系统、数据中继设备、数据中继方法及数据系统
- 数据嵌入装置、数据嵌入方法、数据提取装置及数据提取方法
- 数据管理装置、数据编辑装置、数据阅览装置、数据管理方法、数据编辑方法以及数据阅览方法
- 数据发送和数据接收设备、数据发送和数据接收方法
- 数据发送装置、数据接收装置、数据收发系统、数据发送方法、数据接收方法和数据收发方法
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置
- 数据发送方法、数据再现方法、数据发送装置及数据再现装置