[发明专利]一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法有效
申请号: | 202011464171.1 | 申请日: | 2020-12-14 |
公开(公告)号: | CN112418409B | 公开(公告)日: | 2023-08-22 |
发明(设计)人: | 方巍;庞林;易伟楠;王楠 | 申请(专利权)人: | 南京信息工程大学 |
主分类号: | G06N3/0464 | 分类号: | G06N3/0464;G06N3/0442;G06N3/045;G06N3/049;G06N3/08;G06N3/088 |
代理公司: | 南京苏高专利商标事务所(普通合伙) 32204 | 代理人: | 曹坤 |
地址: | 210044 江苏*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 利用 注意力 机制 改进 卷积 短期 记忆 网络 时空 序列 预测 方法 | ||
1.一种利用注意力机制改进的卷积长短期记忆网络时空序列预测方法,其特征在于,具体步骤包括如下:
步骤(1.1)、非对称卷积块高维特征提取器提取空间特征:使用三层非对称卷积块,利用滑动窗口提取高维图像空间信息;
步骤(1.2)、嵌入注意力模块的ConvLSTM编码器-解码器架构预测外推特征:将编码器输入当前步图片帧的高维特征和前一步的隐状态,输出当前步隐状态;使用解码器中接收整个编码器的输出并在每一步交由注意力模块获取上下文信息提供给当前步解码器预测外推特征;
步骤(1.3)、特征结果反向重构:进行特征图像的外推后,利用反卷积进行反向重构,将预测特征重构到原始大小;
步骤(1.4)、L1、L2正则化优化:降低学习到高权重的层的更新程度,并提高学习到低的权重的结点的更新程度,从而达到层中所有权值平摊任务的目的;
步骤(1.5)、预测时空序列图像:所有模型搭建完成后输入时空图像序列进行模型外推训练;
在步骤(1.1)中,使用非对称卷积块高维特征提取器提取空间特征的具体操作方法如下:
(1.1.1)、首先将输入图像做归一化处理,将数值缩放到0到1之间,便于后续梯度的计算、加快收敛;
(1.1.2)、然后构建特征提取模块:使用由三个非对称卷积块堆叠而成的卷积网络,将标准方形卷积层替换为不对称卷积网络;
在步骤(1.1.2)中,每一个非对称卷积块将三个分别具有正方形、水平和垂直卷积核的卷积分支的输出进行求和,由滑动窗口来提供一些具有不同内核大小的2D卷积可加性的结果;每个卷积块中三种内核大小分别为3×3、1×3和3×1,其接受相同的输入,并将输出相加再通过ReLU激活函数,得到的结果作为下一个卷积块的输入;其中,所述三个卷积块的通道数依次为64、96、128,跨步依次为2、2、1;
在步骤(1.2)中,使用嵌入注意力模块的ConvLSTM编码器-解码器架构预测外推特征的具体操作方法如下:
(1.2.1)、构建ConvLSTM编码器-解码器架构;
(1.2.2)、将注意力模块嵌入到该ConvLSTM编码器-解码器架构中,具体操作步骤如下:
首先,根据一个对齐模型计算ht与每个的关联度etj,所述的对齐模型函数表示如下式所示:
其次,将关联度结果输入到softmax函数中,为每个赋予权重,其公式表示如下:
再次,将权重与编码器的隐状态相乘,得到权重化的上下文向量ct,其式如下:
最后,用该上下文向量ct更新前一步隐状态ht,作为当前步的输入,更新过程用公式表示为:
其中,σ为sigmoid函数,conv1、conv2为两个卷积网络,通过上下文向量ct和ht的重要性来更新输入当前步的隐状态
在步骤(1.2.2)中,构建对齐模型的具体步骤如下:设计一个全局通道注意力模块,首先,先分别为ht和的各个通道赋予权重;然后,将得到的结果相加输出对齐向量etj,期间,将维度先减小后增大,最后,减少模型的参数,提高模型的效率;
在步骤(1.3)中,特征结果反向重构的具体方法如下:将注意力机制改进的ConvLSTM编码器-解码器的输出输入到一个由三层反卷积构成的重构网络中,将外推出的图像特征重构成原图的大小;其中,每一层反卷积重构网络都包含反卷积层、标准化层和LeakyReLU激活函数层;第一层反卷积的参数设置为卷积核大小为(3,3),通道数为128,跨步为2;第二层反卷积的参数设置为卷积核大小为(2,2),通道数为64,跨步为2,padding为1;第三层反卷积的参数设置为卷积核大小为(3,3),通道数为1,跨步为1,padding为1;
在步骤(1.5)中,预测时空序列图像的具体步骤如下:
数据空间维度上为固定大小的空间区域表示为M×N个格点,每一个格点包含随着时间变化的C个测量;在任意时间点对该区域的观察使用一个矢量X∈RC×M×N表示,式中,R表示观察特征的区域;随时间变化的T个时间步的观察形成了一组动态序列,用矢量序列X1,X2…,XT这T帧数据表示;
所述的时空序列预测即根据所给出的前J帧数据外推出未来的K帧数据,其建模公式如下式所示:
在根据前J帧数据外推未来K帧数据的时空序列预测外推步骤中,将外推序列和真实序列的损失函数定义为如下公式:
利用交叉验证作为训练、验证的策略,选择将均方误差MSE、平均绝对误差MAE作为检测模型得分的标准,所述方误差MSE、平均绝对误差MAE的公式分别为:
其中,输出y的下标有三种表示形式;分别表示训练过程的输出、样本标签和测试输出。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京信息工程大学,未经南京信息工程大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011464171.1/1.html,转载请声明来源钻瓜专利网。