[发明专利]一种基于深度强化学习的时间序列分类方法在审
申请号: | 201911070579.8 | 申请日: | 2019-11-05 |
公开(公告)号: | CN110826624A | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 杨尚明;刘勇国;李巧勤;刘朗;任志扬;陈智 | 申请(专利权)人: | 电子科技大学 |
主分类号: | G06K9/62 | 分类号: | G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 成都正华专利代理事务所(普通合伙) 51229 | 代理人: | 陈选中 |
地址: | 611731 四川省成*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 深度 强化 学习 时间 序列 分类 方法 | ||
1.一种基于深度强化学习的时间序列分类方法,其特征在于,包括以下步骤:
S1、采集若干时间序列,获取样本数据,并对样本数据进行预处理;
S2、构建深度残差网络,根据预处理后的样本数据,通过深度强化学习方法对深度残差网络进行更新;
S3、将待测试的时间序列输入更新完成的深度残差网络,得到时间序列的分类结果。
2.根据权利要求1所述的基于深度强化学习的时间序列分类方法,其特征在于,所述步骤S1中采集的时间序列为X,X={x1,...,xt,...,xT},所述样本数据为D={(X1,y1),...,(Xi,yi),...,(XN,yN)};
其中,xt表示t时刻的观测值,t=1,2,...,T,T表示观测值总数,Xi表示样本,i=1,2,...,N,N表示样本总数,yi表示样本标签。
3.根据权利要求1所述的基于深度强化学习的时间序列分类方法,其特征在于,所述步骤S1中预处理的具体方法为:采用线性函数归一化方法对样本数据进行线性变化;
所述线性函数Xi*为:
其中,Xi表示样本数据中的时间序列样本,i=1,2,...,N,N表示样本总数,Xmin表示样本数据中的最小值,Xmax表示样本数据中的最大值。
4.根据权利要求2所述的基于深度强化学习的时间序列分类方法,其特征在于,所述步骤S2的分步骤包括:
S2.1、构建深度残差网络,并随机抽取一条预处理过后的样本数据输入深度残差网络;
S2.2、通过深度残差网络获取当前Q值,根据当前Q值对样本数据中时间序列选取分类动作,得到分类结果;
S2.3、根据样本标签和分类结果建立奖励函数,并判断样本标签和分类结果是否一致,若是则通过奖励函数向深度残差网络发送正奖励,否则通过奖励函数向深度残差网络发送负奖励;
S2.4、根据真实的分类结果,生成与深度残差网络结构相同的模拟深度残差网络,并通过模拟深度残差网络生成目标Q值;
S2.5、根据当前Q值和目标Q值,对深度残差网络和模拟深度残差网络进行更新;
S2.6、对深度残差网络更新K次,每更新一次网络,则采用与步骤S2.2-步骤S2.3相同的方法得到该次深度残差网络的奖励值;
S2.7、遍历所有样本后,将所有样本参与的第k次网络更新时产生的奖励值相加,得到K个总奖励值,将总奖励值最大时的网络参数作为最终的网络参数;
其中,k=1,2,...,K,K为每个样本参与的网络更新总次数。
5.根据权利要求4所述的基于深度强化学习的时间序列分类方法,其特征在于,所述深度残差网络包括依次连接的输入层、第一残差块、第二残差块、第三残差块、平均池化层、分类器和输出层;
所述第一残差块、第二残差块和第三残差块结构相同,均包括依次连接的第一卷积层、第二卷积层和第三卷积层,所述第一卷积层的输入和第三卷积层的输出相加作为残差块的输出;
所述每个卷积层的卷积核数量为64,且使用Relu作为每个卷积层的激活函数,所述第一卷积层、第二卷积层和第三卷积层的卷积核大小分别设置为8、5和3。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911070579.8/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种可以改变电源电压的直流电源电路
- 下一篇:一种抓取输送装置的调节机构