[发明专利]一种基于Keras平台的自适应深度学习模型优化方法在审

申请号：	201910380960.8	申请日：	2019-05-08
公开（公告）号：	CN110245742A	公开（公告）日：	2019-09-17
发明（设计）人：	赵坤;张挺	申请（专利权）人：	上海电力学院
主分类号：	G06N3/04	分类号：	G06N3/04;G06K9/62;G06Q10/04;G06Q50/06
代理公司：	上海科盛知识产权代理有限公司 31225	代理人：	叶敏华
地址：	200090 ***	国省代码：	上海;31
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	模型优化样本数据预测模型自适应参数调节动作选择全局最优网络提供相似结构预测算法调试标签网络场景学习优化决策
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于Keras平台的自适应深度学习模型优化方法，其特征在于，该方法包括下列步骤：

1)对Q值网络的参数进行优化，将动作选择与全局最优决策分离；

2)利用Keras建立预测模型，并对模型进行超参数调节；

3)采用Q-Learning算法为深度Q网络提供有标签的样本数据；

4)根据提供的样本数据训练深度Q网络。

2.根据权利要求1所述的一种基于Keras平台的自适应深度学习模型优化方法，其特征在于，步骤1)的具体内容为：

在Q值网络中采用两套不同的用以选择动作的参数θ与θ^-，其中，参数θ用以选出最大Q值的动作，参数θ^-则用以选出最优Q值的动作，两套参数将动作选择与全局最优决策分离，θ为将表格Q(s,a)用函数Q(s,a,θ)映射后的函数参数。

3.根据权利要求1所述的一种基于Keras平台的自适应深度学习模型优化方法，其特征在于，步骤2)具体包括以下步骤：

21)利用Keras包装深度学习模型的每一层神经网络，并将包装好的深度学习模型应用到scikit-learn中作为预测模型；

22)预测模型建立后，通过DQN对超学习率进行自适应调节。

4.根据权利要求2所述的一种基于Keras平台的自适应深度学习模型优化方法，其特征在于，步骤3)的具体内容为：

采用Q-Learning算法计算目标Q值，并将其与当前动作下的奖励结合作为标签，样本数据的表达式为(s_i,a_i,r_i+1,s_i+1,label)^j，其中i表示时间步为i，j表示e_greed为j，label为标签，e_greed为贪婪指数，,_i+1为下一步奖励，s_i为当前步状态，s_i+1为下一步状态，a_i为当前步动作。

5.根据权利要求4所述的一种基于Keras平台的自适应深度学习模型优化方法，其特征在于，步骤4)的具体内容为：

采用经验回放机制对深度Q网络进行训练，每一次对神经网络的参数进行更新时，从数据里随机地调取小批量之前的训练结果，辅助培训神经网络。

6.根据权利要求5所述的一种基于Keras平台的自适应深度学习模型优化方法，其特征在于，步骤4)中，深度Q网络采用两个神经网络，一个用于存放当前训练出来的Q值，另一个用于产生目标Q值，训练过程中，在一定步数后将当前Q值复制到目标Q值网络中。

7.根据权利要求6所述的一种基于Keras平台的自适应深度学习模型优化方法，其特征在于，深度Q网络进行训练的损失函数为：

L(w)＝E[(r+γmaxQ(s′,a′,θ)-Q(s,a,θ))]

式中，+γmaxQ(s′,a′,θ)为目标Q值，r为奖励，γ为折扣因子，Q(s,a,θ)为Q估计值。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于上海电力学院，未经上海电力学院许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201910380960.8/1.html，转载请声明来源钻瓜专利网。