[发明专利]一种迭代步长可变的多步Q学习自适应方法有效

申请号：	201510212647.5	申请日：	2015-04-29
公开（公告）号：	CN104794359B	公开（公告）日：	2017-12-15
发明（设计）人：	贺知明;万海川;高振;杨庆;肖雪冬	申请（专利权）人：	电子科技大学
主分类号：	G06F19/00	分类号：	G06F19/00
代理公司：	电子科技大学专利中心51203	代理人：	李明光
地址：	611731 四川省成***	国省代码：	四川;51
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明属于雷达信号处理领域，提出一种迭代步长可变的多步Q学习自适应方法，用以解决现有Q学习算法环境适应性差，与急剧变化环境无法工作的问题。本发明提出将步长(最大迭代次数)的大小设置为环境的函数，根据环境的变化程度来决定步长的大小；因此，本发明能够迅速地适应环境，当环境急剧变化的时候，采用更多步的信息来更新当前Q值，有效提高算法预见能力；同时，当环境变化很细微时，采用较少步的信息来更新Q值，有效减少算法复杂度；有效提高算法环境适应能力。
搜索关键词：	一种步长可变学习自适应算法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

一种迭代步长可变的多步Q学习自适应方法，包括以下步骤：步骤1：初始化所有的(s,u)，其中s∈S,u∈A(u)，S表示状态集合，s表示集合中一个状态；u为系统选择波形，A(u)为波形集合；令Q(s,u)＝0,k＝0，k表示迭代次数，设定最大迭代次数Kmax(t)，以及更新公式：Kmax(t+1)＝μKmax(t)，0＜μ＜2，初始值为1；步骤2：雷达环境学习，令当前状态为st，雷达发射波形集合中不同的波形，并记录不同波形所产生的Q值，通过比较确定Q值最大的对应波形u，即：Y(ut)＝argmaxQk(st,ut)；步骤3：利用更新公式更新Q值：Qk+1(st,ut)＝(1‑αk+1)Qk(st,ut)+αk+1[Rt(st+1|st,ut)+λmaxQk(st+1,ut+1)]其中，st代表t时刻状态，ut代表t时刻发射波形，Rt(st+1|st,ut)为t时刻、环境状态为st、发射波形为ut的情况下状态变换到st+1产生的报酬函数，λ为设定折扣因子；步骤4：确定下一状态，根据状态转移矩阵A，测量概率矩阵B，确定下一状态st+1：I为对角矩阵；步骤5：计算状态变化范数σ＝||st+1‑st||，设定μ值变动的最低门限值l和μ值变动的最高门限值h；当σ＜l时，μ值减0.1，并降低l、使l＝0.6l；当σ＞h时，μ值加0.1，并提高h、使h＝1.2h；否则，μ值不变；步骤6：k值加1，当k＜Kmax(t)，根据公式Kmax(t+1)＝μKmax(t)，更新最大迭代次数；令st＝st+1，跳至步骤2；否则，停止迭代，跳至步骤7；步骤7：对于每一个状态s∈S，选择d(st)∈argmaxQ(st,ut)得到最优策略。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于电子科技大学，未经电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201510212647.5/，转载请声明来源钻瓜专利网。

上一篇：一种基于数学模型预测锚杆极限承载力的计算方法
下一篇：晶振外壳除尘装置

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F19-00 专门适用于特定应用的数字计算或数据处理的设备或方法
G06F19-10 .生物信息学，即计算分子生物学中的遗传或蛋白质相关的数据处理方法或系统
G06F19-12 ..用于系统生物学的建模或仿真，例如：概率模型或动态模型，遗传基因管理网络，蛋白质交互作用网络或新陈代谢作用网络
G06F19-14 ..用于发展或进化的，例如：进化的保存区域决定或进化树结构
G06F19-16 ..用于分子结构的，例如：结构排序，结构或功能关系，蛋白质折叠，结构域拓扑，用结构数据的药靶，涉及二维或三维结构的
G06F19-18 ..用于功能性基因组学或蛋白质组学的，例如：基因型–表型关联，不均衡连接，种群遗传学，结合位置鉴定，变异发生，基因型或染色体组的注释，蛋白质相互作用或蛋白质核酸的相互作用

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种迭代步长可变的多步Q学习自适应方法有效

专利文献下载