[发明专利]一种迭代步长可变的多步Q学习自适应方法有效

专利信息
申请号: 201510212647.5 申请日: 2015-04-29
公开(公告)号: CN104794359B 公开(公告)日: 2017-12-15
发明(设计)人: 贺知明;万海川;高振;杨庆;肖雪冬 申请(专利权)人: 电子科技大学
主分类号: G06F19/00 分类号: G06F19/00
代理公司: 电子科技大学专利中心51203 代理人: 李明光
地址: 611731 四川省成*** 国省代码: 四川;51
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 步长 可变 学习 自适应 算法
【说明书】:

技术领域

发明属于雷达信号处理领域,提出了一种迭代步长可变的多步Q学习自适应方法。

背景技术

认知雷达是一种能够根据回波信号认识环境状态的雷达。它通过对回波信号的分析,提取出环境信息并动态地改变发射波形,以达到更高的目标分辨力(包括距离、速度等)。而宽带认知雷达则是在认知雷达的基础上采用了更高的带宽发射波形,这样,可以使雷达具有更高的距离分辨力和超近程的探测能力。由于宽带认知雷达的带宽大,数据更新快,这对波形动态变化的速度也有了更高的要求。而提高自适应算法的计算速度则是在提高宽带认知雷达的认知能力,所以研究宽带认知雷达的自适应波形选择算法有着重要的意义。

在众多的自适应算法中有一部分已经成熟的,并被广泛应用的例子,如价值迭代算法、策略迭代算法,Q-Learning算法以及多步Q-Learning算法。传统的Q学习算法采用一步算法,预见能力不强,对环境适应能力不强。针对这种问题,相关研究提出了增量式步长Q学习算法,但这种算法再后来的实际应用中出现了运算复杂度高,更新速度慢的情况。于是,为了平衡预见能力和预算复杂度的问题,有人提出采用有限多步信息进行更新的思想,即多步Q学习算法,它利用K步信息更新当前的Q值,具有多步预见能力,同时能降低算法复杂度。但是,这种算法步长恒定,无法根据环境变化调整步长,如果遇到环境急剧的变化,那么该算法的适应性将变弱。

发明内容

本发明针对背景技术存在的运算量大和预见能力不强的缺点,提出了一种改进的Q学习算法。本发明提出将步长的大小设置为环境的函数,根据环境的变化程度来决定步长的大小,当环境急剧变化的时候,采用更多步的信息来更新当前Q值,提高预见能力;同时,当环境变化很细微时,采用较少步的信息来更新Q值,减少算法复杂度。

本发明所采用技术方案为:一种迭代步长可变的多步Q学习自适应方法,包括以下步骤:

步骤1:初始化所有的(s,u),其中s∈S,u∈A(u),S表示状态集合,s表示集合中一个状态;u为系统选择波形,A(u)为波形集合;令Q(s,u)=0,k=0,k表示迭代次数,设定最大迭代次数Kmax(t),以及更新公式:Kmax(t+1)=μKmax(t),0<μ<2,初始值为1;

步骤2:雷达环境学习,令当前状态为st,雷达发射波形集合中不同的波形,并记录不同波形所产生的Q值,通过比较确定Q值最大的对应波形u,即:Y(ut)=argmaxQk(st,ut);

步骤3:利用更新公式更新Q值:

Qk+1(st,ut)=(1-αk+1)Qk(st,ut)+αk+1[Rt(st+1|st,ut)+λmaxQk(st+1,ut+1)]

其中,st代表t时刻状态,ut代表t时刻发射波形,Rt(st+1|st,ut)为t时刻、环境状态为st、发射波形为ut的情况下状态变换到st+1产生的报酬函数,λ为设定折扣因子;

步骤4:确定下一状态,根据状态转移矩阵A,测量概率矩阵B,确定下一状态st+1

I为对角矩阵;

步骤5:计算状态变化范数σ=||st+1-st||,设定μ值变动的最低门限值l和μ值变动的最高门限值h;当σ<l时,μ值减0.1,并降低l、使l=0.6l;当σ>h时,μ值加0.1,并提高h、使h=1.2h;否则,μ值不变;

步骤6:k值加1,当k<Kmax(t),根据公式Kmax(t+1)=μKmax(t),更新最大迭代次数;令st=st+1,跳至步骤2;否则,停止迭代,跳至步骤7;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于电子科技大学,未经电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/201510212647.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top