[发明专利]用状态相似性进行经验回放采样的无人平台决策学习方法有效
申请号: | 202011623599.6 | 申请日: | 2020-12-31 |
公开(公告)号: | CN112734030B | 公开(公告)日: | 2022-09-02 |
发明(设计)人: | 庄连生;张淦霖;李厚强 | 申请(专利权)人: | 中国科学技术大学 |
主分类号: | G06N3/08 | 分类号: | G06N3/08;G06N5/00 |
代理公司: | 北京凯特来知识产权代理有限公司 11260 | 代理人: | 郑立明;付久春 |
地址: | 230026 安*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明公开了一种用状态相似性进行经验回放采样的无人平台决策学习方法,输入为从经验回放池中采样得到的历史样本数据,之后计算每个历史样本数据与无人平台的决策神经网络模型的当前策略的状态相似度与动作相似度,基于状态和动作相似度来判定赋予历史样本数据不同的训练权重,根据历史样本数据的训练权重不同更新无人平台的决策神经网络模型。通过限制使用与当前策略差异较大的数据的更新幅度,来缓解利用深度强化学习更新无人平台策略时经验回放池中数据分布与当前策略对应数据分布不一致的问题,能够更好的利用经验回放池中历史数据,提高训练数据利用率和稳定性,使得无人平台能够学得更好更稳定的策略。 | ||
搜索关键词: | 状态 相似性 进行 经验 回放 采样 无人 平台 决策 学习方法 | ||
【主权项】:
暂无信息
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国科学技术大学,未经中国科学技术大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/202011623599.6/,转载请声明来源钻瓜专利网。