[发明专利]一种分布式多目标深度确定性值网络机器人能量管理方法有效
申请号: | 202110586212.2 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113298386B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 刘东端;卜祥鹏;莫明山;殷林飞;卢泉;高放 | 申请(专利权)人: | 广西大学 |
主分类号: | G06Q10/0637 | 分类号: | G06Q10/0637;G06Q50/06;B25J9/16 |
代理公司: | 南宁东智知识产权代理事务所(特殊普通合伙) 45117 | 代理人: | 裴康明;黎华艳 |
地址: | 530000 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 多目标 深度 确定性 网络 机器人 能量 管理 方法 | ||
本发明提出一种分布式多目标深度确定性值网络机器人能量管理方法,该方法能提高巡检机器人的充电效率,获得巡检机器人的最优工作路径。该方法由分布式多目标深度确定性值网络组成;通过多目标深度确定性网络获得巡检机器人的最优充电效率和最优工作路径;多个巡检机器人之间采用一致性协议交换巡检机器人的电量和巡检机器人的位置。该分布式多目标深度确定性值网络机器人能量管理方法减少巡检机器人在工作中的能量损耗,缩短巡检机器人到达工作地点的时间。
技术领域
本发明属于电力系统中机器人巡检领域,涉及一种机器人能量管理方法,适用于电力系统的智能巡检机器人的能量管理。
背景技术
变电站作为电力系统中重要是组成部分,涉及电力系统经济调度和电力系统调控。巡检机器人在电力系统的大规模使用推动了电力系统巡检的智能化发展。机器学习发展迅速,在机器人的应用逐渐普遍。深度确定性值网络通过强化学习和三值网络的结合,能够提高强化学习在学习过程的学习效率和精度。通过标准化全精度权重和量化三元值权重,通过量化训练三元值权重,通过最小化损失函数不断优化,得到最优的三值网络,进而控制强化学习的下一步动作,得到更好的学习效果。
在电力系统的电力巡检中,多巡检机器人构成了一个复杂的调度问题,各巡检机器人通过一致性协议交换电量和机器人所处位置来实现巡检机器人的分布式调度。通过多目标深度确定性网络来优化巡检机器人的充电效率和工作路径,实现巡检机器人能量的最优管理,提高巡检机器人的工作效率,提高巡检机器人的能量利用率。
发明内容
本发明提出一种分布式多目标深度确定性值网络机器人能量管理方法。将智能巡检机器人应用于电力系统的巡检中,能够解决人工巡检所带来的问题,提高电力系统的自动化水平。将能量管理技术应用于智能巡检机器人中,能够提高智能巡检机器人的工作效率和续航能力。本发明采用分布式多目标深度确定性值网络的方法对巡检机器人的能量进行管理,实现巡检机器人的最优能量管理。
所提方法步骤如下。
步骤1:巡检机器人通过自身的传感器获得巡检机器人的工作状态;
步骤2:得到的巡检机器人的充电效率和工作路径作为多目标深度确定性值网络的状态输入;
采用强化学习来构造深度确定性值策略,S是状态空间,A是动作空间,R为奖励函数,P为转移概率;在环境下,一个智能体会学习并得到一个策略π;强化学习过程获得的总奖励为:
其中,Rall为强化学习过程获得的总奖励;T为交互结束时前进的步数;r(si,ai)为在状态si下执行动作ai所获得的收益;强化学习在环境中的长期收益会通过折扣参数γ来调控:
其中,γi为在第i次交互时的折扣参数值;为在折扣参数γ控制下强化学习过程获得的总奖励;
步骤3:通过贝尔曼方程来寻找最优的动作价值函数;
其中,Q*(st,at)为第t次交互时在状态st执行动作at获得的最优动作价值函数;Q*(st+1,at'+1)为第t+1次交互时状态st+1执行动作at'+1获得的最优动作价值函数;α为学习率;
该动作价值网络的损失值为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西大学,未经广西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110586212.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高强Ti185合金的制备方法
- 下一篇:一种矩形阳台花卉养殖盆
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理