[发明专利]一种分布式多目标深度确定性值网络机器人能量管理方法有效
申请号: | 202110586212.2 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113298386B | 公开(公告)日: | 2023-08-29 |
发明(设计)人: | 刘东端;卜祥鹏;莫明山;殷林飞;卢泉;高放 | 申请(专利权)人: | 广西大学 |
主分类号: | G06Q10/0637 | 分类号: | G06Q10/0637;G06Q50/06;B25J9/16 |
代理公司: | 南宁东智知识产权代理事务所(特殊普通合伙) 45117 | 代理人: | 裴康明;黎华艳 |
地址: | 530000 广西壮族*** | 国省代码: | 广西;45 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 分布式 多目标 深度 确定性 网络 机器人 能量 管理 方法 | ||
1.一种分布式多目标深度确定性值网络机器人能量管理方法,其特征在于,其步骤如下:
步骤1:巡检机器人通过自身的传感器获得巡检机器人的工作状态;
步骤2:得到的巡检机器人的充电效率和工作路径作为多目标深度确定性值网络的状态输入;
采用强化学习来构造深度确定性值策略,S是状态空间,A是动作空间,R为奖励函数,P为转移概率;在环境下,一个智能体会学习并得到一个策略π;强化学习过程获得的总奖励为:
其中,Rall为强化学习过程获得的总奖励;T为交互结束时前进的步数;r(si,ai)为在状态si下执行动作ai所获得的收益;强化学习在环境中的长期收益会通过折扣参数γ来调控:
其中,γi为在第i次交互时的折扣参数值;为在折扣参数γ控制下强化学习过程获得的总奖励;
步骤3:通过贝尔曼方程来寻找最优的动作价值函数;
其中,Q*(st,at)为第t次交互时在状态st执行动作at获得的最优动作价值函数;Q*(st+1,a′t+1)为第t+1次交互时状态st+1执行动作a′t+1获得的最优动作价值函数;α为学习率;
该动作价值网络的损失值为:
L(θQ)=(r(st,at)+γQ′(st+1,at+1|θQ')-Q(st,at|θQ))2 (4)
其中,L(θQ)为损失函数值;Q'(st+1,at+1|θQ')为目标价值网络Q值矩阵,Q(st,at|θQ)为网络同步权重Q值矩阵;
通过策略梯度来更新网络同步权重Q值矩阵:
其中,θQ和θμ为网络参数;a=μ(st,ν)为动作网络对应的映射;μ(st|θμ)为动作网络;▽为梯度运算符;更新Q值矩阵的同时,更新全精度权重;三值网络将全精度权重W量化为{-Wl,0,Wl};三值网络表示为:
其中,为第t时刻三值网络的权重;Wl为正权重;-W为负权重;Δl为阈值;为权重分界点;
三值网络的阈值为:
权重为:
其中,为权重分界点对应的损失函数值;为当权重值大于阈值之后的损失函数值;
步骤4:利用损失函数来判断优化结果能否获得巡检机器人的充电效率和巡检机器人的最短工作路径;
通过多目标深度确定性值网络来优化巡检机器人的充电效率,巡检机器人的充电效率为:
其中,η为巡检机器人的充电效率;Iout为巡检机器人工作时的放电电流;Twork为巡检机器人的工作时间;Iin为充电电流;Tcharge为充电时间;
通过多目标深度确定性值网络来优化巡检机器人的充电效率,巡检机器人的工作路径为:
sload=∑vrobot×Twork (10)
其中,sload为巡检机器人工作所走的总路程;vrobot为巡检机器人的移动速度;
步骤5:若巡检机器人没有获得最大的奖励值,则重复步骤1-4;若巡检机器人获得最大的奖励值,则执行步骤6;
步骤6:输出最终三值网络并将动作发送给巡检机器人;
步骤7:各巡检机器人之间采用一致性协议交换电量和所在位置,实现多巡检机器人的分布式调度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广西大学,未经广西大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110586212.2/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种高强Ti185合金的制备方法
- 下一篇:一种矩形阳台花卉养殖盆
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理