[发明专利]一种分布式多目标深度确定性值网络机器人能量管理方法有效

申请号：	202110586212.2	申请日：	2021-05-27
公开（公告）号：	CN113298386B	公开（公告）日：	2023-08-29
发明（设计）人：	刘东端;卜祥鹏;莫明山;殷林飞;卢泉;高放	申请（专利权）人：	广西大学
主分类号：	G06Q10/0637	分类号：	G06Q10/0637;G06Q50/06;B25J9/16
代理公司：	南宁东智知识产权代理事务所(特殊普通合伙) 45117	代理人：	裴康明;黎华艳
地址：	530000 广西壮族***	国省代码：	广西;45
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种分布式多目标深度确定性网络机器人能量管理方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种分布式多目标深度确定性值网络机器人能量管理方法，其特征在于，其步骤如下：

步骤1：巡检机器人通过自身的传感器获得巡检机器人的工作状态；

步骤2：得到的巡检机器人的充电效率和工作路径作为多目标深度确定性值网络的状态输入；

采用强化学习来构造深度确定性值策略，S是状态空间，A是动作空间，R为奖励函数，P为转移概率；在环境下，一个智能体会学习并得到一个策略π；强化学习过程获得的总奖励为：

其中，R_all为强化学习过程获得的总奖励；T为交互结束时前进的步数；r(s_i,a_i)为在状态s_i下执行动作a_i所获得的收益；强化学习在环境中的长期收益会通过折扣参数γ来调控：

其中，γⁱ为在第i次交互时的折扣参数值；为在折扣参数γ控制下强化学习过程获得的总奖励；

步骤3：通过贝尔曼方程来寻找最优的动作价值函数；

其中，Q*(s_t,a_t)为第t次交互时在状态s_t执行动作a_t获得的最优动作价值函数；Q*(s_t+1,a′_t+1)为第t+1次交互时状态s_t+1执行动作a′_t+1获得的最优动作价值函数；α为学习率；

该动作价值网络的损失值为：

L(θ^Q)＝(r(s_t,a_t)+γQ′(s_t+1,a_t+1|θ^Q')-Q(s_t,a_t|θ^Q))² (4)

其中，L(θ^Q)为损失函数值；Q'(s_t+1,a_t+1|θ^Q')为目标价值网络Q值矩阵，Q(s_t,a_t|θ^Q)为网络同步权重Q值矩阵；

通过策略梯度来更新网络同步权重Q值矩阵：

其中，θ^Q和θ^μ为网络参数；a＝μ(s_t,ν)为动作网络对应的映射；μ(s_t|θ^μ)为动作网络；▽为梯度运算符；更新Q值矩阵的同时，更新全精度权重；三值网络将全精度权重W量化为{-W_l，0，W_l}；三值网络表示为：

其中，为第t时刻三值网络的权重；W_l为正权重；-W为负权重；Δl为阈值；为权重分界点；

三值网络的阈值为：

权重为：

其中，为权重分界点对应的损失函数值；为当权重值大于阈值之后的损失函数值；

步骤4：利用损失函数来判断优化结果能否获得巡检机器人的充电效率和巡检机器人的最短工作路径；

通过多目标深度确定性值网络来优化巡检机器人的充电效率，巡检机器人的充电效率为：

其中，η为巡检机器人的充电效率；I_out为巡检机器人工作时的放电电流；T_work为巡检机器人的工作时间；I_in为充电电流；T_charge为充电时间；

通过多目标深度确定性值网络来优化巡检机器人的充电效率，巡检机器人的工作路径为：

s_load＝∑v_robot×T_work (10)

其中，s_load为巡检机器人工作所走的总路程；v_robot为巡检机器人的移动速度；

步骤5：若巡检机器人没有获得最大的奖励值，则重复步骤1-4；若巡检机器人获得最大的奖励值，则执行步骤6；

步骤6：输出最终三值网络并将动作发送给巡检机器人；

步骤7：各巡检机器人之间采用一致性协议交换电量和所在位置，实现多巡检机器人的分布式调度。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广西大学，未经广西大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/202110586212.2/1.html，转载请声明来源钻瓜专利网。

专利分类

专利文献下载