[发明专利]基于深度强化学习的无人系统网络自适应路由方法和系统有效

申请号：	202010968137.1	申请日：	2020-09-15
公开（公告）号：	CN112202848B	公开（公告）日：	2021-11-30
发明（设计）人：	刘建敏;王琪;徐勇军;何晨涛;徐亦达	申请（专利权）人：	中国科学院计算技术研究所
主分类号：	H04L29/08	分类号：	H04L29/08;H04L12/721;H04L12/727;H04L12/729
代理公司：	北京律诚同业知识产权代理有限公司 11006	代理人：	祁建国
地址：	100080 北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于深度强化学习无人系统网络自适应路由方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于深度强化学习的无人系统网络自适应路由方法，其特征在于，包括：

步骤1、以无人系统网络中的每一个无人装置作为节点，所有节点以一个自适应的时间间隔发送HELLO信息包；任一节点收到其邻居节点发送的HELLO信息包后，更新该节点的邻居表中该邻居节点的节点信息；

步骤2、将该无人系统网络中所有节点以及由所有节点形成所有链路作为系统环境，该无人系统网络中每个节点从系统环境中获取当前时刻的环境状态，并执行行为作用于系统环境，系统环境根据该执行行为反馈给节点奖励值，其中该环境状态包括当前节点和当前节点的所有邻居节点的链路状态；

步骤3、无人系统网络中节点i根据其环境状态，利用深度Q网络(Deep Q-learningnetwork,DQN)计算当前节点所有邻居节点的Q值，当前节点执行一个行为a_t，以最大Q值的邻居节点作为下一跳节点进行数据包的路由；

该步骤2包括：

在当前时刻t下，节点i所观察到的环境状态s_t为：

s_t＝{C_i,1,...,C_i,j,...,C_i,M}，其中C_i,j是由该节点i和该节点i的邻居j所形成的链路l_i,j的状态，M为该节点i拥有的邻居节点数量；

基于该节点i的邻居表中该邻居节点j的信息，计算C_i,j：

C_i,j＝{ct_i,j,PER_i,j,e_j,d_j,des,d_min}，ct_i,j是链路l_i,j的期望连接时间，PER_i,j是链路l_i,j的包的错误率，e_j是该节点i的邻居节点j的剩余电量，d_j,des是该节点i的邻居节点j与该目标节点des间的距离，d_min是该节点i的2跳邻居节点k与该目标节点des的最小距离；