[发明专利]无线传感器网络的资源管理方法和装置在审
申请号: | 202210255790.2 | 申请日: | 2022-03-16 |
公开(公告)号: | CN114356535A | 公开(公告)日: | 2022-04-15 |
发明(设计)人: | 曾勇;万子金;熊山山 | 申请(专利权)人: | 北京锦诚世纪咨询服务有限公司 |
主分类号: | G06F9/48 | 分类号: | G06F9/48;G06F9/50;H04W4/38 |
代理公司: | 北京知汇林知识产权代理事务所(普通合伙) 11794 | 代理人: | 叶晨晖 |
地址: | 101207 北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 无线 传感器 网络 资源管理 方法 装置 | ||
本申请涉及一种无线传感器网络的资源管理方法和装置;所述方法包括:将无线传感器网络中的每一个传感器节点作为一个智能体;为无线传感器网络设置网络参数,所述网络参数至少包括:环境状态、行动列表和奖励函数;基于所述网络参数进行多智能体的迭代交互,确定最优策略;根据所述最优策略对无线传感器网络中的传感器节点进行资源分配和任务调度。本申请的方案将多智能体的动态交互理论应用于无线传感器网络,解决了无线传感器网络中资源分配和任务调度问题,从而使无线传感器网络能够在不可访问、外界无法干预的情况下,主动地进行资源分配和任务调度并提供在线监测功能。
技术领域
本申请涉及人工智能技术领域,具体涉及一种无线传感器网络的资源管理方法和装置。
背景技术
通常在无线传感器网络中,无线传感器节点是异构的、能量受限的,并且倾向于在动态和不明确的情况下运行。在这些情况下,节点需要了解如何在任务和资源(包括功率和带宽)上进行协作。
相关技术中,在一些应用场景下,无线传感器网络有时会断开与外界的网络连接,处于不可访问的状态,外界无法对传感器网络进行调度和管理。在这样的情况下,无线传感器网络需要主动进行资源分配和任务调度。
发明内容
为至少在一定程度上克服相关技术中存在的问题,本申请提供一种无线传感器网络的资源管理方法和装置。
根据本申请实施例的第一方面,提供一种无线传感器网络的资源管理方法,包括:
将无线传感器网络中的每一个传感器节点作为一个智能体;
为无线传感器网络设置网络参数,所述网络参数至少包括:环境状态、行动空间和奖励函数;
基于所述网络参数进行多智能体的迭代交互,确定最优策略;
根据所述最优策略对无线传感器网络中的传感器节点进行资源分配和任务调度。
进一步地,所述环境状态包括:电池电量和/或频谱可用性;所述行动列表包括:接收或发送指定的包,和/或执行指定的任务;所述奖励函数包括:内部奖励和/或外部奖励。
进一步地,所述内部奖励是基于内部变量定义的奖励函数,所述外部奖励是根据中央控制器或其他节点的反馈定义的奖励函数;
其中,每个传感器节点均有对应的奖励函数;所述其他节点为无线传感器网络中除自身以外的其他传感器节点。
进一步地,所述将无线传感器网络中的每一个传感器节点作为一个智能体,包括:
对无线传感器网络进行建模,令作为智能体的集合;其中为无线传感器网络中传感器节点的数量;
令表示状态空间;其中,是共享状态空间,是智能体的局部状态空间,;
令表示行动空间,其中为第个智能体的行动空间。
进一步地,所述奖励函数为:
其中,为智能体所获得的奖励;。
进一步地,所述进行多智能体的迭代交互,包括:
定义动作值函数和价值函数;
通过多智能体的迭代交互,收敛到最优的动作值函数;
根据最优的动作值函数确定最优策略。
进一步地,所述动作值函数为:
;
所述价值函数为:
;
其中,表示从状态开始并从行动空间中选取动作进入下一个状态时,智能体所获得的奖励;为折扣因子,取值范围是0≤γ≤1。
进一步地,所述多智能体的迭代交互的步骤包括:
;
其中,表示学习率。
进一步地,所述根据最优的动作值函数确定最优策略,包括:
;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京锦诚世纪咨询服务有限公司,未经北京锦诚世纪咨询服务有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210255790.2/2.html,转载请声明来源钻瓜专利网。