[发明专利]一种基于强化学习的通信资源分配方法及其相关设备在审
申请号: | 202110605101.1 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113543065A | 公开(公告)日: | 2021-10-22 |
发明(设计)人: | 李斌;蒋丽萍;赵成林;许方敏 | 申请(专利权)人: | 北京邮电大学 |
主分类号: | H04W4/40 | 分类号: | H04W4/40;H04W16/14;H04W72/04 |
代理公司: | 北京风雅颂专利代理有限公司 11403 | 代理人: | 孙晓凤 |
地址: | 100876 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 通信 资源 分配 方法 及其 相关 设备 | ||
本公开提供一种基于强化学习的通信资源分配方法及其相关设备,所述方法包括:综合考虑目标用户和非目标用户的位置、目标用户的Q值和回报函数,通过生成随机数,根据生成的随机数和ε贪婪算法,确定目标用户的信道选择策略和功率选择策略,进一步根据各个参数、信道选择策略和功率选择策略计算下一时刻的各个参数并更新目标用户的Q值,最后循环迭代直到满足预设的迭代时间或预设条件,得到目标用户的最终信道选择策略和所述目标用户的最终功率选择策略,并根据所述最终信道选择策略和所述最终功率选择策略,进行通信资源分配。使得信令开销降低,实现不同类型用户之间频谱资源的共享,提高频谱资源的利用率,缓解当前频谱资源短缺的问题。
技术领域
本公开涉及通信技术领域,尤其涉及一种基于强化学习的通信资源分配方法及其相关设备。
背景技术
在信息社会时代,汽车是极为重要的移动信息载体。为了解决车辆的辅助驾驶、车载娱乐等多场景业务需求,汽车需要与外界实现交互,这个互联和数据传输过程通常称为车联网(Vehicle-to-Everything,V2X)。V2X通信因其在提高道路安全和交通效率以及提供更丰富的信息娱乐体验方面的潜力而备受关注。近年来,智能交通的快速发展对车联网的质量和速率提出了更高的要求,使得车联网面临着通讯需求的爆发式增长以及频谱资源的严重短缺。
发明内容
有鉴于此,本公开的目的在于提出一种基于强化学习的通信资源分配方法及其相关设备。
基于上述目的,本公开提供了基于强化学习的通信资源分配方法,包括:
S1、获取目标用户和非目标用户的位置,初始化所述目标用户的Q值、回报函数和状态信息;
S2、生成随机数,根据所述随机数和ε贪婪算法,确定所述目标用户的信道选择策略和所述目标用户的功率选择策略;
S3、根据所述目标用户和非目标用户的位置、所述目标用户的Q值和回报函数、所述目标用户的状态信息、所述信道选择策略和所述功率选择策略进行通信资源分配,计算下一时刻的回报函数和状态信息并更新所述目标用户的Q值;
S4、返回步骤S2循环迭代,直到满足预设的迭代时间或满足预设条件,得到所述目标用户的最终信道选择策略和所述目标用户的最终功率选择策略,并根据所述最终信道选择策略和所述最终功率选择策略,进行通信资源分配。
进一步,所述生成随机数,根据所述随机数和ε贪婪算法,确定所述目标用户的信道选择策略和所述目标用户的功率选择策略,包括:
响应于确定所述随机数小于ε,选择使动作策略概率最大的动作策略;
响应于确定所述随机数大于等于ε,选择使所述Q值最大的动作策略。
进一步,所述状态信息包括:目标用户链路的发送端到接收端的信道增益,来自其他目标用户链路发送端的干扰增益,目标用户链路发送端到基站的干扰增益,非目标用户到目标用户链路接收端的干扰增益,每个信道上的所述目标用户和非目标用户数目,所述目标用户和非目标用户的通信服务质量。
进一步,所述回报函数与所述目标用户和非目标用户的通信质量、所述目标用户和非目标用户的总的吞吐量有关;
当所述目标用户和非目标用户的通信质量满足最低通信门限要求时,所述回报函数大于0;
当所述目标用户和/或非目标用户的通信质量不满足最低通信门限要求时,所述回报函数小于0。
进一步,所述回报函数表示为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京邮电大学,未经北京邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110605101.1/2.html,转载请声明来源钻瓜专利网。