[发明专利]一种基于优先经验重放的深度强化学习频谱共享方法有效
申请号: | 201910607372.3 | 申请日: | 2019-07-07 |
公开(公告)号: | CN112383922B | 公开(公告)日: | 2022-09-30 |
发明(设计)人: | 刘福来;张丹丹;杜瑞燕;张艾怡;高帆;徐嘉良;胡忠意 | 申请(专利权)人: | 东北大学秦皇岛分校 |
主分类号: | H04W16/14 | 分类号: | H04W16/14;H04W16/22;H04W52/24;H04W52/26;H04W52/28;H04W72/04;H04W72/08;H04W72/10;G06N20/00 |
代理公司: | 北京联创佳为专利事务所(普通合伙) 11362 | 代理人: | 郭防 |
地址: | 066004 河北省秦皇岛市经*** | 国省代码: | 河北;13 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 优先 经验 重放 深度 强化 学习 频谱 共享 方法 | ||
本发明涉及一种基于优先经验重放的深度强化学习频谱共享方法,所述方法包括以下几个步骤:构建频谱共享模型;在频谱共享模型下,将频谱共享问题建模为深度强化学习中智能体与环境交互的马尔科夫决策过程(MDP),训练基于样本优先经验重放的深度强化学习模型,获得认知用户功率传输的学习价值信息;根据所获取的认知用户功率传输学习价值信息判断频谱大数据下频谱共享控制决策,其中,所述控制决策实现了认知用户通过调节自身传输功率在不影响主用户通信质量下共享主用户的频谱,达到了可用频谱资源的高效利用。本发明在频谱网络状态动态变化、环境条件未知等因素下实现可用频谱资源的高效利用。
技术领域
本发明涉及无线电通信领域,具体而言,涉及一种基于优先经验重放的深度强化学习频谱共享方法。
背景技术
随着移动数据通信的飞速发展,无线频谱资源需求正在急剧增长,在现有频谱授权机制下,频谱资源日益紧张且频谱利用率低。为了提高频谱利用率,现有研究能够在时间、频率以及空域上检测频谱资源占用状态,然后利用频谱资源多维复用技术、自适应编码调制技术、分集技术以及超宽带和扩频通信等传输技术,以降低频谱和带宽限制对无线通信发展的束缚。这些技术方案对无线电频谱的使用方面,虽然在一定程度上提高了系统传输容量和频谱利用率,但是传输容量和频谱资源不足问题依然突出。
无线电频谱的使用是一个动态变化的过程,要求频谱分配和管理模式具有相应的灵活性和适应性。认知无线电网络是5G时代的核心网络结构,目前常采用认知无线电相关技术解决频谱资源管理模式不足导致的频谱利用率较低等问题。频谱共享作为认知无线电关键技术之一,是指在不改变现有的固定频谱分配框架下,认知终端通过调整系统工作参数,实现可用频谱资源高效利用的技术方案,已成为当今大数据时代解决频谱供需矛盾的热门话题。然而,随着无线宽带业务的迅猛发展以及海量频谱数据的增加,传统的频谱共享技术已经不再适用于当前5G大数据时代。因此,有必要提出新型的频谱共享技术,为认知无线电频谱资源的高效利用提供有力保障。
现有的无线业务产生海量的频谱数据,频谱数据的广度和深度不断扩增,带来了复杂的频谱大数据;而且,在基于频谱大数据进行频谱共享的过程中,由于存在频谱网络状态动态变化、环境条件未知等因素,导致需要先验样本进行训练的离线学习算法不再适用频谱共享决策过程。强化学习采用“学习—决策—执行”的方法,结合含有多层的神经网络并在神经网络每一层中对数据进行抽象化来学习并获取数据表达方式的深度学习,在频谱共享决策问题上有很大的优势。例如:根据信道的实时使用情况认知用户智能的调整发射端传输功率,选择最优频谱数据的网络,提高频谱的利用率。
申请号为“201810391479.4”的专利文件公开了“基于深度学习的多载波认知NOMA资源分配”,该方法提出一个优化NOMA系统频谱效率和能量效率的用户配对及资源分配策略,设计了基于消息传递的全连接神经网络并提出了最优的深度学习算法,实现了大规模NOMA 用户公平且灵活地进行高质量、高速率、低功耗的数据传输。申请号为“201710717867.2”的专利文件公开了“一种基于契约理论的协作频谱共享动态激励机制设计方法”,该方法通过将无线协作频谱共享网络映射成劳动力市场,将基于市场驱动的契约模型引入到协作频谱共享机制中,建立了主用户模型和次级用户模型,实现了对无线频谱资源的高效利用。上述频谱共享方法,虽然从深度学习和契约理论等方面实现频谱共享,提高了频谱利用率,但是未考虑在当前频谱大数据的无线业务下,频谱网络状态动态变化、环境条件未知等因素对频谱共享灵活性和适应性的要求。
发明内容
本发明针对基于频谱大数据进行频谱共享时存在的频谱网络状态动态变化、环境条件未知等因素,提出一种具优先经验重放的深度Q网络方法,实现认知用户对主用户频谱的共享。该方法与传统的深度强化学习频谱共享方法相比,在“学习—决策—执行”模式的训练中使用基于优先级的采样方式替代均匀采样,区分不同转移样本之间的重要性差异,提高了有价值样本的采样概率,避免有价值的样本被覆盖或者重复利用,从而加快频谱共享最优策略学习。实验表明:本发明提出的基于优先经验重放的深度强化学习频谱共享方法具有更高的成功率和更快的收敛性。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学秦皇岛分校,未经东北大学秦皇岛分校许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910607372.3/2.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体器件及其制造方法
- 下一篇:一种汽车加热坐垫温度传感器固定装置