[发明专利]一种异构车联网中的智能切换判决方法有效
申请号: | 202110109945.7 | 申请日: | 2021-01-27 |
公开(公告)号: | CN112765892B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 宋清洋;刘哲;亓伟敬;林鹏;于尧 | 申请(专利权)人: | 东北大学 |
主分类号: | G06F30/27 | 分类号: | G06F30/27;G06N3/0464;G06N3/044;G06N3/084;G06N7/01 |
代理公司: | 沈阳东大知识产权代理有限公司 21109 | 代理人: | 吴琼 |
地址: | 110819 辽宁*** | 国省代码: | 辽宁;21 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 异构车 联网 中的 智能 切换 判决 方法 | ||
1.一种异构车联网中的智能切换判决方法,其特征在于,包括以下步骤:
步骤1、搭建问题模型;将车联网切换问题建模为马尔科夫决策过程;定义马尔科夫决策过程的状态空间S,采用网络接收到车辆终端的SINR来表征车辆终端在网络中所处的状态;定义马尔科夫决策过程的动作空间A,用不同动作表示将车辆终端切换到不同网络的决策;定义马尔科夫决策过程的奖励,以实时吞吐量作为奖励r;智能体通过学习能够获得最大化累积奖励的最优策略,从而使得车辆终端在整个覆盖范围内的平均吞吐量最高;
步骤2、搭建DCRQN架构,主要分为网络环境和决策大脑两部分;决策大脑从网络环境中获得网络的状态信息,并对网络状态信息进行处理,然后决策大脑制定决策,并执行决策指令,实现对网络的管理操作;所述决策大脑由三个部分组成,分别为:智能体模块、特征提取模块和决策模块;具体包括:
步骤2-1、构建智能体模块;该模块负责直接与网络环境进行交互,感知车辆终端的当前状态并执行动作;智能体模块周期性地从实际网络环境中获取网络状态,对状态信息进行预处理,将预处理过的状态信息反馈给特征提取模块;智能体模块监控决策模块的输出,如果决策模块输出了某个策略,智能体模块会执行该决策指令,实现对网络环境的管理和控制;
步骤2-2、构建特征提取模块;该模块由两个子模块组成,分别是卷积神经网络子模块和循环神经网络子模块;根据从智能体模块中读取的预处理状态信息,特征提取模块依次提取无线信号的空间特征和时间特征,得到一个包含车辆终端的位置信息和移动性信息的特征向量,并将其输入到决策模块;根据决策模块返回的损失函数,在卷积神经网络和循环神经网络中执行反向传播算法,完成卷积神经网络和循环神经网络的训练以及参数更新;
步骤2-3、构建决策模块,即构建一个前向全连接的神经网络,从而实现状态到动作的映射,将特征提取模块输出的特征向量映射成相应的决策,将这个全向连接的神经网络拟合成最优决策函数;决策模块读取特征提取模块输出的特征向量,利用Q值函数,输出各个决策的评估值;对于任意的状态输入,选择评估值最大的动作决策,然后通知智能体模块执行该决策;
步骤3、基于DCRQN进行切换决策;具体包括:
步骤3-1、智能体模块对读取的状态数据Sn进行预处理,将状态Sn预处理成张量,输出状态数据集合φ(Sn),定义为:
φ(Sn)={Sn-l+1,Sn-l+2,...,Sn-l+j,...,Sn-1,Sn}T(1)其中,l是智能体模块读取的状态数据的时间长度,它表示选取多长时间的状态数据用于下一阶段的特征提取;
步骤3-2、智能体模块对车辆终端的状态信息进行预处理后,特征提取模块对预处理后的状态信息进行特征提取;首先通过卷积神经网络子模块提取车辆终端在网络中的空间位置特征,然后利用循环神经网络子模块提取状态信息的时间特征;卷积神经网络在本质上是一个可自学习参数的非线性函数,为:
C=fC(φ(S);vC(k,p;βC)) (2)
其中fC(.)是卷积神经网络的非线性映射函数,vc(.)表示卷积神经网络所有参数的集合,k,p分别表示卷积层和池化层的设计参数,βC表示卷积神经网络的可变参数;
循环神经网络的映射函数是:
χ=fR(C';vR(u;βR)) (3)
其中fR(.)是循环神经网络的非线性映射函数,vR(.)是循环神经网络所有参数的集合,u表示RNN单元的个数,βR表示循环神经中的可量参数;整个特征提取模块的最终输出χ,既能反映车辆终端在车联网中的位置的空间特征,又能反映车辆终端移动性信息的时间特征;C'表示由特征图C转换的二维特征图;
步骤3-3、决策模块读取特征提取模块输出的特征向量,计算决策空间中的每个动作的Q值,并做出决策;给定一个输入特征向量χ,动作的Q值可以计算为:
Q(χ,ai;vD(v;βD))=fD(χ,ai;vD(v;βD)),ai∈A (4)
其中fD是在决策过程中的非线性映射函数,vD(.)是全连接神经网络中所有参数的集合,βD表示全连接神经网络中的可变参数,Q(χ,ai;vD(v;βD))表示在神经网络参数为βD的情况下,当输入的特征向量为χ时,决策网络选择动作ai的偏好程度;最终决策的动作为:
决策模块将最终决策的动作立即通知给智能体模块,智能体模块执行相应的网络管理操作,实现对车辆终端切换的控制;
步骤3-4、进行网络训练;
将基于DCRQN的切换决策过程中涉及的三种类型的神经网络作为一个整体,状态空间与决策空间中动作Q值的映射关系可以表示为:
Q(φ(St),ai;θ)=FN(φ(St),ai;θ) (6)其中FN(.)为卷积神经网络、循环神经网络与前向全连接神经网络的联合非线性函数;参数θ是变量所有可变参数集合,包括参数βC、参数βR和参数βD;Q(φ(St),ai;θ)表示在时间t,给定输入状态φ(St)时,决策空间中动作ai的Q值,即它表示动作ai的偏好程度;相应地,最终决策的动作被定义为:
对FN(.)进行训练,以得到最优的参数集θ,从而学习状态到动作的最优映射策略。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于东北大学,未经东北大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110109945.7/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种骨科患者用便于调节的骨科专用病床
- 下一篇:一种非接触智能卡的自动串环机