[发明专利]一种基于强化学习的无线视频低时延抗干扰传输方法有效
申请号: | 202011107882.3 | 申请日: | 2020-10-16 |
公开(公告)号: | CN112291495B | 公开(公告)日: | 2021-08-03 |
发明(设计)人: | 肖亮;林海彬;肖奕霖;林紫涵 | 申请(专利权)人: | 厦门大学 |
主分类号: | H04N7/10 | 分类号: | H04N7/10;H04N21/2343 |
代理公司: | 厦门南强之路专利事务所(普通合伙) 35200 | 代理人: | 马应森 |
地址: | 361005 福建*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 无线 视频 低时延 抗干扰 传输 方法 | ||
1.一种基于强化学习的无线视频低时延抗干扰传输方法,其特征在于包括以下步骤:
步骤1:网络初始化及参量定义:
令θ1=h1h2...hi,i≥0,θ1初始值为构造一个网络权重为θ1的神经网络A;令θ2=f1f2...fi,i≥0,θ2初始值为构造一个网络权重为θ2的神经网络C;记通信信道系统可用信道为N个,所用通信信道为第c个;设视频发送方和接收方通信时的信号发射功率为p,最大信号发射功率为均匀量化为M个等级;设传输的视频编码码率为R,最小视频编码码率为
步骤2:在第k时隙,视频接收方利用导频信息并通过信道估计获得第k时隙的信噪比及RSSI信息,分别记为r(k)和g(k),记录上一时隙通信信道c(k-1);令系统观测状态s(k)=[r(k),g(k),c(k-1)];
步骤3:将s(k)输入所述神经网络A,网络输出各个策略的长期效益值,即Q值,采用Softmax回归模型对各个策略的Q值进行归一化处理,得到策略的概率分布π(s(k),A,θ1),根据π(s(k),A,θ1)进行采样得到视频传输策略a=[a1,a2,a3],并将视频传输策略a所对应的概率取对数得到的数值记为
步骤4:视频接收方通过反馈信道Y将由步骤3得到的视频传输策略a反馈给视频发送方,视频发送方收到视频传输策略a后立即改变视频的视频编码码率、传输信道和功率;视频接收方等待t秒,并计算t秒内的BER,记为b,计算t秒内平均数据包时延,记为l;
步骤5:按下式计算视频传输策略a的即时收益u:
其中,w为时延指标权重,z1、z2为常数,B为误码率阈值;
步骤6:将步骤2得到的s(k)输入所述神经网络C,将网络的输出记为V(k);视频接收方根据步骤2得到s(k+1),并将s(k+1)作为所述神经网络C的输入,将此时的网络输出记为V(k+1);令所述神经网络C评判所述神经网络A生成的策略得分为I:
I=u+γV(k+1)-V(k)
其中,γ为算法的长期效益折扣因子;
步骤7:对第k时隙所述神经网络A的权重参数θ1和所述神经网络C的权重参数θ2进行更新操作;
计算损失值F(θ1):
通过反向传播算法计算损失值F(θ1)对所述神经网络A每一个参数的梯度,记为采用深度学习模型优化算法Adam算法,根据梯度更新深度所述神经网络A的权重参数θ1;
计算损失值F(θ2):
F(θ2)=I2
通过反向传播算法计算损失值F(θ2)对深度所述神经网络C每一个参数的梯度,记为采用深度学习模型优化算法Adam算法,根据梯度更新深度所述神经网络C的权重参数θ2;
步骤8:重复步骤2~7,直到误码率b<B且通信时延l<L。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011107882.3/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种自旋转型家庭烧烤装置
- 下一篇:一种前端设备目录获取方法及装置