[发明专利]一种基于强化学习的无线视频低时延抗干扰传输方法有效

专利信息
申请号: 202011107882.3 申请日: 2020-10-16
公开(公告)号: CN112291495B 公开(公告)日: 2021-08-03
发明(设计)人: 肖亮;林海彬;肖奕霖;林紫涵 申请(专利权)人: 厦门大学
主分类号: H04N7/10 分类号: H04N7/10;H04N21/2343
代理公司: 厦门南强之路专利事务所(普通合伙) 35200 代理人: 马应森
地址: 361005 福建*** 国省代码: 福建;35
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 强化 学习 无线 视频 低时延 抗干扰 传输 方法
【权利要求书】:

1.一种基于强化学习的无线视频低时延抗干扰传输方法,其特征在于包括以下步骤:

步骤1:网络初始化及参量定义:

令θ1=h1h2...hi,i≥0,θ1初始值为构造一个网络权重为θ1的神经网络A;令θ2=f1f2...fi,i≥0,θ2初始值为构造一个网络权重为θ2的神经网络C;记通信信道系统可用信道为N个,所用通信信道为第c个;设视频发送方和接收方通信时的信号发射功率为p,最大信号发射功率为均匀量化为M个等级;设传输的视频编码码率为R,最小视频编码码率为R,最大视频编码码率为即均匀量化为X个等级;设策略空间集设视频接收方通过反馈信道Y将由算法学习得到的视频传输策略反馈给视频发送方;设B为给定误码率阈值,L为给定通信时延阈值;

步骤2:在第k时隙,视频接收方利用导频信息并通过信道估计获得第k时隙的信噪比及RSSI信息,分别记为r(k)和g(k),记录上一时隙通信信道c(k-1);令系统观测状态s(k)=[r(k),g(k),c(k-1)];

步骤3:将s(k)输入所述神经网络A,网络输出各个策略的长期效益值,即Q值,采用Softmax回归模型对各个策略的Q值进行归一化处理,得到策略的概率分布π(s(k),A,θ1),根据π(s(k),A,θ1)进行采样得到视频传输策略a=[a1,a2,a3],并将视频传输策略a所对应的概率取对数得到的数值记为

步骤4:视频接收方通过反馈信道Y将由步骤3得到的视频传输策略a反馈给视频发送方,视频发送方收到视频传输策略a后立即改变视频的视频编码码率、传输信道和功率;视频接收方等待t秒,并计算t秒内的BER,记为b,计算t秒内平均数据包时延,记为l;

步骤5:按下式计算视频传输策略a的即时收益u:

其中,w为时延指标权重,z1、z2为常数,B为误码率阈值;

步骤6:将步骤2得到的s(k)输入所述神经网络C,将网络的输出记为V(k);视频接收方根据步骤2得到s(k+1),并将s(k+1)作为所述神经网络C的输入,将此时的网络输出记为V(k+1);令所述神经网络C评判所述神经网络A生成的策略得分为I:

I=u+γV(k+1)-V(k)

其中,γ为算法的长期效益折扣因子;

步骤7:对第k时隙所述神经网络A的权重参数θ1和所述神经网络C的权重参数θ2进行更新操作;

计算损失值F(θ1):

通过反向传播算法计算损失值F(θ1)对所述神经网络A每一个参数的梯度,记为采用深度学习模型优化算法Adam算法,根据梯度更新深度所述神经网络A的权重参数θ1

计算损失值F(θ2):

F(θ2)=I2

通过反向传播算法计算损失值F(θ2)对深度所述神经网络C每一个参数的梯度,记为采用深度学习模型优化算法Adam算法,根据梯度更新深度所述神经网络C的权重参数θ2

步骤8:重复步骤2~7,直到误码率b<B且通信时延l<L。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于厦门大学,未经厦门大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011107882.3/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top