[发明专利]策略估计网络的训练方法及装置、传输方法、设备及介质有效

申请号：	202110367335.7	申请日：	2021-04-06
公开（公告）号：	CN113068150B	公开（公告）日：	2022-08-02
发明（设计）人：	苗建松;张骞;彭昊;王储	申请（专利权）人：	北京邮电大学
主分类号：	H04W4/44	分类号：	H04W4/44;H04W24/02
代理公司：	北京智信四方知识产权代理有限公司 11519	代理人：	李成龙
地址：	100876 ***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	策略估计网络训练方法装置传输设备介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本公开实施例公开了一种策略估计网络的训练方法及装置、传输方法、设备及介质，该策略估计网络的训练方法包括：获取车辆与多个路边单元之间的信道状态数据；将所述信道状态数据输入所述策略估计网络以确定传输策略；基于所述信道状态数据和所述传输策略，确定传输时间数据；以所述传输时间数据作为约束条件，确定优化策略；以及基于所述优化策略训练所述策略估计网络，从而精确控制传输时延，能够生成更优的传输策略，提高车辆与外界通信链路的稳定性。

技术领域

本公开涉及信息技术领域，具体涉及一种策略估计网络的训练方法及装置、传输方法、设备及介质。

背景技术

在车联网场景中，车与外界之间经常需要实时地交换数据。由于路边单元(基站)的情况难以预知，如何实时地确定车与路边单元之间的数据传输策略，例如传输节点的选择以及带宽的分配等，成为制约车联网发展的一个技术问题，该问题将直接导致车辆高速移动过程中通信链路不稳定。

发明内容

为了解决相关技术中的问题，本公开实施例提供一种策略估计网络的训练方法及装置、传输方法、设备及介质。

第一方面，本公开实施例提供了一种策略估计网络的训练方法。

具体地，该策略估计网络的训练方法包括：

获取车辆与多个路边单元之间的信道状态数据；

将所述信道状态数据输入所述策略估计网络以确定传输策略；

基于所述信道状态数据和所述传输策略，确定传输时间数据；

以所述传输时间数据作为约束条件，确定优化策略；以及

基于所述优化策略训练所述策略估计网络。

结合第一方面，本公开在第一方面的第一种实现方式中，所述传输策略包括路边单元选择、视频层数以及分配的带宽大小。

结合第一方面，本公开在第一方面的第二种实现方式中，所述传输时间数据包括当前时间周期的时延、第一估计时间以及第二估计时间，其中，所述第一估计时间包括从当前时间周期到回合结束期间的累计传输估计时间，所述第二估计时间包括从下一时间周期到回合结束期间的累计传输估计时间；所述约束条件包括基于所述时延、第一估计时间以及第二估计时间之间数值关系的约束条件。

结合第一方面的第二种实现方式，本公开在第一方面的第三种实现方式中，所述以所述传输时间数据作为约束条件，确定优化策略包括通过线性优化确定优化策略：

所述线性优化的约束条件包括所述时延、第一估计时间以及第二估计时间之间的数值关系以及各个动作的取值范围；

所述线性优化的目标函数包括以下一个或多个：视频质量最高、选择的接收节点与车辆之间距离最短以及分配的带宽最少。

结合第一方面的第三种实现方式，本公开在第一方面的第四种实现方式中，所述线性优化的目标函数包括：

基于所述信道状态数据和所述传输策略确定的从当前时间周期到回合结束期间的累计视频质量的估计值到达最大。

结合第一方面，本公开在第一方面的第五种实现方式中，所述基于所述优化策略训练所述策略估计网络包括：

以所述优化策略与所述传输策略之间的均方差作为损失函数，训练所述策略估计网络。

第二方面，本公开实施例中提供了一种传输方法。

具体地，该传输方法包括：

获取车辆与多个路边单元之间的信道状态数据；

将所述信道状态数据输入至如第一方面、第一方面的第一种至第五种实现方式中任一项的训练方法所训练的策略估计网络以确定传输策略；

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。