[发明专利]基于行动价值函数学习的数据分流方法、电子设备有效

申请号：	201811178951.2	申请日：	2018-10-10
公开（公告）号：	CN109412971B	公开（公告）日：	2023-01-20
发明（设计）人：	张成;张险峰;陈庆武	申请（专利权）人：	广州市智蓝电子商务有限公司
主分类号：	H04L47/24	分类号：	H04L47/24;G06N20/00;G06N3/04;G06N3/08
代理公司：	广州专才专利代理事务所(普通合伙) 44679	代理人：	杨惠邦
地址：	510000 广东省广州市白云区三***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	基于行动价值函数学习数据分流方法电子设备
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.基于行动价值函数学习的数据分流方法，应用于网络系统，其特征在于，包括如下步骤：

S0：初始化重播内存D到容量N；

S1：设定一随机参数，通过该随机参数初始化行动价值函数；随机参数定义为θ，行动价值函数为Q；

Sa：用随机参数θ^-初始化目标行动价值函数

S2：获取所有数据流的向量集，以及每一个数据流在任意时间分别对应的位置；

S3：根据网络系统在任一时间t的状态、用户的动作向量、所有数据流在时间为t时保留文件大小的向量、所有数据流的向量集中的任意一个数据流以及用户在时间为t时的能量消耗计算得到时间为t时的货币成本和能耗成本；定义网络系统在时间为t时的状态为：s_t＝{l_t,b_t}，设定t＝1，l₁随机，则s₁＝(l₁,b₁)，其中，M为所有数据流的向量集总量、bt是所有数据流在时间为t时保留文件大小的向量，l₁为时间t＝1时的对应数据流所在的位置；根据网络系统在时间t的状态、用户的动作向量、所有数据流在时间为t时保留文件大小的向量、所有数据流的向量集中的任意一个数据流以及用户在时间为t时的能量消耗计算得到时间为t时的货币成本和能耗成本；

S4：根据货币成本、能耗成本、用户在时间为t时的能量消耗、用户的动作向量计算理想的行动价值函数；更新网络系统状态并重新计算货币成本和能量消耗，并将当前更新后的网络系统状态存储，计算目标行动价值函数。

2.如权利要求1所述的数据分流方法，其特征在于，S3具体包括如下步骤：

S31：设定t＝1，l₁随机，则s₁＝(l₁,b₁)；

S32：判断到当t≤T并且b0时，在[0,1]之间任意选取一个随机数rnd，判断rnd是否小于∈，若是，从用户的动作向量中随机选取一个动作，否则根据公式获取用户的一个动作，其中，为理想的行动价值函数，本步骤中等于a_t为用户的动作向量；

S33：定义s_t+1＝(l_t,[b_t-a_t,c-a_t,w]⁺)，其中l_t为时间t时的对应数据流所在位置，a_t,c为蜂窝网络分配数据率的向量，a_t,w为无线网络分配数据率的向量；

S34：通过公式r_t(s_t,a_t)＝c_t(s_t,a_t)+ε_t(s_t,a_t)计算时间为t时的货币代价和能耗代价的总和，其中，r_t(s_t,a_t)为货币成本和能耗代价的总和，c_t(s_t,a_t)为货币成本，ε_t(s_t,a_t)为能耗代价。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于广州市智蓝电子商务有限公司，未经广州市智蓝电子商务有限公司许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201811178951.2/1.html，转载请声明来源钻瓜专利网。

上一篇：数据流转系统、数据流转方法、电子设备和存储介质
下一篇：一种数据排序方法、装置及节点服务器

同类专利

专利分类

H 电学

H04 电通信技术
H04L 数字信息的传输，例如电报通信

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]基于行动价值函数学习的数据分流方法、电子设备有效

专利文献下载