[发明专利]基于在线学习的移动群智感知最佳时空采样粒度确定方法在审
申请号: | 202211468081.9 | 申请日: | 2022-11-22 |
公开(公告)号: | CN115988646A | 公开(公告)日: | 2023-04-18 |
发明(设计)人: | 王亮;苏珊;於志文;郭斌;王雅茹 | 申请(专利权)人: | 西北工业大学 |
主分类号: | H04W72/0446 | 分类号: | H04W72/0446;H04W72/0453;H04W72/53;H04B7/185 |
代理公司: | 西安凯多思知识产权代理事务所(普通合伙) 61290 | 代理人: | 刘涛 |
地址: | 71007*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 在线 学习 移动 感知 最佳 时空 采样 粒度 确定 方法 | ||
1.一种基于在线学习的移动群智感知最佳时空采样粒度确定方法,其特征在于,包括如下步骤:
步骤1:假设未知区域Am×n被分为m×n个最细空间粒度区域,最细空间粒度区域是无人机采样的区域范围;设采样的候选策略集为π={(Area1,Time1),(Area2,Time2),......(AreaK,TimeK)},策略集中有K个采样策略,采样策略πi(i∈[K])表示为空间策略Areai——未知区域Am×n被划分的若干子区域,和时间策略Timei——每个子区域对应的采样频率;进行采样时,未知区域被划分为若干采样子区域,子区域被视为一个整体进行采样,子区域不规则且由若干连续最细空间粒度区域组成;在未知区域中,存在基站和多架无人机,多架无人机在未知区域采样数据,根据无人机的数据采样结果得到未知区域的数据分布;
无人机采样策略为在每个空间子区域中随机选择一个最细空间粒度区域进行采样,以此最细空间粒度区域的采样结果作为空间子区域中每个最细空间粒度区域的采样结果;
设无人机采样策略对应的特征向量x、未知的奖励参数向量θ以及奖励是有界的,满足:||x||2≤L,||θ||2≤S,r≤R;μ是建模为广义线性模型的奖励函数,xt表示第t轮选择采样策略对应的特征向量;以代表第t轮选择采样策略的估计奖励值,θt为第t轮θ的估计值,时空特征维度为d;
步骤2:设时空维度为d;
步骤2-1:采用多臂老虎机算法,在前E次迭代过程中,在候选采样策略集π={(Area1,Time1),(Area2,Time2),......(AreaK,TimeK)}中随机选择策略进行采样,ME为采样策略特征向量所构成的矩阵,表示前E轮中第v轮选择的采样策略特征向量;且选择策略满足信息矩阵ME的最小特征值λ00;
步骤2-2:从E+1次迭代开始根据当前获得的所有信息估计出当前最佳采样策略最有可能最佳的采样策略和能获得最多未知信息的采样策略并且采用策略和策略分别对Am×n分配无人机进行实际采样,获得在最细空间粒度区域上的采样结果St={pt,1,pt,2,......,pt,mn}和估计区域数据量Nt,以及的采样结果pt;
在第t≥E+1轮,根据估计出当前已知的信息得到每个采样策略的预期奖励,找到预期奖励最多的策略
式中,表示第t轮选择出的最佳策略对应的特征向量;
最有可能获得最多奖励的策略
△(jt,it)为和的估计采样奖励差值:
其中,Ct为一个时变参数,用于放缩模型对采样策略估计的误差阈值宽度;为第t轮估计出最有可能为最佳的采样策略对应的特征向量;α是一个可调参数,定义kμ和cμ为与奖励函数有关的参数;c和c'为在[cμ,kμ]内任意取值的常数,
以及能获得未知区域最多信息的策略
其中,Mt-1分别表示在第t-1轮迭代过程中对应的最佳采样策略特征向量、估计最有可能为最佳的采样策略特征向量、前t-1轮所使用的特征向量组成的信息矩阵;at为含未知信息最多的采样策略对应的下标;
步骤3:将与区域数据分布和采样成本有关的奖励函数建模为广义线性模型,根据当前已获得的策略的真实采样数据分布更新广义线性模型中决定估计奖励值的未知参数θ,更新对所有采样策略的奖励估计值;
设奖励函数遵循泊松分布,根据广义线性模型得到,奖励函数的估计函数为μ(z)=1/(1+e-z);通过极大似然估计完成在第t轮对决定奖励的参数向量θt的估计;
步骤4:计算估计最佳采样策略和估计渐进最佳策略的奖励差距阈值的减幅是否小于设定的误差阈值,如果是,判定当前已获得信息估计出的最佳采样策略就是最佳采样策略,此时迭代停止;否则继续下一轮的无人机采样;
如果对于步骤2-2中和的估计奖励值小于设定阈值就有δ的概率判定得到最佳采样策略即P[μ(θTx*)-μ(θTx)≤ε]≥δ,δ取值为:
式中,ζ为自定义的参数;μ(θTxi)为策略πi的奖励函数值,xi为策略πi的特征向量;
当β(i,j)迭代间的降幅小于一定值时,判定误差阈值不再变化并且达到停止条件,即β(it-1,jt-1)-β(it,jt)≤0.05R;如果没有达到停止条件,则判定当前无人机采集到的数据分布不能反映区域真实的数据分布,继续对未知区域Am×n分配无人机进行采样,即以采样策略进行采样,继续获得环境信息;
步骤5:根据估计最佳采样策略的采样结果计算出综合考虑数据质量和采样成本而得到的区域真实奖励值rt;
对步骤1中的采样结果St计算真实奖励值:
式中,表示策略的采样成本,为自定义的函数,表示成本对奖励函数值的影响,P表示迭代过程中采样获得的数据分布作为历史经验汇总基于当前信息得到的区域分布;KL(.)表示相对熵,JS(.)表示JS散度;
步骤6:本次迭代包含最多未知信息的采样策略的采样结果和估计区域数据量Nt作为历史经验,更新当前历史加权平均采样数据分布P={p1,p2,......,pmn},其中
2.根据权利要求1所述的一种基于在线学习的移动群智感知最佳时空采样粒度确定方法,其特征在于,所述无人机采样过程具体如下:
观测未知区域Am×n上物理量的分布情况,未知区域Am×n被分为m×n个最细空间粒度区域,空间策略是最细空间粒度区域的组合,而时间策略则是在时间轴上选择不同的采样频率;
时空划分策略集被定义为:π={(Area1,Time1),(Area2,Time2),......(AreaK,TimeK)},Areai和Timei分别代表采样策略πi的采样的空间划分方式和时间划分方式;其中均由连续不等的最细粒度区域组成;时间粒度表示每个空间划分的采样频率;
设以X={x1,x2,......,xK}(xi=(zi,ti),i=1,2,......K)表示策略集π的时空粒度特征集,其中zi表示空间特征标签,ti为时间特征标签;需要从π中选择最适宜区域Am×n的采样方式,空间划分方式是连续不规则的,给定的空间粒度是最细粒度区域的组合;
设策略的采样结果为分别为在子区域内随机选择一个最细空间粒度区域作为代表进行采样,采样结果作为区域的采样,因此将区域数据概率分布表示为
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211468081.9/1.html,转载请声明来源钻瓜专利网。