[发明专利]一种基于相关冗余变换与增强学习的多维度协同控制方法有效
申请号: | 201711407168.4 | 申请日: | 2017-12-22 |
公开(公告)号: | CN108021028B | 公开(公告)日: | 2019-04-09 |
发明(设计)人: | 李鹏华;王欢;李嫄源;朱智勤;张家昌 | 申请(专利权)人: | 重庆邮电大学 |
主分类号: | G05B13/04 | 分类号: | G05B13/04 |
代理公司: | 北京同恒源知识产权代理有限公司 11275 | 代理人: | 赵荣之 |
地址: | 400065 *** | 国省代码: | 重庆;50 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于相关冗余变换与增强学习的多维度智能房车协同控制方法,属于物联网领域。该方法围绕智能商务旅居房车统一设备连接协议、共享设备接口、提高系统集成度的自主协同控制需求,利用基于POMDP模型和深度增强学习的自主控制引导策略,采用多维度智能融合得到的控制状态作为计算机控制系统的输入,建立POMDP模型以感知、适应、追踪设备控制状态的变化,采用基于深度增强学习的策略优化方法来选择最佳行动策略,实现商务旅居房车的自主协同控制。本发明不仅有利于最终决策的有效性与实时性,同时提高了交互反馈的准确性与策略的学习优化程度,提升用户体验。 | ||
搜索关键词: | 一种 基于 相关 冗余 变换 增强 学习 多维 协同 控制 方法 | ||
【主权项】:
1.一种基于相关冗余变换与增强学习的多维度协同控制方法,其特征在于:该方法包括以下步骤:S1:多源异构信息特征统一与融合;S2:采用基于POMDP模型的控制状态策略引导;S3:采用基于深度增强学习的控制状态引导策略优化;S4:采用基于总线的分布式底层控制;所述步骤S2具体为:采用多源异构融合技术获得的商务旅居房车各类设备的控制状态,建立POMDP模型以感知、适应、追踪设备控制状态的变化;通过POMDP模型的内部作用器给设备控制状态施加动作,以引起设备控制状态发生变化,并获得一定回报;根据获得的累计回报来衡量所执行一系列策略的可能性,进而将商务旅居房车的设备控制问题转换成策略选择问题;具体地,POMDP模型描述为{S,A,T,O,Q,β},综合环境状态在POMDP模型概率分布中的置信状态表示为B={bt},其t时刻的概率分布为bt={bt(s1),...,bt(Sm)};其中,bt(si)表示t时刻环境状态为Si的概率;通过对当前时刻控制环境的观察与动作的选择,POMDP模型推导出下一时刻控制状态的置信值;假设起始时刻的置信状态为b0,执行动作a与观察O,获得下一时刻置信状态b1;当处于控制状态S1,模型获得的观察为O1,模型内部状态为i1;通过计算,根据控制状态引导策略选择相应的动作a1,导致环境状态从S1转移到S2,模型获得回报r1与观察O2,此时模型内部状态从i1(b1)转移到i2(b2),然后模型依此继续运行;具体地,构建问题的引导策略估计函数实现对话状态跟踪,该函数为
其中,
是对应节点n的动作向量状态s的值;通过控制状态策略演化,得到下一时刻
的控制状态引导策略函数,其中
表示最优策略,Vt*表示上一时刻的策略函数;所述步骤S3具体为:根据POMDP模型得到商务旅居房车设备控制状态的引导策略,采用基于深度增强学习DQN的策略优化方法来选择最佳行动策略;具体地,采用Q‑网络(Q(s,a;θ))定义行为策略,利用目标Q‑网络(Q(s,a;θ‑))生成DQN丢失项的目标Q值,以及重新记忆POMDP模型用于训练Q网络的随机采样状态值;通过增强学习定义POMDP模型的预期总回报
其中,回报rt由每个时间步长的因子γ=[0,1]折算,T是终止步骤;采用动作值函数Qπ(s,a)观察状态St的预期回报,并利用神经网络Q(s,a)=(Q(s,a;θ‑))近似动作值函数;对于基于动作a下的引导策略π,最优动作值函数Qπ(s,a)=E[Rt|st=a,a1=a,π]通过策略
实现;构建含有动作值a的Bellman方程
通过调整Q‑network对迭代的Bellman目标参数进行求解;首先,DQN使用记忆重构,在POMDP模型的每个时间步长t内,将记忆元组et=(st,at,rt,st+1)存放到记忆存储器Dt={e1,...,et}中;其次,DQN分别维持两个独立的Q网络(Q(s,a;θ))和(Q(s,a;θ‑));当前参数θ在每个时间步长内进行多次更新,并在N次迭代之后被复制到旧参数θ‑中;在更新迭代时,为了最小化相对于旧参数θ‑的均方Bellman误差,通过优化损失函数
来更新当前参数θ;对于每次更新i,从记忆存储器D中单独采样获取记忆元组(s,a,r,s`)~U(D);对于每个样本,通过随机梯度下降算法更新当前参数δ;下降的梯度gi通过θ相对于θ‑的损失样本梯度
求得;最后,在每个时间步长t内,选择相对于当前Q‑网络(Q(s,a;θ))的偏好行为动作;使用中心参数服务器来维护Q网络(Q(s,a;θ‑))的分布式表示;同时,该参数服务器接收强化学习到的渐变信息,并在异步随机梯度下降算法的驱动下,应用这些渐变信息来修改参数向量θ‑。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于重庆邮电大学,未经重庆邮电大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201711407168.4/,转载请声明来源钻瓜专利网。