[发明专利]基于马尔科夫决策过程的飞行员操作行为引导方法有效
申请号: | 201510579624.8 | 申请日: | 2015-09-11 |
公开(公告)号: | CN105182988B | 公开(公告)日: | 2017-12-26 |
发明(设计)人: | 张耀中;胡波;汤志荔;张安;刘泽石 | 申请(专利权)人: | 西北工业大学 |
主分类号: | G05D1/08 | 分类号: | G05D1/08;G05D1/10 |
代理公司: | 西北工业大学专利中心61204 | 代理人: | 顾潮琪 |
地址: | 710072 *** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于马尔科夫决策过程的飞行员操作行为引导方法,首先对飞机驾驶舱内飞行员的操作行为进行编码并描述,对飞机在任务过程中存在的状态进行描述;然后构建某一飞行任务下机组行为预测的马尔可夫模型,确定该任务下飞行操作状态转移概率集合和转移过程中行为操作的报酬集合;用MDP折扣模型计算报酬效用函数,建立该任务下操作收益的最优方程并计算任务紧迫度,进行迭代计算和判断,得到收益最大的行动策略。本发明能够克服以往如飞行指引仪等传统定性分析方法缺乏对任务需要的判断以及不考虑飞行员的操作习惯而导致提供的援助侵入性较大的缺点。 | ||
搜索关键词: | 基于 马尔科夫 决策 过程 飞行员 操作 行为 引导 方法 | ||
【主权项】:
一种基于马尔科夫决策过程的飞行员操作行为引导方法,其特征在于包括下述步骤:步骤1,对飞机驾驶舱内飞行员的操作行为进行编码并描述,对飞机在任务过程中存在的状态进行描述;步骤2,构建某一飞行任务下机组行为预测的马尔可夫模型,步骤如下:设时刻集合T={1,2,3,…};设飞机的状态空间包含了系统所有可能出现的状态,其中ns表示飞机的最大状态数;S中任意一个元素si表示第i个状态,包含在当前状态si下的任务目标集合Gi、插入目标集合Fi和历史行动集合Ai;i=1,2,...,ns;设状态si下的任务目标集包含了ng个任务目标,其中ng表示在当前状态下最大的任务目标数,Gi中的元素表示在状态si下的第k个任务目标,k={1,…,ng},当任务目标已经完成,否则设状态si下的插入任务目标集合包含了nf个任务目标,其中nf表示在当前状态下最大的插入任务目标数,元素表示在状态si下的第k个插入任务目标,k={1,…,nf},当插入任务目标已经完成,否则设状态si下采取的历史行动集合nh为集合元素的个数,表示历史时刻的操作序列数;元素表示在状态si下的第k个操作行动,k={1,…,nh};设T(si,ak,sj)表示所有状态转移概率的集合,其任意元素p(sj|si,ak)表示在状态si下,执行可用行动ak,系统状态变化到sj的概率,j=1,2,...,ns,设报酬集合R(si)的任意元素r(si,ak)表示在状态si下执行行动ak的报酬,当r(si,ak)≥0时表示收益,r(si,ak)<0表示费用,r(si,ak,sj)表示在状态si下执行行动ak得到状态sj的报酬;设飞机的行动空间A={a1,a2,…,am},包含了所有可执行并能够改变系统状态的行动,元素ak表示第k个操作行动,m为行动空间中元素的个数,k=1,2,…,m;给出某一飞行任务下机组行为预测的马尔可夫模型如下:MDP={T,S,As,p(sj|si,ak),r(si,ak)}→πt(si)MDP={S,A,T(si,ak,sj),R(si)}→π(si)]]>其中,π为策略,表示从状态集合到行动集合的映射,π(si)表示从状态si到行动集合的映射,πt(si)表示在t时刻从状态si到行动集合的映射;→表示的意思为输出的最优策略;AS表示所有可用行动的集合;α(ak)表示采用行动ak后α的可能取值;步骤3,确定步骤2所述任务下飞行操作状态转移概率集合T(si,ak,sj),并根据飞行任务要求确定转移过程中行为操作的报酬集合R(si);用行动ak影响到的状态参数α与其期望区间dα的偏差来计算报酬,则参数α表示:能够采取的操作状态参数;步骤4,用MDP折扣模型计算报酬效用函数时,折扣因子β有0<β<1;折扣模型的报酬效用函数表示在开始时刻0从状态si触发的条件下,使用策略π后系统的折扣期望总报酬;根据MDP折扣模型的最优方程,建立在状态si下该飞行任务中机组行为操作的收益的最优方程A(si)表示在状态i下的可用行动集合;步骤5,计算飞机的状态参数θ在t时刻的任务紧迫度其中θ0为目标参数初始值,θT为期望到达值,θt为当前值,初始时间为0,Tr为任务要求时间;θ表示为待预测任务的状态参数;步骤6,任取v0为有界集,给定折扣因子β和误差界ε,令迭代次数n=0;步骤7,对每个状态si∈S,计算步骤8,如果则跳到步骤7,否则迭代次数n增加1,返回步骤5;步骤9,对每个状态si∈S,取从而得到在当前时刻下,收益最大的行动策略。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西北工业大学,未经西北工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201510579624.8/,转载请声明来源钻瓜专利网。
- 上一篇:可折叠应急遮羞袋
- 下一篇:一种厨房用牡丹抗菌洗涤液的制备方法