[发明专利]基于效用差分网络的机器人行为学习模型无效
申请号: | 201010564142.2 | 申请日: | 2010-11-29 |
公开(公告)号: | CN102063640A | 公开(公告)日: | 2011-05-18 |
发明(设计)人: | 宋晓;麻士东;龚光红 | 申请(专利权)人: | 北京航空航天大学 |
主分类号: | G06N3/00 | 分类号: | G06N3/00 |
代理公司: | 北京永创新实专利事务所 11121 | 代理人: | 周长琪 |
地址: | 100191*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明的基于效用差分网络的机器人行为学习模型,包括效用拟合网络单元,差分信号计算网络单元,置信度评价网络单元、动作决策网络单元、动作校正网络单元和动作执行单元,利用该模型实现离线学习过程和在线决策过程。效用拟合网络单元计算得到动作执行后的状态的效用拟合值,差分信号计算网络单元用于计算差分信号,置信度评价网络单元将计算得到的置信度输出给动作校正网络单元,动作决策网络单元输出动作选择函数,动作校正网络单元利用置信度对动作选择函数进行校正,计算每个动作选取的概率值,输出概率最大的动作给动作执行单元执行。本发明能较好保证机器人获取环境知识的完备性,较好地保证了机器人行为决策的及时性和有效性。 | ||
搜索关键词: | 基于 效用 网络 机器人 行为 学习 模型 | ||
【主权项】:
1.一种基于效用差分网络的机器人行为学习模型,包括动作执行单元(16),其特征在于,该学习模型还包括:效用拟合网络单元(11)、差分信号计算网络单元(12)、置信度评价网络单元(13)、动作决策网络单元(14)和动作校正网络单元(15);所述的效用拟合网络单元(11)用来计算t时刻动作at经动作执行单元(16)执行后产生的状态空间向量st所得到的效用拟合值并输出给差分信号计算网络单元(12);差分信号计算网络单元(12)根据输入的效用拟合值以及根据状态空间向量st计算的立即回报函数,进一步计算得到差分信号ΔTDt,并将该差分信号ΔTDt输出给效用拟合网络单元(11)、置信度评价网络单元(13)以及动作决策网络单元(14);效用拟合网络单元(11)利用差分信号ΔTDt更新效用拟合网络单元(11)中神经网络的权值;置信度评价网络单元(13)利用效用拟合网络单元(11)中神经网络的输入层的输入向量和隐层的输出向量以及差分信号,计算动作决策结果的置信度,并将该置信度输出给动作校正网络单元(15);动作决策网络单元(14)根据输入的差分信号ΔTDt与状态空间向量st,进行动作的选择学习,输出动作选择函数给动作校正网络单元(15),其中j、k为大于0的整数;动作校正网络单元(15)利用输入的置信度,对输入的动作选择函数进行校正,然后计算校正后的动作的选取概率值,将概率最大的动作输出给动作执行单元(16)执行,该动作执行后的状态空间向量再反馈输入给效用拟合网络单元(11)、差分信号计算网络单元(12)和动作决策网络单元(14);所述的学习模型具有两个过程:离线学习过程和在线决策过程;所述的离线学习过程中上述各个单元都要参与,所述的在线决策过程中仅由离线学习最后得到的动作决策网络单元(14)与动作执行单元(16)参与,在线决策过程中的动作决策网络单元(14)根据t时刻动作执行单元(16)执行动作后产生的状态空间向量st进行计算并得出输出动作选择函数通过动作选择器输出最终选择的动作给动作执行单元(16)执行,执行动作后得到的状态空间向量再输入给动作决策网络单元(14)。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京航空航天大学,未经北京航空航天大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201010564142.2/,转载请声明来源钻瓜专利网。