[发明专利]移动机器人路径规划Q学习初始化方法无效

申请号：	201210269280.7	申请日：	2012-07-30
公开（公告）号：	CN102819264A	公开（公告）日：	2012-12-12
发明（设计）人：	宋勇;李贻斌;刘冰;王小利;荣学文	申请（专利权）人：	山东大学
主分类号：	G05D1/02	分类号：	G05D1/02
代理公司：	济南圣达知识产权代理有限公司 37221	代理人：	张勇
地址：	250061 山东***	国省代码：	山东;37
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	移动机器人路径规划学习初始化方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

技术领域

本发明属于机器学习技术领域，尤其涉及一种移动机器人路径规划Q学习初始化方法。

背景技术

随着机器人应用领域的不断拓展，机器人所面临的任务也越来越复杂，尽管很多情况下研究人员可以对机器人可能执行的重复行为进行预编程，但为实现整体的期望行为而进行行为设计变得越来越困难，设计人员往往不可能事先对机器人的所有行为做出合理的预测。因此，能够感知环境的自治机器人必须能够通过与环境的交互在线学习获得新的行为，使得机器人能够根据特定的任务选择能达到目标的最优动作。

强化学习利用类似于人类思维中的试错(trial-and-error)的方法来发现最优行为策略，目前已经在机器人行为学习方面展现出了良好的学习性能。Q学习算法是求解信息不完全Markov决策问题的一种强化学习方法，根据环境状态和上一步学习获得的立即回报，修改从状态到动作的映射策略，以使行为从环境中获得的累积回报值最大，从而获得最优行为策略。标准Q学习算法一般将Q值初始化为0或随机数，机器人没有对环境的先验知识，学习的初始阶段只能随机地选择动作，因此，在复杂环境中算法收敛速度较慢。为了提高算法收敛速度，研究人员提出了许多改进Q学习的方法，提高算法学习效率，改善学习性能。

通常情况下，加速Q学习收敛速度的方法主要包括两个方面：一种方法是设计合适的回报函数，另一种方法是合理初始化Q函数。

目前，研究人员已经提出了许多改进的Q学习算法，使机器人在强化学习的过程中能够获得更加有效的回报，主要包括：关联Q学习算法、惰性Q学习算法、贝叶斯Q学习算法等。其主要目的就是将对于机器人有价值的隐含信息融入到回报函数中，从而加速算法收敛速度。

关联Q学习将当前回报与过去时刻的立即回报进行比较，选择回报值更大的动作，通过关联回报方法能够改善系统的学习能力，减少获得最优值所需要的迭代步数。

惰性Q学习的目标是提供一种预测状态立即回报的方法，学习过程中利用信息延迟原则，在必要的情况下对新的目标进行预测，动作比较器检查每一种情形的期望回报，然后选择期望回报最大的动作执行。

贝叶斯Q学习利用概率分布描述机器人状态-动作对Q值的不确定性估计，学习过程中需要考虑前一时刻Q值的分布，并利用机器人学习到的经验对先前的分布进行更新，利用贝叶斯变量表示当前状态的最大累积回报，贝叶斯方法从本质上改进了Q学习的探索策略，改善了Q学习的性能。

由于标准强化学习中强化信号都是由状态值函数计算得到的标量值，无法将人的知识形态和行为模式融入到学习系统中。而在机器人学习过程中，人往往具有相关领域的经验和知识，因此，在学习过程中将人的认知和智能以强化信号的形式反馈给机器人，能够减小状态空间维数，加快算法收敛速度。针对标准强化学习在人机交互过程中存在的问题，Thomaz等在机器人强化学习过程中由人实时地给出外部强化信号，人根据自身经验调整训练行为，引导机器人进行前瞻性探索。Arsenio提出了一种对训练数据进行在线、自动标注的学习策略，在人机交互过程中通过触发特定的事件获得训练数据，从而将施教者嵌入到强化学习的反馈回路。Mirza等提出了基于交互历史的体系结构，机器人能够利用与人进行社会性交互的历史经验进行强化学习，使机器人能够在与人进行的简单游戏中逐渐获得合适的行为。

另一种改善Q学习算法性能的方法就是将先验知识融入到学习系统中，对Q值进行初始化。目前，对Q值进行初始化的方法主要包括近似函数法、模糊规则法、势函数法等。

近似函数法利用神经网络等智能系统逼近最优值函数，将先验知识映射成为回报函数值，使机器人在整个状态空间的子集上进行学习，从而能够加快算法收敛速度。

模糊规则法根据初始环境信息建立模糊规则库，然后利用模糊逻辑对Q值进行初始化。利用这种方法建立的模糊规则都是根据环境信息人为设定的，往往不能客观地反映机器人的环境状态，造成算法不稳定。

势函数法在整个状态空间定义相应的状态势函数，每一点势能值对应于状态空间中某一离散状态值，然后利用状态势函数对Q值进行初始化，学习系统的Q值可以表示为初始值加上每次迭代的改变量。

在机器人的各种行为当中，机器人必须遵守一系列的行为准则，机器人通过认知与交互作用涌现出相应的行为与智能，机器人强化学习Q值初始化就是要将先验知识映射成为相应的机器人行为。因此，如何获得先验知识的规则化表达形式，特别是实现领域专家的经验与常识知识的机器推理，将人的认知和智能转化为机器的计算和推理的人机智能融合技术是机器人行为学习急需解决的问题。

发明内容

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于山东大学，未经山东大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/pat/books/201210269280.7/2.html，转载请声明来源钻瓜专利网。

同类专利

专利分类

G 物理

G05 控制；调节
G05D 非电变量的控制或调节系统
G05D1-00 陆地、水上、空中或太空中的运载工具的位置、航道、高度或姿态的控制，例如自动驾驶仪
G05D1-02 .二维的位置或航道控制
G05D1-04 .高度或深度的控制
G05D1-08 .姿态的控制，即摇摆、俯仰角或偏航角的控制
G05D1-10 .三维的位置或航道的同时控制
G05D1-12 .寻找目标的控制

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]移动机器人路径规划Q学习初始化方法无效

专利文献下载