[发明专利]一种融合交互式强化学习的增量式认知发育系统及方法有效
申请号: | 201910364754.8 | 申请日: | 2019-04-30 |
公开(公告)号: | CN110070188B | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 马昕;黄珂;宋锐;荣学文;田新诚;李贻斌 | 申请(专利权)人: | 山东大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06F3/01;G06N3/04 |
代理公司: | 济南圣达知识产权代理有限公司 37221 | 代理人: | 董雪 |
地址: | 250061 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 融合 交互式 强化 学习 增量 认知 发育 系统 方法 | ||
本发明公开了一种融合交互式强化学习的增量式认知发育系统及方法,向分层自组织增量神经网络中引入交互式强化学习,能够同时学习物体概念及通过与人类交互来调整学到的知识;为了实现两种算法的结合,为个别神经网络配备了一个记忆模型,该模型被设计为由两个遗忘因子控制的指数函数,来模拟人类记忆的巩固和遗忘过程;提出了一种交互式强化策略用于提供奖励或惩罚并执行纠错;这些反馈作用于遗忘因子,来强化或削弱神经元的记忆力,从而保留正确的表示,同时忘记错误的表示。实验结果表明,该方法能够有效利用人类反馈,显着提高学习效果,减少模型冗余。
技术领域
本发明属于机器学习技术领域,尤其涉及一种融合交互式强化学习的增量式认知发育系统及方法。
背景技术
近来,认知机器人在人工智能中受到越来越多的关注。它们可以自主地发育知识和技能,应对人类日常生活中的各种任务和动态环境。当前认知机器人面临的主要挑战是如何快速学习遇到的新物体,并在人机交互过程中与人类进行恰当地沟通。因此,认知系统必须具有在线获取知识的能力,并能够根据人类的反馈及时纠正错误。
通常,关于机器人认知发育的研究主要集中在被动感知上,例如观察和聆听。这种方法被称为个人主义学习,可用于在线学习概念,甚至可以发育多模态间的关联关系。然而,这种学习方式有时会不可避免地产生一些错误的表示。这可能会影响机器人的识别性能并阻碍人类与机器人之间的顺畅地交互。更重要的是,这些方法通常无法自主发现错误,也不考虑从人类那里得到反馈来纠正错误。
社交学习可能是一种解决这些问题的方法,因为它能够促进了人类的认知发育。婴儿经常在父母帮助下学习物体概念并发育认知技能。例如,父母教婴儿物体名字来帮助他们理解世界。然而,婴儿无法判断其内部表达是否与实际情况一致。父母可以为婴儿提供奖励或惩罚并纠正错误,帮助他们巩固学到的知识并极大地促进了婴儿的认知发育。父母帮助也促进了关于机器人在人机交互中学习方法的研究。然而,人类的指示大多数是一种在线标记,而不是另一种形式的知识。此外,机器人无法将他们的观察表示与人类教授的名字自动关联起来。另一种利用试错的方法是交互式强化学习(IRL)。但是,机器人的状态需要在学习之前预先定义。而且当遇到新状态后,状态列表不能在线扩充。因此,人类对机器人的反馈应该与在线和增量学习相协调。而且,学习和反馈这两个认知过程应该是并行和交错的。
自组织增量神经网络可以实现在线和增量学习。该方法属于个人主义学习,因为机器人不需要人工指导来确定所学习的内部表示是否完全准确。由于IRL可有效地反馈人类指导,认知系统可以将这两种方法结合起来。然而,主要挑战是如何将自组织神经网络规范为强化学习(RL)框架。发明人发现,目前已经有研究设计了基于ART,SOM和GNG等不同的增量式RL或IRL模型。一种常见的方法侧重于使用自组织神经网络来处理RL中的状态或动作的存储问题。这些模型可以逐步添加新状态并具有泛化能力。另一种方法是通过RL算法微调自组织神经网络的学习机制。现有技术提出了一种TD-GNG来将值函数映射到状态,其中GNG的激活条件被Q-Learning的值函数替代。现有技术提出应用RL来评估贝叶斯SOM的学习结果而不是更新Q值。且贝叶斯SOM的权重更新受评估结果控制。但是,这些模型只处理单个网络输入和输出之间的映射,不适用于分层网络。现有技术引入了一种置信度来评估GWR学习的人类命令,从而决定采用人类指导动作还是自我探索选择的动作。这项工作的局限在于它无法以开放式的学习方式执行。
发明内容
为了解决上述问题,本发明提出了一种融合交互式强化学习的增量式认知发育系统及方法,具有交互式强化学习的自组织认知发育架构(SODCA-IRL),能够在人机交互中在线学习新物体并纠正错误的表示。
在一些实施方式中,本发明采用如下技术方案:
一种融合交互式强化学习的增量式认知发育系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山东大学,未经山东大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910364754.8/2.html,转载请声明来源钻瓜专利网。