[发明专利]一种基于强化学习的仿生机器鼠行为交互方法及仿真系统在审
申请号: | 202011122467.5 | 申请日: | 2020-10-20 |
公开(公告)号: | CN112163666A | 公开(公告)日: | 2021-01-01 |
发明(设计)人: | 石青;谢宏钊;贾广禄;高子航;孙韬;周祺杰 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06N3/00 | 分类号: | G06N3/00 |
代理公司: | 北京高沃律师事务所 11569 | 代理人: | 张梦泽 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 强化 学习 仿生 机器 行为 交互 方法 仿真 系统 | ||
本发明公开了一种基于强化学习的仿生机器鼠行为交互方法及仿真系统。通过当前行为交互过程中实验鼠所处状态,利用马尔可夫决策过程理论,对仿生机器鼠动作表现进行决策,解决了仿生机器鼠与实验鼠行为交互过程中存在的行为模式单一、适应性弱的问题。本发明能够适应实验鼠的随机行为,无论交互对象的年龄阶段、性别、情绪状态如何变化,这一方法都能根据当前状态做出合适决策,开展有效行为交互。
技术领域
本发明涉及仿生机器鼠行为交互领域,特别是涉及一种基于强化学习的仿生机器鼠行为交互方法及仿真系统。
背景技术
实验鼠是被广泛使用的模式动物之一,对其行为模式的研究受到生物学家的广泛关注,但由于生物鼠行为随机、难以预测,相关的实验开展存在困难。利用仿生机器人与生物开展行为交互实验,揭示生物的行为生成机制和研究仿生机器人的控制策略是智能机器人和生物学领域的热点之一。仿生机器鼠模仿生物鼠结构设计,能够引发生物鼠的特定反应,二者交互成为当前技术热点。
当前利用仿生机器鼠行为交互实现方案主要分为示教实验和社交反应测试两类,示教实验中,仿生机器鼠重复表现特定行为,作为对实验鼠的刺激,实验鼠进而表现与该刺激相同的行为。社交反应测试中,通过预编程方式控制仿生机器鼠行为,刺激实验鼠的行为反应。
示教实验中,为刺激实验鼠产生模拟仿生机器鼠的行为,需要对其进行重复刺激,因此要求仿生机器鼠不间断表现单一特定行为。在这一条件下,仿生机器鼠与实验鼠之间的交互是单一的、非自然的,更无法适应实验鼠行为表现的随机性。在社交反应测试中,仿生机器鼠的行为表现由预编程程序确定,无法根据实验鼠行为表现适时调整,无法适应实验鼠行为渐进适应的特点。
发明内容
本发明的目的是提供一种基于强化学习的仿生机器鼠行为交互方法及仿真系统,通过当前行为交互过程中实验鼠所处状态,利用马尔可夫决策过程理论,对仿生机器鼠动作表现进行决策,解决了仿生机器鼠与实验鼠行为交互过程中存在的行为模式单一、适应性弱的问题。
为实现上述目的,本发明提供了如下方案:
一种基于强化学习的仿生机器鼠行为交互方法,包括:
随机初始化二维决策表,所述决策表包括状态-动作组合;
根据交互对象的位置及动作,判定交互对象的当前状态;
根据上一时刻状态的价值以及当前状态的价值计算反馈值;
基于所述反馈值,根据马尔可夫决策过程对所述决策表中对应的状态-动作组合的值进行更新;
根据∈-greedy算法从更新后的状态-动作组合中选择当前状态对应的动作;
根据选择的动作由仿真系统进行模拟实现。
可选地,所述状态集合包括:背后、左侧、右侧、远距、梳理、被梳理、攀爬、匍匐和其他9种状态;所述动作集合包括:直线前进、直线后退、原地左转、原地右转、直立、嗅探、梳理、被梳理、攀爬和匍匐共10种动作。
可选地,所述反馈值的计算公式如下:
r(s,s')=V(s')-V(s)-0.5
其中,r表示反馈值,s表示上一时刻状态,s'表示当前状态,V(s)表示上一时刻状态的价值,V(s')表示当前状态的价值。
可选地,所述根据马尔可夫决策过程对所述决策表中对应的状态-动作组合的值进行更新的公式如下:
Q′(s,a)=Q(s,a)+α[r+γargmaxQ(s′,a)-Q(s,a)]
其中,Q′(s,a)表示更新后的决策表,Q(s,a)表示更新前的决策表,a表示动作,α和γ均为0~1之间的常数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011122467.5/2.html,转载请声明来源钻瓜专利网。