[发明专利]一种基于强化学习的仿生机器鼠行为交互方法及仿真系统在审

专利信息
申请号: 202011122467.5 申请日: 2020-10-20
公开(公告)号: CN112163666A 公开(公告)日: 2021-01-01
发明(设计)人: 石青;谢宏钊;贾广禄;高子航;孙韬;周祺杰 申请(专利权)人: 北京理工大学
主分类号: G06N3/00 分类号: G06N3/00
代理公司: 北京高沃律师事务所 11569 代理人: 张梦泽
地址: 100081 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 强化 学习 仿生 机器 行为 交互 方法 仿真 系统
【说明书】:

发明公开了一种基于强化学习的仿生机器鼠行为交互方法及仿真系统。通过当前行为交互过程中实验鼠所处状态,利用马尔可夫决策过程理论,对仿生机器鼠动作表现进行决策,解决了仿生机器鼠与实验鼠行为交互过程中存在的行为模式单一、适应性弱的问题。本发明能够适应实验鼠的随机行为,无论交互对象的年龄阶段、性别、情绪状态如何变化,这一方法都能根据当前状态做出合适决策,开展有效行为交互。

技术领域

本发明涉及仿生机器鼠行为交互领域,特别是涉及一种基于强化学习的仿生机器鼠行为交互方法及仿真系统。

背景技术

实验鼠是被广泛使用的模式动物之一,对其行为模式的研究受到生物学家的广泛关注,但由于生物鼠行为随机、难以预测,相关的实验开展存在困难。利用仿生机器人与生物开展行为交互实验,揭示生物的行为生成机制和研究仿生机器人的控制策略是智能机器人和生物学领域的热点之一。仿生机器鼠模仿生物鼠结构设计,能够引发生物鼠的特定反应,二者交互成为当前技术热点。

当前利用仿生机器鼠行为交互实现方案主要分为示教实验和社交反应测试两类,示教实验中,仿生机器鼠重复表现特定行为,作为对实验鼠的刺激,实验鼠进而表现与该刺激相同的行为。社交反应测试中,通过预编程方式控制仿生机器鼠行为,刺激实验鼠的行为反应。

示教实验中,为刺激实验鼠产生模拟仿生机器鼠的行为,需要对其进行重复刺激,因此要求仿生机器鼠不间断表现单一特定行为。在这一条件下,仿生机器鼠与实验鼠之间的交互是单一的、非自然的,更无法适应实验鼠行为表现的随机性。在社交反应测试中,仿生机器鼠的行为表现由预编程程序确定,无法根据实验鼠行为表现适时调整,无法适应实验鼠行为渐进适应的特点。

发明内容

本发明的目的是提供一种基于强化学习的仿生机器鼠行为交互方法及仿真系统,通过当前行为交互过程中实验鼠所处状态,利用马尔可夫决策过程理论,对仿生机器鼠动作表现进行决策,解决了仿生机器鼠与实验鼠行为交互过程中存在的行为模式单一、适应性弱的问题。

为实现上述目的,本发明提供了如下方案:

一种基于强化学习的仿生机器鼠行为交互方法,包括:

随机初始化二维决策表,所述决策表包括状态-动作组合;

根据交互对象的位置及动作,判定交互对象的当前状态;

根据上一时刻状态的价值以及当前状态的价值计算反馈值;

基于所述反馈值,根据马尔可夫决策过程对所述决策表中对应的状态-动作组合的值进行更新;

根据∈-greedy算法从更新后的状态-动作组合中选择当前状态对应的动作;

根据选择的动作由仿真系统进行模拟实现。

可选地,所述状态集合包括:背后、左侧、右侧、远距、梳理、被梳理、攀爬、匍匐和其他9种状态;所述动作集合包括:直线前进、直线后退、原地左转、原地右转、直立、嗅探、梳理、被梳理、攀爬和匍匐共10种动作。

可选地,所述反馈值的计算公式如下:

r(s,s')=V(s')-V(s)-0.5

其中,r表示反馈值,s表示上一时刻状态,s'表示当前状态,V(s)表示上一时刻状态的价值,V(s')表示当前状态的价值。

可选地,所述根据马尔可夫决策过程对所述决策表中对应的状态-动作组合的值进行更新的公式如下:

Q′(s,a)=Q(s,a)+α[r+γargmaxQ(s′,a)-Q(s,a)]

其中,Q′(s,a)表示更新后的决策表,Q(s,a)表示更新前的决策表,a表示动作,α和γ均为0~1之间的常数。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011122467.5/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top