[发明专利]一种基于多模态强化学习的人机协同框架有效
申请号: | 202210700832.9 | 申请日: | 2022-06-21 |
公开(公告)号: | CN114781652B | 公开(公告)日: | 2022-10-14 |
发明(设计)人: | 冯志全;蔡泽源 | 申请(专利权)人: | 济南大学 |
主分类号: | G06N20/00 | 分类号: | G06N20/00;G06N3/00;G06K9/62 |
代理公司: | 北京中索知识产权代理有限公司 11640 | 代理人: | 邹长斌 |
地址: | 250022 山*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 多模态 强化 学习 人机 协同 框架 | ||
本发明公开了一种基于多模态强化学习的人机协同框架,涉及人机协同技术领域,包括多模态强化学习意图理解模块和任务分配模块,所述的多模态强化学习意图理解模块中机器人通过收集用户的三种模态的特征通过强化学习在反复的迭代中学习用户的行为习惯,进而消除由于不同用户的行为习惯差异而产生的误差,实现对用户的更加鲁棒的意图理解,所述的任务分配模块根据用户的行为获取用户的意图之后指定机器人的动作序列。本发明消除了用户个体之间习惯的差异性而导致的协作效果偏差的问题,具有用户感知实时性好、适应性强的有益效果。
技术领域
本发明涉及人机协同技术领域,具体是指一种基于多模态强化学习的人机协同框架。
背景技术
协作型机器人作为一种新型的工业机器人,扫除了人机协作的障碍,让机器人彻底摆脱护栏或围笼的束缚,其开创性的产品性能和广泛的应用领域,为工业机器人的发展开启了新时代。
协作机器人应用场景比较广并且在各行各业都能够发挥出其相应的优势,因此想要选择这种具有良好优势的协作机器人还应该现场实地考察其感知能力和人机协作能力。
作机器人的感知能力是指感知周边环境并且能够根据周边的环境准确做出相应的动作行为,而现有的人机协作框架主要使用一个统一的范式观察用户特征实现意图理解进而人机协同,这种范式使用了固定的范式需要用户去适应机器人,很明显这种范式对用户不友好,如果能有一种协作框架能够去适应每一位用户的行为习惯,将使得机器人在面对不用习惯的用户时仍然可以保持高效的协同。
发明内容
本发明针对现有技术的不足,提供了一种旨在消除用户个体之间习惯的差异性而导致的协作效果偏差的基于多模态强化学习的人机协同框架。
本发明是通过如下技术方案实现的,提供一种基于多模态强化学习的人机协同框架,包括多模态强化学习意图理解模块和任务分配模块,所述的多模态强化学习意图理解模块中机器人通过收集用户的三种模态的特征通过强化学习在反复的迭代中学习用户的行为习惯,进而消除由于不同用户的行为习惯差异而产生的误差,实现对用户的更加鲁棒的意图理解,包括以下三个阶段:
(一)用户多模态特征的提取,传感器得到的数据会先经过三个子分类器得到分类结果m1、m2、m3,最终的用户特征s=[m1,m2,m3];
(二)将提取到的用户特征s分类结果作为状态输入拟合出每一种意图结果下的得分v;
(三)根据优化目标通过公式(1)计算用户意图I所对应的最优操作,再使用NLP技术分析用户的语言反馈,得到用户满意度Sa,将Sa作为奖励的一部分进行迭代学习;
(1)
st为t时刻用户的特征,为t时刻最佳意图,为q_eval神经网络的参数;
所述的任务分配模块根据用户的行为获取用户的意图之后指定机器人的动作序列。
作为优选,所述第1阶段中用户多模态特征的提取采用三种传感器来实现用户包括语音、体势和手势三种模态的输入。
作为优选,所述第3阶段中,使用snownlp模块对麦克风收集到的语音反馈进行语音情感分析,NLP的结果在0到1之间,设置公式(2)作为奖励函数得出奖励值,
(2)
其中,1表示语音反馈是正面的或未做反馈,0表示语音反馈是负面的。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于济南大学,未经济南大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210700832.9/2.html,转载请声明来源钻瓜专利网。